MỞ ĐẦU
uản lý cán bộ là mảng công tác quan trọng phối hợp một cách tổng thể các
hoạt động hoạch định, tuyển mộ, tuyển chọn, duy trì, phát triển, động viên
và tạo điều kiện thuận lợi cho tài nguyên nhân sự trong tổ chức, nhằm đạt
được mục tiêu chiến lược và định hướng viễn cảnh của tổ chức. Một số công tác
cán bộ điển hình là tổ chức, sắp xếp cán bộ, đánh giá cán bộ, quy hoạch cán bộ,
lựa chọn cán bộ, bồi dưỡng quản lý, hoạch định mô hình tổ chức [4], trong đó,
công tác đánh giá hồ sơ cán bộ là công tác đầu tiên quan trọng xuyên xuốt trong
công tác cán bộ. Chỉ khi có đánh giá đúng cán bộ thì mới có thể sắp xếp đúng và
người cán bộ có điều kiện phát huy được hết khả năng. Về phía người quản lý
cán bộ thì họ cần đưa ra những quyết định đúng: lựa chọn đúng để đào tạo, để đề
bạt, bổ nhiệm Công tác quản lý hồ sơ cán bộ phổ biến là quản lý theo mô hình
thủ công; đánh giá cán bộ dựa vào cảm tính và tự đánh giá của cá nhân để xem
xét đã phát sinh nhiều tiêu cực làm suy giảm sức mạnh của bộ máy quản lý. Từ
thực trạng đó, lộ trình tin học hóa dữ liệu nhân sự đã được tiến hành theo hướng
số hóa hồ sơ nhân sự để xây dựng ứng dụng khai thác dữ liệu nhanh chóng hiệu
quả phục vụ cho công tác nghiệp vụ.
Trong quá trình quản lý, cập nhật, bổ sung, thay đổi thông tin trong hồ sơ
thì dữ liệu được tích lũy đã tăng trưởng ngày càng nhiều, và có thể chứa nhiều
thông tin ẩn dạng những quy luật chưa được khám phá. Dữ liệu nhân sự là một
cơ sở dữ liệu có nhiều thông tin cần quản lý, với mỗi trường hợp có nhiều thuộc
tính (Biểu mẫu 2C/TCTW-98 hồ sơ cán bộ Bộ nội vụ đã quy định thông tin quản
lý gồm 31 thuộc tính) và đặc tính phải phân loại đánh giá một trường hợp dựa
trên các thuộc tính. Chính vì vậy, kho dữ liệu nhân sự hình thành đặt ra nhu cầu
cần tìm cách trích rút ra các luật trong dữ liệu hay dự đoán những xu hướng mới
của dữ liệu tương lai. Yêu cầu phương pháp khai thác kho dữ liệu này một cách
khoa học hiệu quả và thuận tiện để có cơ sở thông tin hỗ trợ công tác quản lý
nguồn nhân lực, đánh giá một con người cụ thể từ những thông tin đã được lưu
trữ.
J. Han và M. Kamber [6] đã trình bày quá trình tiến hóa của lĩnh vực công
nghệ cơ sở dữ liệu, mà trong đó, công nghệ khai phá dữ liệu (Data Mining) đã
trở thành dạng tiến hóa mới của công nghệ cơ sở dữ liệu. Một quan niệm khác
về công nghệ khai phá dữ liệu của Fayyad, Piatetsky-Shapiro là việc nghiên cứu
phát triển lĩnh vực khai phá dữ liệu nhằm giải quyết tình trạng “ngập tràn thông
tin mà thiếu thốn tri thức”. Khai phá dữ liệu có nhiều ứng dụng là một phương
Q
- 8 -
pháp đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu
cuộc tấn công ngày 11/9, Mohamed Atta, và ba kẻ tấn công ngày 11/9 khác là
các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một
năm trước cuộc tấn công [7]. Đối với dữ liệu nhân sự, khi cập nhật một hồ sơ
nhân sự mới vào cơ sở dữ liệu thì việc phân lớp nhân sự đó một cách tự động
thực sự có ý nghĩa hỗ trợ cho việc đánh giá ban đầu. Những nghiên cứu công
nghệ thông tin và những sản phẩm phần mềm về quản lý nhân sự, quản lý nguồn
nhân lực hiện có mới chỉ đạt được mức độ thu thập hồ sơ lý lịch cán bộ và in ra
các biểu mẫu báo cáo phục vụ quản lý, chưa có sản phẩm nào áp dụng kỹ thuật
để phát hiện những thông tin tiếm ẩn trong dữ liệu nhân sự. Minh chứng cho
việc này có thể kể đến một loạt các sản phẩm quản lý hồ sơ nhân sự như chương
trình “Quản lý cán bộ phiên bản 4.0” của công ty sản xuất công nghệ phần mềm
CSE, sản phẩm đã được sử dụng Hệ quản trị Oracle phiên bản 9i để cập nhật,
quản lý hồ sơ nhân sự của Bộ Nội vụ, Bộ Tài chính và các cơ quan trực thuộc
Bộ Tài chính trong đó có Tổng cục Hải quan Vì vậy, việc nghiên cứu các giải
pháp khai thác các thông tin tiềm ẩn trong các kho dữ liệu nhân sự là hết sức cần
thiết.
Luận văn nghiên cứu tổng quan về đặc tính công nghệ khai phá dữ liệu,
các kỹ thuật khai phá dữ liệu (phân cụm, phân lớp ), các phần mềm thông dụng
khai phá dữ liệu và giải pháp phân lớp dựa trên cây quyết định. Luận văn tập
trung vào thuật toán tiêu biểu ứng dụng cho phạm vi phân tích dữ liệu là
“Microsoft Decision Tree”, sử dụng công cụ phân tích dữ liệu của Microsoft.
Đây là công cụ rất thuận tiện trong việc kết nối với cơ sở dữ liệu nhân sự dùng
phần mềm Hệ quản trị SQL Server của Microsoft, công cụ có khả năng phân
tích trực tuyến qua mạng (có quyền truy cập hợp pháp có thể phân tích từ bất kỳ
máy tính nào có trong mạng) và là một công cụ mạnh khai thác nhanh đáp ứng
được phân tích theo mô hình tăng trưởng dữ liệu. Ta biết rằng các tập dữ liệu
được bổ sung và tăng trưởng theo thời gian, do vậy các tập thường xuyên và các
luật kết hợp đã được tính toán không còn giá trị trên tập dữ liệu mới. Ngoài ra,
với một dữ liệu ổn định, khi cần tìm các tập thường xuyên với độ hỗ trợ khác,
công việc phải tính lại từ đầu.
Luận văn đã chạy thực nghiệm trên bộ dữ liệu nhân sự thử nghiệm tại
Tổng cục Hải quan (việc sử dụng dữ liệu này chấp hành đúng quy tắc bảo quản
thông tin hồ sơ cán bộ). Dữ liệu đầu vào của bài toán là cơ sở dữ liệu thử
nghiệm hồ sơ lý lịch của 6978 nhân sự. Kết quả đầu ra là mô hình phân lớp và
- 9 -
đặc tính hỗ trợ của mô hình trong công tác quản lý nguồn nhân lực. Quá trình
chạy thử nghiệm đã thu được các mô hình phân lớp trực quan với kết quả khích
lệ. Trên cơ sở đó, luận văn đề xuất những cải tiến để hoàn thiện quan điểm quản
lý nguồn nhân lực của ngành Hải quan và cấu trúc tổng thể cho hệ thống ứng
dụng quản lý nguồn nhân lực. Phương pháp của luận văn đã nêu ra một hướng đi
mới trong phân tích số liệu khác không chỉ phục vụ cho công tác thống kê nhà
nước về hải quan mà còn phục vụ cho việc hình thành hệ hỗ trợ ra quyết định
trong tương lai.
Bài toán phân lớp dữ liệu nhân sự để hỗ trợ quyết định đánh giá cán bộ
nhằm khám phá được những đặc tính ẩn là rất có ý nghĩa. Đây là hướng giải
pháp có hiệu quả cho việc phân tích thông tin phục vụ cho công tác đánh giá
nhân sự nói riêng và công tác quản lý nguồn nhân lực nói chung.
Phạm vi nội dung nghiên cứu của đề tài:
Sử dụng phân lớp dữ liệu dựa trên cây quyết định để xây dựng các mô
hình phân lớp hỗ trợ việc thực hiện các công việc quản lý nguồn nhân lực: giám
sát công việc của nhân viên, hoạch định mô hình tổ chức, theo dõi giám sát số
liệu của hồ sơ, hỗ trợ việc ra quyết định lựa chọn cán bộ tham gia chương trình
đào tạo.
Luận văn gồm có 4 chương chính:
Chương 1: Tổng quan đề cập tới bối cảnh thực tiễn định hình hướng
nghiên cứu của luận văn.
Chương 2: Yêu cầu và nghiên cứu các kỹ thuật, công cụ liên quan để
chọn kỹ thuật, công cụ sử dụng.
Chương 3: Luận văn đi sâu vào nghiên cứu kỹ thuật phân lớp dựa trên
cây quyết định.
Chương 4: Thực nghiệm trên bộ dữ liệu nhân sự và đưa ra kết quả minh
họa cho phương pháp.
Kết luận định hướng phát triển kết quả nghiên cứu.
MỤC LỤC Trang
LỜI CAM ĐOAN .1
MỤC LỤC .3
DANH MỤC HÌNH VẼ MINH HỌA .5
MỞ ĐẦU .7
CHƯƠNG 1. TỔNG QUAN 10
1.1. Ý nghĩa: .10
1.2.Các yêu cầu đặt ra trong công tác quản lý nguồn nhân lực: .11
1.2.1 Yêu cầu chung 11
1.2.2 Yêu cầu cụ thể: .12
1.2.3. Thông tin quản lý : 12
1.2.4. Khảo sát thực trạng yêu cầu vấn đề quản lý nguồn nhân lực của cơ quan Hải quan: .15
1.2.5. Thực trạng dữ liệu, đề xuất yêu cầu cần đạt được và kiến trúc của hệ thống: .27
Kết luận chương 1 31
CHƯƠNG 2. NGHIÊN CỨU CÔNG NGHỆ, KỸ THUẬT VÀ CÔNG CỤ
PHỤC VỤ YÊU CẦU .32
2.1. Khai phá dữ liệu: 32
2.1.1. Khái niệm 32
2.1.2. Ưu thế khai phá dữ liệu .33
2.2. Các kỹ thuật khai phá dữ liệu: 34
2.3. Cây quyết định: .37
2.3.1. Sức mạnh của cây quyết định: .37
2.3.2.Nhược điểm của cây quyết định: 38
2.4. Các phần mềm công cụ khai phá dữ liệu: 38
2.4.1. Phân tích số liệu bằng R: .38
2.4.2. Phân tích số liệu bằng phần mềm weka .40
2.4.3 Phân tích số liệu bằng See5/C5.0 .43
2.4.4. Phân tích số liệu bằng DTREG1 .44
2.4.5.Phân tích số liệu sử dụng công cụ của Microsoft: 45
2.5. Công cụ lựa chọn: 47
Kết luận chương 2 52
CHƯƠNG 3.PHÂN LỚP DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH .53
3.1. Tổng quan về phân lớp dữ liệu trong khai phá dữ liệu .53
- 4 -
3.1.1.Phân lớp dữ liệu 53
3.1.2. Các vấn đề liên quan đến phân lớp dữ liệu 56
3.1.3 Các phương pháp đánh giá độ chính xác của mô hình phân lớp 58
3.2 Cây quyết định ứng dụng trong phân lớp dữ liệu 59
3.2.1.Định nghĩa: .59
3.2.2. Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định .60
3.2.3.Xây dựng cây quyết định 62
Kết luận chương 3 63
CHƯƠNG 4. THỰC NGHIỆM 64
4.1.Giới thiệu về mô hình xây dựng: 64
4.1.1.Sơ đồ luồng dữ liệu thông tin nhân sự: .64
4.1.2. Giải quyết vấn đề: 65
4.1.3.Các mô hình được xây dựng: 66
4.2. Minh họa kết quả hỗ trợ thu được từ mô hình xây dựng .68
4.2.1 Minh họa hỗ trợ công tác tuyển lựa và đào tạo-cây lựa chọn cán bộ đào tạo quản lý
nhà nước 68
4.2.2. Minh họa công tác kiểm tra thông tin hồ sơ nhập máy-cây phân lớp vị trí công tác
(lãnh đạo, nhân viên) .71
4.2.3.Minh họa công tác hoạch định mô hình tổ chức .74
4.2.4.Minh họa mô hình giám sát theo dõi công việc phục vụ công tác đánh giá: 77
4.2.5. Minh họa hỗ trợ xây dựng các quy trình quản lý nguồn nhân lực: .78
Kết luận chương 4 80
KẾT LUẬN .81
TÀI LIỆU THAM KHẢO .83
PHỤ LỤC 1: MÔ TẢ BẢNG DỮ LIỆU SỬ DỤNG .84
PHỤ LỤC 2: THÔNG TIN VỀ QUẢN LÝ QUÁ TRÌNH CÁ NHÂN CỦA
CHỨC NĂNG HỒ SƠ HIỆN TẠI 85
                
              
                                            
                                
            
 
            
                
88 trang | 
Chia sẻ: maiphuongtl | Lượt xem: 2047 | Lượt tải: 2
              
            Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu ứng dụng khai phá dữ liệu vào công tác quản lý nguồn nhân lực, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
. Trong số 
các thuộc tính rời rạc có một thuộc tính đặc biệt là phân lớp, mà các giá trị của 
nó được gọi là nhãn lớp. Thuộc tính liên tục sẽ nhận các giá trị có thứ tự, ngược 
lại thuộc tính rời rạc sẽ nhận các giá trị không có thứ tự. Ngoài ra, các thuộc tính 
có thể nhận giá trị không xác định (chẳng hạn, vì những lý do khách quan ta 
không thể biết được giá trị của nó). Chú ý rằng nhãn lớp của tất cả các mẫu 
không được phép nhận giá trị không xác định. Nhiệm vụ của quá trình phân lớp 
là thiết lập được ánh xạ giữa giá trị của các thuộc tính với các nhãn lớp. Mô hình 
biểu diễn quan hệ nói trên sau đó sẽ được dùng để xác định nhãn lớp cho các 
quan sát mới không nằm trong tập mẫu ban đầu. 
Hình 3.1 Bài toán phân lớp 
Thực tế đặt ra nhu cầu từ một cơ sở dữ liệu với nhiều thông tin ẩn ta có thể 
trích rút ra các quyết định nghiệp vụ thông minh. Phân lớp và dự đoán là hai 
dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu 
quan trọng hay dự đoán xu hướng dữ liệu tương lai. Phân lớp dự đoán giá trị của 
những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete 
value), có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá 
trị là biết trước. Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận 
Thuật toán 
Phân lớp 
Hoạt động 
Lớp 1 
Lớp 2 
Lớp n 
Dữ liệu 
vào 
 - 54 -
giá trị liên tục. Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết 
ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt 
độ,… của ngày hôm nay và các ngày trước đó. Hay nhờ các luật về xu hướng 
mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra 
những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán… 
Một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách 
hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách 
hàng. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà 
nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ 
chuyên gia (expert system), thống kê (statistics)... Công nghệ này cũng ứng 
dụng trong nhiều lĩnh vực khác nhau như: thương mại, nhà băng, maketing, 
nghiên cứu thị trường, bảo hiểm, y tế, giáo dục... 
Quá trình phân lớp dữ liệu gồm hai bước [1]: 
• Bước thứ nhất (learning) 
Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu 
hay các khái niệm định trước. Đầu vào của quá trình này là một tập dữ liệu có 
cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của 
các thuộc tính đó. Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data 
tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi 
(record) hay trường hợp (case). Luận văn sử dụng các thuật ngữ này với nghĩa 
tương đương. Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về 
một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc 
tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute). Đầu ra của 
bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết 
định, công thức logic, hay mạng nơron. Quá trình này được mô tả như trong 
hình vẽ: 
 - 55 -
Hình 3.2 Quá trình phân lớp dữ liệu - (a) Bước xây dựng mô hình phân lớp 
• Bước thứ hai (classification) 
Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ 
liệu mới. Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp 
vừa tạo ra được ước lượng. Holdout là một kỹ thuật đơn giản để ước lượng độ 
chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã 
được gán nhãn lớp. Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu 
trong tập dữ liệu đào tạo. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã 
đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân 
lớp đúng (so với thực tế). Nếu độ chính xác của mô hình được ước lượng dựa 
trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có 
xu hướng “quá vừa” dữ liệu. Quá vừa dữ liệu là hiện tượng kết quả phân lớp 
trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ 
liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó. Do 
vậy, cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. Nếu 
độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân 
lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân 
lớp là chưa biết. 
T u ô ?i Ng o a ?i n g u C h o ?n Ð T
2 5 Anh O K
3 5 Anh O K
4 0 Anh L o s t
2 7 F ra nc e L o s t
3 2 C hine s e L o s t
3 0 Anh O K
3 2 Anh O K
4 0 F ra nc e L o s t
Training data 
Classification 
algorithm 
Classifier (model) 
if tuổi <= 35 
or Ngoại ngữ =Anh 
then Chọn ĐT = OK 
a) 
 - 56 -
 Hình 3.3 Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mô hình 
Hình 3.4 Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới 
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết 
định tới sự thành công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân 
lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính 
xác cao và có khả năng mở rộng được. Trong đó khả năng mở rộng được của 
thuật toán được đặc biệt chú trọng và phát triển. 
3.1.2. Các vấn đề liên quan đến phân lớp dữ liệu 
a).Chuẩn bị dữ liệu cho việc phân lớp 
Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể 
thiếu và có vai trò quan trọng quyết định tới sự áp dụng được hay không của mô 
hình phân lớp. Quá trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính 
hiệu quả và khả năng mở rộng được của mô hình phân lớp. 
Quá trình tiền xử lý dữ liệu gồm có các công việc sau: 
Làm sạch dữ liệu 
Tuô?i Ngoa?i ngu Cho?nDT
27 Anh OK
34 Phap Lost
66 TrungQuoc Lost
44 Anh Lost
Test data 
Classifier (model) 
Cho?n ÐT
OK
Lost
Lost
OK
b1) 
T u ô ?i Ng o a ?i n g u C h o ?n Ð T
2 7 Anh 
3 4 P ha p´ 
5 5 Trung 
3 4 Anh 
New data Classifier (model) 
C h o ?n Ð T
O K
L o s t
L o s t
O K
b2) 
 - 57 -
Làm sạch dữ liệu liên quan đến việc xử lý với noise và missing value 
trong tập dữ liệu ban đầu. Noise là các lỗi ngẫu nhiên hay các giá trị không hợp 
lệ của các biến trong tập dữ liệu. Để xử lý với loại lỗi này có thể dùng kỹ thuật 
làm trơn. Missing value là những ô không có giá trị của các thuộc tính. Giá trị 
thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trong trường hợp cụ 
thể giá trị của thuộc tính đó không có, hay không quan trọng. Xử lý giá trị có thể 
bằng cách thay giá trị thiếu bằng giá trị phổ biến nhất của thuộc tính đó hoặc 
bằng giá trị có thể xảy ra nhất dựa trên thống kê. Mặc dù phần lớn thuật toán 
phân lớp đều có cơ chế xử lý với những giá trị thiếu và noise trong tập dữ liệu, 
nhưng bước tiền xử lý này có thể làm giảm sự hỗn độn trong quá trình học (xây 
dựng mô hình phân lớp). 
Phân tích sự cần thiết của dữ liệu 
Có rất nhiều thuộc tính trong tập dữ liệu có thể hoàn toàn không cần thiết 
hay liên quan đến một bài toán phân lớp cụ thể. Ví dụ dữ liệu về ngày trong tuần 
hoàn toàn không cần thiết đối với ứng dụng phân tích độ rủi ro của các khoản 
tiền cho vay của ngân hàng, nên thuộc tính này là dư thừa. Phân tích sự cần thiết 
của dữ liệu nhằm mục đích loại bỏ những thuộc tính không cần thiết, dư thừa 
khỏi quá trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây ra sự 
hiểu sai trong quá trình học dẫn tới một mô hình phân lớp không dùng được. 
Chuyển đổi dữ liệu 
Việc khái quát hóa dữ liệu lên mức khái niệm cao hơn đôi khi là cần thiết 
trong quá trình tiền xử lý. Việc này đặc biệt hữu ích với những thuộc tính liên 
tục (continuous attribute hay numeric attribute). Ví dụ các giá trị số của thuộc 
tính thu nhập của khách hàng có thể được khái quát hóa thành các dãy giá trị rời 
rạc: thấp, trung bình, cao. Tương tự với những thuộc tính rời rạc (categorical 
attribute) như địa chỉ phố có thể được khái quát hóa lên thành thành phố. Việc 
khái quát hóa làm cô đọng dữ liệu học nguyên thủy, vì vậy các thao tác vào/ ra 
liên quan đến quá trình học sẽ giảm. 
b).So sánh các mô hình phân lớp 
Trong từng ứng dụng cụ thể cần lựa chọn mô hình phân lớp phù hợp. 
Việc lựa chọn đó căn cứ vào sự so sánh các mô hình phân lớp với nhau, dựa trên 
các tiêu chuẩn sau: 
• Độ chính xác dự đoán (predictive accuracy) 
 - 58 -
Độ chính xác là khả năng của mô hình để dự đoán chính xác nhãn lớp của dữ 
liệu mới hay dữ liệu chưa biết. 
• Tốc độ (speed) 
Tốc độ là những chi phí tính toán liên quan đến quá trình tạo ra và sử dụng mô 
hình. 
• Sức mạnh (robustness) 
Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ liệu 
noise hay dữ liệu với những giá trị thiếu. 
• Khả năng mở rộng (scalability) 
Khả năng mở rộng là khả năng thực thi hiệu quả trên lượng lớn dữ liệu của mô 
hình đã học. 
• Tính hiểu được (interpretability) 
Tính hiểu được là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi mô hình đã 
học. 
• Tính đơn giản (simplicity) 
Tính đơn giản liên quan đến kích thước của cây quyết định hay độ cô đọng của 
các luật. 
Trong các tiêu chuẩn trên, khả năng mở rộng của mô hình phân lớp được 
nhấn mạnh và trú trọng phát triển, đặc biệt với cây quyết định. 
3.1.3 Các phương pháp đánh giá độ chính xác của mô hình phân lớp 
Ước lượng độ chính xác của bộ phân lớp là quan trọng ở chỗ nó cho 
phép dự đoán được độ chính xác của các kết quả phân lớp những dữ liệu tương 
lai. Độ chính xác còn giúp so sánh các mô hình phân lớp khác nhau. Trong luận 
văn này đề cập đến 2 phương pháp đánh giá phổ biến là holdout và k-fold cross-
validation. Cả 2 kỹ thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ 
liệu ban đầu. 
 - 59 -
• Trong phương pháp holdout, dữ liệu đưa ra được phân chia ngẫu nhiên 
thành 2 phần là: tập dữ liệu đào tạo và tập dữ liệu kiểm tra. Thông thường 2/3 dữ 
liệu cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra [6]. 
Hình 3.5Ước lượng độ chính xác của mô hình phân lớp với phương pháp holdout 
• Trong phương pháp k-fold cross validation tập dữ liệu ban đầu được chia 
ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2, …, Sk. Quá 
trình học và “test” được thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm 
tra, các tập còn lại hợp thành tập dữ liệu đào tạo. Có nghĩa là, đâu tiên việc dạy 
được thực hiện trên các tập S2, S3 …, Sk, sau đó test trên tập S1; tiếp tục quá trình 
dạy được thực hiện trên tập S1, S3, S4,…, Sk, sau đó test trên tập S2; và cứ thế tiếp 
tục. Độ chính xác là toàn bộ số phân lớp đúng từ k lần lặp chia cho tổng số mẫu 
của tập dữ liệu ban đầu. 
3.2 Cây quyết định ứng dụng trong phân lớp dữ liệu 
3.2.1.Định nghĩa: 
Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà 
khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình 
thông kê tuyến tính bậc 2, cây quyết định, mô hình di truyền. Trong số những 
mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một 
công cụ mạnh, phổ biến và đặc biệt thích hợp cho Data Mining nói chung và 
phân lớp dữ liệu nói riêng [12]. Có thể kể ra những ưu điểm của cây quyết định 
như: xây dựng tương đối nhanh; đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ 
dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy 
nhập cơ sở dữ liệu một cách hiệu quả. Cuối cùng, việc phân lớp dựa trên cây 
Data 
Test set 
Training set 
Derive 
classifier 
Esitmate 
accuracy 
 - 60 -
quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương 
pháp phân lớp khác. 
Cây quyết định là một flow-chart giống cấu trúc cây , nút bên trong biểu 
thị một kiểm tra trên một thuộc tính , nhánh biểu diễn đầu ra của kiểm tra , nút lá 
biểu diễn nhãn lớp hoặc sự phân bố của lớp. Cây quyết định là biểu đồ phát triển 
có cấu trúc dạng cây, như mô tả trong hình vẽ sau: 
Hình 3.6 Ví dụ về cây quyết định 
Trong cây quyết định: 
• Gốc: là node trên cùng của cây; 
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật); 
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên); 
• Node lá: biểu diễn lớp hay sự phân phối lớp. 
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa 
vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc 
đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó. 
3.2.2. Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định 
 a). Độ lợi thông tin (Information Gain) trong cây quyết định : 
Information gain là đại lượng được sử dụng để chọn lựa thuộc tính với 
information gain lớn nhất .Giả sử có hai lớp , P và N . Cho tập hợp của những ví 
dụ S chứa p phần tử của lớp P và n phần tử của lớp N . Khối lượng của thông 
tin, cần để quyết định nếu những mẫu tùy ý trong S thuộc về P hoặc N được 
định nghĩa như là : 
 - 61 -
 I(p,n) = -[p/(p+n)]log 2 [p/(p+n)] – [n/(p+n)]log 2 [n/(p+n)] 
Giả sử rằng sử dụng thuộc tính A một tập hợp S được phân hoạch thành những 
tập hợp {S1,S2,..,Sv} . Nếu Si chứa những mẫu của P và ni mẫu của Ni entropy 
hoặc thông tin mong đợi cần để phân loại những đối tượng trong cây con Si là : 
 v 
E(A) = Σ [(pi+ni)/(p+n)] I(pi,ni) 
 i=1 
Thông tin nhận được ở nhánh A là : Gain(A) = I(p,n)-E(A) 
b).Tránh “quá vừa” dữ liệu 
Thế nào là “quá vừa” dữ liệu? Có thể hiểu đây là hiện tượng cây quyết 
định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy chính tập 
traning data để test lại mô hình phân lớp thì độ chính xác sẽ rất cao, trong khi 
đối với những dữ liệu tương lai khác nếu sử dụng cây đó lại không đạt được độ 
chính xác như vậy. 
Quá vừa dữ liệu là một khó khăn đáng kể đối với học bằng cây quyết 
định và những phương pháp học khác. Đặc biệt khi số lượng ví dụ trong tập dữ 
liệu đào tạo quá ít, hay có noise trong dữ liệu. 
Có hai phương pháp tránh “quá vừa” dữ liệu trong cây quyết định: 
• Dừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớp 
hoàn hảo tập dữ liệu đào tạo. Với phương pháp này, một thách thức đặt ra là 
phải ước lượng chính xác thời điểm dừng phát triển cây; 
• Cho phép cây có thể “quá vừa” dữ liệu, sau đó sẽ cắt, tỉa cây. 
Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương 
pháp thứ hai thì cây quyết định được sinh ra được thực nghiệm chứng minh là 
thành công hơn trong thực tế. Hơn nữa việc cắt tỉa cây quyết định còn giúp cải 
thiện độ chính xác của mô hình phân lớp. Dù thực hiện phương pháp nào thì vấn 
đề mấu chốt ở đây là tiêu chuẩn nào được sử dụng để xác định kích thước hợp lý 
của cây cuối cùng. 
 - 62 -
c).Thao tác với thuộc tính liên tục 
Việc thao tác với thuộc tính liên tục trên cây quyết định hoàn toàn không 
đơn giản như với thuộc tính rời rạc. 
Thuộc tính rời rạc có tập giá trị (domain) xác định từ trước và là tập hợp 
các giá trị rời rạc. Ví dụ ngạch công chức là một thuộc tính rời rạc với tập giá trị 
là: {nhân viên, kiểm tra viên, kiểm tra viên chính, kiểm tra viên cao cấp}.Việc 
phân chia dữ liệu dựa vào phép kiểm tra giá trị của thuộc tính rời rạc được chọn 
tại một ví dụ cụ thể có thuộc tập giá trị của thuộc tính đó hay không: value(A) ∈ 
X với X ⊂ domain (A). Đây là phép kiểm tra logic đơn giản, không tốn nhiều tài 
nguyên tính toán. Trong khi đó, với thuộc tính liên tục (thuộc tính dạng số) thì 
tập giá trị là không xác định trước. Chính vì vậy, trong quá trình phát triển cây, 
cần sử dụng kiểm tra dạng nhị phân: value(A) ≤ θ. Với θ là hằng số ngưỡng 
(threshold) được lần lượt xác định dựa trên từng giá trị riêng biệt hay từng cặp 
giá trị liền nhau (theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét 
trong tập dữ liệu đào tạo. Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập 
dữ liệu đào tạo có d giá trị phân biệt thì cần thực hiện d-1 lần kiểm tra value(A) 
≤ θi với i = 1..d-1 để tìm ra ngưỡng θbest tốt nhất tương ứng với thuộc tính đó. 
Việc xác định giá trị của θ và tiêu chuẩn tìm θ tốt nhất tùy vào chiến lược của 
từng thuật toán. 
3.2.3.Xây dựng cây quyết định 
Bao gồm 2 giai đoạn: tạo cây và tỉa cây . Tạo cây ở thời điểm bắt đầu tất 
cả những ví dụ huấn luyện là ở gốc sau đó phân chia ví dụ huấn luyện theo cách 
đệ qui dựa trên thuộc tính được chọn . Việc tỉa cây là xác định và xóa những 
nhánh mà có phần tử hỗn loạn hoặc những phần tử nằm ngoài (những phần tử 
không thể phân vào một lớp nào đó) . 
Thuật toán qui nạp tạo cây quyết định được chia thành các bước như sau: 
 1. Cây được xây dựng đệ qui từ trên xuống dưới (top-down) và theo cách 
thức chia để trị (divide-conquer); 
 2. Ở thời điểm bắt đầu , tất cả những ví dụ huấn luyện ở gốc; 
 3. Thuộc tính được phân loại ( nếu là giá trị liên tục chúng được rời rạc 
hóa); 
 4. Những ví dụ huấn luyện được phân chia đệ qui dựa trên thuộc tính mà 
nó chọn lựa; 
 - 63 -
5. Kiểm tra những thuộc tính được chọn dựa trên nền tảng của heristic 
hoặc của một định lượng thống kê . 
Điều kiện để dừng việc phân chia : 
1.Tất cả những mẫu huấn luyện đối với một node cho trước thuộc về 
cùng một lớp; 
2.Không còn thuộc tính còn lại nào để phân chia tiếp; 
3.Không còn mẫu nào còn lại . 
Sơ đồ tổng quát xây dựng cây quyết định 
1: procedure XayDungCay(n :Nút, D : dữ kiện , LL : phương thức) 
2: Áp dụng LL trên D để tìm ra chuẩn chia ; 
3: Chia n bằng cách sử dụng chuẩn chia ở trên ; 
4: k Å số các nút con của n ; 
5: if k > 0 then 
6: Tạo ra k nút con n1, …, nk của n ; 
7: Chia D thành D1, …,Dk ; 
8: for i Å1, k do 
9: XayDungCay( ni , Di , LL ) ; 
10: end for 
11: end if 
12: end procedure 
Kết luận chương 3 
 Chương này nghiên cứu về kỹ thuật phân lớp dữ liệu sử dụng cây quyết 
định. Luận văn tiếp cận một cách tổng quan bài toán phân lớp đi vào những 
đánh giá của thuật toán phân lớp. Tiếp theo là những vấn đề sử dụng cây quyết 
định: quá trình hình thành cây, các vấn đề liên quan và những đặc tính, điểm 
mạnh, điểm yếu của cây quyết định. Chương này mục đích xem xét kiến thức kĩ 
thuật nền tảng được sử dụng trong phần thực nghiệm trong luận văn làm cơ sở 
so sánh đưa ra những kết luận nghiên cứu. 
 - 64 -
 Cấp Cục 
CƠ SỞ DỮ 
LIỆU 
NHÂN SỰ 
KHAI THÁC BÁO CÁO 
(Phục vụ quản lý và phân 
tích) 
 Cấp Tổng cục 
Cấp cục
CHƯƠNG 4. THỰC NGHIỆM 
4.1.Giới thiệu về mô hình xây dựng: 
4.1.1.Sơ đồ luồng dữ liệu thông tin nhân sự: 
Hình 4.1 Sơ đồ luồng dữ liệu thông tin nhân sự 
Chương trình được triển khai xây dựng ở 2 cấp: cấp Cục và cấp Tổng cục. 
Cấp Cục cập nhật dữ liệu hồ sơ lý lịch của đơn vị mình lưu trữ tại cơ sở dữ liệu 
cấp Cục để khai thác báo cáo quản lý và báo cáo theo yêu cầu nghiệp vụ. 
Cấp Tổng cục ngoài chức năng cập nhật thông tin sơ yếu lí lịch nhân sự ở 
Tổng cục như ở cấp Cục còn tiến hành cập nhật dữ liệu nhận về từ các Cục địa 
phương: thông tin hồ sơ cán bộ mới, bổ sung, hồ sơ luân chuyển từ đơn vị này 
sang đơn vị khác. Việc khai thác báo cáo từ dữ liệu này phụ thuộc vào chương 
DỮ LIỆU VÀO 
Phiếu điều tra cán bộ 
công chức (Sơ yếu lý 
lịch) 
DỮ LIỆU VÀO 
Phiếu điều tra 
cán bộ công 
chức (Sơ yếu lý 
lịch) 
CƠ SỞ DỮ 
LIỆU 
NHÂN SỰ 
Toàn 
ngành
KHAI THÁC BÁO 
CÁO 
(Phục vụ quản lý và 
phân tích) 
Kết xuất ra 
file dữ liệu 
Fax và Công 
văn báo cáo 
 - 65 -
trình xây dựng nên có nhiều hạn chế. Các báo cáo của hệ thống hiện tại xây 
dựng theo phương pháp thống kê để đáp ứng việc làm báo cáo theo biểu mẫu 
của Bộ Nội vụ (cách làm thủ công). Chương trình cũng hỗ trợ thêm các báo cáo 
theo yêu cầu riêng của từng đơn vị như báo cáo công chức theo ngạch chức 
danh, các báo cáo chế độ công chức trong giai đoạn tập sự, hết tập sự…Hay 
chức năng làm báo cáo động theo cách để người dùng tự chọn các trường dữ liệu 
trong hồ sơ cần để làm báo cáo. Song việc hỗ trợ như vậy vẫn tồn tại các yêu 
cầu phải nghiên cứu hỗ trợ như sau: 
+ Giám sát được dữ liệu cập nhật từ cấp dưới: Việc này gây mất rất nhiều thời 
gian đòi hỏi cán bộ thực hiện phải có chuyên môn. Đánh giá về kết quả giám sát 
không được nhiều. 
+ Việc lựa chọn cán bộ theo tiêu chuẩn để đào tạo, quy hoạch như thế đã đúng 
và đã đủ đối tượng chưa. 
+ Việc bổ sung, cắt giảm biên chế hay điều chuyển cán bộ trong của các đơn vị 
gặp nhiều khó khăn (kết quả báo cáo thì có nhiều dẫn tới khó có thể làm rõ 
được). 
 Theo yêu cầu bảo quản thông tin hồ sơ, dữ liệu sử dụng trong luận văn 
được chạy trên cơ sở dữ liệu thử nghiệm. Cơ sở dữ liệu này được quản lý bằng 
hệ quản trị SQL Server (Hệ quản trị cơ sở dữ liệu của hồ sơ gốc bằng Oracle 9i). 
4.1.2. Giải quyết vấn đề: 
Các vấn đề không thể thực hiện được bằng chương trình quản lý hiện tại. 
Ta giải quyết vấn đề tồn tại này bằng nghiên cứu của luận văn sử dụng công cụ 
“Microsoft Analysis Services” của Microsoft để tiến hành tạo mô hình phân lớp 
dữ liệu dựa trên kĩ thuật “Microsoft Decision Tree” – Cây quyết định. 
Dữ liệu vào của mô hình là bảng chính của cơ sở dữ liệu sơ yếu lý lịch 
nhân sự. Cơ sở dữ liệu này bao gồm: Bảng dữ liệu chính, dữ liệu tham chiếu và 
dữ liệu danh mục việc bảng dữ liệu chính sẽ là bảng dữ liệu vào cho mô hình 
xây dựng. Bảng dữ liệu được làm việc HC_EMP đây là bảng dữ liệu chính chứa 
thông tin cần cho mô hình xây dựng. Việc xây dựng mô hình không mấy khó 
khăn và rất nhanh chóng qua 3 bước xác định: 
Bước 1: 
Chạy chương trình “Microsoft Analysis Service manager” kết nối vào Máy chủ 
phân tích (Analysis Server) để có kết nối đến cơ sở dữ liệu nhân sự; 
 - 66 -
Bước 2: 
Xác định thuộc tính cần dự đoán và thuộc tính đầu vào cho mô hình. Ưu điểm 
của công cụ này không phụ thuộc quá nhiều vào việc chuẩn bị dữ liệu; 
Bước 3: 
Dùng chức năng xây dựng mô hình để: 
+Mô tả bảng dữ liệu với dữ liệu vào và trường dữ liệu cần dự đoán; 
+Chọn thuật toán cần sử dụng trong luận văn này ta dùng “Microsoft Decision 
Tree”. 
 Ta có mô hình cần. 
4.1.3.Các mô hình được xây dựng: 
Hình 4.2 Hình minh họa là các mô hình được xây dựng hỗ trợ cho công tác 
Giao diện hỗ trợ của mô hình xây dựng gồm có 6 thành phần: 
 - 67 -
Hình 4.3 Hình minh họa các thành phần của giao diện hỗ trợ 
1.Thuộc tính cần dự đoán ở đây là trường dữ liệu thông tin về công việc hiện tại 
2.Hình ảnh mô hình cây thu được 
3.Con số thống kê và khả năng dự đoán cho từng node 
4.Mô tả mối quan hệ giữa các nút hay luật ví dụ: 
(Node Id not = 110029 and Inst Code 19023.75 and <= 
20161.75 ) or > 20162.25 and Id Card Date exists) 
5.Chỉ dẫn mầu sắc biểu hiện mật độ phân bố dữ liệu được đánh dấu hiển thị 
theo mầu sắc và lựa chọn các trường hợp (trên hình vẽ là All cases nghĩa là tất 
cả các trường hợp). Công cụ hỗ trợ người dùng chi tiết từng trường hợp. 
6.Hình ảnh tổng thể cùng mật độ phân bố dữ liệu của cây mô hình thu được. 
Vậy thì, các mô hình có giá trị như thế nào cho các công việc đang vướng 
mắc đã đề cập ở trên. Ta sẽ thấy rõ hơn ở phần minh họa các kết quả thu được từ 
các mô hình. 
 - 68 -
4.2. Minh họa kết quả hỗ trợ thu được từ mô hình xây dựng 
4.2.1 Minh họa hỗ trợ công tác tuyển lựa và đào tạo-cây lựa chọn cán bộ 
đào tạo quản lý nhà nước 
Đơn vị nhận trách nhiệm đào tạo(sau đây gọi là Vụ Tổ chức cán bộ) phải 
làm công văn thông báo tới các đơn vị trong ngành biết về khóa đào tạo: 
Chương trình học, địa điểm, thời gian đào tạo và đối tượng đào tạo. Dưới đây là 
một hình minh họa công văn thông báo đào tạo: 
Hình 4.4 Minh họa công văn đào tạo 
Hình 4.5 Minh họa yêu cầu đối tượng đào tạo 
 - 69 -
 Sau khi Vụ Tổ chức cán bộ nhận được danh sách đăng ký tham gia lớp 
đào tạo từ các đơn vị. Vụ Tổ chức tiến hành: tổng hợp, kiểm tra danh sách (đối 
chiếu với tiêu chuẩn). Kết quả kiểm tra sẽ ra Quyết định cử cán bộ đi đào tạo. 
Vấn đề hỗ trợ Quyết định được trình bày chi tiết dưới đây: 
Đối tượng đào tạo (tiêu chuẩn): 
-Là lãnh đạo cấp phòng trở lên (class=1) 
-35 tuổi trở lên (birth_date_year<1974) 
-Nơi làm việc ở Hà Nội(recr_code_tinh=’HaNoi’) 
Kết quả truy vấn trực tiếp từ cơ sở dữ liệu nhân sự ta có 79 trường hợp đạt yêu 
cầu. Kết quả này sẽ dùng để so sánh độ chính xác với mô hình dự đoán: 
Dữ liệu vào và dữ liệu cần dự đoán: 
Trường dữ liệu vào là Class, Recr_code_Tinh 
Trường dữ liệu cần dự đoán là Class_Edu 
Tên mô hình trong công cụ là “TestClassEdu” 
Cây quyết định thu được như sau: 
Hình 4.6 Cây phân lớp cán bộ, nhân viên 
Giải thích cây 
Mọi người (ALL ) Nơi làm việc ở Hà nội(Recr Code Tinh=HaNoi) được xem 
xét trong mô hình. 
 - 70 -
Ở đây ta xem xét những người làm việc ở Hà nội (Recr Code 
Tinh=HaNoi) có vị trí công tác lãnh đạo cấp phòng trở lên (Class=1). Kết quả 
dự đoán cho thấy có 79 người đạt tiêu chuẩn, 5 người không đạt tiêu chuẩn là do 
là lãnh đạo nhưng chưa đủ tuổi 35. Điều này ta có thể kiểm chứng bằng cây lệnh 
truy vấn trực tiếp từ cơ sở dữ liệu nhân sự như sau: 
 Với cây quyết định phân lớp này ta có số lượng từ hồ sơ đem so sánh với 
danh sách trình sẽ có cơ sở lựa chọn chính xác hơn. Chẳng hạn, nếu số lượng 
vượt quá 79 người điều đó có nghĩa danh sách này bao gồm cả những người 
không đủ tiêu chuẩn, ngược lại ít hơn 79 người điều đó có nghĩa danh sách chưa 
đủ số lượng người đủ tiêu chuẩn như thông tin hỗ trợ phản ánh. Bước còn lại là 
chỉ còn việc kiểm tra chi tiết thông tin của từng người trong danh sách. 
 Tính trực quan của mô hình còn biểu hiện ở chỗ ta bấm vào bất kỳ nút nào 
cũng có con số thống kê cụ thể. Nếu ta bấm vào nút Rec_code_tinh=HaNoi sẽ 
có con số thống kê trên cửa sổ Attributes: 
Hình 4.7 Minh họa thông tin một node của cây 
Số liệu thống kê cho ta biết tổng số hồ sơ của những người làm việc tại 
Hà Nội là 312 người, trong đó: 
+ là lãnh đạo 79 người khả năng đoán nhận là 25.40%, 
+ không giữ chức vụ lãnh đạo 233 khả năng đoán nhận 74.29%, 
+ không xác định chỗ làm việc có khả năng chiếm 0.32%. Cụ thể hơn một số 
trường hợp đủ tiêu chuẩn nhưng không có thông tin về nơi làm việc nên cũng có 
khả năng xem xét . Ta có thể kiểm chứng bằng câu lệnh truy vấn sau: 
 - 71 -
Kết quả truy vấn trực tiếp xác định có 424 người đủ tiêu chuẩn là Lãnh 
đạo tuổi trên 35 nhưng không khai báo thông tin nơi làm việc nên mô hình đưa 
ra vẫn phải xem xét, tỷ lệ dự đoán khả năng này là 0.32%. 
 Như thế, mô hình đã hỗ trợ ngoài tính chính xác còn thấy được khả năng 
dự đoán của mô hình khuyến cáo đưa ra. Ngoài ra, kết quả thu được cây quyết 
định được công cụ sử dụng hỗ trợ người sử dụng có thông tin về phân bố mật 
độ dữ liệu dựa trên mầu sắc, mầu sắc đậm thể hiện dữ liệu nhiều, mầu sắc nhạt 
dữ liệu ít. Thông tin hỗ trợ trong công tác đào tạo thường phải ứng dụng nhiều 
việc áp dụng công cụ và kĩ thuật này sẽ làm tăng khả năng đào tạo cũng như 
tuyển lựa cán bộ. 
4.2.2. Minh họa công tác kiểm tra thông tin hồ sơ nhập máy-cây phân 
lớp vị trí công tác (lãnh đạo, nhân viên) 
 Đây là bộ dữ liệu đã phân lớp những người giữ vị trí lãnh đạo có chức 
danh:Phó Trưởng phòng, Trưởng phòng, Phó cục trưởng, Cục trưởng.. được gọi 
là lãnh đạo trường phân lớp Class =1. Không có chức danh: Chuyên viên, nhân 
viên, cán bộ.. được gọi là lớp không giữ chức vụ lãnh đạo trường phân lớp 
Class=0. Mô hình phân lớp cây quyết định trên bảng chính của dữ liệu hồ sơ 
(HC_EMP) có trường dữ liệu cần dự đoán là Class và 37 thuộc tính đầu vào là 
các thuộc tính được coi là có giá trị của bảng chính dữ liệu hồ sơ. Mô hình 
cây quyết định thu được (tên mô hình trong công cụ là mô hình lớp lãnh đạo): 
Hình 4.8 mô hình phân lớp vị trí công tác 
Các giá trị lấy được từ mô hình: 
 - 72 -
Nhìn hình vẽ mô hình tồn tại một lá có giá trị Position_Class= missing, 
Quan hệ các nút như sau: 
Hình 4.9 Quan hệ giữa các nút 
Thông tin từ nhánh trên cây quyết định này cho thấy những trường hợp dữ 
liệu không xác định được chức danh là do nhập dữ liệu thiếu. Dữ liệu một số 
thông tin trường Rpos_date_year,lea_Alw_coef và dữ liệu thiếu xẩy ra trên hồ 
sơ của các cán bộ có chức danh không phải là chuyên viên, không phải là đội 
trưởng, không phải là phó đội trưởng (hình minh họa). Trên cơ sở đó ta có thể 
thống kê các hồ sơ thiếu thông tin theo chỉ dẫn trên. Đề nghị bổ sung thông tin 
và yêu cầu đối tác xây dựng chương trình phần mềm sửa chữa rằng buộc bắt 
người nhập liệu phải nhập dữ liệu trên 2 trường Rpos_date_year và riêng 
Lea_Alw_Coef với những người có hệ số phụ cấp chức vụ. 
Position_Class= 
missing 
Rpos_Date_year= 
missing 
Position_Class= 
Not chuyên viên 
Lea_Alw_Coef = 
Missing 
Nút gốc 
Position_Class= 
Not đội trưởng 
Position_Class= 
Not Phó đội trưởng 
 - 73 -
Một trường hợp khác cũng liên quan đến việc theo dõi, phát hiện điều 
chỉnh số liệu. 
Hình 4.10 Cây phân lớp chức vụ 
Hình vẽ trên là mô hình cây quyết định phân lớp chức vụ này tồn tại một 
quy luật nếu là lãnh đạo thì hệ số Lea_Alw_Coef sẽ có giá trị khác missing và 
trong 2 giá trị của trường Lea_Alw coef có giá trị thống kê như sau: 
Giá trị cột Thông tin thống kê tương ứng 
Lea Alw Coef <= 1.39749991893768 
 - 74 -
Giá trị cột Thông tin thống kê tương ứng 
Lea Alw Coef > 1.39749991893768 
Dữ liệu hồ sơ tồn tại các hồ sơ trường Lea Alw Coef <= 
1.39749991893768 nhập không đúng dẫn đến kết quả phân lớp 11 trường hợp 
không giữ chức danh lãnh đạo trường Lea_Alw_coef vẫn tồn tại giá trị. Căn cứ 
vào kết quả này ta có cơ sở để thống kê các hồ sơ có trường dữ liệu 
lea_alw_coef<= 1.39749991893768 để các đơn vị liên quan điều chỉnh lại hồ sơ 
cho chính xác. 
Qua các minh chứng trên cho thấy, thông tin từ cây quyết định của mô 
hình rất trực quan cho việc theo dõi số liệu hỗ trợ việc điều chỉnh bổ sung dữ 
liệu sát hơn, đầy đủ hơn. Điều này không thể phát hiện nếu dùng phương pháp 
thống kê thông thường. 
4.2.3.Minh họa công tác hoạch định mô hình tổ chức 
 Phần này giới thiệu kết quả hỗ trợ từ cây quyết định phân lớp. Hình thành 
mô hình từ thông tin phân bổ và mối quan hệ giữa dữ liệu nhân sự với trường dữ 
liệu đơn vị thể hiện trên mô hình. Ta cần xem xét sự phân bổ nhân sự trong các 
đơn vị để thực hiện kế hoạch tuyển dụng hay điều chuyển nhân sự dựa vào số 
nhân sự phân bố trong từng đơn vị thể hiện bằng mầu sắc trên mô hình. Ở đây ta 
xem xét các đơn vị có phân bổ nhân sự tại Cục Hải quan An Giang để xem các 
đơn vị khác có cùng nhu cầu phân bổ nhân sự giống cục Hải quan An Giang và 
cần phải cắt giảm biên chế dựa trên mầu sắc phân bổ trên mô hình. 
Trường dữ liệu vào là các thuộc tính của nhân sự lưu trong hồ sơ 
 - 75 -
Trường dữ liệu cần dự đoán là tên đơn vị công tác của nhân sự 
Cây quyết định theo mô hình tổ chức của các đơn vị như sau (tên mô hình trong 
công cụ là “MohinhTochucTEST”): 
Hình 4.11 Cây hoạch định mô hình tổ chức 
Bên phải cây là các thông tin thống kê về từng nút của cây. Đánh giá của mô 
hình biểu hiện của mầu sắc mầu sắc càng đậm thể hiện ở khả năng phải xem xét 
bổ sung nhân sự, như trong mô hình là nút có mầu đen có giá trị Node Id 1 = 
110001 là Cục Hải quan An Giang có 177 nhân sự cần xem xét bổ sung nhân sự 
tại đây: 
 - 76 -
Hình 4.12 Thông tin nút đơn vị cần bổ sung nhân sự 
Nút có mầu trắng bên trên có giá trị Node Id=110019 là Cục Hải quan Thành 
phố Hồ Chí Minh có 1699 nhân sự: 
Hình 4.13 Thông tin đơn vị không cần điều chỉnh bổ sung nhân sự 
Biểu hiện về mầu sắc cho thấy không cần xem xét bổ sung nhân sự tại đơn vị 
này. Thông tin này cũng khuyến cáo cần phải xem thêm thông tin mô tả chức 
danh công việc để có thêm thông tin điều chuyển hay cắt giảm biên chế của đơn 
vị này. 
 - 77 -
Như vậy, 2 kết quả minh chứng trên cây quyết định hỗ trợ thông tin hoạch 
định mô hình tổ chức trong việc bổ sung hay cắt giảm nhân sự của các đơn vị 
trong tổ chức. Mô hình biểu hiện tính trực quan kết nối trực tiếp với dữ liệu khi 
có thay đổi kết quả cũng sẽ thay đổi theo. Điều này rất có ý nghĩa cho việc kiểm 
thử nâng cao chất lượng dự đoán của mô hình và cũng cho thấy khả năng đáp 
ứng của công cụ cũng như việc phân lớp dựa trên cây quyết định trong việc 
hoạch định mô hình tổ chức. 
4.2.4.Minh họa mô hình giám sát theo dõi công việc phục vụ công tác 
đánh giá: 
 Mô hình biểu hiện mối quan hệ giữa công việc với nhân sự và đơn vị liên 
quan đến công việc đó (tên mô hình trong công cụ là GSCV_TEST). Trường dữ 
liệu vào là thông tin hồ sơ nhân sự. Trường dữ liệu cần dự đoán là công việc 
hiện tại (Curr_work) mã đơn vị công tác của nhân viên đó (name) và nhân viên 
đó (Key_emp). 
Cây quyết định của công việc hiện tại: 
Hình 4.14 Cây mô tả công việc hiện tại 
Nhìn vào cây ta thấy mật độ nhân viên có công công việc cụ thể ở nhánh mầu 
sẫm ở nhánh này có 3387 nhân viên thông tin mô tả công việc cụ thể và 78 nhân 
viên không có thông tin trong trường công việc cụ thể. Chi tiết thông tin của 
nhánh này như sau: 
 - 78 -
Birth Date 16/03/1979 
Inst Code > 19132 - 19175 
Offi Rec Date 04/10/1976 
Những người công tác trong những đơn vị có mã trong khoảng 19132-19175 và 
 sinh trong khoảng 28/02/1975, 04/10/1976 và 
Vào ngành trước năm 18/08/1973 hay sau 04/10/1976 thì có thông tin mô tả 
công việc cụ thể 
Điều này chứng tỏ các đơn vị có mã trong khoảng 19132 và 19175 có mô 
tả công việc cụ thể cho cán bộ trong đơn vị. Đây là cơ sở quan trọng để giám sát 
công việc và đánh giá nhân viên, ta chỉ cần đưa khoảng mã đơn vị này vào truy 
vấn sẽ được tên đơn vị có tên đơn vị tương ứng. Ý nghĩa của mô hình thể hiện ở 
tính trực quan nhanh chóng phân loại bước đầu được đơn vị nào giám sát được 
nhân viên tốt (do thời điểm này đang trong quá trình xây dựng mô tả chức danh 
công việc của từng nhân viên và thời gian hoàn thành công việc của nhân viên 
nên chỉ có thể đánh giá bước đầu tới đơn vị mà chưa đánh giá chi tiết đến nhân 
viên trong đơn vị đó). 
4.2.5. Minh họa hỗ trợ xây dựng các quy trình quản lý nguồn nhân lực: 
 Phần này minh họa đặc tính hỗ trợ của mô hình xây dựng đối với quy 
trình công việc quản lý nguồn nhân lực: tuyển lựa, tuyển dụng, đào tạo…Quy 
trình thủ công cũ, phụ thuộc chủ yếu vào đề xuất của người đứng đầu đơn vị (đề 
xuất của người đứng đầu chuyển đến bộ phận quản lý nhân sự là được phê 
duyệt). Việc kiểm tra giám sát thông tin đề xuất gặp nhiều khó khăn trong việc 
tra cứu kiểm tra thông tin (thông tin nhiều nhưng khó mà làm rõ được). Chúng ta 
sẽ thấy cụ thể hơn bởi quy trình tổng quát sau: 
 - 79 -
Người thực hiện Trình tự thực hiện Giải thích 
Thủ trưởng đơn vị 
Bộ phận nhân sự 
(đơn vị quản lý hồ 
sơ cán bộ) 
Bộ phận nhân sự 
(đơn vị quản lý hồ 
sơ cán bộ) 
Lãnh đạo bộ phận 
quản lý nhân sự 
Bộ phận nhân sự 
(đơn vị quản lý hồ 
sơ cán bộ) 
Bộ phận nhân sự 
(đơn vị quản lý hồ 
sơ cán bộ) 
Lãnh đạo Tổng cục 
Lãnh đạo Tổng cục 
Lãnh đạo Tổng cục 
Lãnh đạo Tổng cục, 
Vụ TCCB và Đơn vị 
liên quan 
Với quy trình trên mô hình hỗ trợ sẽ tăng được tính chính xác khi phê duyệt, ra 
quyết định chính xác hơn. Công tác tuyển lựa đúng và đầy đủ đối tượng kiểm 
soát được đối tượng lựa chọn, đề xuất người đứng đầu đơn vị, giảm được tiêu 
cực trong công tác phụ thuộc vào đề xuất người đứng đầu. Kết quả hỗ trợ mở ra 
một khả năng tiến tới khi dữ liệu được hóa đầy đủ thông tin hơn thì đề xuất của 
người đứng đầu trong quy trình trên sẽ dần mất đi. 
Phê duyệt 
Tiếp nhận nhu cầu và đề xuất 
Chuẩn bị hồ sơ 
Quyết định 
và triển khai thực hiện 
Kiểm tra hồ sơ của đơn vị 
Trao đổi với đơn vị liên quan 
Kiểm tra, xem xét 
Phê duyệt 
chủ trương 
Phê duyệt 
Xác định và đề xuất nhu cầu 
 - 80 -
Kết luận chương 4 
Các mô hình đưa ra minh chứng ở đây minh họa một số đặc điểm mà 
phương pháp thống kê thông thường không thể làm được cũng như tính ưu việt 
thể hiện trong đặc tính hỗ trợ quyết định của công cụ và phương pháp. Qua mô 
hình lựa chọn cán bộ đào tạo ta sẽ thấy được đặc tính hỗ trợ cho việc lựa chọn 
chính xác, đủ đối tượng cần chọn (đào tạo, tuyển dụng..). Tính trực quan trong 
việc theo dõi số liệu hỗ trợ việc điều chỉnh bổ sung dữ liệu sát hơn, đầy đủ hơn 
trong minh họa phân lớp vị trí công tác. Thấy được đặc tính hỗ trợ thông tin 
hoạch định mô hình tổ chức trong việc bổ sung, điều chuyển hay cắt giảm nhân 
sự của các đơn vị trong tổ chức. Mô hình giám sát theo dõi công việc trình bầy 
khả năng hỗ trợ giám sát công việc phục vụ công tác đánh giá. 
Như vậy, kết quả đánh giá sử dụng thông tin thu được từ các đặc tính 
cung cấp của các mô hình phân lớp dựa trên cây quyết định sử dụng công cụ 
phân tích Microsoft Analysis mang lại những đặc điểm tiện ích sau: 
Tìm kiếm những dữ liệu tiềm ẩn trong dữ liệu, bằng phương pháp thống 
kê thông thường không phát hiện được. Phương pháp thống kê truyền thống đáp 
ứng đều phải định nghĩa mục đích trước, sau đó sử dụng phương pháp thích hợp 
để có được thông tin chúng ta cần, để có được những thông tin quý giá, đáng 
quan tâm, chúng ta phải tốn rất nhiều công sức để tìm kiếm. Việc tìm kiếm 
không phải dễ ràng nếu không hiểu biết cấu trúc và ý nghĩa thông tin của bảng 
dữ liệu; 
Việc sử dụng công cụ bớt được rất nhiều công sức để chuẩn bị dữ liệu. 
Công cụ hỗ trợ rất nhiều trong việc phân tích trên một bảng hoặc các bảng có 
mối quan hệ với nhau; 
Dữ liệu nhân sự là dữ liệu thường xuyên thay đổi, tăng trưởng. Việc dùng 
mô hình phân lớp trên cây quyết định đã đáp ứng yêu cầu giám sát dữ liệu. 
Khẳng định giám sát dữ liệu, phát hiện sự sai sót trong quá trình nhập liệu chỉ có 
thể sử dụng phương pháp khai phá dữ liệu; 
Kết quả còn biểu hiện tính trực quan trong phân tích. Từ những đặc điểm 
đó đã mở ra một cách nhìn mới về công tác thống kê báo cáo. 
 - 81 -
KẾT LUẬN 
Thông qua thu thập thông tin và khảo sát yêu cầu, luận văn đã đề cập một 
quan điểm quản lý nguồn nhân lực trong thời điểm mới áp dụng cho cơ quan Hải 
quan. Tiếp cận bước đầu của luận văn tiến hành khảo sát được thực trạng khai 
thác cơ sở dữ liệu hồ sơ nhân sự hiện có để đưa ra phương pháp khai thác mới 
khoa học hiệu quả hơn mang đặc tính mô hình hỗ trợ ra quyết định cho một 
phần công việc trọng tâm của công tác quản lý nguồn nhân lực. Nâng cao hiệu 
quả việc khai thác dữ liệu sơ yếu lí lịch đã được lưu trữ chưa được chuẩn hóa là 
mang tính tích cực, rất có ý nghĩa phục vụ công tác. Các mô hình đưa ra minh 
chứng ở đây minh họa một số đặc điểm mà phương pháp thống kê thông thường 
cũng như các báo cáo mẫu đưa ra được xây dựng theo phương pháp thông không 
thể làm được cũng như tính ưu việt thể hiện trong đặc tính hỗ trợ quyết định của 
công cụ và phương pháp. Qua mô hình phần thực nghiệm thấy được nhiều đặc 
tính hỗ trợ cho việc phân tích trực tuyến, tính trực quan của mô hình, đặc tính 
giám sát công việc, hoạch định mô hình tổ chức, nâng cao chất lượng cho quy 
trình quyết định... Sử dụng phân lớp dữ liệu dựa trên cây quyết định để dự đoán 
các thông tin quan trọng của 1 hồ sơ nhân sự là cơ sở đánh giá. 
Về mặt nghiên cứu công cụ, phân lớp dữ liệu nhân sự dựa trên quyết định 
và sử dụng công cụ Analysis Service của Microsoft đã khám phá ra thuộc tính 
ẩn trong dữ liệu và đáp ứng được yêu cầu phân tích trên dữ liệu nhân sự luôn 
tăng trưởng ,thay đổi thường xuyên phù hợp cho việc triển khai áp dụng việc 
phân tích, xây dựng mô hình(giảm thời gian công sức chuẩn bị dữ liệu xây dựng 
mô hình phân lớp). 
Hướng mở của luận văn là dữ liệu hồ sơ nhân sự hiện có đang ở giai đoạn 
sơ khởi nhưng kết quả minh họa cho thấy tính hữu dụng của phương pháp áp 
dụng và cũng đặt ra một giải pháp phân tích hỗ trợ cho những bộ dữ liệu nghiệp 
vụ khác. Luận văn đã đề xuất một mô hình tổng thể áp dụng công nghệ thông tin 
cho quản lý nguồn nhân lực cho cơ quan hải quan với những chức năng cần có 
dựa trên quan điểm xây dựng về quản lý nguồn nhân lực và khảo sát yêu cầu 
hướng tới của việc khai thác dữ liệu hồ sơ nhân sự hiện có. Hình thành chức 
năng khai thác phân tích thống kê và những kết quả hỗ trợ từ công nghệ khai 
phá dữ liệu. Vì đề xuất đưa ra phụ thuộc quá nhiều vào việc xây dựng các hệ 
thống thông tin quản lý nguồn nhân lực, dữ liệu hồ sơ lý lịch nhân sự hiện có 
còn chưa đủ thông tin nên nghiên cứu của Luận văn chỉ đưa ra nghiên cứu giải 
pháp khai thác dữ liệu mới minh chứng tính hiệu quả để phục vụ phân tích đánh 
 - 82 -
giá một số công việc cần thiết của công tác quản lý nguồn nhân lực. Mong muốn 
hướng phát triển tiếp theo của đề tài được phát triển xây dựng chuẩn hóa kho dữ 
liệu quản lý nguồn nhân lực, hoàn thiện những đề xuất đã đưa ra nhằm giải 
quyết vấn đề bức bối chưa giải quyết được trong công tác quản lý nguồn nhân 
lực hiện nay. 
 X	W 
 - 83 -
TÀI LIỆU THAM KHẢO 
Tiếng Việt 
[1] Hà Quang Thụy, “Bài giảng cao học môn học Khai phá web”, Trường Đại 
học Công nghệ, 2007. 
[2] Quyết định số: 14/2006/QĐ-BNV ngày 06/11/2006 của Bộ trưởng Bộ Nội 
vụ về việc ban hành quy chế quản lý hồ sơ cán bộ, công chức 
[3] Học viện bưu chính viễn thông, “Ứng dụng các kỹ thuật khai phá dữ liệu 
vào lĩnh vực viễn thông” 
[4] “Pháp lệnh cán bộ công chức” - 2003 
[5] “Tạp chí Tổ chức nhà nước” số tháng 1+2/2008, bài 21 trang 65 
Tiếng Anh 
[6] Jiawei Han, Micheline Kamber. “Datamining- Concept and Techniques”, 
Chapter 7-Classification and Prediction - Morgan Kaufman Publishers, 
2001 
[7] Wikinews: U.S. Army intelligence detection of 9/11 terrorists before attack 
[8] C.Heckerman-Decision trees (classification/regression): 
[9] msdn.microsoft.com (search “data mining”) 
[10]  
 - 84 -
PHỤ LỤC 1: MÔ TẢ BẢNG DỮ LIỆU SỬ DỤNG 
Stt Tên trường Kiểu dữ liệu Ý nghĩa 
1 Key_emp Int(số) Khóa chính của bảng 
2 E_CODE varchar(chữ) Mã cán bộ 
3 E_NAME_NAME varchar(chữ) Tên cán bộ 
4 BIRTH_DATE_YEAR datetime(ngày) Năm sinh 
5 BIRTH_PLACE_TINH varchar(chữ) Nơi sinh 
6 SEX varchar(chữ) Giới tính 
7 STA_CODE varchar(chữ) Mã ngạch 
8 
RECR_CODE_TINH varchar(chữ) 
Tên tỉnh trụ sở làm 
việc 
9 INST_CODE numeric(số) Mã đơn vị công tác 
10 POSITION_CLASS varchar(chữ) Lớp chức vụ 
11 ID_CARD varchar(chữ) Số chứng minh 
12 PER_ADDRESS_TINH Tên tỉnh của chỗ ở 
13 EDU_CODE numeric(số) Mã đào tạo 
14 DATE_COMING_YEAR int(số) Năm vào ngành 
15 RPOS_DATE_YEAR int(số) Năm vào đảng 
16 
INV_TYPE varchar(chữ) 
Mã tham chiếu->nhóm 
máu 
17 HEA_CON_CLASS varchar(chữ) Phân lớp sức khỏe 
18 
LEA_ALW_COEF numeric(số) 
 Hệ số phụ cấp lãnh 
đạo 
19 HOME_PLACE_TINH varchar(chữ) Tên tỉnh của quê quán 
20 
CODE_PARENT varchar(chữ) 
 Mã tham chiếu->Mã 
đơn vị cấp trên 
21 CURR_WORK Varchar(số) Tên công việc hiện tại 
22 OFFI_REC_YEAR datetime(ngày) Ngày vào ngành 
23 
ABILITY_OTHER_CLASS varchar(chữ) 
Phân lớp chứng chỉ 
khác 
24 
DES_LIM_CODE2_CLASS int(số) 
Phân lớp Chuyên 
ngành đào tạo 
25 
EDU_NV int(số) 
Có chứng chỉ đào tạo 
nghiệp vụ 
26 
Class_Edu Int(số) 
Phân lớp:0 chưa đào 
tạo quản lý nhà nước; 
1 là đã đi đào tạo 
27 
Class Int(số) 
Phân lớp chức vụ lãnh 
đạo cấp phòng trở lên 
 - 85 -
PHỤ LỤC 2: THÔNG TIN VỀ QUẢN LÝ QUÁ TRÌNH CÁ 
NHÂN CỦA CHỨC NĂNG HỒ SƠ HIỆN TẠI 
Quá trình công tác 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu quá trình công tác tại đơn vị công tác 
(MM/YYYY) 
Đến ngày Ngày kết thúc quá trình công tác tại đơn vị công tác 
(MM/YYYY) 
Đơn vị công tác Đơn vị công tác trong khoảng thời gian Từ ngày - Đến 
ngày (có thể tự gõ khi đơn vị công tác nằm ngoài hệ 
thống hoặc chọn từ danh sách chọn bằng cách ấn F9 khi 
đơn vị công tác nằm trong hệ thống quản lý) 
Ngành Tự cập nhật khi đơn vị công tác nằm trong hệ thống 
quản lý hoặc là Null khi đơn vị nằm ngoài hệ thống (có 
thể chọn từ danh sách chọn bằng cách ấn F9) 
Chức vụ Mã chức vụ thực tế theo khối (có thể chọn từ danh sách 
chọn bằng cách ấn F9) 
Công việc Mô tả các công việc đảm nhiệm trong quá trình công 
tác 
Hình thức tuyển 
dụng 
Hình thức tuyển dụng vào cơ quan (có thể chọn từ danh 
sách chọn bằng cách ấn F9) 
Sự nghiệp Sự nghiệp được chọn theo đơn vị công tác của cán bộ 
(có thể chọn từ danh sách chọn bằng cách ấn F9) 
Số quyết định Lưu trữ số quyết định công tác của cán bộ 
Quá trình công việc 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu công việc (MM/YYYY) 
Đến ngày Ngày kết thúc công việc (MM/YYYY) 
Công việc đảm 
nhiệm 
ông việc chuyên ngành đảm nhiệm trong khoảng thời 
gian Từ ngày - Đến ngày dựa theo Ngành trong quá 
trình công tác (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Quá trình công tác nước ngoài 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu đi công tác (MM/YYYY) 
Đến ngày Ngày kết thúc chuyến công tác (MM/YYYY) 
Quốc gia công tác Quốc gia đến công tác (có thể chọn từ danh sách chọn 
bằng cách ấn F9) 
Hình thức công tác Hình thức đi nước ngoài (có thể chọn từ danh sách 
chọn bằng cách ấn F9) 
Lý do Lý do đi công tác (ví dụ như đi học, hội thảo…) 
Loại hộ chiếu Chọn từ danh sách chọn với ba loại: PT-Phổ thông, 
CV-Công vụ, NG-Ngoại giao 
 - 86 -
Tên thông tin Giá trị 
Đơn vị tổ chức Đơn vị tổ chức chuyến đi công tác 
Quá trình tham gia Đảng 
Tên thông tin Giá trị 
Ngày vào Đảng Ngày vào Đảng (DD/MM/YYYY) 
Ngày chính thức vào 
Đảng 
Ngày chính thức vào Đảng (DD/MM/YYYY) 
Ngày ra Ngày ra khỏi Đảng hoặc bị khai trừ (DD/MM/YYYY) 
Nơi vào Đảng Nơi kết nạp Đảng 
Số thẻ Đảng Số thẻ Đảng viên 
Ngày cấp thẻ Ngày cấp thẻ Đảng (DD/MM/YYYY) 
Tại Đảng bộ Đảng bộ cấp thẻ Đảng 
Quá trình chức vụ Đảng 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu chức vụ Đảng (MM/YYYY) 
Đến ngày Ngày kết thúc chức vụ Đảng (MM/YYYY) 
Chức vụ Đảng Chức vụ Đảng (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Đảng bộ Đảng bộ nơi sinh hoạt 
Quá trình lương 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu hưởng mức lương (MM/YYYY) 
Đến ngày Ngày kết thúc hưởng mức lương (MM/YYYY). Thông 
tin này sẽ tự cập nhật khi nhập quá trình lương mới sao 
cho các quá trình lương là liên tiếp 
Ngạch công chức Ngạch công chức (có thể chọn từ danh sách chọn bằng 
cách ấn F9 hoặc nhập trực tiếp) 
Bậc lương Bậc lương tương ứng với ngạch công chức (chỉ xác 
định khi Ngạch công chức được chọn từ danh sách 
chọn) 
Hệ số lương Hệ số lương tương ứng với Ngạch công chức và Bậc 
lương 
Phần trăm hưởng Phần trăm hưởng lương (mặc định là 100%). Giá trị của 
trường này nhỏ hơn 100% khi tập sự và lớn hơn 100% 
khi vượt khung 
Ngày xét NL sau Ngày xét nâng lương lần sau (DD/MM/YYYY). Mặc 
định bằng ngày bắt đầu hưởng mức lương 
Quá trình phụ cấp chức vụ 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu hưởng phụ cấp chức vụ (MM/YYYY) 
Đến ngày Ngày kết thúc hưởng phụ cấp chức vụ (MM/YYYY) 
Chức vụ Chức vụ thực tế theo khối (có thể chọn từ danh sách 
chọn bằng cách ấn F9) 
Hệ số Hệ số phụ cấp chức vụ 
 - 87 -
Quá trình phụ cấp khác 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu hưởng phụ cấp (MM/YYYY) 
Đến ngày Ngày kết thúc hưởng phụ cấp (MM/YYYY) 
Loại phụ cấp Loại phụ cấp được hưởng (có thể chọn từ danh sách 
chọn bằng cách ấn F9) 
Cách tính Chọn cách tính từ danh sách chọn (theo 4 cách) 
Hệ số Hệ số hưởng phụ cấp 
Thành tiền Số tiền phụ cấp thực hưởng (tự cập nhật theo Cách tính 
đã chọn hoặc tự nhập) 
Chuyên môn - Nghiệp vụ, Tin học - Ngoại ngữ 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu quá trình đào tạo (MM/YYYY) 
Đến ngày Ngày kết thúc quá trình đào tạo (MM/YYYY) 
Chuyên ngành Ngành nghề đào tạo (có thể chọn từ danh sách chọn 
bằng cách ấn F9 hoặc tự nhập) 
Văn bằng Loại văn bằng (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Hạng Hạng văn bằng (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Ngày – Số VB Ngày cấp bằng và số của văn bằng được cấp 
Hình thức Hình thức đào tạo (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Nơi đào tạo Nơi đào tạo (có thể chọn từ danh sách chọn bằng cách 
ấn F9) 
Quốc gia Quốc gia nơi đào tạo (có thể chọn từ danh sách chọn 
bằng cách ấn F9). Mặc định là Việt Nam 
Lý luận chính trị - Quản lý nhà nước - Quản lý kinh tế 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu quá trình đào tạo (MM/YYYY) 
Đến ngày Ngày kết thúc quá trình đào tạo (MM/YYYY) 
Văn bằng Loại văn bằng (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Hạng Hạng văn bằng (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Ngày – Số VB Ngày cấp bằng và số của văn bằng được cấp 
Hình thức Hình thức đào tạo (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Nơi đào tạo Nơi đào tạo (có thể chọn từ danh sách chọn bằng cách 
ấn F9) 
Quốc gia Quốc gia nơi đào tạo (có thể chọn từ danh sách chọn 
bằng cách ấn F9). Mặc định là Việt Nam 
Quá trình danh hiệu, hoc hàm 
Tên thông tin Giá trị 
 - 88 -
Từ ngày Ngày bắt đầu được nhận danh hiệu hoặc học hàm 
(MM/YYYY) 
Danh hiệu, học hàm Danh hiệu, học hàm được nhận (có thể chọn từ danh 
sách chọn bằng cách ấn F9) 
Quá trình khen thưởng 
Tên thông tin Giá trị 
Năm Năm khen thưởng (YYYY) 
Hình thức khen 
thưởng 
Hình thức khen thưởng (có thể chọn từ danh sách chọn 
bằng cách ấn F9) 
Lý do Lý do khen thưởng 
Số quyết định Số của quyết định khen thưởng 
Đơn vị khen thưởng Đơn vị ký quyết định khen thưởng 
Cấp khen thưởng Cấp khen thưởng (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Quá trình kỷ luật 
Tên thông tin Giá trị 
Từ ngày Ngày bắt đầu nhận hình thức kỷ luật (MM/YYYY) 
Đến ngày Ngày kết thúc nhận hình thức kỷ luật (MM/YYYY) 
Hình thức kỷ luật Hình thức kỷ luật (có thể chọn từ danh sách chọn bằng 
cách ấn F9) 
Lý do Lý do kỷ luật (có thể chọn từ danh sách chọn bằng cách 
ấn F9) 
Số quyết định Số của quyết định kỷ luật 
Đơn vị kỷ luật Đơn vị ký quyết định kỷ luật 
Cấp kỷ luật Cấp kỷ luật (có thể chọn từ danh sách chọn bằng cách 
ấn F9) 
Quan hệ gia đình 
Tên thông tin Giá trị 
Quan hệ Loại quan hệ gia đình (có thể chọn từ danh sách chọn 
bằng cách ấn F9) 
Họ và tên Họ và tên người có quan hệ với công chức 
Năm sinh Năm sinh của người có quan hệ với công chức (YYYY)
Công việc Mô tả công việc của người có quan hệ với công chức 
Nơi ở Nơi ở của người có quan hệ với công chức 
Tình trạng Tình trạng của người có quan hệ với công chức 
Đánh giá hàng năm 
Tên thông tin Giá trị 
Năm Năm đánh giá (YYYY) 
Kết quả Kết quả đánh giá được chọn từ danh sách chọn 
Ghi chú Ghi chú 
            Các file đính kèm theo tài liệu này:
MSc08_Pham_Duc_Chien_Thesis.pdf