Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ
cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng
viên xuất sắc để tham gia các đội tuyển tin học, cấp học bổng nhằm khuyến khích họ nỗ
lực hơn nữa trong học tập, hoặc việc xác định các sinh viên có năng lực yếu kém để có
những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn.
Bài viết này đã giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế
hoạch học tập sử dụng các phương pháp trong khai phá dữ liệu. Trong đó, nhóm nghiên
cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng
Bayes và cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật
cá nhân hóa như Biased Matrix Factorization trong dự đoán kết quả học tập cho từng cá
nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của họ. Thực nghiệm
từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả
học tập của sinh viên là khả thi và hoàn toàn có thể triển khai trong thực tế.
Kết hợp cả thông tin nhân khẩu học (demographic information) và thông tin tương tác
(collaborative information) giữa sinh viên và môn học hay việc thu thập thêm những
thông tin khác (như số giờ lướt web/mạng xã hội hàng ngày, tình trạng kinh tế gia đình,.)
có thể sẽ làm tăng thêm độ chính xác của mô hình dự đoán. Những công việc này sẽ được
thực hiện trong tương
18 trang |
Chia sẻ: huongthu9 | Lượt xem: 624 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh
viên lập kế hoạch học tập
Nguyễn Thái Nghe
Khoa Công nghệ thông tin và Truyền thông
Trường Đại học Cần Thơ
ntnghe@cit.ctu.edu.vn
Tóm tắt
Dự đoán kết quả học tập của sinh viên một các chính xác nhằm phát hiện sớm các sinh
viên yếu kém để giúp họ lập kế hoạch học tập phù hợp là một nhu cầu cần thiết ở các
trường đại học, đặc biệt là trong công tác tư vấn, cố vấn học tập. Trong bài viết này,
chúng tôi sẽ giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế
hoạch học tập thông qua việc sử dụng các phương pháp dự đoán trong khai phá dữ liệu.
Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá
nhân hóa như mạng Bayes và Cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến
việc sử dụng giải thuật cá nhân hóa – lấy ý tưởng từ các kỹ thuật trong hệ thống gợi ý -
như kỹ thuật phân rã ma trận thiên vị (Biased Matrix Factorization) nhằm dự đoán kết
quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng
lực của từng cá nhân. Kết quả từ các nghiên cứu này đã cho thấy sử dụng phương pháp
máy học trong dự đoán kết quả học tập của sinh viên là khả thi và có thể ứng dụng trong
thực tế tại các trường đại học.
Từ khóa: Dự đoán kết quả học tập, lựa chọn môn học, lập kế hoạch học tập, cây quyết
định, kỹ thuật phân rã ma trận
1. Giới thiệu
Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ
cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng
viên xuất sắc để tham gia các đội tuyển tin học, hoặc cấp học bổng nhằm khuyến khích
họ nỗ lực hơn nữa trong học tập, hay việc xác định các sinh viên có năng lực yếu kém để
có những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn.
Thời gian gần đây, số lượng sinh viên bị buộc thôi học có chiều hướng tăng ở nhiều
trường đại học (chẳng hạn như tại Đại học Cần Thơ, hàng năm có trên dưới 150 sinh viên
thuộc diện buộc thôi học do kết quả học tập yếu kém [13]) và thường tập trung vào những
sinh viên học năm thứ ba và năm thứ tư. Một phần nguyên nhân là do sinh viên không có
kế hoạch học tập phù hợp. Hiện tượng này đã gây tổn thất lớn cho bản thân sinh viên, gia
đình và toàn xã hội. Chính vì thế việc phát hiện sớm các học viên yếu kém để giúp họ lập
kế hoạch học tập sao cho phù hợp là một nhu cầu rất cần thiết.
Bên cạnh đó, phần lớn các trường đại học đã triển khai theo học chế tín chỉ nên các sinh
viên thường bị lúng túng khi lựa chọn môn học do có nhiều môn được giảng dạy trong
một học kỳ. Khi đó, bên cạnh khả năng tự tìm hiểu thì sinh viên sẽ cần đến sự trợ giúp
của giáo viên cố vấn. Tuy vậy, bên cạnh kinh nghiệm của mình thì giáo viên cố vấn sẽ
phải tra cứu kết quả học tập của từng sinh viên để trợ giúp tuỳ theo năng lực của mỗi em,
do đó khá tốn thời gian và công sức. Vấn đề đặt ra là làm sao để sử dụng nguồn dữ liệu
điểm sinh viên để khai thác, phân tích và đưa ra đánh giá/dự đoán để có thể gợi ý cho
sinh viên chọn môn học một cách hiệu quả và tự động thông qua hệ thống.
Bài viết này sẽ tóm lược lại một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập
kế hoạch học tập bằng cách sử dụng các phương pháp trong khai phá dữ liệu mà tác giả
và các cộng sự đã thực hiện. Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử
dụng các giải thuật không cá nhân hóa như mạng Bayes và Cây quyết định; nhóm nghiên
cứu thứ hai liên quan đến sử dụng kỹ thuật cá nhân hóa như phân rã ma trận thiên vị
(Biased Matrix Factorization) để dự đoán kết quả học tập cho từng sinh viên, từ đó hỗ trợ
(gợi ý) lựa chọn môn học phù hợp với năng lực của từng sinh viên. Thực nghiệm từ các
nghiên cứu này đã cho thấy cách tiếp cận máy học trong dự đoán kết quả học tập của sinh
viên là rất khả thi.
2. Tiếp cận không cá nhân hoá trong dự đoán kết quả học tập (Non-personalized
approach)
Nhóm nghiên cứu của (Nguyễn Thái Nghe và các cộng sự, 2007, 2009, 2010) đã đề xuất
sử dụng thông tin nhân khẩu học thu thập từ hồ sơ đầu vào của sinh viên như độ tuổi, giới
tính, ngành học, trình độ ngoại ngữ,và điểm trung bình tích lũy (GPA) của học kỳ
trước để dự đoán kết quả cho học kỳ sau. Việc dự đoán trước kết quả này góp phần hỗ trợ
các sinh viên trong diện cảnh báo học vụ (do trong quy chế ở các trường, nếu một sinh
viên trong hai học kỳ liên tiếp đạt kết quả yếu sẽ bị buộc thôi học). Để thực hiện việc dự
đoán, nhóm tác giả đã sử dụng hai giải thuật là Cây quyết định và mạng Bayes, từ đó so
sánh độ chính xác của hai kỹ thuật này.
Nghiên cứu trên đã đưa ra một số đóng góp quan trọng. Thứ nhất, kết quả mà đề tài thực
hiện đã cung cấp một cái nhìn sâu hơn trong toàn bộ quy trình ứng dụng khai phá dữ liệu
vào thực tế, bao gồm cả những phương pháp trong việc điều chỉnh tập dữ liệu đầu vào
(như rời rạc hoá, chuẩn hoá,..) và cải thiện độ chính xác của các giải thuật trong dự đoán.
Thứ hai, các kết quả từ hai tình huống đã cho thấy rằng giải thuật Cây quyết định cho kết
quả chính xác hơn giải thuật mạng Bayes trong vấn đề dự đoán kết quả học tập trên hai
tập dữ liệu mà nhóm tác giả đã thu thập được (thử nghiệm trên công cụ mã nguồn mở
Weka -
Tương tự như những bài toán khác trong khai phá dữ liệu, việc xây dựng hệ thống dự
đoán kết quả học tập cũng được thực hiện dựa trên quy trình chuẩn của khai phá dữ liệu,
có tên là CRISP-DM (CRoss Industry Standard Process for Data Mining). Quy trình này
bao gồm sáu giai đoạn gần tương tự như mô hình thác đổ trong phân tích và thiết kế hệ
thống thông tin, bao gồm: Tìm hiểu vấn đề, tìm hiểu dữ liệu, chuẩn bị dữ liệu, mô hình
hóa, đánh giá mô hình, và triển khai ứng dụng. Các giai đoạn này như được trình bày
dưới đây cho vấn đề dự đoán kết quả học tập.
2.1. Tìm hiểu vấn đề (Business understanding)
Như mục tiêu ban đầu, vấn đề chính cần giải quyết ở đây là việc dự đoán kết quả học tập
ở một học kỳ nào đó dựa trên các thông tin nhân khẩu học (độ tuổi, giới tính, trình độ anh
văn,...) và kết quả học tập của học kỳ trước đó nhằm giúp cho sinh viên có thể tự đánh giá
được năng lực của mình để có kế hoạch học tập cho phù hợp, và đồng thời cũng giúp cho
các giáo viên Cố vấn học tập “cảnh báo” sớm đến các sinh viên đạt kết quả thấp.
2.2. Tìm hiểu dữ liệu và chuẩn bị dữ liệu (Data understanding and Preparation)
Để có được tập dữ liệu cho mô hình dự đoán, nhóm tác giả ([10][22] ) đã tìm hiểu và thu
thập dữ liệu từ hệ thống thực tế của trường Đại học Cần Thơ, từ đó tiến hành tiền xử lý
dữ liệu. Sơ đồ thực thể kết hợp (ERD) trong hình dưới đây trình bày một phần của hệ
thống thông tin quản lý sinh viên trích ra từ hệ thống quản lý tại trường đại học Cần Thơ.
Hình 1. Một phần của mô hình ERD trong hệ thống quản lý sinh viên
Sau khi thu thập dữ liệu, nhóm tác giả đã tiền xử lý bằng cách loại bỏ các giá trị dư thừa
và thiếu (missing), số lượng mẫu tin (mỗi mẫu tin tương ứng với một sinh viên) còn lại là
20492 mẫu tin.
Một vấn đề là trong tập dữ liệu thu thập được có rất nhiều thuộc tính, nên câu hỏi đặt ra là
thuộc tính nào ảnh hưởng lớn nhất đến kết quả dự đoán? Làm sao để lựa chọn các thuộc
tính đó? Để trả lời các câu hỏi này, nhóm nghiên cứu đã dùng phương pháp lựa chọn
thuộc tính (feature selection).
Thật tiện lợi là trong công cụ WEKA đã có hỗ trợ rất nhiều phương pháp giúp lựa chọn
thuộc tính. Ở đây các tác giả đã sử dụng phương pháp lựa chọn thuộc tính thông qua đánh
giá độ lợi thông tin của từng thuộc tính “Information Gain Attribute Evaluation”, từ đó
xếp hạng của chúng (ranked attribute) theo thứ tự giảm dần và loại bỏ các thuộc tính mà
độ lợi thông tin của nó quá thấp (có thể lựa chọn một ngưỡng nào đó)
Ví dụ để dự đoán kết quả của học kỳ 5, sau khi xác định độ lợi thông tin của các thuộc
tính quan trọng ảnh hưởng đến kết quả dự đoán, ta loại bỏ các thuộc tính không dùng đến,
14 thuộc tính quan trọng còn lại được dùng cho việc dự đoán, mô tả trong bảng dưới đây.
Bảng 1. Mức độ quan trọng của thuộc tính
STT Thuộc tính Xếp hạng
1 CGPASem4 0.4297283
2 FOS 0.1775725
3 Faculty 0.1313937
4 Gender 0.0898935
5 Entry Mark Range 0.0398948
6 Age Range 0.0320674
7 English Skill 0.0233605
8 Policy Priority 0.0161708
9 Family Job 0.0144163
10 School Rank 0.0129788
11 Province 0.0107892
12 Area Priority 0.0048450
13 Ethnic 0.0000897
14 Religious 0.0000384
Bảng 2. Mô tả các thuộc tính
Stt Thuộc tính Mô tả
1 Gender Giới tính sinh viên
2 Age Range Độ tuổi được tính từ ngày sinh
3 School Rank
Trong dữ liệu thu thập được, Có 285 trường phổ thông trung
học mà sinh viên học trước khi vào trường đại học Cần Thơ. Vì
thế các trường học đó được sắp xếp theo các giá trị liên tục dựa
trên sự chênh lệch giữa tỷ lệ tốt nghiệp.
Tỷ lệ đó được tính như sau:
Rank = AVG(Tỷ lệ tốt nghiệp đại học ) – AVG(Tỷ lệ đầu vào
đại học ) [22]
Giá trị rank từ 1 đến 10 {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
4 Policy Priority
Mỗi sinh viên thuộc một diện chính sách, được ấn định bởi bộ
giáo dục. vài chính sách được cộng điểm khi sinh viên thi đại
học. Chúng ta kết hợp các giá trị này là Yes, còn lại là No
5 Area Priority
Phân vùng chính sách của sinh viên. Ví dụ sinh viên sống ở
nông thôn hay thành thị
6 Province 15 tỉnh trong vùng Đồng bằng sông Cửu Long. Các tỉnh khác có số lượng sinh viên ít được phân vào lớp “Others”
7 Ethnicity Có 54 dân tộc trong nước Việt Nam, nhưng đa số là dan tộc KINH, vì thế ta dùng lớp “OTHERS” cho 53 dân tộc còn lại.
8 Religious Chỉ ra xem sinh viên có thuộc tôn giáo nào hay không
9 Entry Mark Điểm thi đậu vào đại học của sinh viên (không dưới 5)
10 Family Job Thành phần gia đình của sinh viên. Hầu hết sinh viên thuộc thành phần “Nông dân”
11 FOS Ngành học của sinh viên tại tường đại học Cần Thơ
12 Faculty Mỗi sinh viên thuộc một khoa
13 English Skill
Trình độ Anh Văn có 4 giá trị: “A”: Trình độ A; “B”: Trình độ
B; “C”: Trình độ C; “N”: Chưa có bằng ngoại ngữ
14
GPA of
Previous
Semester
Điểm trung bình của học kỳ trước
2.3. Mô hình hóa (Modelling)
Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mô hình hoá cho việc dự đoán. Trong phần
này sẽ trình bày việc xây dựng mô hình bao gồm các kỹ thuật sử dụng, các biến đầu vào
và biến dự đoán (target attribute)
Bảng 3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả học
tập. Ở đây nhóm tác giả đã sử dụng cả hai dạng là phân lớp (cho dự đoán điểm chữ như
A, B+ hay VeryGood, Good,..) và hồi quy (cho dự đoán điểm số, như 3.25, 3.15,..).
Bảng 3. Giải thuật và các thuộc tính sử dụng cho hệ thống
Vấn đề Giải thuật Biến input/output
Đầu vào:
• Gender
Dự đoán kết
quả của sinh
viên dựa trên
thông tin của
họ và kết quả
trước đây
- Cây quyết định/ Mạng Bayes cho dự
đoán kết quả dạng điểm chữ (Good,
Fair,..)
- Mô hình hồi qui cho dự đoán dạng
điểm số (3.25, 1.2,..)
• Age Range
• Ethniccity
• Province
• Family Job
• Religious
• School Rank
• Field of Study
• Faculty
• English Skill
• Policy Priority
• Area Priority
• GPA học kỳ trước
Dự đoán:
• GPA học kỳ tiếp
theo
2.4. Đánh giá mô hình (Evaluation)
Sau khi mô hình hóa, việc đánh giá độ tin cậy của các mô hình sẽ được thực hiện, gồm cả
thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm tra mô hình sao
cho đạt kết quả chính xác nhất. Bảng 4 trình bày kết quả đánh giá mô hình trên cây quyết
định và mạng Bayes, sử dụng phương pháp kiểm tra chéo 10 đường (10–folds cross
validation).
Bảng 4. Độ chính xác của các mô hình dự đoán
Các lớp của thuộc tính cần dự đoán (GPA
học kỳ 5) Kỹ thuật Độ chính xác
4 classes: {Fail, Fair, Good, Very Good}
Cây quyết định 66.69%
Mạng Bayes 61.32%
3 classes: {Fail, Good, Very Good}
Cây quyết định 84.18%
Mạng Bayes 78.57%
2 classes: {Fail, Pass}
Cây quyết định 92.86%
Mạng Bayes 89.75%
Ở đây, nhóm tác giả đã chia thuộc tính cần dự đoán thành 3 tập khác nhau : Dự đoán cho
2 lớp {Fail, Pass} nhằm để xác định 1 sinh viên có thuộc diện cảnh báo hay không, Fail
tương ứng với điểm GPA < 1.0 theo thang điểm 4 và Pass là ngược lại. Tương tự, để mở
rộng đối tượng dự đoán nhằm xác định các sinh viên khá giỏi, nhóm tác giả đã chia dữ
liệu thêm 2 tập khác là 3 lớp và 4 lớp như trong bảng. Do số lượng sinh viên xuất xắc là
rất ít nên được gom chung với nhóm giỏi.
Với kết quả dự đoán trên, cây quyết định đã cho độ chính xác cao hơn mạng Bayes và đạt
độ chính xác khá cao, ở mức 92.86%.
Bảng 5 và Bảng 6 trình bày kết quả chi tiết của ma trận nhầm lẫn (confusion matrix) trên
kết quả dự đoán 4 lớp và 2 lớp. Từ kết quả này ta thấy trong trường hợp dự đoán 2 lớp,
do dữ liệu mất cân bằng nên việc đoán nhầm từ rớt thành đạt xảy ra khá nhiều. Để khắc
phụ trường hợp này, người ta phải cần đến các kỹ thuật xử lý dữ liệu mất cân bằng, như
trình bày trong các nghiên cứu trước đây của cùng nhóm tác giả [14][21][24].
Bảng 5. Confusion matrix trên kết quả dự đoán 4 lớp
Actual Class
Predicted Class
Fail Fair Good Very Good
Fail 534 890 134 7
Fair 360 3499 1888 12
Good 30 1519 7701 515
Very Good 1 15 1135 1290
% Hit 34 % 61 % 79 % 53 %
Bảng 6. Confusion matrix trên kết quả dự đoán 2 lớp
Hình 2 biểu diễn phân tích AUC khi sử dụng cây quyết định cho dự đóan 4 lớp. Giá trị
của AUC=1 thì mô hình được xem là lý tưởng, tuy nhiên rất khó để đạt giá trị đó. Khi
AUC>0.8 mô hình đã được xem là rất tốt. Kết quả của nghiên cứu này AUC đạt 0.877.
Actual Class
Predicted Class
Fail Pass
Fail 471 1094
Pass 300 17665
% Hit 30 % 98 %
Hình 2. Kết quả phân tích AUC
Khi dự đoán các giá trị kiểu số (bài toán hồi quy), để đánh giá mô hình chúng ta sử dụng
phép đo là lỗi (error) thay vì độ chính xác hay AUC. Có nhiều phương pháp đo lỗi cho
đánh giá, nhưng trong nghiên cứu này nhóm tác giả sử dụng hệ số tương quan
(correlation coefficient) và độ sai lệch trung bình tuyệt đối (Mean Absolute Error) để
đánh giá mô hình. Hệ số correlation coefficient càng cao thì mô hình càng chính xác. Kết
quả cho thấy hệ số tương quan đạt 0.833 trong khi MAE đạt 0.688. Như vậy, độ sai số
khi dự đoán trung bình là ±0.688 (thang điểm 10). Kết quả minh họa cho việc dự đoán
như trình bày trong Hình 4.
2.5. Triển khai (Deployment)
Hình sau mô tả cấu trúc tổng quát của hệ thống hỗ trợ dự đoán kết quả học tập trên nền
web. Công nghệ được sử dụng là JSP hoặc Servlet với sự hỗ trợ của thư viện Weka.
Hình 3. Mô hình tổng quan cho hệ thống
Hình 4. Giao diện minh họa hệ thống dự đoán kết quả học tập
Nếu chỉ xác định một sinh viên nào đó là thuộc diện cảnh báo (fail) hay không (pass) để
có kế hoạch phù hợp giúp hạn chế vấn đề cảnh báo học vụ và buộc thôi học thì các kỹ
thuật đã trình bày cho kết quả chính xác khá tốt (92.86% trong trường hợp sử dụng cây
quyết định). Tuy nhiên kết quả này chưa thật sự thuyết phục do mô hình dự đoán xem các
sinh viên là như nhau, tức không cá nhân hóa cho từng sinh viên. Thực tế cho thấy năng
lực của mỗi người học là khác nhau nên không thể đem một mô hình chung gồm cả sinh
viên học giỏi để dự đoán kết quả cho những sinh viên học yếu [23], vì thế nhóm tác giả
đã đưa ra hướng khắc phục bằng cách sử dụng kỹ thuật cá nhân hóa để xây dựng mô hình
dự đoán cho từng sinh viên [4][5][13] như mô tả chi tiết trong phần tiếp theo.
3. Tiếp cận cá nhân hóa (Personalized approach)
Trong tiếp cận này, nhóm tác giả (Huỳnh Lý Thanh Nhàn và Nguyễn Thái Nghe, 2013a,
2013b; Nguyễn Thái Nghe và các cộng sự, 2011, 2009) đã đề xuất sử dụng kỹ thuật phân
rã ma trận thiên vị (biased matrix factorization - BMF) trong hệ thống gợi ý để dự đoán
kết quả học tập của sinh viên. Ở đó, mỗi sinh viên được xem như là người dùng (user),
Kết quả sau dự đoán dạng số
(thang điểm 10)
môn học được xem như là mục thông tin (item), và kết quả học tập được xem như là đánh
giá (rating) trong hệ thống gợi ý.
Tuy vậy, khác với những nghiên cứu trước là dự đoán kết quả cho cả học kỳ (điểm GPA),
trong những nghiên cứu này, nhóm tác giả thực hiện việc dự đoán kết quả cho từng môn
học và chỉ dựa trên thông tin tương tác (collaboration) giữa sinh viên và môn học mà
không dùng đến các thông tin nhân khẩu học (mặc dù vậy, kỹ thuật này hoàn toàn có thể
dùng để dự đoán kết quả cho từng học kỳ như những nghiên cứu trước đây). Sau đây bài
viết sẽ trình bày tóm tắt lại phương pháp cá nhân hóa trong dự đoán kết quả học tập.
Tương tự trong hệ thống gợi ý, dữ liệu kết quả học tập được trình bày trong một ma trận.
Ví dụ, có năm sinh viên: sv1, sv2, sv3, sv4 và sv5 học các môn môn1, môn2,... môn n,
môn n1, môn n2, môn n3 như minh họa trong Hình 5. Ở đó, mỗi ô trong ma trận chứa số
điểm của sinh viên học môn học tương ứng, những sinh viên chưa học môn nào thì sẽ
điền giá trị ô đó bởi dấu chấm hỏi “?”.
Bằng kỹ thuật này, nhóm tác giả có thể dự đoán được tất cả các môn mà sinh viên chưa
học. Như thế bên cạnh việc dự đoán kết quả học tập, phương pháp này có thể dùng để gợi
ý các môn học tự chọn cho sinh viên. Ví dụ, trong những môn học có 3 môn tự chọn là
môn n1, môn n2, môn n3. Sinh viên cần chọn 2 môn trong 3 môn học tự chọn sao cho có
kết quả phù hợp nhất với họ. Như vậy, hệ thống cần gợi ý cho sinh viên sv5 là nên học 2
môn nào trong 3 môn: n1, n2 và n3.
Hình 5: Biểu diễn dữ liệu điểm của sinh viên
Từ những ràng buộc về số tín chỉ hay số môn học tự chọn mà sinh viên cần học trong một
học kỳ để đưa ra gợi ý phù hợp. Trở lại ví dụ trên, hệ thống cần gợi ý 2 môn học tự chọn
cho sinh viên sv5 là 2 môn: môn n1 và môn n2 do 2 môn học này có số điểm dự đoán cao
hơn môn học n3 (3 và 4 > 2).
Hình 6: Bảng điểm sau khi dự đoán và hướng gợi ý.
Hệ thống tập trung xử lý ba nhóm dữ liệu như sau: sinh viên, môn học và điểm số (User,
Item, Ratings). Về nhóm môn học (item) bao gồm những bảng dữ liệu như sau: kế hoạch
học tập mẫu theo từng học kỳ, môn học tiên quyết, môn học bắt buộc, nhóm môn tự
chọn, môn học tự chọn, ) cùng với những ràng buộc toàn vẹn. Nhóm sinh viên (user)
gồm có: sinh viên, năm học, ngành học, khóa học. Nhóm điểm số (ratings). Bên cạnh
việc xây dựng hệ thống gợi ý phù hợp theo chương trình đào tạo mà còn phải đảm bảo
phù hợp tính sư phạm.
Bên cạnh đó, để giải quyết vấn đề dữ liệu khách quan nhằm đưa ra gợi ý chính xác nhất
cho sinh viên, giảm bớt sự chênh lệch giữa những yêu cầu cao thấp khác nhau của các
môn học, cũng như giảm thiểu sự gợi ý sai lệch do nhìn nhận từ những sinh viên có sở
trường hay sở đoản đối với môn học nào đó, nhóm tác giả đã sử dụng giải thuật Matrix
Factorization [6] - là một state-of-the-art của hệ thống gợi ý hiện nay - kết hợp với các
giá trị lệch/thiên vị (bias) của sinh viên và môn học.
3.1. Thiết kế và xử lý dữ liệu
Để xây dựng hệ thống dự đoán và gợi ý, đầu tiên ta cần thiết kế một cơ sở dữ liệu để lưu
trữ dữ liệu kế hoạch học tập và điểm số của sinh viên phù hợp với đào tạo theo tín chỉ.
Theo định dạng của giải thuật BMF thì ta cần ba thành phần dữ liệu: dữ liệu người dùng
(user), dữ liệu môn học (item) và cuối cùng là dữ liệu đánh giá (ratings) - là điểm số.
Dữ liệu đánh giá (ratings) liên quan đến các bảng: MONHOC, SINHVIEN,
MATRIX_RATINGS. Đây là cũng là cấu trúc lưu trữ ma trận điểm dự đoán sau khi chạy
giải thuật BMF. Sơ đồ lớp được trình bày trong Hình 7 bên dưới.
Hình 7: Sơ đồ lớp liên quan đến dữ liệu điểm (ratings)
Sau khi thiết kế được cơ sở dữ liệu để lưu trữ, ta tiến hành xử lý dữ liệu theo định dạng
của giải thuật (bao gồm user, item, ratings).
Chuyển dữ liệu sinh viên về tập user: Do quá trình xử lý cần tiết kiệm bộ nhớ nên ta
chuyển thông tin sinh viên về dạng số đặc trưng cho một sinh viên gọi là định danh sinh
viên (ID sinh viên).
Chuyển dữ liệu môn học về tập item: Tương tự như quá trình chuyển đổi mã số sinh viên
thành số để dùng trong giải thuật BMF nên cũng cần chuyển mã môn học thành định
danh môn học (ID môn học)
Chuyển dữ liệu điểm về dạng ratings: Chuyển bảng điểm thành bảng ratings bao gồm mã
sinh viên, mã môn học và điểm (ví dụ, hệ 4).
MATRIX_RATINGS
+id_sinhvien
+id_monhoc
+diem
SINHVIEN
+id_sinhvien
+mssv
+khoa_tuyen_sinh
+lop_quan_ly
+id_nguoi_dung
MONHOC
+id_mon_hoc
+ma_mon_hoc
+ten_mon_hoc
+mon_hoc_tien_quyet
+so_tin_chi
+so_tiet_ly_thuyet
+so_tiet_thuc_hanh
3.2. Xây dựng mô hình dự đoán
Ở đây, kỹ thuật biased matrix factorization (BMF) được sử dụng để dự đoán kết quả từng
môn học của từng sinh viên. Lý do mà nhóm tác giả sử dụng BMF thay vì MF chuẩn là
có thể mô hình hoá được cho sự thiên vị (bias) của cả môn học và sinh viên. Do tính chất
đặc thù của một số môn điểm của chúng là rất cao, trong khi một số môn khác (có thể do
giáo viên chấm khó hơn) điểm là rất thấp. Bên cạnh đó, sinh viên một số ngành cũng có
kết quả học tập rất cao (như kinh tế) trong khi một số ngành khác lại thấp hơn nhiều (như
CNTT và các nhóm ngành công nghệ). Trong lĩnh vực hệ thống gợi ý BMF đã được cho
thấy nó có thể khắc phục được sự thiên vị/lệch này [6] .
BMF là một kỹ thuật trong nhóm kỹ thuật dựa trên mô hình nhân tố tiềm ẩn (latent factor
models). Phương pháp này phân rã ma trận X thành hai ma trận con sao cho có thể xây
dựng lại ma trận X từ hai ma trận con này. BMF là một cải tiến từ giải thuật Standard
Matrix Factorization [6] kết hợp với các giá trị lệch (bias) được minh họa như trong Hình
8. Trong đó dòng là danh sách sinh viên và cột là danh sách môn học, mỗi ô trong ma
trận là điểm của sinh viên học môn học tương ứng. Nếu sinh viên đã học thì điểm số sẽ
được điền vào ô trong ma trận. Nếu sinh viên chưa học, ô trong ma trận được biểu diễn
bằng dấu chấm hỏi “?”.
Hình 8: Ví dụ minh họa BMF
Mục đích của BMF là phân rã X thành 2 ma trận nhỏ hơn là W và H sao cho ta có thể xây
dựng lại X từ 2 ma trận này.
TWHX ≈
Với K là số nhân tố tìm ẩn (K<<|S|, K << |I|).
Quá trình phân rã được thực hiện bằng phương pháp tối ưu hóa hàm mục tiêu bằng kỹ
thuật stochastic gradient descent. Hàm mục tiêu của BMF được biểu diễn như sau (bạn
đọc có quan tâm xin xem chi tiết trong nghiên cứu của (Nguyễn Thái Nghe, 2013b [14]):
Trong đó, µ là giá trị trung bình toàn cục, là năng lực trung bình của tất cả các sinh viên
(s) trên tất cả các môn học (i) trong tập dữ liệu huấn luyện (p là kết quả học tập của s trên
môn học i)
Giá trị bs là độ lệch của sinh viên (là giá trị lệch trung bình của năng lực một sinh viên so
với giá trị trung bình toàn cục)
Giá trị bi là độ lệch của môn học (là giá trị lệch trung bình của yêu cầu môn học so với
giá trị trung bình toàn cục)
Giả sử sau quá trình tối ưu, ta có được W và H, khi đó kết quả của sinh viên s cho môn
học i được dự đoán qua công thức
Thông qua công thức trên, ta tiến hành dự đoán tất cả điểm số của tất cả sinh viên cho
những môn học là môn tự chọn mà sinh viên chưa có điểm môn học đó, lưu lại vào cơ sở
dữ liệu cho việc gợi ý. Với mỗi sinh viên, hệ thống sẽ kiểm tra các ràng buộc trong môn
học tự chọn và kế hoạch học tập, sau đó tiến hành gợi ý những môn có số điểm số dự
đoán cao nhất (hình bàn tay) trong nhóm tự chọn như minh họa trong Hình 9.
3.3. Đánh giá kết quả
3.3.1. Độ đo dùng để đánh giá
Có nhiều phương pháp có thể dùng để đánh giá hiệu quả của giải thuật gợi ý tùy vào từng
dạng bài toán. Do đó, khi thực hiện đánh giải thuật chúng ta cần chọn phương pháp phù
hợp.
Bài toán dự đoán kết quả học tập của sinh viên thuộc dạng dự đoán xếp hạng từ đánh giá
tường minh (rating prediction), nên có hai độ đo thường được sử dụng nhất là: Root
Mean Squared Error (RMSE) và Mean Absolute Error (MAE) được biểu diễn như dưới
đây
( )∑
∈
−=
testDpi,s,
2
sisitest pˆp|D|
1RMSE
( )∑
∈
−=
testDpi,s,
sisitest pˆp|D|
1MAE
Phương pháp RMSE sẽ thích hợp với sai số nhỏ và MAE sẽ thích hợp với sai số lớn hơn.
Hơn nữa, các giải thưởng lớn trong lĩnh vực hệ thống gợi ý đều dùng RMSE để đánh giá,
như Netflix Prize, KDD Cup 2010,.. Từ những nhận xét trên, nhóm tác giả đã chọn
phương pháp RMSE cho đánh giá hiệu quả của giải thuật BMF trong bài toán dự đoán
kết quả học tập của sinh viên.
Hình 9. Giao diện hỗ trợ lập kế hoạch học tập có gợi ý môn học
3.3.2. Dữ liệu
Tập dữ liệu dùng cho đánh giá hệ thống được thu thập trong giai đoạn 10 năm từ năm
1994 đến năm 2004 của sinh viên ngành Tin học thuộc khoa CNTT&TT trường Đại học
Cần Thơ. Tập dữ liệu bao gồm 4017 sinh viên (4017 user) và 353 môn học (353 item)
của 3 ngành học và gồm 279536 điểm chi tiết (279536 ratings). Nghi thức kiểm tra hold-
out lấy ngẫu nhiên 2/3 tập dữ liệu để học và 1/3 còn lại để kiểm tra.
3.3.3. Kết quả dự đoán
Sau khi huấn luyện tập dữ liệu điểm sinh viên như trình bày trên, kết quả độ lỗi RMSE
thu được như trong Hình 10. Ở đó Global Average, Student Average, và Item Average là
ba phương pháp nền (baseline) [14], còn Matrix Factorization là giải thuật chuẩn không
có các thành phần bias.
Từ biểu đồ so sánh cho thấy áp dụng giải thuật BMF vào bài toán dự đoán kết quả học
tập của sinh viên đạt độ lỗi RMSE thấp hơn so với các giải thuật khác.
Hình 10. Biểu đồ so sánh độ lỗi RMSE giữa các giải thuật
4. Các nghiên cứu liên quan
Khai phá dữ liệu đã được ứng dụng cho nhiều mục đích khác nhau trong giáo dục đào tạo
và hiện đang được các nhà nghiên cứu quan tâm. Hàng năm, hội thảo chuyên về khai phá
dữ liệu giáo dục (www.educationaldatamining.org) được tổ chức cũng như tạp chí
chuyên về khai phá dữ liệu giáo dục (www.educationaldatamining.org/JEDM/), mà ở đó
ta có thể tìm thấy rất nhiều bài viết chuyên sâu.
Romero et. al. cũng đã tóm tắt các công trình nghiên cứu liên quan trong lĩnh vực này
trong [28]. Delavari [3] đã trình bày một mô hình trong đó có nhiều câu hỏi nghiên cứu ở
các lĩnh vực khác nhau và các kỹ thuật khai phá dữ liệu tương ứng với từng loại câu hỏi
khi áp dụng trong giáo dục đào tạo. Chẳng hạn, [9] đã trình bày các vấn đề như dự đoán
năng lực của sinh viên, phân cụm những sinh viên có đặc điểm giống nhau, mối quan hệ
giữa từng loại sinh viên với các môn học, Luan [7] cũng đã trình bày một nghiên cứu
trong việc phân cụm các sinh viên có các đặc điểm giống nhau (“self starters” và “high
interaction”).
Bên cạnh đó, việc phân tích bằng nhiều kỹ thuật khai phá dữ liệu để dự đoán kết quả học
tập của sinh viên cũng được nghiên cứu và thực hiện [25]. Tuy nhiên những hướng tiếp
cận này thường áp dụng cho việc đánh giá năng lực học tập cho học sinh, sinh viên. Sau
khi đánh giá thì những dự đoán này mang tính chất là quy luật chung nhất, chúng không
dự đoán cho từng sinh viên cụ thể.
Một số tiếp cận trong hệ thống gợi ý đã được đề xuất để giải quyết vấn đề dự đoán năng
lực cho từng sinh viên cụ thể đã được đưa ra: Lọc cộng tác, KNN, Matrix Factorization,
để dự đoán năng lực học tập của sinh viên (Toscher and Jahrer, 2010; Koren et al., 2009;
1.240
1.197
1.032
1.013
0.913
0.90
0.95
1.00
1.05
1.10
1.15
1.20
1.25
1.30
Global
Average
Student
Average
Item
Average
Matrix
FactorizaBon
Bias
Matrix
FactorizaBon
Nguyen Thai-Nghe et al., 2011). Tuy vậy, những nghiên cứu này đa phần mới chỉ dừng
lại ở mức kiểm tra độ chính xác của giải thuật và chưa được ứng dụng để giải quyết vấn
đề thực tế.
5. Kết luận
Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ
cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng
viên xuất sắc để tham gia các đội tuyển tin học, cấp học bổng nhằm khuyến khích họ nỗ
lực hơn nữa trong học tập, hoặc việc xác định các sinh viên có năng lực yếu kém để có
những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn.
Bài viết này đã giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế
hoạch học tập sử dụng các phương pháp trong khai phá dữ liệu. Trong đó, nhóm nghiên
cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng
Bayes và cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật
cá nhân hóa như Biased Matrix Factorization trong dự đoán kết quả học tập cho từng cá
nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của họ. Thực nghiệm
từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả
học tập của sinh viên là khả thi và hoàn toàn có thể triển khai trong thực tế.
Kết hợp cả thông tin nhân khẩu học (demographic information) và thông tin tương tác
(collaborative information) giữa sinh viên và môn học hay việc thu thập thêm những
thông tin khác (như số giờ lướt web/mạng xã hội hàng ngày, tình trạng kinh tế gia đình,..)
có thể sẽ làm tăng thêm độ chính xác của mô hình dự đoán. Những công việc này sẽ được
thực hiện trong tương lai.
Tài liệu tham khảo
[1] Bekele, R. and Menzel, W. 2005. A Bayesian approach to predict performance of a student
(BAPPS): A case with Ethiopian students. Proceedings of the International Conference on
Artificial Intelligence and Applications (AIA-2005), Vienna, Austria.
[2] Bobadilla J., Ortega F., Hernando A., Gutiérrez H. 2013. Recommender systems survey.
Knowledge-Based Systems. 46 (2013) 109–132. Elsevier.
[3] Delavari N. & Beikzadeh M. R & Shirazi M. R. A. 2004. A New Model for Using Data
Mining in Higher Educational System. Proceedings of 5th International Conference on
Information Technology Based Higher Education and Training (ITHET), Istanbul, Turkey
[4] Huỳnh Lý Thanh Nhàn, Nguyễn Thái Nghe. 2013a. Hệ thống dự đoán kết quả học tập và gợi
ý lựa chọn môn học. Kỷ yếu hội thảo quốc gia lần thứ XVI: Một số vấn đề chọc lọc của
CNTT&TT (@2013), trang 110-118. Nhà xuất bản Khoa học kỹ thuật. ISBN: 987-604-67-
0251-1
[5] Huỳnh Lý Thanh Nhàn và Nguyễn Thái Nghe. 2013b. Hệ thống dự đoán kết quả học tập của
sinh viên sử dụng thư viện hệ thống gợi ý mã nguồn mở MYMEDIALITE. Kỷ yếu Hội thảo
toàn quốc về CNTT năm 2013. Trang 192-201. NXB Đại học Cần Thơ. ISBN: 978-604-919-
012-4.
[6] Koren, Y., Bell, R., & Volinsky, C. 2009. Matrix factorization techniques for recommender
systems. IEEE Computer Society Press, 42(8), 30-37.
[7] Luan, J., Zhao, C.-M., and Hayek, J. 2004. Exploring a new frontier in higher education
research: A case study analysis of using data mining techniques to create NSSE institutional
typology. The California Association for Institutional Research, Anaheim, California.
[8] Manouselis, N., Drachsler, H., Vuorikari, R., Hummel, H., & Koper, R. 2010. Recommender
systems in technology enhanced learning. In P. B. Kantor, F. Ricci, L. Rokach, & B. Shapira
(Eds.), 1st Recommender Systems Handbook, (pp. 1-29). Berlin, Germany. Springer.
[9] Minaei-Bidgoli, B., Kashy, D. A., Kortemeyer, G., and Punch, W. F. 2003. Predicting
student performance: an application of data mining methods with an educational web-based
system. Proceedings of 33rd Annual Conference on Frontiers in Education (FIE 2003).
[10] Nguyễn Chí Ngôn và Nguyễn Thái Nghe. 2010. Hệ chuyên gia hổ trợ sinh viên lập kế
hoạch học tập (dựa trên phương pháp khai phá dữ liệu - data mining). Đề tài NCKH cấp
trường. Đại học Cần Thơ.
[11] Nguyen Thai-Nghe, Lars Schmidt-Thieme. 2015a. Factorization Forecasting Approach
for User Modeling. Journal of Computer Science and Cybernetics. 133-148. Vol 31, No 2.
ISSN: 1813-9663. DOI: 10.15625/1813-9663/31/2/5860
[12] Nguyen Thai-Nghe and Lars Schmidt-Thieme. 2015b. Multi-Relational Factorization
Models for Student Modeling in Intelligent Tutoring Systems. In proceedings of the 2015
Seventh International Conference on Knowledge and Systems Engineering (KSE 2015).
IEEE Xplore. (to appear)
[13] Nguyễn Thái Nghe. 2013a. Hệ thống dự báo năng lực học tập và hỗ trợ sinh viên lựa
chọn môn học. Đề tài NCKH cấp trường. Đại học Cần Thơ.
[14] Nguyen Thai-Nghe. 2013b. An introduction to factorization technique for building
recommendation systems. Vol. 6/2013, pp. 44-53, Journal of Science - University of Da Lat,
ISSN 0866-787X.
[15] Nguyen Thai-Nghe, Zeno Gantner, Lars Schmidt-Thieme. 2013. An Evaluation Measure
for Learning from Imbalanced Data Based on Asymmetric Beta Distribution. Book Chapter
in Classification and Data Mining: Studies in Classification, Data Analysis, and Knowledge
Organization, pp. 121-129. Print ISBN: 978-3-642-28893-7. Series ISSN: 1431-
8814. Springer.
[16] Nguyễn Thái Nghe, Huỳnh Xuân Hiệp. 2012. Ứng dụng kỹ thuật phân rã ma trận đa
quan hệ trong xây dựng hệ trợ giảng thông minh, Kỷ yếu Hội thảo quốc gia lần thứ XV: Một
số vấn đề chọn lọc của CNTT&TT (@2012), trang 470-477. Nhà xuất bản Khoa học và Kỹ
thuật. ISBN: 893-5048-931578
[17] Nguyen Thai-Nghe, Lucas Drumond, Tomáš Horváth, Lars Schmidt-Thieme. 2012a.
Using Factorization Machines for Student Modeling, in proceedings of FactMod 2012 WS at
the 20th Conference on User Modeling, Adaptation, and Personalization (UMAP 2012). Vol.
872, CEUR-WS, ISSN: 1613-0073.
[18] Nguyen Thai-Nghe, Lucas Drumond, Tomáš Horváth, Artus Krohn-
Grimberghe, Alexandros Nanopoulos, Lars Schmidt-Thieme. 2012b. Factorization
Techniques for Predicting Student Performance. Book chapter in Educational Recommender
Systems and Technologies: Practices and Challenges (ERSAT 2012). Santos, O. C. and
Boticario, J. G. (Eds.). pp. 129-153. ISBN13: 9781613504895, ISBN10: 1613504896, IGI
Global Publisher.
[19] Nguyen Thai-Nghe, Tomáš Horváth, Lars Schmidt-Thieme. 2011. Factorization Models
for Forecasting Student Performance, in Pechenizkiy, M., Calders, T., Conati, C., Ventura,
S., Romero, C., and Stamper, J. (Eds.) Proceedings of the 4th International Conference on
Educational Data Mining (EDM 2011). ISBN 978-90-386-2537-9
[20] Nguyen Thai-Nghe, Lucas Drumond, Artus Krohn-Grimberghe, Lars Schmidt-Thieme
(2010): Recommender System for Predicting Student Performance. Volume 1, Issue 2, 2010,
Pages 2811-2819, Elsevier Computer Science Procedia. ISSN: 1877-0509
[21] Nguyen Thai-Nghe, Andre Busche, and Lars Schmidt-Thieme. 2009. Improving
Academic Performance Prediction by Dealing with Class Imbalance, in Proceedings of the
9th IEEE International Conference on Intelligent Systems Design and Applications (ISDA
2009), pp. 878-883. ISBN: 978-0-7695-3872-3. IEEE Computer Society.
[22] Nguyen Thai-Nghe, Paul Janecek, and Peter Haddawy. 2007. A comparative analysis of
techniques for predicting academic performance, in Proceedings of the 37th ASEE/IEEE
Frontiers in Education (FIE 2007), pp. T2G-7-T2G-12. Print ISBN: 978-1-4244-1083-5.
IEEE publisher
[23] Nguyen Thai-Nghe, Tomáš Horváth, and Lars Schmidt-Thieme. 2011. Personalized
Forecasting Student Performance, in Proceedings of the 11th IEEE International Conference
on Advanced Learning Technologies (ICALT 2011). pp. 412 - 414. ISSN: 2161-3761. E-
ISBN: 978-0-7695-4346-8. Print ISBN: 978-1-61284-209-7. IEEE Xplore.
[24] Nguyen Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme. 2010. Cost-Sensitive
Learning Methods for Imbalanced Data, in proceedings of IEEE International Joint
Conference on Neural Networks (IJCNN 2010), ISSN: 1098-7576. Print ISBN: 978-1-4244-
6916-1. IEEE publisher, Student Travel Grant Award
[25] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh,. Ứng dụng khai phá dữ liệu xây dựng
công cụ dự đoán kết quả học tập của sinh viên. Hội nghị sinh viên nghiên cứu khoa học lần
thứ 8, Đại học Đà Nẵng, 2012.
[26] Ricci, F., Rokach, L., Shapira, B. & Kantor, P.B., eds. 2011. Recommender Systems
Handbook. Springer.
[27] Romero, C., Ventura, S., Espejo, P.G., Hervas, C. 2008. Data Mining Algorithms to
Classify Students. Proceedings of the First International Conference on Educational Data
Mining, 8-17.
[28] Romero, Cristobal, and Sebastian Ventura. 2013. Data mining in education. Wiley
Interdisciplinary Reviews: Data Mining and Knowledge Discovery 3.1 (2013): 12-27.
[29] Su, X. & Khoshgoftaar, T.M. 2009. A survey of collaborative filtering techniques.
Advances in Artificial Intelligence, 2009, 4:1-4:19.
[30] Toscher A. and Jahrer M. 2010. Collaborative filtering applied to educational data
mining. Proceedings of the KDD Cup 2010 Workshop on Improving Cognitive Models with
Educational Data Mining, Washington, DC, USA, 2010.
View publication stats
Các file đính kèm theo tài liệu này:
- ung_dung_cac_ky_thuat_trong_khai_pha_du_lieu_ho_tro_sinh_vie.pdf