Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập

Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng viên xuất sắc để tham gia các đội tuyển tin học, cấp học bổng nhằm khuyến khích họ nỗ lực hơn nữa trong học tập, hoặc việc xác định các sinh viên có năng lực yếu kém để có những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn. Bài viết này đã giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế hoạch học tập sử dụng các phương pháp trong khai phá dữ liệu. Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng Bayes và cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật cá nhân hóa như Biased Matrix Factorization trong dự đoán kết quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của họ. Thực nghiệm từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả học tập của sinh viên là khả thi và hoàn toàn có thể triển khai trong thực tế. Kết hợp cả thông tin nhân khẩu học (demographic information) và thông tin tương tác (collaborative information) giữa sinh viên và môn học hay việc thu thập thêm những thông tin khác (như số giờ lướt web/mạng xã hội hàng ngày, tình trạng kinh tế gia đình,.) có thể sẽ làm tăng thêm độ chính xác của mô hình dự đoán. Những công việc này sẽ được thực hiện trong tương

18 trang | Chia sẻ: huongthu9 | Lượt xem: 987 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập Nguyễn Thái Nghe Khoa Công nghệ thông tin và Truyền thông Trường Đại học Cần Thơ ntnghe@cit.ctu.edu.vn Tóm tắt Dự đoán kết quả học tập của sinh viên một các chính xác nhằm phát hiện sớm các sinh viên yếu kém để giúp họ lập kế hoạch học tập phù hợp là một nhu cầu cần thiết ở các trường đại học, đặc biệt là trong công tác tư vấn, cố vấn học tập. Trong bài viết này, chúng tôi sẽ giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế hoạch học tập thông qua việc sử dụng các phương pháp dự đoán trong khai phá dữ liệu. Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng Bayes và Cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật cá nhân hóa – lấy ý tưởng từ các kỹ thuật trong hệ thống gợi ý - như kỹ thuật phân rã ma trận thiên vị (Biased Matrix Factorization) nhằm dự đoán kết quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của từng cá nhân. Kết quả từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả học tập của sinh viên là khả thi và có thể ứng dụng trong thực tế tại các trường đại học. Từ khóa: Dự đoán kết quả học tập, lựa chọn môn học, lập kế hoạch học tập, cây quyết định, kỹ thuật phân rã ma trận 1. Giới thiệu Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng viên xuất sắc để tham gia các đội tuyển tin học, hoặc cấp học bổng nhằm khuyến khích họ nỗ lực hơn nữa trong học tập, hay việc xác định các sinh viên có năng lực yếu kém để có những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn. Thời gian gần đây, số lượng sinh viên bị buộc thôi học có chiều hướng tăng ở nhiều trường đại học (chẳng hạn như tại Đại học Cần Thơ, hàng năm có trên dưới 150 sinh viên thuộc diện buộc thôi học do kết quả học tập yếu kém [13]) và thường tập trung vào những sinh viên học năm thứ ba và năm thứ tư. Một phần nguyên nhân là do sinh viên không có kế hoạch học tập phù hợp. Hiện tượng này đã gây tổn thất lớn cho bản thân sinh viên, gia đình và toàn xã hội. Chính vì thế việc phát hiện sớm các học viên yếu kém để giúp họ lập kế hoạch học tập sao cho phù hợp là một nhu cầu rất cần thiết. Bên cạnh đó, phần lớn các trường đại học đã triển khai theo học chế tín chỉ nên các sinh viên thường bị lúng túng khi lựa chọn môn học do có nhiều môn được giảng dạy trong một học kỳ. Khi đó, bên cạnh khả năng tự tìm hiểu thì sinh viên sẽ cần đến sự trợ giúp của giáo viên cố vấn. Tuy vậy, bên cạnh kinh nghiệm của mình thì giáo viên cố vấn sẽ phải tra cứu kết quả học tập của từng sinh viên để trợ giúp tuỳ theo năng lực của mỗi em, do đó khá tốn thời gian và công sức. Vấn đề đặt ra là làm sao để sử dụng nguồn dữ liệu điểm sinh viên để khai thác, phân tích và đưa ra đánh giá/dự đoán để có thể gợi ý cho sinh viên chọn môn học một cách hiệu quả và tự động thông qua hệ thống. Bài viết này sẽ tóm lược lại một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế hoạch học tập bằng cách sử dụng các phương pháp trong khai phá dữ liệu mà tác giả và các cộng sự đã thực hiện. Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng Bayes và Cây quyết định; nhóm nghiên cứu thứ hai liên quan đến sử dụng kỹ thuật cá nhân hóa như phân rã ma trận thiên vị (Biased Matrix Factorization) để dự đoán kết quả học tập cho từng sinh viên, từ đó hỗ trợ (gợi ý) lựa chọn môn học phù hợp với năng lực của từng sinh viên. Thực nghiệm từ các nghiên cứu này đã cho thấy cách tiếp cận máy học trong dự đoán kết quả học tập của sinh viên là rất khả thi. 2. Tiếp cận không cá nhân hoá trong dự đoán kết quả học tập (Non-personalized approach) Nhóm nghiên cứu của (Nguyễn Thái Nghe và các cộng sự, 2007, 2009, 2010) đã đề xuất sử dụng thông tin nhân khẩu học thu thập từ hồ sơ đầu vào của sinh viên như độ tuổi, giới tính, ngành học, trình độ ngoại ngữ,và điểm trung bình tích lũy (GPA) của học kỳ trước để dự đoán kết quả cho học kỳ sau. Việc dự đoán trước kết quả này góp phần hỗ trợ các sinh viên trong diện cảnh báo học vụ (do trong quy chế ở các trường, nếu một sinh viên trong hai học kỳ liên tiếp đạt kết quả yếu sẽ bị buộc thôi học). Để thực hiện việc dự đoán, nhóm tác giả đã sử dụng hai giải thuật là Cây quyết định và mạng Bayes, từ đó so sánh độ chính xác của hai kỹ thuật này. Nghiên cứu trên đã đưa ra một số đóng góp quan trọng. Thứ nhất, kết quả mà đề tài thực hiện đã cung cấp một cái nhìn sâu hơn trong toàn bộ quy trình ứng dụng khai phá dữ liệu vào thực tế, bao gồm cả những phương pháp trong việc điều chỉnh tập dữ liệu đầu vào (như rời rạc hoá, chuẩn hoá,..) và cải thiện độ chính xác của các giải thuật trong dự đoán. Thứ hai, các kết quả từ hai tình huống đã cho thấy rằng giải thuật Cây quyết định cho kết quả chính xác hơn giải thuật mạng Bayes trong vấn đề dự đoán kết quả học tập trên hai tập dữ liệu mà nhóm tác giả đã thu thập được (thử nghiệm trên công cụ mã nguồn mở Weka - Tương tự như những bài toán khác trong khai phá dữ liệu, việc xây dựng hệ thống dự đoán kết quả học tập cũng được thực hiện dựa trên quy trình chuẩn của khai phá dữ liệu, có tên là CRISP-DM (CRoss Industry Standard Process for Data Mining). Quy trình này bao gồm sáu giai đoạn gần tương tự như mô hình thác đổ trong phân tích và thiết kế hệ thống thông tin, bao gồm: Tìm hiểu vấn đề, tìm hiểu dữ liệu, chuẩn bị dữ liệu, mô hình hóa, đánh giá mô hình, và triển khai ứng dụng. Các giai đoạn này như được trình bày dưới đây cho vấn đề dự đoán kết quả học tập. 2.1. Tìm hiểu vấn đề (Business understanding) Như mục tiêu ban đầu, vấn đề chính cần giải quyết ở đây là việc dự đoán kết quả học tập ở một học kỳ nào đó dựa trên các thông tin nhân khẩu học (độ tuổi, giới tính, trình độ anh văn,...) và kết quả học tập của học kỳ trước đó nhằm giúp cho sinh viên có thể tự đánh giá được năng lực của mình để có kế hoạch học tập cho phù hợp, và đồng thời cũng giúp cho các giáo viên Cố vấn học tập “cảnh báo” sớm đến các sinh viên đạt kết quả thấp. 2.2. Tìm hiểu dữ liệu và chuẩn bị dữ liệu (Data understanding and Preparation) Để có được tập dữ liệu cho mô hình dự đoán, nhóm tác giả ([10][22] ) đã tìm hiểu và thu thập dữ liệu từ hệ thống thực tế của trường Đại học Cần Thơ, từ đó tiến hành tiền xử lý dữ liệu. Sơ đồ thực thể kết hợp (ERD) trong hình dưới đây trình bày một phần của hệ thống thông tin quản lý sinh viên trích ra từ hệ thống quản lý tại trường đại học Cần Thơ. Hình 1. Một phần của mô hình ERD trong hệ thống quản lý sinh viên Sau khi thu thập dữ liệu, nhóm tác giả đã tiền xử lý bằng cách loại bỏ các giá trị dư thừa và thiếu (missing), số lượng mẫu tin (mỗi mẫu tin tương ứng với một sinh viên) còn lại là 20492 mẫu tin. Một vấn đề là trong tập dữ liệu thu thập được có rất nhiều thuộc tính, nên câu hỏi đặt ra là thuộc tính nào ảnh hưởng lớn nhất đến kết quả dự đoán? Làm sao để lựa chọn các thuộc tính đó? Để trả lời các câu hỏi này, nhóm nghiên cứu đã dùng phương pháp lựa chọn thuộc tính (feature selection). Thật tiện lợi là trong công cụ WEKA đã có hỗ trợ rất nhiều phương pháp giúp lựa chọn thuộc tính. Ở đây các tác giả đã sử dụng phương pháp lựa chọn thuộc tính thông qua đánh giá độ lợi thông tin của từng thuộc tính “Information Gain Attribute Evaluation”, từ đó xếp hạng của chúng (ranked attribute) theo thứ tự giảm dần và loại bỏ các thuộc tính mà độ lợi thông tin của nó quá thấp (có thể lựa chọn một ngưỡng nào đó) Ví dụ để dự đoán kết quả của học kỳ 5, sau khi xác định độ lợi thông tin của các thuộc tính quan trọng ảnh hưởng đến kết quả dự đoán, ta loại bỏ các thuộc tính không dùng đến, 14 thuộc tính quan trọng còn lại được dùng cho việc dự đoán, mô tả trong bảng dưới đây. Bảng 1. Mức độ quan trọng của thuộc tính STT Thuộc tính Xếp hạng 1 CGPASem4 0.4297283 2 FOS 0.1775725 3 Faculty 0.1313937 4 Gender 0.0898935 5 Entry Mark Range 0.0398948 6 Age Range 0.0320674 7 English Skill 0.0233605 8 Policy Priority 0.0161708 9 Family Job 0.0144163 10 School Rank 0.0129788 11 Province 0.0107892 12 Area Priority 0.0048450 13 Ethnic 0.0000897 14 Religious 0.0000384 Bảng 2. Mô tả các thuộc tính Stt Thuộc tính Mô tả 1 Gender Giới tính sinh viên 2 Age Range Độ tuổi được tính từ ngày sinh 3 School Rank Trong dữ liệu thu thập được, Có 285 trường phổ thông trung học mà sinh viên học trước khi vào trường đại học Cần Thơ. Vì thế các trường học đó được sắp xếp theo các giá trị liên tục dựa trên sự chênh lệch giữa tỷ lệ tốt nghiệp. Tỷ lệ đó được tính như sau: Rank = AVG(Tỷ lệ tốt nghiệp đại học ) – AVG(Tỷ lệ đầu vào đại học ) [22] Giá trị rank từ 1 đến 10 {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} 4 Policy Priority Mỗi sinh viên thuộc một diện chính sách, được ấn định bởi bộ giáo dục. vài chính sách được cộng điểm khi sinh viên thi đại học. Chúng ta kết hợp các giá trị này là Yes, còn lại là No 5 Area Priority Phân vùng chính sách của sinh viên. Ví dụ sinh viên sống ở nông thôn hay thành thị 6 Province 15 tỉnh trong vùng Đồng bằng sông Cửu Long. Các tỉnh khác có số lượng sinh viên ít được phân vào lớp “Others” 7 Ethnicity Có 54 dân tộc trong nước Việt Nam, nhưng đa số là dan tộc KINH, vì thế ta dùng lớp “OTHERS” cho 53 dân tộc còn lại. 8 Religious Chỉ ra xem sinh viên có thuộc tôn giáo nào hay không 9 Entry Mark Điểm thi đậu vào đại học của sinh viên (không dưới 5) 10 Family Job Thành phần gia đình của sinh viên. Hầu hết sinh viên thuộc thành phần “Nông dân” 11 FOS Ngành học của sinh viên tại tường đại học Cần Thơ 12 Faculty Mỗi sinh viên thuộc một khoa 13 English Skill Trình độ Anh Văn có 4 giá trị: “A”: Trình độ A; “B”: Trình độ B; “C”: Trình độ C; “N”: Chưa có bằng ngoại ngữ 14 GPA of Previous Semester Điểm trung bình của học kỳ trước 2.3. Mô hình hóa (Modelling) Sau bước tiền xử lý dữ liệu sẽ đến giai đoạn mô hình hoá cho việc dự đoán. Trong phần này sẽ trình bày việc xây dựng mô hình bao gồm các kỹ thuật sử dụng, các biến đầu vào và biến dự đoán (target attribute) Bảng 3 trình bày chi tiết dữ liệu cũng như các kỹ thuật dùng trong dự đoán kết quả học tập. Ở đây nhóm tác giả đã sử dụng cả hai dạng là phân lớp (cho dự đoán điểm chữ như A, B+ hay VeryGood, Good,..) và hồi quy (cho dự đoán điểm số, như 3.25, 3.15,..). Bảng 3. Giải thuật và các thuộc tính sử dụng cho hệ thống Vấn đề Giải thuật Biến input/output Đầu vào: • Gender Dự đoán kết quả của sinh viên dựa trên thông tin của họ và kết quả trước đây - Cây quyết định/ Mạng Bayes cho dự đoán kết quả dạng điểm chữ (Good, Fair,..) - Mô hình hồi qui cho dự đoán dạng điểm số (3.25, 1.2,..) • Age Range • Ethniccity • Province • Family Job • Religious • School Rank • Field of Study • Faculty • English Skill • Policy Priority • Area Priority • GPA học kỳ trước Dự đoán: • GPA học kỳ tiếp theo 2.4. Đánh giá mô hình (Evaluation) Sau khi mô hình hóa, việc đánh giá độ tin cậy của các mô hình sẽ được thực hiện, gồm cả thao tác điều chỉnh giá trị của các thuộc tính, thay đổi các tham số, kiểm tra mô hình sao cho đạt kết quả chính xác nhất. Bảng 4 trình bày kết quả đánh giá mô hình trên cây quyết định và mạng Bayes, sử dụng phương pháp kiểm tra chéo 10 đường (10–folds cross validation). Bảng 4. Độ chính xác của các mô hình dự đoán Các lớp của thuộc tính cần dự đoán (GPA học kỳ 5) Kỹ thuật Độ chính xác 4 classes: {Fail, Fair, Good, Very Good} Cây quyết định 66.69% Mạng Bayes 61.32% 3 classes: {Fail, Good, Very Good} Cây quyết định 84.18% Mạng Bayes 78.57% 2 classes: {Fail, Pass} Cây quyết định 92.86% Mạng Bayes 89.75% Ở đây, nhóm tác giả đã chia thuộc tính cần dự đoán thành 3 tập khác nhau : Dự đoán cho 2 lớp {Fail, Pass} nhằm để xác định 1 sinh viên có thuộc diện cảnh báo hay không, Fail tương ứng với điểm GPA < 1.0 theo thang điểm 4 và Pass là ngược lại. Tương tự, để mở rộng đối tượng dự đoán nhằm xác định các sinh viên khá giỏi, nhóm tác giả đã chia dữ liệu thêm 2 tập khác là 3 lớp và 4 lớp như trong bảng. Do số lượng sinh viên xuất xắc là rất ít nên được gom chung với nhóm giỏi. Với kết quả dự đoán trên, cây quyết định đã cho độ chính xác cao hơn mạng Bayes và đạt độ chính xác khá cao, ở mức 92.86%. Bảng 5 và Bảng 6 trình bày kết quả chi tiết của ma trận nhầm lẫn (confusion matrix) trên kết quả dự đoán 4 lớp và 2 lớp. Từ kết quả này ta thấy trong trường hợp dự đoán 2 lớp, do dữ liệu mất cân bằng nên việc đoán nhầm từ rớt thành đạt xảy ra khá nhiều. Để khắc phụ trường hợp này, người ta phải cần đến các kỹ thuật xử lý dữ liệu mất cân bằng, như trình bày trong các nghiên cứu trước đây của cùng nhóm tác giả [14][21][24]. Bảng 5. Confusion matrix trên kết quả dự đoán 4 lớp Actual Class Predicted Class Fail Fair Good Very Good Fail 534 890 134 7 Fair 360 3499 1888 12 Good 30 1519 7701 515 Very Good 1 15 1135 1290 % Hit 34 % 61 % 79 % 53 % Bảng 6. Confusion matrix trên kết quả dự đoán 2 lớp Hình 2 biểu diễn phân tích AUC khi sử dụng cây quyết định cho dự đóan 4 lớp. Giá trị của AUC=1 thì mô hình được xem là lý tưởng, tuy nhiên rất khó để đạt giá trị đó. Khi AUC>0.8 mô hình đã được xem là rất tốt. Kết quả của nghiên cứu này AUC đạt 0.877. Actual Class Predicted Class Fail Pass Fail 471 1094 Pass 300 17665 % Hit 30 % 98 % Hình 2. Kết quả phân tích AUC Khi dự đoán các giá trị kiểu số (bài toán hồi quy), để đánh giá mô hình chúng ta sử dụng phép đo là lỗi (error) thay vì độ chính xác hay AUC. Có nhiều phương pháp đo lỗi cho đánh giá, nhưng trong nghiên cứu này nhóm tác giả sử dụng hệ số tương quan (correlation coefficient) và độ sai lệch trung bình tuyệt đối (Mean Absolute Error) để đánh giá mô hình. Hệ số correlation coefficient càng cao thì mô hình càng chính xác. Kết quả cho thấy hệ số tương quan đạt 0.833 trong khi MAE đạt 0.688. Như vậy, độ sai số khi dự đoán trung bình là ±0.688 (thang điểm 10). Kết quả minh họa cho việc dự đoán như trình bày trong Hình 4. 2.5. Triển khai (Deployment) Hình sau mô tả cấu trúc tổng quát của hệ thống hỗ trợ dự đoán kết quả học tập trên nền web. Công nghệ được sử dụng là JSP hoặc Servlet với sự hỗ trợ của thư viện Weka. Hình 3. Mô hình tổng quan cho hệ thống Hình 4. Giao diện minh họa hệ thống dự đoán kết quả học tập Nếu chỉ xác định một sinh viên nào đó là thuộc diện cảnh báo (fail) hay không (pass) để có kế hoạch phù hợp giúp hạn chế vấn đề cảnh báo học vụ và buộc thôi học thì các kỹ thuật đã trình bày cho kết quả chính xác khá tốt (92.86% trong trường hợp sử dụng cây quyết định). Tuy nhiên kết quả này chưa thật sự thuyết phục do mô hình dự đoán xem các sinh viên là như nhau, tức không cá nhân hóa cho từng sinh viên. Thực tế cho thấy năng lực của mỗi người học là khác nhau nên không thể đem một mô hình chung gồm cả sinh viên học giỏi để dự đoán kết quả cho những sinh viên học yếu [23], vì thế nhóm tác giả đã đưa ra hướng khắc phục bằng cách sử dụng kỹ thuật cá nhân hóa để xây dựng mô hình dự đoán cho từng sinh viên [4][5][13] như mô tả chi tiết trong phần tiếp theo. 3. Tiếp cận cá nhân hóa (Personalized approach) Trong tiếp cận này, nhóm tác giả (Huỳnh Lý Thanh Nhàn và Nguyễn Thái Nghe, 2013a, 2013b; Nguyễn Thái Nghe và các cộng sự, 2011, 2009) đã đề xuất sử dụng kỹ thuật phân rã ma trận thiên vị (biased matrix factorization - BMF) trong hệ thống gợi ý để dự đoán kết quả học tập của sinh viên. Ở đó, mỗi sinh viên được xem như là người dùng (user), Kết quả sau dự đoán dạng số (thang điểm 10) môn học được xem như là mục thông tin (item), và kết quả học tập được xem như là đánh giá (rating) trong hệ thống gợi ý. Tuy vậy, khác với những nghiên cứu trước là dự đoán kết quả cho cả học kỳ (điểm GPA), trong những nghiên cứu này, nhóm tác giả thực hiện việc dự đoán kết quả cho từng môn học và chỉ dựa trên thông tin tương tác (collaboration) giữa sinh viên và môn học mà không dùng đến các thông tin nhân khẩu học (mặc dù vậy, kỹ thuật này hoàn toàn có thể dùng để dự đoán kết quả cho từng học kỳ như những nghiên cứu trước đây). Sau đây bài viết sẽ trình bày tóm tắt lại phương pháp cá nhân hóa trong dự đoán kết quả học tập. Tương tự trong hệ thống gợi ý, dữ liệu kết quả học tập được trình bày trong một ma trận. Ví dụ, có năm sinh viên: sv1, sv2, sv3, sv4 và sv5 học các môn môn1, môn2,... môn n, môn n1, môn n2, môn n3 như minh họa trong Hình 5. Ở đó, mỗi ô trong ma trận chứa số điểm của sinh viên học môn học tương ứng, những sinh viên chưa học môn nào thì sẽ điền giá trị ô đó bởi dấu chấm hỏi “?”. Bằng kỹ thuật này, nhóm tác giả có thể dự đoán được tất cả các môn mà sinh viên chưa học. Như thế bên cạnh việc dự đoán kết quả học tập, phương pháp này có thể dùng để gợi ý các môn học tự chọn cho sinh viên. Ví dụ, trong những môn học có 3 môn tự chọn là môn n1, môn n2, môn n3. Sinh viên cần chọn 2 môn trong 3 môn học tự chọn sao cho có kết quả phù hợp nhất với họ. Như vậy, hệ thống cần gợi ý cho sinh viên sv5 là nên học 2 môn nào trong 3 môn: n1, n2 và n3. Hình 5: Biểu diễn dữ liệu điểm của sinh viên Từ những ràng buộc về số tín chỉ hay số môn học tự chọn mà sinh viên cần học trong một học kỳ để đưa ra gợi ý phù hợp. Trở lại ví dụ trên, hệ thống cần gợi ý 2 môn học tự chọn cho sinh viên sv5 là 2 môn: môn n1 và môn n2 do 2 môn học này có số điểm dự đoán cao hơn môn học n3 (3 và 4 > 2). Hình 6: Bảng điểm sau khi dự đoán và hướng gợi ý. Hệ thống tập trung xử lý ba nhóm dữ liệu như sau: sinh viên, môn học và điểm số (User, Item, Ratings). Về nhóm môn học (item) bao gồm những bảng dữ liệu như sau: kế hoạch học tập mẫu theo từng học kỳ, môn học tiên quyết, môn học bắt buộc, nhóm môn tự chọn, môn học tự chọn, ) cùng với những ràng buộc toàn vẹn. Nhóm sinh viên (user) gồm có: sinh viên, năm học, ngành học, khóa học. Nhóm điểm số (ratings). Bên cạnh việc xây dựng hệ thống gợi ý phù hợp theo chương trình đào tạo mà còn phải đảm bảo phù hợp tính sư phạm. Bên cạnh đó, để giải quyết vấn đề dữ liệu khách quan nhằm đưa ra gợi ý chính xác nhất cho sinh viên, giảm bớt sự chênh lệch giữa những yêu cầu cao thấp khác nhau của các môn học, cũng như giảm thiểu sự gợi ý sai lệch do nhìn nhận từ những sinh viên có sở trường hay sở đoản đối với môn học nào đó, nhóm tác giả đã sử dụng giải thuật Matrix Factorization [6] - là một state-of-the-art của hệ thống gợi ý hiện nay - kết hợp với các giá trị lệch/thiên vị (bias) của sinh viên và môn học. 3.1. Thiết kế và xử lý dữ liệu Để xây dựng hệ thống dự đoán và gợi ý, đầu tiên ta cần thiết kế một cơ sở dữ liệu để lưu trữ dữ liệu kế hoạch học tập và điểm số của sinh viên phù hợp với đào tạo theo tín chỉ. Theo định dạng của giải thuật BMF thì ta cần ba thành phần dữ liệu: dữ liệu người dùng (user), dữ liệu môn học (item) và cuối cùng là dữ liệu đánh giá (ratings) - là điểm số. Dữ liệu đánh giá (ratings) liên quan đến các bảng: MONHOC, SINHVIEN, MATRIX_RATINGS. Đây là cũng là cấu trúc lưu trữ ma trận điểm dự đoán sau khi chạy giải thuật BMF. Sơ đồ lớp được trình bày trong Hình 7 bên dưới. Hình 7: Sơ đồ lớp liên quan đến dữ liệu điểm (ratings) Sau khi thiết kế được cơ sở dữ liệu để lưu trữ, ta tiến hành xử lý dữ liệu theo định dạng của giải thuật (bao gồm user, item, ratings). Chuyển dữ liệu sinh viên về tập user: Do quá trình xử lý cần tiết kiệm bộ nhớ nên ta chuyển thông tin sinh viên về dạng số đặc trưng cho một sinh viên gọi là định danh sinh viên (ID sinh viên). Chuyển dữ liệu môn học về tập item: Tương tự như quá trình chuyển đổi mã số sinh viên thành số để dùng trong giải thuật BMF nên cũng cần chuyển mã môn học thành định danh môn học (ID môn học) Chuyển dữ liệu điểm về dạng ratings: Chuyển bảng điểm thành bảng ratings bao gồm mã sinh viên, mã môn học và điểm (ví dụ, hệ 4). MATRIX_RATINGS +id_sinhvien +id_monhoc +diem SINHVIEN +id_sinhvien +mssv +khoa_tuyen_sinh +lop_quan_ly +id_nguoi_dung MONHOC +id_mon_hoc +ma_mon_hoc +ten_mon_hoc +mon_hoc_tien_quyet +so_tin_chi +so_tiet_ly_thuyet +so_tiet_thuc_hanh 3.2. Xây dựng mô hình dự đoán Ở đây, kỹ thuật biased matrix factorization (BMF) được sử dụng để dự đoán kết quả từng môn học của từng sinh viên. Lý do mà nhóm tác giả sử dụng BMF thay vì MF chuẩn là có thể mô hình hoá được cho sự thiên vị (bias) của cả môn học và sinh viên. Do tính chất đặc thù của một số môn điểm của chúng là rất cao, trong khi một số môn khác (có thể do giáo viên chấm khó hơn) điểm là rất thấp. Bên cạnh đó, sinh viên một số ngành cũng có kết quả học tập rất cao (như kinh tế) trong khi một số ngành khác lại thấp hơn nhiều (như CNTT và các nhóm ngành công nghệ). Trong lĩnh vực hệ thống gợi ý BMF đã được cho thấy nó có thể khắc phục được sự thiên vị/lệch này [6] . BMF là một kỹ thuật trong nhóm kỹ thuật dựa trên mô hình nhân tố tiềm ẩn (latent factor models). Phương pháp này phân rã ma trận X thành hai ma trận con sao cho có thể xây dựng lại ma trận X từ hai ma trận con này. BMF là một cải tiến từ giải thuật Standard Matrix Factorization [6] kết hợp với các giá trị lệch (bias) được minh họa như trong Hình 8. Trong đó dòng là danh sách sinh viên và cột là danh sách môn học, mỗi ô trong ma trận là điểm của sinh viên học môn học tương ứng. Nếu sinh viên đã học thì điểm số sẽ được điền vào ô trong ma trận. Nếu sinh viên chưa học, ô trong ma trận được biểu diễn bằng dấu chấm hỏi “?”. Hình 8: Ví dụ minh họa BMF Mục đích của BMF là phân rã X thành 2 ma trận nhỏ hơn là W và H sao cho ta có thể xây dựng lại X từ 2 ma trận này. TWHX ≈ Với K là số nhân tố tìm ẩn (K<<|S|, K << |I|). Quá trình phân rã được thực hiện bằng phương pháp tối ưu hóa hàm mục tiêu bằng kỹ thuật stochastic gradient descent. Hàm mục tiêu của BMF được biểu diễn như sau (bạn đọc có quan tâm xin xem chi tiết trong nghiên cứu của (Nguyễn Thái Nghe, 2013b [14]): Trong đó, µ là giá trị trung bình toàn cục, là năng lực trung bình của tất cả các sinh viên (s) trên tất cả các môn học (i) trong tập dữ liệu huấn luyện (p là kết quả học tập của s trên môn học i) Giá trị bs là độ lệch của sinh viên (là giá trị lệch trung bình của năng lực một sinh viên so với giá trị trung bình toàn cục) Giá trị bi là độ lệch của môn học (là giá trị lệch trung bình của yêu cầu môn học so với giá trị trung bình toàn cục) Giả sử sau quá trình tối ưu, ta có được W và H, khi đó kết quả của sinh viên s cho môn học i được dự đoán qua công thức Thông qua công thức trên, ta tiến hành dự đoán tất cả điểm số của tất cả sinh viên cho những môn học là môn tự chọn mà sinh viên chưa có điểm môn học đó, lưu lại vào cơ sở dữ liệu cho việc gợi ý. Với mỗi sinh viên, hệ thống sẽ kiểm tra các ràng buộc trong môn học tự chọn và kế hoạch học tập, sau đó tiến hành gợi ý những môn có số điểm số dự đoán cao nhất (hình bàn tay) trong nhóm tự chọn như minh họa trong Hình 9. 3.3. Đánh giá kết quả 3.3.1. Độ đo dùng để đánh giá Có nhiều phương pháp có thể dùng để đánh giá hiệu quả của giải thuật gợi ý tùy vào từng dạng bài toán. Do đó, khi thực hiện đánh giải thuật chúng ta cần chọn phương pháp phù hợp. Bài toán dự đoán kết quả học tập của sinh viên thuộc dạng dự đoán xếp hạng từ đánh giá tường minh (rating prediction), nên có hai độ đo thường được sử dụng nhất là: Root Mean Squared Error (RMSE) và Mean Absolute Error (MAE) được biểu diễn như dưới đây ( )∑ ∈ −= testDpi,s, 2 sisitest pˆp|D| 1RMSE ( )∑ ∈ −= testDpi,s, sisitest pˆp|D| 1MAE Phương pháp RMSE sẽ thích hợp với sai số nhỏ và MAE sẽ thích hợp với sai số lớn hơn. Hơn nữa, các giải thưởng lớn trong lĩnh vực hệ thống gợi ý đều dùng RMSE để đánh giá, như Netflix Prize, KDD Cup 2010,.. Từ những nhận xét trên, nhóm tác giả đã chọn phương pháp RMSE cho đánh giá hiệu quả của giải thuật BMF trong bài toán dự đoán kết quả học tập của sinh viên. Hình 9. Giao diện hỗ trợ lập kế hoạch học tập có gợi ý môn học 3.3.2. Dữ liệu Tập dữ liệu dùng cho đánh giá hệ thống được thu thập trong giai đoạn 10 năm từ năm 1994 đến năm 2004 của sinh viên ngành Tin học thuộc khoa CNTT&TT trường Đại học Cần Thơ. Tập dữ liệu bao gồm 4017 sinh viên (4017 user) và 353 môn học (353 item) của 3 ngành học và gồm 279536 điểm chi tiết (279536 ratings). Nghi thức kiểm tra hold- out lấy ngẫu nhiên 2/3 tập dữ liệu để học và 1/3 còn lại để kiểm tra. 3.3.3. Kết quả dự đoán Sau khi huấn luyện tập dữ liệu điểm sinh viên như trình bày trên, kết quả độ lỗi RMSE thu được như trong Hình 10. Ở đó Global Average, Student Average, và Item Average là ba phương pháp nền (baseline) [14], còn Matrix Factorization là giải thuật chuẩn không có các thành phần bias. Từ biểu đồ so sánh cho thấy áp dụng giải thuật BMF vào bài toán dự đoán kết quả học tập của sinh viên đạt độ lỗi RMSE thấp hơn so với các giải thuật khác. Hình 10. Biểu đồ so sánh độ lỗi RMSE giữa các giải thuật 4. Các nghiên cứu liên quan Khai phá dữ liệu đã được ứng dụng cho nhiều mục đích khác nhau trong giáo dục đào tạo và hiện đang được các nhà nghiên cứu quan tâm. Hàng năm, hội thảo chuyên về khai phá dữ liệu giáo dục (www.educationaldatamining.org) được tổ chức cũng như tạp chí chuyên về khai phá dữ liệu giáo dục (www.educationaldatamining.org/JEDM/), mà ở đó ta có thể tìm thấy rất nhiều bài viết chuyên sâu. Romero et. al. cũng đã tóm tắt các công trình nghiên cứu liên quan trong lĩnh vực này trong [28]. Delavari [3] đã trình bày một mô hình trong đó có nhiều câu hỏi nghiên cứu ở các lĩnh vực khác nhau và các kỹ thuật khai phá dữ liệu tương ứng với từng loại câu hỏi khi áp dụng trong giáo dục đào tạo. Chẳng hạn, [9] đã trình bày các vấn đề như dự đoán năng lực của sinh viên, phân cụm những sinh viên có đặc điểm giống nhau, mối quan hệ giữa từng loại sinh viên với các môn học, Luan [7] cũng đã trình bày một nghiên cứu trong việc phân cụm các sinh viên có các đặc điểm giống nhau (“self starters” và “high interaction”). Bên cạnh đó, việc phân tích bằng nhiều kỹ thuật khai phá dữ liệu để dự đoán kết quả học tập của sinh viên cũng được nghiên cứu và thực hiện [25]. Tuy nhiên những hướng tiếp cận này thường áp dụng cho việc đánh giá năng lực học tập cho học sinh, sinh viên. Sau khi đánh giá thì những dự đoán này mang tính chất là quy luật chung nhất, chúng không dự đoán cho từng sinh viên cụ thể. Một số tiếp cận trong hệ thống gợi ý đã được đề xuất để giải quyết vấn đề dự đoán năng lực cho từng sinh viên cụ thể đã được đưa ra: Lọc cộng tác, KNN, Matrix Factorization, để dự đoán năng lực học tập của sinh viên (Toscher and Jahrer, 2010; Koren et al., 2009; 1.240 1.197 1.032 1.013 0.913 0.90 0.95 1.00 1.05 1.10 1.15 1.20 1.25 1.30 Global Average Student Average Item Average Matrix FactorizaBon Bias Matrix FactorizaBon Nguyen Thai-Nghe et al., 2011). Tuy vậy, những nghiên cứu này đa phần mới chỉ dừng lại ở mức kiểm tra độ chính xác của giải thuật và chưa được ứng dụng để giải quyết vấn đề thực tế. 5. Kết luận Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng viên xuất sắc để tham gia các đội tuyển tin học, cấp học bổng nhằm khuyến khích họ nỗ lực hơn nữa trong học tập, hoặc việc xác định các sinh viên có năng lực yếu kém để có những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn. Bài viết này đã giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế hoạch học tập sử dụng các phương pháp trong khai phá dữ liệu. Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng Bayes và cây quyết định. Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật cá nhân hóa như Biased Matrix Factorization trong dự đoán kết quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của họ. Thực nghiệm từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả học tập của sinh viên là khả thi và hoàn toàn có thể triển khai trong thực tế. Kết hợp cả thông tin nhân khẩu học (demographic information) và thông tin tương tác (collaborative information) giữa sinh viên và môn học hay việc thu thập thêm những thông tin khác (như số giờ lướt web/mạng xã hội hàng ngày, tình trạng kinh tế gia đình,..) có thể sẽ làm tăng thêm độ chính xác của mô hình dự đoán. Những công việc này sẽ được thực hiện trong tương lai. Tài liệu tham khảo [1] Bekele, R. and Menzel, W. 2005. A Bayesian approach to predict performance of a student (BAPPS): A case with Ethiopian students. Proceedings of the International Conference on Artificial Intelligence and Applications (AIA-2005), Vienna, Austria. [2] Bobadilla J., Ortega F., Hernando A., Gutiérrez H. 2013. Recommender systems survey. Knowledge-Based Systems. 46 (2013) 109–132. Elsevier. [3] Delavari N. & Beikzadeh M. R & Shirazi M. R. A. 2004. A New Model for Using Data Mining in Higher Educational System. Proceedings of 5th International Conference on Information Technology Based Higher Education and Training (ITHET), Istanbul, Turkey [4] Huỳnh Lý Thanh Nhàn, Nguyễn Thái Nghe. 2013a. Hệ thống dự đoán kết quả học tập và gợi ý lựa chọn môn học. Kỷ yếu hội thảo quốc gia lần thứ XVI: Một số vấn đề chọc lọc của CNTT&TT (@2013), trang 110-118. Nhà xuất bản Khoa học kỹ thuật. ISBN: 987-604-67- 0251-1 [5] Huỳnh Lý Thanh Nhàn và Nguyễn Thái Nghe. 2013b. Hệ thống dự đoán kết quả học tập của sinh viên sử dụng thư viện hệ thống gợi ý mã nguồn mở MYMEDIALITE. Kỷ yếu Hội thảo toàn quốc về CNTT năm 2013. Trang 192-201. NXB Đại học Cần Thơ. ISBN: 978-604-919- 012-4. [6] Koren, Y., Bell, R., & Volinsky, C. 2009. Matrix factorization techniques for recommender systems. IEEE Computer Society Press, 42(8), 30-37. [7] Luan, J., Zhao, C.-M., and Hayek, J. 2004. Exploring a new frontier in higher education research: A case study analysis of using data mining techniques to create NSSE institutional typology. The California Association for Institutional Research, Anaheim, California. [8] Manouselis, N., Drachsler, H., Vuorikari, R., Hummel, H., & Koper, R. 2010. Recommender systems in technology enhanced learning. In P. B. Kantor, F. Ricci, L. Rokach, & B. Shapira (Eds.), 1st Recommender Systems Handbook, (pp. 1-29). Berlin, Germany. Springer. [9] Minaei-Bidgoli, B., Kashy, D. A., Kortemeyer, G., and Punch, W. F. 2003. Predicting student performance: an application of data mining methods with an educational web-based system. Proceedings of 33rd Annual Conference on Frontiers in Education (FIE 2003). [10] Nguyễn Chí Ngôn và Nguyễn Thái Nghe. 2010. Hệ chuyên gia hổ trợ sinh viên lập kế hoạch học tập (dựa trên phương pháp khai phá dữ liệu - data mining). Đề tài NCKH cấp trường. Đại học Cần Thơ. [11] Nguyen Thai-Nghe, Lars Schmidt-Thieme. 2015a. Factorization Forecasting Approach for User Modeling. Journal of Computer Science and Cybernetics. 133-148. Vol 31, No 2. ISSN: 1813-9663. DOI: 10.15625/1813-9663/31/2/5860 [12] Nguyen Thai-Nghe and Lars Schmidt-Thieme. 2015b. Multi-Relational Factorization Models for Student Modeling in Intelligent Tutoring Systems. In proceedings of the 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE 2015). IEEE Xplore. (to appear) [13] Nguyễn Thái Nghe. 2013a. Hệ thống dự báo năng lực học tập và hỗ trợ sinh viên lựa chọn môn học. Đề tài NCKH cấp trường. Đại học Cần Thơ. [14] Nguyen Thai-Nghe. 2013b. An introduction to factorization technique for building recommendation systems. Vol. 6/2013, pp. 44-53, Journal of Science - University of Da Lat, ISSN 0866-787X. [15] Nguyen Thai-Nghe, Zeno Gantner, Lars Schmidt-Thieme. 2013. An Evaluation Measure for Learning from Imbalanced Data Based on Asymmetric Beta Distribution. Book Chapter in Classification and Data Mining: Studies in Classification, Data Analysis, and Knowledge Organization, pp. 121-129. Print ISBN: 978-3-642-28893-7. Series ISSN: 1431- 8814. Springer. [16] Nguyễn Thái Nghe, Huỳnh Xuân Hiệp. 2012. Ứng dụng kỹ thuật phân rã ma trận đa quan hệ trong xây dựng hệ trợ giảng thông minh, Kỷ yếu Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của CNTT&TT (@2012), trang 470-477. Nhà xuất bản Khoa học và Kỹ thuật. ISBN: 893-5048-931578 [17] Nguyen Thai-Nghe, Lucas Drumond, Tomáš Horváth, Lars Schmidt-Thieme. 2012a. Using Factorization Machines for Student Modeling, in proceedings of FactMod 2012 WS at the 20th Conference on User Modeling, Adaptation, and Personalization (UMAP 2012). Vol. 872, CEUR-WS, ISSN: 1613-0073. [18] Nguyen Thai-Nghe, Lucas Drumond, Tomáš Horváth, Artus Krohn- Grimberghe, Alexandros Nanopoulos, Lars Schmidt-Thieme. 2012b. Factorization Techniques for Predicting Student Performance. Book chapter in Educational Recommender Systems and Technologies: Practices and Challenges (ERSAT 2012). Santos, O. C. and Boticario, J. G. (Eds.). pp. 129-153. ISBN13: 9781613504895, ISBN10: 1613504896, IGI Global Publisher. [19] Nguyen Thai-Nghe, Tomáš Horváth, Lars Schmidt-Thieme. 2011. Factorization Models for Forecasting Student Performance, in Pechenizkiy, M., Calders, T., Conati, C., Ventura, S., Romero, C., and Stamper, J. (Eds.) Proceedings of the 4th International Conference on Educational Data Mining (EDM 2011). ISBN 978-90-386-2537-9 [20] Nguyen Thai-Nghe, Lucas Drumond, Artus Krohn-Grimberghe, Lars Schmidt-Thieme (2010): Recommender System for Predicting Student Performance. Volume 1, Issue 2, 2010, Pages 2811-2819, Elsevier Computer Science Procedia. ISSN: 1877-0509 [21] Nguyen Thai-Nghe, Andre Busche, and Lars Schmidt-Thieme. 2009. Improving Academic Performance Prediction by Dealing with Class Imbalance, in Proceedings of the 9th IEEE International Conference on Intelligent Systems Design and Applications (ISDA 2009), pp. 878-883. ISBN: 978-0-7695-3872-3. IEEE Computer Society. [22] Nguyen Thai-Nghe, Paul Janecek, and Peter Haddawy. 2007. A comparative analysis of techniques for predicting academic performance, in Proceedings of the 37th ASEE/IEEE Frontiers in Education (FIE 2007), pp. T2G-7-T2G-12. Print ISBN: 978-1-4244-1083-5. IEEE publisher [23] Nguyen Thai-Nghe, Tomáš Horváth, and Lars Schmidt-Thieme. 2011. Personalized Forecasting Student Performance, in Proceedings of the 11th IEEE International Conference on Advanced Learning Technologies (ICALT 2011). pp. 412 - 414. ISSN: 2161-3761. E- ISBN: 978-0-7695-4346-8. Print ISBN: 978-1-61284-209-7. IEEE Xplore. [24] Nguyen Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme. 2010. Cost-Sensitive Learning Methods for Imbalanced Data, in proceedings of IEEE International Joint Conference on Neural Networks (IJCNN 2010), ISSN: 1098-7576. Print ISBN: 978-1-4244- 6916-1. IEEE publisher, Student Travel Grant Award [25] Nguyễn Thị Thanh Thủy, Nguyễn Trần Quốc Vinh,. Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên. Hội nghị sinh viên nghiên cứu khoa học lần thứ 8, Đại học Đà Nẵng, 2012. [26] Ricci, F., Rokach, L., Shapira, B. & Kantor, P.B., eds. 2011. Recommender Systems Handbook. Springer. [27] Romero, C., Ventura, S., Espejo, P.G., Hervas, C. 2008. Data Mining Algorithms to Classify Students. Proceedings of the First International Conference on Educational Data Mining, 8-17. [28] Romero, Cristobal, and Sebastian Ventura. 2013. Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 3.1 (2013): 12-27. [29] Su, X. & Khoshgoftaar, T.M. 2009. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009, 4:1-4:19. [30] Toscher A. and Jahrer M. 2010. Collaborative filtering applied to educational data mining. Proceedings of the KDD Cup 2010 Workshop on Improving Cognitive Models with Educational Data Mining, Washington, DC, USA, 2010. View publication stats

Các file đính kèm theo tài liệu này:

ung_dung_cac_ky_thuat_trong_khai_pha_du_lieu_ho_tro_sinh_vie.pdf