Từ khóa-Lý thuyết tập thô; bảng quyết định; luật quyết định; dữ liệu mất cân bằng; lựa chọn môn học.
I. GIỚI THIỆULý thuyết tập thô (rough set theory) -do Zdzislaw Pawlak đề xuất năm 1982 [14] -được xây dựng trên một nền tảng toán học vững chắc vì thế được ứng dụng trong khá nhiều lĩnh vực, đặc biệt là ứng dụng trong khoa học máy tính như giải quyết bài toán phân lớp (đa nhãn hoặc đơn nhãn), phân cụm và luật kết hợp. Bài viết này sẽ đề xuất sử dụng lý thuyết tập thô trong xây dựng hệ thống hỗ trợ giáo dục đào tạo, đặc biệt là việc dự đoán kết quả học tập của sinh viên.Thật vậy, dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ cảnh khác nhau ở các trường đào tạo đại học và sau đại học. Chẳng hạn, xác định các ứng viên xuất sắc để tham gia các đội tuyển tin học, hoặc cấp học bổng nhằm khuyến khích họ nỗ lực hơn nữa trong học tập, hay việc xác định các sinh viên có năng lực yếu kém để có những biện pháp thích hợp nhằm hỗ trợ họ học tập tốt hơn.Thời gian gần đây, số lượng sinh viên bị buộc thôi học có chiều hướng tăng ở nhiều trường đại học (chẳng hạn như tại Đại học Cần Thơ, hàng năm có trên dưới 150 sinh viên thuộc diện buộc thôi học do kết quả học tập yếu kém [4]) và thường tập trung vào những sinh viên học năm thứ ba và năm thứ tư. Một phần nguyên nhân là do sinh viên không có kế hoạch học tập phù hợp. Hiện tượng này đã gây tổn thất lớn cho bản thân sinh viên, gia đình và toàn xã hội. Chính vì thế việc phát hiện sớm các học viên yếu kém để giúp họ lập kế hoạch học tập sao cho ph hợp là một nhu cầu rất cần thiết.Dự đoán kết quả học tập của sinh viên cũng đã được nhiều nhà nghiên cứu quan tâm, như trong. Hàng năm đều có hội thảo quốc tế chuyên về lĩnh vực này (xem chi tiết tại www.educationaldatamining.org), ở đó ta có thể tìm thấy những nghiên cứu gần nhất. Tuy nhiên phần lớn các nghiên cứu trên tập trung vào việc ứng dụng các kỹ thuật trong khai phá dữ liệu (data mining) trong dự đoán kết quả học tập của sinh viên [12][13].Nghiên cứu này sẽ đề xuất một phương pháp mới trong dự đoán kết quả học tập của sinh viên dựa trên tiếp cận tập thô. Trước hết, bài viết sẽ giới thiệu một trong những ưu điểm của lý thuyết tập thô, là d ng để đơn giản hóa thông tin trước khi sinh ra luật quyết định, do đó tập luật thu được khá tối tiểu nhưng vẫn bao hàm được thông tin mong muốn. Sau đó đề xuất ứng dụng cho bài toán dự đoán/phân lớp (prediction/classification) sinh viên thuộc diện cảnh báo học vụ hay không, từ đó hỗ trợ họ lập kế hoạch học tập phù hợp. Thực nghiệm trên dữ liệu thực tế đã cho thấy phương pháp này có khả năng dự đoán tốt hơn so với các phương pháp khai phá dữ liệu truyền thống khác như Cây quyết định, láng giềng lân cận, SVM,… đặc biệt là trong trường hợp dữ liệu mất cân bằng (imbalanced data).Trong các phần tiếp theo, bài viết sẽ giới thiệu ngắn gọn về lý thuyết tập thô cũng như minh họa cho bài toán phân lớp dựa trên các luật sinh ra, sau cùng là mô hình đề xuất và kết quả thực nghiệm.
II. LÝ THUYẾT TẬP THÔ
A. Hệ thống thông tin quyết địnhThông thường một hệ thống biểu diễn...