Từ khóa-Tách từ, phương pháp tách từ tiếng Việt, xử lý ngôn ngữ tự nhiên, phân lớp văn bản.
I. GIỚI THIỆUVới sự phát triển nhanh chóng của công nghệ thông tin, nguồn thông tin trực tuyến (online) dƣới dạng văn bản xuất hiện càng ngày càng nhiều. Nguồn thông tin này đến từ các thƣ viện điện tử, thƣ điện tử, trang web, hệ thống tìm kiếm và tra cứu thông tin. Việc khám phá tri thức tiềm ẩn từ kho dữ liệu văn bản là cần thiết cho việc quản lý, khai thác hiệu quả nguồn thông tin văn bản khổng lồ này. Phân lớp văn bản (text categorization) là một trong những kỹ thuật chính để xử lý và tổ chức dữ liệu văn bản. Kỹ thuật phân lớp văn bản đƣợc dùng để gán nhãn tự động các bản tin, sắp xếp tổ chức email hay tập tin, nhận dạng thƣ rác. Có để định nghĩa ngắn ngọn bài toán phân lớp văn bản nhƣ sau: gán nhãn cho từng văn bản theo chủ đề đã đƣợc định nghĩa trƣớc dựa vào nội dung của văn bản. Phân lớp văn bản thƣờng đƣợc dựa trên mô hình ngữ nghĩa hoặc máy học. Tuy nhiên nhƣ bài phỏng vấn đƣợc thực hiện bởi M. Lucas (Tạp chí Mappa Mundi) năm 1999, M. Hearst cho rằng tiếp cận ngữ nghĩa là vấn đề rất khó, phức tạp. Vì vậy, tiếp cận dựa trên máy học tự động lại đơn giản và cho nhiều kết quả tốt trong thực tiễn. Hầu hết các phƣơng pháp phân loại văn bản dựa trên mô hình thống kê từ và các giải thuật máy học phân lớp (Dumais et al., 1998), (Sebastiani, 1999), (Manning et al., 2008).Bƣớc đầu tiên trong phân lớp văn bản là biến đổi văn bản từ chuỗi ký tự về dạng phù hợp với các giải thuật học máy. Đặc điểm chung của nguồn dữ liệu văn bản là không có cấu trúc (độ dài khác nhau) trong khi đa số các giải thuật đòi hỏi dữ liệu huấn luyện phải có cấu trúc (chiều dài các véc-tơ đặc trƣng phải giống nhau chẳng hạn). Các nghiên cứu trong lĩnh vực truy vấn thông tin đã chỉ ra rằng thứ tự của các từ trong văn bản đóng vai trò không quan trọng lắm đối với hầu hết các bài toán phân tích, xử lý dữ liệu văn bản (Joachims, 1999). Chính vì thế mô hình túi từ (Salton et al., 1975) là một mô hình phổ biến cho biểu diễn dữ liệu văn bản. Theo mô hình này, mỗi từ (khác nhau) trong văn bản sẽ là một đặc trưng (feature) và tần số xuất hiện của nó trong văn bản là giá trị của đặc trƣng tƣơng ứng. Quá trình trích đặc trƣng bao gồm tách từ (word segmentation) và đếm số lần xuất hiện của các từ trong văn bản. Nhƣ thế, văn bản sẽ đƣợc biểu diễn dƣới dạng véc-tơ tần số.Bƣớc tiếp theo là huấn luyện mô hình học tự động từ bảng dữ liệu này. Các mô hình máy học thƣờng sử dụng nhƣ giải thuật k-NN (Fix & Hodges, 1952), naive Bayes (Good, 1965), cây quyết định (Quinlan, 1993), (Breiman et al., 1984), máy học véc-tơ hỗ trợ (Vapnik, 1995), giải thuật tập hợp mô hình bao gồm Boosting (Freund & Schapire, 1995), (Breiman, 1998) và rừng ngẫu nhiên (Breiman, 2001). Các nghiên cứu về máy học trƣớc đây của (Phạm et al., 2006), (Phạm et al., 2008), (Đỗ, 2012), (Đỗ & Phạm, 2013) đề xuất các giải thuật máy học dựa trên tập hợp mô hình, máy học véc-tơ hỗ trợ, naive Bayes, cho phép phân lớp hiệu quả các tập dữ liệu có số chiều lớn nhƣ biểu diễn văn bản bằng mô hình túi từ.Đối với các ...