I. GIỚI THIỆU VẤN ĐỀNgƣời dùng sử dụng các dịch vụ Internet trực tuyến hiện nay luôn trong tình trạng quá tải thông tin. Để tiếp cận đƣợc thông tin hữu ích, ngƣời dùng thƣờng phải xử lý, loại bỏ phần lớn thông tin không cần thiết. Hệ tƣ vấn (recommender systems) cung cấp một giải pháp nhằm giảm tải thông tin bằng cách dự đoán và cung cấp một danh sách ngắn các sản phẩm (trang web, bản tin, phim, video…) phù hợp cho mỗi ngƣời dùng. Trên thực tế, hệ tƣ vấn không chỉ hƣớng đến vấn đề giảm tải thông tin cho mỗi ngƣời dùng mà nó còn là yếu tố quyết định đến thành công của các hệ thống thƣơng mại điện tử. Bài toán tƣ vấn tổng quát có thể đƣợc phát biểu nhƣ sau.Cho tập hợp hữu hạn gồm N ngƣời dùng U = {u 1 , u 2 ,…, u N }, P = {p 1 , p 2 ,.., p M } là tập hữu hạn gồm M sản phẩm. Mỗi sản phẩm p x P có thể là hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà ngƣời dùng cần đến. Mối quan hệ giữa tập ngƣời dùng U và tập sản phẩm P đƣợc biểu diễn thông qua ma trận đánh giá R={ r ix : i = 1, 2, ..N; x = 1, 2,..M }. Giá trị r ix thể hiện đánh giá của ngƣời dùng u i U cho một số sản phẩm p x P.Thông thƣờng giá trị r ix nhận một giá trị thuộc miền F = { 1, 2,.., g} đƣợc thu thập trực tiếp bằng cách hỏi ý kiến ngƣời dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của ngƣời dùng. Giá trị r ix = đƣợc hiểu ngƣời dùng u i chƣa đánh giá hoặc chƣa bao giờ biết đến sản phẩm p x . Ma trận đánh giá của các hệ thống tƣ vấn thực tế thƣờng rất thƣa. Mật độ các giá trị r ix 0 nhỏ hơn 1%, hầu hết các giá trị r ix còn lại là [1,17]. Ma trận R chính là đầu vào của các hệ thống tƣ vấn cộng tác [3,18]. Để thuận tiện trong trình bày, ta viết p x P ngắn gọn làxP; và u i U là iU. Các ký tự i, j luôn đƣợc dùng để chỉ tập ngƣời dùng trong các mục tiếp theo của bài báo.Mỗi sản phẩm xP đƣợc biểu diễn thông qua |C| đặc trƣng nội dung C = { c 1 , c 2 ,.., c |C| }. Các đặc trƣng c s C nhận đƣợc từ các phƣơng pháp trích chọn đặc trƣng (feature selection) trong lĩnh vực truy vấn thông tin. Ví dụ xP là một phim thì các đặc trƣng nội dung biểu diễn một phim có thể là C={thể loại phim, nước sản xuất, hãng phim, diễn viên, đạo diễn…}. Gọi w x = {w x1 , w x2 ,.., w x|C| } là vector trọng số các giá trị đặc trƣng nội dung sản phẩm c s C đối với mỗi sản phẩm xP. Khi đó, ma trận trọng số W ={w xs : x =1, 2, .., M; s =1, 2, .., |C|} chính là đầu vào của các hệ thống tƣ vấn theo nội dung sản phẩm [2,3,7]. Để thuận tiện trong trình bày, ta viết c s C ngắn gọn là sC.Ký tự s luôn đƣợc dùng để chỉ tập đặc trƣng nội dung sản phẩm trong các mục tiếp theo của bài báo.Mỗi ngƣời dùng iU đƣợc biểu diễn thông qua |T| đặc trƣng nội dung T = {t 1 , t 2 ,.., t |T| }. Các đặc trƣng t q T thông thƣờng là thông tin cá nhân của mỗi ngƣời dùng (Demographic Information). Ví dụ iU là một ngƣời dùng thì các đặc trƣng nội dung biểu diễn ngƣời dùng i có thể là T={giới tính, độ tuổi, nghề nghiệp, trình độ,…}. Gọi v i = {v i1 , v i2 ,.., v i|T| } là vector trọng số biểu diễn các giá trị đặc trƣng nội dung t q T đối với mỗ...
Từ khóa -Tư vấn cộng tác, tư vấn theo nội dung, hệ tư vấn lai, tư vấn dựa vào sản phẩm, tư vấn dựa vào người dùng. I. GIỚI THIỆU HỆ TƯ VẤNNgười dùng sử dụng các dịch vụ Internet trực tuyến hiện nay luôn trong tình trạng quá tải thông tin. Để tiếp cận được thông tin hữu ích, người dùng thường phải xử lý, loại bỏ phần lớn thông tin không cần thiết. Hệ tư vấn (recommender systems) cung cấp một giải pháp nhằm giảm tải thông tin bằng cách dự đoán và cung cấp một danh sách ngắn các sản phẩm (trang web, bản tin, phim, video…) phù hợp cho mỗi người dùng. Trên thực tế, hệ tư vấn không chỉ hướng đến vấn đề giảm tải thông tin cho mỗi người dùng mà nó còn là yếu tố quyết định đến thành công của các hệ thống thương mại điện tử [4]. Bài toán tư vấn tổng quát có thể được phát biểu như sau.Cho tập hợp hữu hạn gồm N người dùng U = {u 1 , u 2 ,…, u N }, P = {p 1 , p 2 ,.., p M } là tập hữu hạn gồm M sản phẩm. Mỗi sản phẩm p x ∈P có thể là hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến. Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua ma trận đánh giá R={ r ix : i = 1, 2, ..N; x = 1, 2,..M }. Giá trị r ix thể hiện đánh giá của người dùng u i ∈U cho một số sản phẩm p x ∈P.Thông thường giá trị r ix nhận một giá trị thuộc miền F = { 1, 2,.., g} được thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng. Giá trị r ix = φ được hiểu người dùng u i chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm p x . Ma trận đánh giá của các hệ thống tư vấn thực tế thường rất thưa. Mật độ các giá trị r ix ≠0 nhỏ hơn 1%, hầu hết các giá trị r ix còn lại là φ [4]. Ma trận R chính là đầu vào của các hệ thống tư vấn cộng tác [1,2,3]. Để thuận tiện trong trình bày, ta viết p x ∈P ngắn gọn là x∈P; và u i ∈U là i∈U. Các ký tự i, j luôn được dùng để chỉ tập người dùng trong các mục tiếp theo của bài báo.Mỗi sản phẩm x∈P được biểu diễn thông qua |C| đặc trưng nội dung C = { c 1 , c 2 ,.., c |C| }. Các đặc trưng c s ∈C nhận được từ các phương pháp trích chọn đặc trưng (feature selection) trong lĩnh vực truy vấn thông tin. Ví dụ x∈P là một phim thì các đặc trưng nội dung biểu diễn một phim có thể là C={thể loại phim, nước sản xuất, hãng phim, diễn viên, đạo diễn…}. Gọi w x = {w x1 , w x2 ,.., w x|C| } là vector trọng số các giá trị đặc trưng nội dung sản phẩm x∈P . Khi đó, ma trận trọng số W ={w xs : x =1, 2, .., M; s =1, 2, .., |C|} chính là đầu vào của các hệ thống tư vấn theo nội dung sản phẩm [2,3,17]. Để thuận tiện trong trình bày, ta viết c s ∈C ngắn gọn là s∈C.Ký tự s luôn được dùng để chỉ tập đặc trưng nội dung sản phẩm trong các mục tiếp theo của bài báo.Mỗi người dùng x∈P được biểu diễn thông qua |T| đặc trưng nội dung T = {t 1 , t 2 ,.., t |T| }. Các đặc trưng t q ∈T thông thường là thông tin cá nhân của mỗi người dùng (Demographic Information). Ví dụ i∈U là một người dùng thì các đặc trưng nội dung biểu diễn người dùng i có thể là T={giới tính, độ tuổi, nghề nghiệp, trình độ,…}. Gọi v i = {v i1 , v...
Hệ tư vấn là hệ thống tự động cung cấp thông tin phù hợp và gỡ bỏ thông tin không phù hợp cho mỗi người dùng. Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: lọc cộng tác và lọc nội dung. Lọc nội dung thực hiện hiệu quả trên các loại tài liệu văn bản nhưng gặp phải vấn đề trích chọn đặc trưng trên các dạng thông tin đa phương tiện. Lọc cộng tác thực hiện tốt trên tất cả các dạng thông tin nhưng gặp phải vấn đề dữ liệu thưa, người dùng mới và sản phẩm mới. Trong bài báo này, chúng tôi đề xuất một phương pháp hợp nhất giữa lọc cộng tác và lọc nội dung bằng phương pháp đồng huấn luyện. Kết quả thử nghiệm trên các bộ dữ liệu thực tế cho thấy phương pháp đề xuất tận dụng hiệu quả ưu điểm và hạn chế đáng kể nhược điểm của mỗi phương pháp lọc truyền thống. DOI: 10.32913/rd-ict.vol2.no38.358
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.