Từ khóa -Độ đo Google, tích hợp dữ liệu/tri thức.
I. GIỚI THIỆUKhi chữ viết được phát minh, con người có một công cụ tốt để mô tả các đối tượng bằng cách biểu diễn các đối tượng bằng một chuỗi các ký tự. Tuy nhiên do sự linh hoạt của ngôn ngữ nên cùng một đối tượng có thể được biểu diễn bằng nhiều chuỗi ký tự khác nhau và ngược lại một chuỗi ký tự cũng có thể biểu diễn nhiều đối đượng khác nhau. Do đó việc xem xét các đối tượng từ các chuỗi ký tự cần được xem xét trong ngữ cảnh cụ thể. Một bài toán (ngược) được đặt ra là nếu chúng ta có hai chuỗi ký tự, tìm ngữ cảnh mà hai chuỗi ký tự này biểu diễn các đối tượng có quan hệ gần nhau nhất. Bài toán này có nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên, phân cụm dữ liệu, học máy,… Trong bài này chúng ta sẽ xem xét một trong các cách để trả lời cho câu hỏi này.Hằng ngày có hơn một tỷ lượt người dùng Internet với hàng tỷ comment trên các mạng xã hội, tweeter và hàng triệu các tài liệu được xuất bản trên đó. Internet trở thành một kho dữ liệu khổng lồ về các đối tượng ở tất cả các ngôn ngữ và trong vô vàn các ngữ cảnh khác nhau. Với quy mô cực lớn của Internet, con người không thể tìm kiếm các đối tượng một cách thủ công thông qua các đường link. Thay vào đó chúng ta sử dụng các máy tìm kiếm để hỗ trợ cho việc này, chúng ta chỉ cần gửi các truy vấn và máy tìm kiếm sẽ trả lại các kết quả tìm được. Một trong các máy tìm kiếm mạnh mẽ nhất trên Internet hiện nay là Google. Google hỗ trợ cho cả người dùng qua giao diện người dùng và các nhà phát triển thông qua giao diện API. Các thông tin kết quả mà Google trả về khá chi tiết và đủ cơ sở để chúng ta có thể xây dựng một độ đo như sẽ trình bày trong các mục phía sau.Trong các công trình nghiên cứu trước đây, một trong các hướng nghiên cứu chính để so sánh các các từ hay cụm từ là sử dụng tần suất xuất hiện của chúng trong các văn bản để xây dựng các độ đo sự tương đồng Tuy nhiên các tiếp cận này đều có một điểm yếu chung là chúng phân tích các đối tượng một cách độc lập với các đặc điểm của chúng, tức là chúng phân tích đồng thời tất cả các đặc điểm của đối tượng và xác định sự tương đồng giữa các cặp đối tượng thông qua sự giống nhau nhiều nhất trong số các cặp đặc điểm mà hai đối tượng cùng chia sẻ. Với cách tiếp cận này, các đối tượng được so sánh trực tiếp với nhau và do đó chỉ phù hợp để đạt được các tri thức về chính các đối tượng đó mà không quan tâm đến thông tin chung về sự tương đồng này. Trong bài báo này chúng tôi giới thiệu một cách tiếp cận mới nhằm lấy được các thông tin ý nghĩa hơn về sự tương đồng giữa các đối tượng thông qua ngữ nghĩa Google. Cụ thể là chúng tôi sử dụng các tên của đối tượng và thông qua máy tìm kiếm Google để thu được thông tin về đối tượng từ vô số các người dùng web trong các ngữ cảnh khác nhau, qua đó thống kê tần suất xuất hiện của các tên đối tượng khi chúng xuất hiện riêng rẽ và xuất hiện cùng nhau để có thể xác định một cách định lượng sự tương đồng giữa các đối tượng này.Trong bài báo cơ sở lý thuyết được trình bày trong Mục II, trong đó các khái niệm chính được đề cập gồm có: Độ ph...