Chatbot là ứng dụng được xây dựng nhằm tương tác với con người một cách tự động bằng cách sử dụng các kỹ thuật ngôn ngữ tự nhiên. Chương trình này đóng vai trò như một trợ lý ảo, trò chuyện với con người và khiến họ nghĩ rằng họ đang nói chuyện với một người thật. Trong bài báo này, chúng tôi sẽ phát triển một hệ thống chatbot hỗ trợ quy trình tuyển sinh đại học, tự động trả lời ngay lập tức tất cả các câu hỏi từ người dùng bất cứ lúc nào, ngay cả ngoài giờ hành chính. Tính năng quan trọng của một ứng dụng chatbot là hiểu câu hỏi của người dùng và đưa ra câu trả lời thích hợp. Vì vậy, chúng tôi đề xuất phương pháp xây dựng ứng dụng chatbot phù hợp với nhu cầu của trường đại học. Chúng tôi áp dụng một số mô hình biểu diễn ngôn ngữ dựa trên BERT để dự đoán câu trả lời từ câu hỏi đầu vào. Thử nghiệm cho thấy salti/ bert-base-multilingual-cased-finetuned-team là mô hình phù hợp cho ứng dụng chatbot của chúng tôi vì điểm F1 và EM trên tập dữ liệu thử nghiệm cao đáng kể, lần lượt chiếm 88,6% và 79,6%. Đối với chức năng phân lớp ý định, chúng tôi đạt được 99,9% và 100% trên tập dữ liệu thử nghiệm và tập dữ liệu kiểm tra.
Wikipedia nổi tiếng là một bách khoa toàn thư mở lớn nhất hiện nay với mục đích phổ cập kiến thức cho tất cả mọi người trên thế giới. Với việc áp dụng robot trong khâu tạo bài tự động, dự án tiếng Việt là một trong 13 dự án ngôn ngữ có hơn một triệu bài viết. Tuy nhiên, điều đó tạo cho Wikipedia tiếng Việt nhiều thách thức trong việc nâng cao chất lượng bài, sắp xếp thể loại, chống phá hoại nội dung và nhiều công tác khác. Trong bài báo này, chúng tôi phân loại thể loại ở Wikipedia tiếng Việt, chi tiết hơn là cấu trúc và các quy ước đặt tên thể loại. Phương pháp chính là áp dụng các tiêu chuẩn và cấu trúc thể loại sẵn có ở tiếng Anh, một dự án Wikipedia lớn nhất về mặt thông tin đóng góp, từ đó áp dụng cho phiên bản tiếng Việt. Tuy nhiên, điều đó không thực hiện dễ dàng, do đó chúng tôi phải kết hợp nhiều phương pháp xã hội cũng như chuyên môn để đạt được sự kỳ vọng. Việc phân tích tên thể loại và dữ liệu từ Wikidata được chúng tôi áp dụng là một tiền đề xây dựng một công cụ chuyển dịch tên thể loại từ tiếng Anh sang tiếng Việt.
Wikidata là một cơ sở dữ liệu trực tuyến mở lưu trữ các tài nguyên chung của các dự án liên quan do tổ chức Wikimedia quản lý. Việc đồng nhất hóa các hộp thông tin (infobox) của Wikipedia được nêu trong kế hoạch giai đoạn 2 của Wikidata. Theo đó, các hộp thông tin sẽ được đồng nhất hóa để tránh tình trạng đa dạng dữ liệu giữa các dự án ngôn ngữ. Đồng thời, nhóm phát triển Wikidata cũng lên kế hoạch phát triển hệ thống tự động diễn dịch các thuộc tính của các hộp thông tin Wikipedia. Bài báo này nhắm đến việc đưa ra một vài phương pháp tiếp cận để ánh xạ các thuộc tính của hộp thông tin đến Wikidata, từ đó nâng cao khả năng phát triển làm giàu nội dung cho các bài viết Wikipedia. Chúng tôi tập trung chủ yếu vào việc ánh xạ các thuộc tính ở Wikipedia Tiếng Việt và Wikipedia Tiếng Anh.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.