Từ khóa-Mô hình chủ đề, tiếng Việt, khai phá văn bản, từ lõi, Naive Bayes. I. ĐẶT VẤN ĐỀPhân loại văn bản là một trong những phần quan trọng của việc khai phá dữ liệu văn bản, khá nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức (knowledge based) hoặc dựa trên các luật được xây dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại văn bản. Mỗi loại (hay còn gọi là lớp -class) tương đương với một chủ đề ví dụ -thể thao‖, -chính trị‖ hay -nghệ thuật‖. Nhiệm vụ phân loại được bắt đầu xây dựng từ một tập các văn bản Một khó khăn khác nữa trong cách xử lý phân loại tự động đối với các văn bản tiếng Việt, là độ khó trong xử lý ngôn ngữ, bởi ngôn ngữ tiếng Việt thuộc lớp ngôn ngữ đơn lập (single syllable language), các từ trong tiếng Việt có thể là từ đơn hoặc từ ghép, do vậy khó khăn trong việc tách từ. Bởi thế, chúng tôi đã tiếp cận bài toán theo hai bước: xử lý giảm đặc trưng và áp dụng lý thuyết Naive Bayes trong phân loại.Xử lý giảm số chiều của đặc trưng bằng cách xây dựng mô hình chủ đề (topic modeling), số lượng thuật ngữ (term) trong mỗi chủ đề sẽ giảm hơn nhiều so với số các từ trong một văn bản, mặt khác sẽ giải quyết bài toán tách từ tiếng Việt nhờ đó làm tăng độ chính xác của hệ thống, tiếp theo áp dụng lý thuyết Naive Bayes để phân loại các văn bản theo đúng chủ đề đã chọn [12].
Trong bài báo này chúng tôi trình bày một phương pháp phân tích quan điểm người dùng dựa trên các nhận xét cá nhân. Chúng tôi tập trung vào giải quyết ba nhiệm vụ của bài toán phân tích quan điểm: Nhận dạng và trích rút nội dung theo từng khía cạnh; Khám phá việc người dùng xếp hạng trên từng khía cạnh đối với sản phẩm; Dự đoán trọng số xếp hạng của các khía cạnh trong mỗi nhận xét. Đối với nhiệm vụ đầu tiên, chúng tôi sử dụng từ chủ đề bao gồm danh từ và cụm danh từ để trích rút các khía cạnh được người dùng đề cập đến trong bài viết của họ. Phương pháp của chúng tôi được thực hiện dựa trên thuật toán bootstrap kết hợp mô hình từ chủ đề dựa trên xác suất có điều kiện. Nhiệm vụ thứ hai và thứ ba được chúng tôi giải quyết dựa trên học có giám sát theo Naïve Bayes. Kết quả thực nghiệm trên ba bộ dữ liệu cà phê, bia, khách sạn cho thấy độ chính xác của phương pháp đề xuất là khá tốt cho cả bài toán trích rút khía cạnh cũng như cho bài toán dự đoán xếp hạng khía cạnh.
Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích tổng hợp thông tin cô đọng nhất từ nhiều nguồn văn bản khác nhau. Trong bài báo này, chúng tôi trình bày một phương pháp tóm tắt đa văn bản dựa trên cách tiếp cận mô hình đồ thị. Trọng số của mỗi câu được thể hiện tại các nút của đồ thị và độ tương tự giữa các câu là trọng số các nhánh của đồ thị. Đánh giá tóm tắt sử dụng độ đo ROUGE với 200 cụm văn bản tiếng Việt, kết quả cho thấy rằng, phương pháp chúng tôi đề xuất thực sự có hiệu quả và có thể dễ dàng triển khai thành những ứng dụng thực tế. Từ khóa: tóm tắt đa văn bản, mô hình đồ thị, giảm chiều đặc trưng, mô hình chủ đề, tiếng Việt.
Đặt vấn đề - Mục tiêu: Nhiễm khuẩn huyết là nguyên nhân hàng đầu gây tử vong sơ sinh. Nghiên cứu này nhằm đánh giá kết quả điều trị và tìm hiểu một số yếu tố liên quan đến tử vong của sơ sinh đủ tháng nhiễm khuẩn huyết được điều trị tại Bệnh viện Nhi Trung ương (2019-2021). Phương pháp: Can thiệp lâm sàng và đánh giá hiệu quả của một phác đồ điều trị Kết quả: Có 85 trẻ nhiễm khuẩn huyết sơ sinh đủ tháng. Tỷ lệ sống 69,4%, di chứng thần kinh 1,2%, tử vong và nặng xin về 30,6%. Nhóm nhiễm khuẩn sớm có tỷ lệ tử vong ở cao hơn (36,5%) nhóm nhiễm khuẩn muộn (21,1%). Tỷ lệ tử vong ở nhóm trẻ nhiễm vi khuẩn Gram âm là 40,9%, nhiễm Gram dương 12,1%, nhiễm nấm 50%. Yếu tố liên quan kết quả điều trị: thở máy tuyến trước, thở máy và đặt catheter trung tâm tại Bệnh viện Nhi Trung ương, sốc nhiễm khuẩn, bạch cầu < 4x109 tế bào/L, tiểu cầu < 100x109 tế bào/L. Kết luận: Tỷ lệ tử vong nhiễm khuẩn huyết sơ sinh còn cao. Các yếu tố liên quan đến tử vong sơ sinh gồm thở máy, đặt catherter trung tâm, sốc nhiễm khuẩn, bạch cầu < 4x109 tế bào/L, tiểu cầu < 100x109 tế bào/L.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.