Từ khóa-Mô hình chủ đề, tiếng Việt, khai phá văn bản, từ lõi, Naive Bayes. I. ĐẶT VẤN ĐỀPhân loại văn bản là một trong những phần quan trọng của việc khai phá dữ liệu văn bản, khá nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức (knowledge based) hoặc dựa trên các luật được xây dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại văn bản. Mỗi loại (hay còn gọi là lớp -class) tương đương với một chủ đề ví dụ -thể thao‖, -chính trị‖ hay -nghệ thuật‖. Nhiệm vụ phân loại được bắt đầu xây dựng từ một tập các văn bản Một khó khăn khác nữa trong cách xử lý phân loại tự động đối với các văn bản tiếng Việt, là độ khó trong xử lý ngôn ngữ, bởi ngôn ngữ tiếng Việt thuộc lớp ngôn ngữ đơn lập (single syllable language), các từ trong tiếng Việt có thể là từ đơn hoặc từ ghép, do vậy khó khăn trong việc tách từ. Bởi thế, chúng tôi đã tiếp cận bài toán theo hai bước: xử lý giảm đặc trưng và áp dụng lý thuyết Naive Bayes trong phân loại.Xử lý giảm số chiều của đặc trưng bằng cách xây dựng mô hình chủ đề (topic modeling), số lượng thuật ngữ (term) trong mỗi chủ đề sẽ giảm hơn nhiều so với số các từ trong một văn bản, mặt khác sẽ giải quyết bài toán tách từ tiếng Việt nhờ đó làm tăng độ chính xác của hệ thống, tiếp theo áp dụng lý thuyết Naive Bayes để phân loại các văn bản theo đúng chủ đề đã chọn [12].
Nghiên cứu nhằm đánh giá sự thay đổi một số chỉ tiêu sinh lý, sinh hóa máu ở chó mắc bệnh giun móc do Ancylostoma caninum. Mẫu phân chó được lấy tại 5 xã của huyện Việt Yên, tỉnh Bắc Giang từ tháng 6/2021 đến tháng 5/2022. Trứng giun móc được xét nghiệm bằng phương pháp phù nổi và đánh giá cường độ nhiễm. 30 chó có cường độ nhiễm giun móc rất nặng (++++) được lựa chọn để lấy máu xét nghiệm một số chỉ tiêu huyết học, đồng thời 30 chó khỏe cũng được lấy máu xét nghiệm để làm đối chứng. Kết quả nghiên cứu cho thấy, số lượng hồng cầu và hàm lượng hemoglobin ở chó mắc bệnh giun móc giảm tương ứng 1,48 triệu/mm3 và 4,42g% so với chó khỏe, trong khi hàm lượng hemoglobin trung bình trong một hồng cầu và thể tích trung bình của hồng cầu thay đổi không rõ rệt. Ở chó mắc bệnh, số lượng bạch cầu tăng 9,18 nghìn/mm3, bạch cầu trung tính giảm 13,37%, các loại bạch cầu ái toan, lympho bào và đơn nhân lớn tăng tương ứng 6,43%; 5,30% và 1,65%. Hàm lượng protein tổng số ở chó mắc bệnh giảm 6,95g/l; các tiểu phần protein như albumin và β-globulin giảm, trong khi lượng α-globulin và γ-globulin tăng. Nhìn chung, khi chó mắc bệnh giun móc đều có sự thay đổi các chỉ tiêu huyết học.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.