With the current technological advances, news can be found easily and totaling very much in digital form causing the need for a technique to categorize the news into specific topics to make it easier for readers to find the news according to the desired topic. Text categorization is a technique that can categorize news into predefined topics automatically. One important process in categorization is feature extraction where unigram binary is one of the basic feature extraction compared to term weighting which in this study will use the weighting method TF.ABS and TF.CHI to obtain optimal news categorization results. Based on the test results, the average accuracy obtained from three data sources on unigram binary feature extraction of 90.44%. While on the weighting method TF.ABS of 95.74% and TF.CHI of 95.87%. Based on the results of the accuracy, it can be concluded that the term weighting is better than the unigram binary. The weighting methods of TF.ABS and TF.CHI are both good in categorization because they do not differ significantly in performance. Other test results show that the stemming process does not have much effect on the accuracy of news categorization, but this process can make up to 45% time efficiency. AbstrakDengan kemajuan teknologi saat ini, berita dapat ditemukan dengan mudah dan berjumlah sangat banyak dalam bentuk digital yang menyebabkan diperlukannya suatu teknik untuk mengkategorikan berita-berita tersebut ke dalam topik tertentu agar mempermudah pembaca menemukan berita sesuai dengan topik yang diinginkan. Kategorisasi teks merupakan suatu teknik yang dapat mengkategorikan berita ke dalam topik yang telah ditentukan secara otomatis. Salah satu proses yang penting dalam kategorisasi adalah ekstraksi fitur yang mana unigram binary merupakan salah satu ekstraksi fitur yang dasar dibandingkan dengan term weighting yang dalam penelitian ini akan menggunakan metode pembobotan TF.ABS dan TF.CHI untuk memperoleh hasil kategorisasi berita yang optimal. Berdasarkan hasil pengujian, rata-rata akurasi yang didapatkan dari tiga sumber data pada ekstraksi fitur unigram binary sebesar 90.44%. Sedangkan pada metode pembobotan TF.ABS sebesar 95.74% dan TF.CHI sebesar 95.87%. Berdasarkan hasil akurasi tersebut, dapat disimpulkan bahwa term weighting lebih baik dibandingkan dengan unigram binary. Metode pembobotan TF.ABS dan TF.CHI sama-sama baik dalam kategorisasi karena tidak berbeda secara signifikan dalam performansinya. Pada hasil pengujian lainnya menunjukkan bahwa proses stemming tidak memberikan banyak pengaruh terhadap akurasi kategorisasi berita, namun proses ini dapat mengefisiensikan waktu hingga 45%.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.