This paper present a text dataset which can be used in the field of text analysis, especially sentiment analysis. This dataset covers the primary data which consists of 10,806 lines of Indonesian text data originated from Twitter social media, which categorized into three categories that are positive, negative, and neutral; and the raw data which consists of 454,559 lines of unprocessed data. Other than that, on the labeled data, the data is cleaned by removing many kind of noises in the data, such as symbols or urls. In this paper, the presented dataset is tested using a sentiment analysis model to make sure that this dataset is suitable to be used in the field of text analysis. The testing is done by measuring the model accuracy which is trained using this dataset and then comparing it to other model which is trained using already published dataset. After testing the data using various algorithm, such as SVM, KNN, and SGD, the accuracy result between our data and the comparison data are more or less equal with around 4% to 12% differences in accuracy, and prove that the dataset presented in this paper is feasible to be used in sentiment analysis. Dataset can be downloaded from link at conclusion section.Intisari-Makalah ini menyajikan sebuah dataset teks berbahasa Indonesia untuk digunakan di bidang analisis teks, terutama analisis sentimen. Dataset ini mencakup data utama, yaitu 10.806 baris data berbahasa Indonesia yang diambil dari media sosial Twitter, yang telah dikategorikan ke dalam tiga label, yaitu positif, negatif, dan netral, beserta 454.559 baris data yang masih bersifat mentah. Selain itu, pada data yang sudah dilabeli, data sudah mengalami proses pembersihan dari elemen-elemen pengganggu di dalam data, misalnya simbol atau tautan halaman web. Dalam makalah ini, data yang disajikan sudah diuji terlebih dahulu menggunakan sebuah model sentimen analisis sederhana untuk memastikan bahwa data ini sudah sesuai untuk digunakan dalam sebuah pemodelan analisis teks secara umum. Pengujian ini dilakukan dengan melihat hasil nilai ketepatan sebuah model analisis sentimen yang menggunakan dataset ini pada proses pelatihan dan membandingkannya dengan model analisis yang menggunakan dataset lain pada proses pelatihan datanya. Setelah dilakukan pengujian menggunakan model analisis sentimen sederhana yang menggunakan algoritme SVM, KNN, dan SGD, terlihat bahwa nilai ketepatan dari data utama dan data pembanding seimbang pada masing-masing algortime, dengan perbedaan nilai ketepatan berkisar pada angka 4% sampai 12%, dan membuktikan bahwa data yang disajikan sudah layak untuk digunakan dalam pemodelan analisis sentimen. Dataset dapat diunduh pada tautan di bagian kesimpulan.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.