This paper present a text dataset which can be used in the field of text analysis, especially sentiment analysis. This dataset covers the primary data which consists of 10,806 lines of Indonesian text data originated from Twitter social media, which categorized into three categories that are positive, negative, and neutral; and the raw data which consists of 454,559 lines of unprocessed data. Other than that, on the labeled data, the data is cleaned by removing many kind of noises in the data, such as symbols or urls. In this paper, the presented dataset is tested using a sentiment analysis model to make sure that this dataset is suitable to be used in the field of text analysis. The testing is done by measuring the model accuracy which is trained using this dataset and then comparing it to other model which is trained using already published dataset. After testing the data using various algorithm, such as SVM, KNN, and SGD, the accuracy result between our data and the comparison data are more or less equal with around 4% to 12% differences in accuracy, and prove that the dataset presented in this paper is feasible to be used in sentiment analysis. Dataset can be downloaded from link at conclusion section.Intisari-Makalah ini menyajikan sebuah dataset teks berbahasa Indonesia untuk digunakan di bidang analisis teks, terutama analisis sentimen. Dataset ini mencakup data utama, yaitu 10.806 baris data berbahasa Indonesia yang diambil dari media sosial Twitter, yang telah dikategorikan ke dalam tiga label, yaitu positif, negatif, dan netral, beserta 454.559 baris data yang masih bersifat mentah. Selain itu, pada data yang sudah dilabeli, data sudah mengalami proses pembersihan dari elemen-elemen pengganggu di dalam data, misalnya simbol atau tautan halaman web. Dalam makalah ini, data yang disajikan sudah diuji terlebih dahulu menggunakan sebuah model sentimen analisis sederhana untuk memastikan bahwa data ini sudah sesuai untuk digunakan dalam sebuah pemodelan analisis teks secara umum. Pengujian ini dilakukan dengan melihat hasil nilai ketepatan sebuah model analisis sentimen yang menggunakan dataset ini pada proses pelatihan dan membandingkannya dengan model analisis yang menggunakan dataset lain pada proses pelatihan datanya. Setelah dilakukan pengujian menggunakan model analisis sentimen sederhana yang menggunakan algoritme SVM, KNN, dan SGD, terlihat bahwa nilai ketepatan dari data utama dan data pembanding seimbang pada masing-masing algortime, dengan perbedaan nilai ketepatan berkisar pada angka 4% sampai 12%, dan membuktikan bahwa data yang disajikan sudah layak untuk digunakan dalam pemodelan analisis sentimen. Dataset dapat diunduh pada tautan di bagian kesimpulan.
Sentiment analysis in non-English language can be more challenging than the English language because of the scarcity of publicly available resources to build the prediction model with high accuracy. To alleviate this under-resourced problem, this article introduces the leverage of byte-level recurrent neural model to generate text representation for twitter sentiment analysis in the Indonesian language. As the main part of the proposed model training is unsupervised and does not require much-labeled data, this approach can be scalable by using a huge amount of unlabeled data that is easily gathered on the Internet, without much dependencies on humangenerated resources. This paper also introduces an Indonesian dataset for general sentiment analysis. It consists of 10,806 twitter data (tweets) selected from a total of 454,559 gathered tweets which taken directly from twitter using twitter API. The 10,806 tweets are then classified into 3 categories, positive, negative, and neutral. This Indonesian dataset could help the development of Indonesian sentiment analysis especially general sentiment analysis and encouraged others to start publishing similar dataset in the future.
<p>Komunitas <em>online</em> dipandang oleh sebagian pihak sebagai metode untuk membangun kembali hubungan sarana komunikasi baru untuk memberdayakan individu dan organisasi. Kaum optimis menganggap komunitas <em>online</em> sebagai keunggulan kompetitif yang nyata dari kegiatan secara <em>online</em> yang merupakan keuntungan dari jaringan. Komunitas online merupakan salah satu pioner dari pemasaran internet yang sangat menjanjikan dan menciptakan serta menumbuhkan suatu komunitas.</p><p>Menurut Hagel & Armstrong mengemukakan bahwa munculnya komunitas online / munculnya komunitas virtual dalam jaringan online telah menciptakan pergerakan besar kekuasaan yang tidak terduga dari penyedia barang & jasa ke pelanggan. Penyedia yang memahami transfer kekuasaan & memilih mengkapitalisasikan melalui komunitas virtual akan memperoleh loyalitas pelanggan sekaligus keuntungan ekonomi yang mengesankan. Hagel & Armstrong memandang komunitas online sebagai jantung keberhasilan perdagangan secara online.</p><p>Komunitas online menciptakan kondisi dimana komunikasi & interaksi antar pelanggan sama pentingnya dengan komunikasi antara perusahaan ke pelanggan</p>
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.