A text classification system is needed to address the problem of hate speech in social media. However, texts of hate speech are very hard to find in social media. This will make the distribution of training data to be unbalanced (imbalanced data). Classification with imbalanced data will make a poor performance. There are several methods to solve the problem of classification with imbalanced data. One of them is undersampling with Instance Hardness Threshold (IHT) method. IHT method balances the dataset by eliminating data that are frequently misclassified. To find those data, IHT requires an estimator, which is a classifier. This research aims to compare estimators of IHT method to solve imbalanced data problem in hate speech classification using TF-IDF weighting method. This research uses the class ratio of dataset after undersampling, time of the undersampling process, and Index of Balanced Accuracy (IBA) evaluation to determine the best IHT method. The results of this research show that IHT method using the Logistic Regression (IHT(LR)) has the fastest undersampling process (1.91 s), perfectly balance dataset with the class ratio is 1:1, and has the best of IBA evaluation in all estimation process. This result makes IHT(LR) be the best method to solve the imbalanced data problem in hate speech classification.
Pemerintahan Kantor Kelurahan Sidodadi telah menerapkan sistem layanan (service) namun sistem masih dijalankan secara manual dan belum terintegrasi dalam melayani berbagai kebutuhan masyarakat akan administrasi kependudukan dan pelayanan administrasi pemerintahan lainnya. Kelemahan sistem tersebut, masyarakat tidak dapat dilayani maksimal dalam kurun waktu 24 jam. Hal ini dikarenakan untuk mengakses layanan tersebut warga tersebut harus datang langsung ke kantor kelurahan, sementara jam kerja Kantor Kelurahan hanya 5 hari dan terbatas jam operasionalnya dalam kondisi pandemi Covid 19. Solusi penerapan sistem e-government service ini juga diharapkan mampu mendorong optimasi kinerja pegawai, meningkatkan kualitas pelayanan serta meningkatkan kepuasan masyarakat akan akses pelayanan publik di sektor pemerintahan. Kegiatan dan metode pelaksanaan menggunakan metode System Development Life Cycle (SDLC). Metode ini terdiri dari 5 Tahapan yakni Tahapan Perencanaan, Tahapan Analisis, Tahapan Perancangan, Tahapan Implementasi, dan Tahapan Perawatan. Tahapan Perencanaan terdiri dari kegiatan-kegiatan yang menghasilkan penyeleksian prioritas permasalahan mitra (e-government service) serta rencana-rencana yang disusun untuk menyelesaikan permasalahan tersebut. Tahapan Perencanaan telah berjalan seiring dengan pembuatan dokumen. Tahapan Analisis terdiri dari kegiatan-kegiatan yang berfungsi untuk mengumpulkan informasi semaksimal mungkin terkait permasalahan mitra. Kegiatan-kegiatan di Tahapan Analisis dilakukan pada bulan pertama dan kedua. Tahapan Perancangan terdiri dari kegiatan-kegiatan untuk membuat rancangan-rancangan yang diimplementasikan di sistem dan dilaksanakan selama 3 bulan. Tahapan Implementasi membutuhkan waktu yang paling lama yakni 5 bulan. Kegiatan-kegiatan di Tahapan Implementasi terdiri dari pembuatan program (e-government service) untuk sistem hingga pelatihan serta pendukungan pengguna dan mitra. Tahapan Perawatan dilakukan pada saat sistem sudah berjalan yang terdiri dari kegiatan pengawasan dan evaluasi yang dibantu oleh mahasiswa sehingga keberlanjutan kegiatan dapat dioptimalkan.
Indonesia mulai beradaptasi pada era revolusi industri 4.0 ke era society 5.0 dengan penerapan teknologi modern dan penciptaan peluang baru pada semua aspek kehidupan. Selain pengembangan infrastruktur, rencana pemindahan Ibu Kota Negara (IKN) ke Provinsi Kalimantan Timur (KALTIM) juga menjadi catatan penting dalam kesiapan sumber daya manusia yang berkualitas yang dapat dilihat dari mutu pendidikan dengan status akreditasi sekolah. Penelitian ini bertujuan untuk melakukan komparasi terhadap beberapa algoritma klasifikasi seperti C4.5, Naïve Bayes, K-Nearest Neighbor (K-NN), Support Vector Machine (SVM) dan Logistic Regression untuk mencari kinerja terbaik dalam klasifikasi status akreditasi sekolah/madrasah provinsi Kalimantan Timur berdasarkan IASP 2020. Tahap preprocessing membagi data dilakukan menggunakan metode cross validation yang bersumber pada data BAN S/M KALTIM tahun 2020-2021 berjumlah 295 record. Kemudian dilakukan evaluasi kinerja algoritma untuk mencari nilai Accuracy, Precision dan Recall menggunakan confusion matrix.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.