Kemajuan teknologi informasi dan komunikasi serta keberadaan internet yang semakin meluas di tengah masyarakat sehingga memunculkan kebiasaan-kebiasaan baru. Salah satunya adalah kebiasaan melakukan transaksi jual beli online. Kebiasaan baru tersebut menuntut para pemilik usaha untuk dapat menyesuaikan diri dengan perkembangan dunia transaksi saat ini. Penelitian ini bertujuan untuk mengetahui pengelompokkan minat belanja online yang dilakukan masyarakat Daerah Istimewa Yogyakarta berdasarkan faktor jenis kelamin, umur, dan platform yang diminati dengan penerapan Data Mining. Dengan adanya pengelompokkan ini diharapkan dapat memberikan pengetahuan bagi para pemilik online shop agar dapat mengetahui platform mana yang sering digunakan oleh masyarakat DIY dalam melakukan belanja online. Metode yang digunakan dalam mengelompokkan tingkat minat belanja online adalah k-Modes Clustering dengan nilai k
Tingkat penyebaran COVID-19 cukup cepat, hingga 14 November 2020 tercatat jumlah kasus terkonfirmasi positif di Indonesia mencapai 463.007 jiwa. Ketersediaan fasilitas kesehatan masing-masing provinsi menentukan kesiapan daerah dalam penanganan COVID-19 sehingga penting untuk menganalisis keadaan dan distribusi provinsi-provinsi terkait kesiapannya tersebut. Penelitian ini melakukan clustering menggunakan algoritma K-Means dan K-Means with Outlier Detection untuk mengelompokkan 34 provinsi di Indonesia berdasarkan jumlah kasus COVID-19 dan data fasilitas kesehatan, lalu menentukan metode terbaiknya, serta mengidentifikasi karakteristik masing-masing kelompok berdasarkan metode terbaik. Penelitian menghasilkan tiga cluster. Cluster 1 merupakan kelompok provinsi dengan jumlah kasus COVID-19 tinggi dan fasilitas kesehatan kurang memadai, cluster 2 memiliki jumlah kasus COVID-19 tinggi dan fasilitas kesehatan memadai, sedangkan cluster 3 memiliki jumlah kasus COVID-19 rendah dan fasilitas kesehatan menengah.
Penambahan kasus COVID-19 yang besar di Indonesia, khususnya Pulau Jawa, membutuhkan berbagai upaya untuk mengendalikannya. Salah satu upaya efektif yang dapat dilakukan adalah tindakan preventif dengan memberi informasi mengenai kondisi suatu wilayah. Sebagai peringatan kepada masyarakat dan sebagai upaya pengambilan kebijakan daerah, Indonesia mengeluarkan zona risiko sampai pada tingkat kabupaten/kota melalui Satgas Penanganan COVID-19. Pembentukan level zona risiko tersebut menggunakan teknik konvensional yaitu pembobotan skor menggunakan informasi dari tiga jenis indikator. Dengan mempertimbangkan bahwa zona risiko merupakan hal yang penting dalam penentuan kebijakan terkait COVID-19, penelitian ini bertujuan untuk membangun model klasifikasi zona risiko kabupaten/kota di Pulau Jawa menggunakan beberapa teknik klasifikasi data mining dan menentukan model klasifikasi terbaik berdasarkan hasil evaluasi. Teknik klasifikasi yang digunakan sebagai perbandingan dalam penelitian ini adalah naive Bayes, decision tree, k-nearest-neighbor, dan neural network. Sebelum dilakukan pemodelan, data disesuaikan terlebih dahulu pada tahap preprocessing di mana pada tahap tersebut teridentifikasi terdapat permasalahan missing value dan imbalanced data. Permasalahan tersebut diatasi dengan imputasi data dan teknik oversampling. Hasil penelitian menunjukkan bahwa model k-nearest-neighbor merupakan model terbaik dibandingkan tiga model lainnya. Hasil tersebut didasarkan pada ukuran evaluasi keempat model di mana model k-NN memiliki nilai acccuracy, nilai rata-rata makro untuk sensitivitas, spesifisitas, dan ukuran F1 paling tinggi dibandingkan model lainnya.
Constraint-based data cleaning captures data violations to a set of constraints called data quality constraints. Data edits is one of constraint type besides integrity constraint that used for checking data inconsistencies which come from census or survey questionnaire (questionnaire schema). Data edits contain some variables and describe their relationship using AND and OR operator. The relationship needs to be represented in a structure that can find the best data repair solution. Graph is a generic structure to represent a relationship. In previous studies, hypergraph is used as a solution to represent variable relationships of the violated integrity constraint. Such solution is not efficient for data edits. Hypergraph cannot show the relationship between data edits as a whole. This can trigger more new errors. In this paper, we use graph representation namely directed bipartite hypergraph to illustrate the relationship between overall data edits. Nodes in the graph not only contain variable information of data edits, but also the data edits itself. This makes the interaction between data edits can be seen as a basis to prevent new errors. We also introduce four parameters as determining the level of variables that are priorities for improvement. The goal is to minimize the number of variables must be fixed, but can eliminate all violations that occur. We evaluate the quality of the proposed structure by simulating data repairing. The results show that 100% of the data has decreased violations. 84% of them can be repaired to zero violations.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.