Data mining dapat memproses data masa lalu menjadi pola untuk membantu aktivitas manusia pada masa berikutnya. Dalam data mining terbagi menjadi beberapa metode, yaitu klasifikasi, klustering, asosisi dan peramalan. Dalam penelitian ini, menggunakan metode klasifikasi untuk menentukan pola dari suatu dataset, sehingga dapat digunakan untuk prediksi keputusan dengan data yang baru. Dataset untuk metode klasifikasi harus mempunyai label atau class. Dataset yang mempunyai label yang jumlahnya tidak seimbang (imbalanced dataset) dapat mempengaruhi bentuk model dan hasil prediksi untuk data yang baru. Untuk mengatasi masalah tersebut, dalam penelitian ini menggunakan ensemble method dan pre-processing. Salah satu algoritma dalam ensemble learning method adalah random forest dan pre-processing yang digunakan adalah normalisasi atribut dengan mengubah data nominal menjadi numerik. Random Forest merupakan pengembangan dari decision tree yang menghasilkan pola berbentuk pohon, dimana pola ini dapat menunjukkan alur dari proses klasifikasi. Random forest akan digunakan untuk proses pembelajaran pada data setelah proses normalisasi atribut dilakukan. Tujuan penelitian ini adalah menerapkan proses normalisasi atribut dan menggunakan algoritma random forest untuk mengatasi imbalanced dataset dan mengukur akurasi. Penelitian ini menggunakan dataset publik dari UCI Repository, yaitu car evaluation. Akurasi yang dihasilkan dengan metode ini ± 99 % dengan 90 % data training dan 10 % data testing dan ± 95,95% dengan delapan k-folds cross-validation dan jumlah pohon 100 pohon.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.