“…Pada tahap berikutnya dilakukan tahap normalisasi data pada data siswa, lalu melakukan tahap membangun model k-means clustering dengan menggunakan beberapa library yang dibutuhkan untuk proses klasterisasi dengn library NumPy, Pandas, Matplotlib, dan Seaborn. Numpy sendiri merupakan salah satu library python yang digunakan untuk mengimplementasi array dan matriks multidimensi[9], Pandas adalah library pada bahasa pemrograman Python untuk melakukan analisis data[10], Matplotlib adalah library yang bertanggung jawab untuk merencanakan data numerik[11], Seaborn dapat digunakan untuk membuat plot atau grafik yang menjelaskan hasil analisis[12]. Berikutnya, Model akan melakukan perhitungan, Dalam beberapa pendekatan untuk mengoptimasi K-Means, pemilihan centroid awal dilakukan dengan mengambil nilai jarak terjauh atau yang memiliki nilai densitas terbesar antar objek data[13], tentunya dengan menggunakan Euclidean distance yang merupakan salah satu metode perhitungan jarak yang digunakan untuk mengukur jarak dari 2 (dua) buah titik[14], lalu mendapatkan hasil klasterisasi dari training model, setelah melakukan perhitungan dengan training data, dilakukan tahap berikutnya yaitu menerapkan reduksi Principal Component Analysis (PCA), PCA dapat mereduksi dimensi data yang tinggi menjadi dimensi data yang lebih rendah dengan resiko kehilangan informasi yang sangat kecil[15].…”