K-Means merupakan salah satu metode pengelompokan data non hierarki (sekatan) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih cluster. Metode ini mempartisi data ke dalam kelompok sehingga data berkarakteristik berbeda di kelompokkan ke dalam kelompok yang lain. Pengelompokan data dengan metode K-Means secara umum dilakukan dengan algoritma sebagai berikut:
- Menentukan banyaknya cluster yaitu sebanyak k.
- Memilih secara acak pusat cluster.
- Menghitung jarak semua data pengamatan dengan pusat cluster menggunakan rumus jarak euclidean
di mana:
- Mengalokasikan (menempatkan) data ke dalam salah satu pusat cluster yang memiliki nilai jarak paling dekat.
- Menentukan pusat klaster baru dari setiap cluster yang sudah terbentuk pada langkah ke-4.
- Mengulang langkah 3, 4 dan 5 sampai tidak ada lagi anggota suatu cluster yang berpindah ke cluster lain.
Contoh Perhitungan
Berikut ini adalah contoh perhitungan metode K-means.
Tabel 2.1 Objek Pengamatan
No. | X1 | X2 |
1. | 1 | 1 |
2. | 4 | 1 |
3. | 6 | 1 |
4. | 1 | 2 |
5. | 2 | 3 |
6. | 5 | 3 |
7. | 2 | 5 |
8. | 3 | 5 |
9. | 2 | 6 |
10 | 3 | 8 |
- Menentukan banyaknya cluster yaitu sebanyak 2.
- Menentukan pusat cluster.
Pusat cluster dipilih secara acak dimana untuk pusat cluster 1 adalah objek pengamatan ke-2 dan pusat cluster 2 adalah objek pengamatan ke-4.
- Menghitung jarak data pengamatan dengan pusat cluster.
- Jarak objek pengamatan dengan pusat cluster 1
- Jarak objek pengamatan dengan pusat cluster 2
- Mengalokasikan objek pengamatan ke pusat cluster terdekat.
Data hasil perhitungan jarak selanjutnya dialokasikan ke dalam cluster 1 dan cluster 2 yang dapat dilihat pada Tabel 2.2 sebagai berikut:
Tabel 2.2 Hasil Alokasi Objek Pengamatan ke Pusat Cluster Iterasi 1
Objek Pengamatan | Jarak Kepusat | Alokasi Cluster Ke- | ||
k1 | k2 | |||
1 | 3 | 1 | 2 | |
2 | 0 | 3,16 | 1 | |
3 | 2 | 5,10 | 1 | |
4 | 3,16 | 0 | 2 | |
5 | 2,83 | 1,41 | 2 | |
6 | 2,24 | 4,12 | 1 | |
7 | 4,47 | 3,16 | 2 | |
8 | 4,12 | 3,61 | 2 | |
9 | 5,39 | 4,12 | 2 | |
10 | 7,07 | 6,32 | 2 | |
Berdasarkan Tabel 2.2 dapat dilihat bahwa objek pengamatan pertama memiliki jarak terdekat dengan cluster 2 dengan nilai jarak sebesar 1 yang berarti bahwa objek pengamatan pertama masuk ke dalam cluster 2 dan begitu seterusnya.
- Perhitungan pusat cluster baru
Adapun perhitungan pusat cluster baru sebagai berikut:
- Pusat cluster baru ke-1
Tabel 2.3 Pusat Cluster 1 yang Diperbarui
Objek Pengamatan | X1 | X2 |
2 | 4 | 1 |
3 | 6 | 1 |
6 | 5 | 3 |
Rata-Rata | 5 | 1,67 |
- Pusat cluster baru ke-2
Tabel 2.4 Pusat Cluster 2 yang Diperbarui
Objek Pengamatan | X1 | X2 |
1 | 1 | 1 |
4 | 1 | 2 |
5 | 2 | 3 |
7 | 2 | 5 |
8 | 3 | 5 |
9 | 2 | 6 |
10 | 3 | 8 |
Rata-Rata | 2 | 4,29 |
Sehingga pusat cluster terbaru dapat dilihat pada Tabel 2.5 sebagai berikut
Tabel 2.5 Pusat Cluster 1 yang Diperbarui
Pusat Cluster | X1 | X2 |
1 | 5 | 1,67 |
2 | 2 | 4,29 |
- Mengulang kembali langkah ke-3 sampai dengan 5 hingga tidak ada lagi anggota cluster yang berpindah ke cluster lain.