CLUSTERING (METODE HIERARKI)

  • Analisis Cluster

Analisis cluster adalah pengelompokan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan objek tersebut dan hubungan antar data. Tujuan analisis cluster adalah agar objek-objek yang bergabung dalam sebuah kelompok merupakan objek-objek yang mirip (atau berhubungan) satu sama lain dan berbeda (atau tidak berhubungan) dengan objek dalam kelompok yang lain.

Secara umum terdapat dua metode yang dapat digunakna untuk melakukan analisis cluster, yaitu metode hierarki dan metode non hierarki. Metode hierarki memulai pengelompokan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya hingga cluster akan membentuk semacam pohon dimana ada hierarki (tingkatan) yang jelas antar objek dari yang paling mirip hingga yang paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah klaster. Dendogram biasanya digunakan untuk membantuk memperjelas proses hierarki tersebut.

  • Metode Hierarki

Teknik pengelompokan pada metode hierarki menggunakan teknik penggabungan (agglomerative) dan teknik pembagian (divisive). Teknik pengelompokan antar kelompok adalah sebagai berikut:

a. Single Linkage

Metode Single Linkage adalah proses clustering yang didasarkan pada jarak terdekat antar objeknya. Jika dua objek terpisah oleh jarak pendek, maka kedua objek tersebut akan bergabung menjadi satu cluster dan demikian seterusnya. Pengukuran jarak metode ini dapat ditulis dalam rumus berikut:

dimana

merupakan ukuran kemiripan antara kelompok ke-w dengan kelompok (i,j) yang merupakan penggabungan antara kelompok ke-i dan ke-j.

Adapun algoritma dari metode single linkage adalah sebagai berikut:

1. Menghitung matriks jarak dengan menggunakaan jarak manhattan pada persamaan dibawah sebagai berikut:

2. Menggabungkan dua cluster yang memiliki ukuran jarak terkecil

3. Memperbarui matriks jarak

4. Mengulangi langkah 2 untuk mendapatkan pasangan cluster terdekat berikutnya untuk digabungkan

b. Complete Linkage

Pengukuran jarak pada metode complete linkage dilakukan berdasarkan jarak maksimum atau terjauh. Rumus yang digunakan dalam menentukan jarak pada metode ini adalah sebagai berikut:

dimana

merupakan ukuran kemiripan antara kelompok ke-w dengan kelompok (i,j) yang merupakan penggabungan antara kelompok ke-i dan ke-j.

Adapun algoritma dari metode complete linkage adalah sebagai berikut:

1. Menghitung matriks jarak dengan menggunakaan jarak manhattan pada persamaan sebagai berikut:

2. Menggabungkan dua cluster yang memiliki ukuran jarak terkecil

3. Memperbarui matriks jarak

4. Mengulangi langka 2 untuk mendapatkan pasangan cluster terdekat berikutnya untuk digabungkan

c. Average Linkage

Kriteria yang digunakan dalam mengukur jarak pada metode ini adalah rata-rata jarak seluruh individu dalam satu kelompok dengan jarak seluruh individu dalam kelompok lain. Dapat dituliskan dalam rumus sebagai berikut:

dimana

merupakan ukuran kemiripan antara kelompok ke-w dengan kelompok (i,j) yang merupakan penggabungan antara kelompok ke-i dan ke-j, (disimbolkan sebagai kelompok ij).

dan

merupakan jumlah pengamatan dalam kelompok ij dan w, sedangkan

merupakan jarak antara pengamatan ke-q dalam kelompok ij dengan pengamatan ke-r dalam kelompok w.

Adapun algoritma dari metode average linkage adalah sebagai berikut:

1. Menghitung matriks jarak dengan menggunakaan jarak manhattan pada persamaan sebagai berikut:

2. Menggabungkan dua cluster yang memiliki ukuran jarak terkecil

3. Memperbarui matriks jarak

4. Mengulangi langka 2 untuk mendapatkan pasangan cluster terdekat berikutnya untuk digabungkan

  • Contoh Perhitungan

Tabel Data Pengamatan

Data Ke-AB
1.11
2.41
3.12
4.34
5.54

a. Single Linkage

Adapun langkah pengerjaan pada metode single linkage sebagai berikut

1. Menghitung matriks jarak dengan menggunakan persamaan sebagai berikut:

Sehingga, matriks jarak yang dihasilkan adalah sebagai berikut

Tabel Jarak Manhattan pada Metode Single linkage iterasi 1

dmanhattan12345
10    
230   
3140  
45440 
574620

2. Menggabungkan dua cluster yang memiliki ukuran jarak terkecil

Setelah memperoleh hasil jarak dengan menggunakan jarak manhattan. Langkah selanjutnya adalah menggabungkan dua cluster yang memiliki ukuran jarak terkecil. Dapat dilihat pada Tabel diatas bahwa pasangan cluster 1 dan 3 memiliki ukuran jarak yang paling kecil sebesar 1 sehingga cluster 1 dan 3 digabung menjadi satu cluster dan sekarang terbentuk 4 cluster.

3. Memperbarui matriks jarak

Setelah menggabungkan dua cluster, selanjutnya adalah memperbarui matriks jarak untuk mencari cluster terdekat dari 4 cluster. Jarak antar cluster dihitung berdasarkan metode single linkage pada persamaan sebagai berikut:

Sehingga, matriks jarak yag diperbarui dapat dilihat pada Tabel sebagai berikut:

Tabel  Jarak Manhattan yang diperbarui pada Metode Single lingkage iterasi 2

dmanhattan(1,3)245
(1,3)0   
230  
4440 
56420

4. Setelah memperbarui matriks jarak selanjutnya adalah menggabungkan dua cluster dengan jarak terkecil, pada Tabel diatas dapat dilihat bahwa cluster 4 dan 5 memiliki ukuran jarak terkecil yaitu sebesar 2 sehingga cluster 4 dan 5 digabung menjadi satu cluster dan sekarang terbentuk 3 cluster.

5. Memperbarui matriks jarak

Adapun perhitungan jarak antar cluster sebagai berikut:

Sehingga, matriks jarak yang diperbarui pada iterasi 3 dapat dilihat pada Tabel sebagai berikut:

Tabel Jarak Manhattan yang diperbarui pada Metode Single linkage iterasi 3

dmanhattan(1,3)2(4,5)
(1,3)0  
230 
(4,5)440

6. Pada Tabel diatas dapat dilihat bahwa cluster 2 dan (1,3) memiliki ukuran jarak terkecil yaitu sebesar 3 sehingga cluster 2 dan (1,3) digabung menjadi satu cluster dan sekarang terbentuk 2 cluster.

7. Memperbarui matriks jarak

Adapun perhitungan jarak antar cluster sebagai berikut:

Sehingga, matriks jarak yang diperbarui pada iterasi 3 dapat dilihat pada Tabel sebagai berikut:

Tabel Jarak Manhattan yang diperbarui pada Metode Single linkage iterasi 3

dmanhattan(1,3)2(4,5)
(1,3)20 
(4,5)40
Gambar Dendogram Metode Single linkage

b. Complete Linkage

Adapun langkah pengerjaan pada metode Complete linkage sebagai berikut

1. Menghitung matriks jarak dengan menggunakan persamaan sebagai berikut:

Sehingga, matriks jarak yang dihasilkan adalah sebagai berikut

Tabel Jarak Manhattan pada Metode Complete linkage iterasi 1

dmanhattan12345
10    
230   
3140  
45440 
574620

2. Menggabungkan dua cluster yang memiliki ukuran jarak terkecil

Setelah memperoleh hasil jarak dengan menggunakan jarak manhattan. Langkah selanjutnya adalah menggabungkan dua cluster yang memiliki ukuran jarak terkecil. Dapat dilihat pada Tabel bahwa pasangan cluster 1 dan 3 memiliki ukuran jarak yang paling kecil sebesar 1 sehingga cluster 1 dan 3 digabung menjadi satu cluster dan sekarang terbentuk 4 cluster.

3. Memperbarui matriks jarak

Setelah menggabungkan dua cluster, selanjutnya adalah memperbarui matriks jarak untuk mencari cluster terdekat dari 4 cluster. Jarak antar cluster dihitung berdasarkan metode complete linkage pada persamaan sebagai berikut:

Sehingga, matriks jarak yag diperbarui dapat dilihat pada Tabel sebagai berikut:

Tabel  Jarak Manhattan yang diperbarui pada Metode Complete linkage iterasi 2

dmanhattan(1,3)245
(1,3)0   
240  
4540 
57420

4. Setelah memperbarui matriks jarak selanjutnya adalah menggabungkan dua cluster dengan jarak terkecil, pada Tabel dapat dilihat bahwa cluster 4 dan 5 memiliki ukuran jarak terkecil yaitu sebesar 2 sehingga cluster 4 dan 5 digabung menjadi satu cluster dan sekarang terbentuk 3 cluster.

5. Memperbarui matriks jarak

Adapun perhitungan jarak antar cluster sebagai berikut:

Sehingga, matriks jarak yang diperbarui pada iterasi 3 dapat dilihat pada Tabel sebagai berikut:

Tabel Jarak Manhattan yang diperbarui pada Metode Complete linkage iterasi 3

dmanhattan(1,3)2(4,5)
(1,3)0  
240 
(4,5)740

6. Pada Tabel diatas dapat dilihat bahwa cluster 2 dan (1,3) memiliki ukuran jarak terkecil yaitu sebesar 3 sehingga cluster 2 dan (1,3) digabung menjadi satu cluster dan sekarang terbentuk 2 cluster.

7. Memperbarui matriks jarak

Adapun perhitungan jarak antar cluster sebagai berikut:

Sehingga, matriks jarak yang diperbarui pada iterasi 3 dapat dilihat pada Tabel sebagai berikut:

Tabel  Jarak Manhattan yang diperbarui pada Metode Complete linkage iterasi 3

dmanhattan(1,3)2(4,5)
(1,3)20 
(4,5)70
Gambar Dendogram Metode Complete Linkage

c. Average Linkage

Adapun langkah pengerjaan pada metode average linkage sebagai berikut

1. Menghitung matriks jarak dengan menggunakan persamaan sebagai berikut:

Sehingga, matriks jarak yang dihasilkan adalah sebagai berikut

Tabel Jarak Manhattan pada Metode Average linkage iterasi 1

dmanhattan12345
10    
230   
3140  
45440 
574620

2. Menggabungkan dua cluster yang memiliki ukuran jarak terkecil

Setelah memperoleh hasil jarak dengan menggunakan jarak manhattan. Langkah selanjutnya adalah menggabungkan dua cluster yang memiliki ukuran jarak terkecil. Dapat dilihat pada Tabel diatas bahwa pasangan cluster 1 dan 3 memiliki ukuran jarak yang paling kecil sebesar 1 sehingga cluster 1 dan 3 digabung menjadi satu cluster dan sekarang terbentuk 4 cluster.

3. Memperbarui matriks jarak

Setelah menggabungkan dua cluster, selanjutnya adalah memperbarui matriks jarak untuk mencari cluster terdekat dari 4 cluster. Jarak antar cluster dihitung berdasarkan metode average linkage pada persamaan sebagai berikut:

Sehingga, matriks jarak yag diperbarui dapat dilihat pada Tabel sebagai berikut:

Tabel  Jarak Manhattan yang diperbarui pada Metode Average linkage iterasi 2

dmanhattan(1,3)245
(1,3)0   
23,50  
44,540 
56,5420

4. Setelah memperbarui matriks jarak selanjutnya adalah menggabungkan dua cluster dengan jarak terkecil, pada Tabel 4.11 dapat dilihat bahwa cluster 4 dan 5 memiliki ukuran jarak terkecil yaitu sebesar 2 sehingga cluster 4 dan 5 digabung menjadi satu cluster dan sekarang terbentuk 3 cluster.

5. Memperbarui matriks jarak

Adapun perhitungan jarak antar cluster sebagai berikut:

Sehingga, matriks jarak yang diperbarui pada iterasi 3 dapat dilihat pada Tabel sebagai berikut:

Tabel Jarak Manhattan yang diperbarui pada Metode Average linkage iterasi 3

dmanhattan(1,3)2(4,5)
(1,3)0  
23,50 
(4,5)5,540

4. Pada Tabel diatas dapat dilihat bahwa cluster 2 dan (1,3) memiliki ukuran jarak terkecil yaitu sebesar 3 sehingga cluster 2 dan (1,3) digabung menjadi satu cluster dan sekarang terbentuk 2 cluster.

5. Memperbarui matriks jarak

Adapun perhitungan jarak antar cluster sebagai berikut:

Sehingga, matriks jarak yang diperbarui pada iterasi 3 dapat dilihat pada Tabel 4.13 sebagai berikut:

Tabel 4.13  Jarak Manhattan yang diperbarui pada Metode Complete Average iterasi 3

dmanhattan(1,3)2(4,5)
(1,3)20 
(4,5)50
Gambar Dendogram Metode Average Linkage

Syntax:

data=read.table(file.choose(),header=T)
library(cluster)
distance=dist(data,method=”manhattan”)
distance  

#single linkage
fit.sin=hclust(distance,method = “single”)
plot(fit.sin)
rect.hclust(fit.sin,3)
kelompok=cutree(fit.sin,3)
tabel=data.frame(kelompok)
tabel

#complete linkage
fit.comp=hclust(distance,method = “complete”)
plot(fit.comp)
rect.hclust(fit.comp,3)
kelompok=cutree(fit.comp,3)
tabel=data.frame(kelompok
tabel

#average linkage
fit.ave=hclust(distance,method = “average”)
plot(fit.ave)
rect.hclust(fit.ave,3)
kelompok=cutree(fit.ave,3)
tabel=data.frame(kelompok)
tabel

Leave a Reply