Analisis Cluster

Sama dengan analisis factor, analisis cluster (cluster analysis) termasuk pada Interdependes Techniques. Namun ada perbedaan mendasar di antara kedua alat analisis multivariate ini. Jika analisis factor (R factor analysis) bertujuan mereduksi variabel, analisis cluster (Q factor analysis) lebih bertujuan mengelompokkan isi variabel, walaupun bisa juga disertai dengan pengelompokan variabel. Dalam terminology SPSS, analisis factor adalah perlakuan terhadap kolom, sedangkan analisis cluster adalah perlakuan terhadap baris.

Tujuan Analisis Cluster

Tujuan utama analisis cluster adalah mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Objek bisa berupa produk (barang dan jasa), benda (tumbuhan atau lainnya), serta orang (responden, konsumen atau yang lain). Objek tersebut akan diklasifikasikan ke dalam satu atau lebih cluster (kelompok) sehingga objek-objek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lain.

Definisi Analisis Cluster

Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat  kesamaannya) akan mengelompok kedalam satu cluster (kelompok) yang sama.

Secara logika, cluster yang baik adalah cluster yang mempunyai:

  1. Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).
  2. Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang lainnya (between-cluster).

Beberapa manfaat dari analisis cluster adalah: eksplorasi data peubah ganda, reduksi data, stratifikasi sampling, prediksi keadaan obyek.  Hasil dari analisis cluster dipengaruhi oleh: obyek yang diclusterkan, peubah yang diamati, ukuran kemiripan (jarak) yang dipakai, skala ukuran yang dipakai, serta metode pengclusteran yang digunakan.

Proses Analisis Cluster

Untuk menganalisis cluster, anda perlu melakukan proses sebagai berikut:

Tahap 1:

Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang mengelompokkan objek yang mempunyai kemiripan, proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Metode yang digunakan:

  • Mengukur korelasi antar sepasang objek pada beberapa variabel
  • Mengukur jarak (distance) antara dua objek. Pengukuran ada bermacam-macam, yang paling popular adalah metode Euclidian distance.

Tahap 2:

Membuat cluster. Metode dalam membuat cluster ada banyak sekali, seperti yang digambarkan dalam diagram di bawah ini:

diagram analisis cluster

Hirarchial Methode

Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam “pohon”, di mana  ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hirarki tersebut.

Agglomerative

Dalam agglomerative ada lima metode yang cukup terkenal, yaitu: Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.

  • Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.
  • Complete Linkage, berlawanan dengan Single Linkage prosedur ini pengelompokkannya berdasarkan jarak terjauh.
  • Average Linkage, prosedure ini hampir sama dengan Single Linkage maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster yang lain.
  • Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel.
  • Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan jarak centroid dua cluster yang bersangkutan.

Manfaat Analisis Kluster Hirarki

Keuntungan penggunaan metode hierarki dalam analisis Cluster adalah mempercepat pengolahan dan menghemat waktu karena data yang diinputkan akan membentuk hierarki atau membentuk tingkatan tersendiri sehingga mempermudah dalam penafsiran, namun kelemahan dari metode ini adalah seringnya terdapat kesalahan pada data outlier, perbedaan ukuran jarak yang digunakan, dan terdapatnya variabel yang tidak relevan. Sedang metode non-hierarki memiliki keuntungan dapat melakukan analisis sampel dalam ukuran yang lebih besar dengan lebih efisien. Selain itu, hanya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan variabel tak relevan atau variabel yang tidak tepat. Sedangkan kelemahannya adalah untuk titik bakal random lebih buruk dari pada metode hirarkhi.

Non-Hirarchial Methode

Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode ini biasa disebut dengan K-Means Cluster.

Kluster Non Hirarki

Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster asalnya.

Pendekatan Metode non hirarki cluster

Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.

Sequential Threshold, Metode Sequential Threshold

·       Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.

Parallel Threshold, Metode Parallel Threshold

·      Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.

Optimization

·    Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang lebih dekat.

Interprestasi Analisis Cluster

Setelah cluster terbentuk, entah dengan metode hirarki atau non-hirarki, langkah selanjutnya adalah melakukan interprestasi terhadap cluster yang terbentuk, yang pada intinya memberi nama spesifik untuk menggambarkan isi cluster. Misalnya, kelompok konsumen yang memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai “cluster lingkungan”.

Tahap validasi Cluster

Melakukan validasi dan profiling cluster. Cluster yang terbentuk kemudian diuji apakah hasil tersebut valid. Kemudian dilakukan proses profiling untuk menjelaskan karakteristik setiap cluster berdasarkan profil tertentu (seperti usia konsumen pembeli rumah, tingkat penghasilannya dan sebagainya). Analisis cluster agak bersifat subjektif  dalam penentuan penyelesaian cluster yang optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan  peneliti.

  • Validasi Hasil Cluster

Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil cluster adalah representatif terhadap populasi secara umum, dan dengan demikian dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah kemudian membandingkan antara  hasil cluster dengan perkiraan masing-masing cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya dibandingkan.

  • Profiling Hasil Cluster

Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi. Tipe ini meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster ditentukan. Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur cluster untuk menggambarkan karakteristik masing-masing cluster. Meskipun secara teori tidak masuk akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini diperlukan untuk memprediksi validasi taksiran, sehingga  minimal penting secara praktek.

Asumsi Analisis Cluster

Untuk melakukan proses analisis cluster ini, ada asumsi yang harus terpenuhi, yaitu: Sampel yang diambil benar-benar dapat mewakili populasi yang ada (representativeness of the sample) dan Multikolinieritas. Sedangkan asumsi lainnya yang biasanya dilakukan pada analisis multivariat tidak perlu dilakukan, seperti: Uji NormalitasUji Linearitas dan Uji Heteroskedastisitas.

Contoh Analisis Cluster Dengan Rstudio

Pada stu kasus kali ini diambil dari …. Mengenai survei tahunan harga global dan standar hidup di berbagai negara dan kota di seluruh dunia pada tahun 2019. Variabel pada data set antara lain: kota/city (city), rata-rata jam kerja/average work hour (work), ukuran rata-rata harga/average price (price), dan ukuran rata-rata gaji/average salary (salary).

Hal pertama yang kita lakukan yaitu tentu saja membuka aplikasi Rstudio kemudian import data. Untuk import data kali ini dilakukan dengan menggunakan perintah read.delimdengan cara copy terlebih dahulu datanya, dapat di excel maupun word.

shevina_l5<-read.delim(“clipboard”) head(shevina_l5)

Variabel yang akan dianalisis yaitu variabel work, price, dan salary pada kolom 2–4 sehingga kita akan membuat dataset yang hanya berisikan variabel tersebut.

data_shevina<-shevina_l5[,2:4]
head(data_shevina)

Sebelum dilakukan analisis cluster hierarki, terlebih dulu kita deskripsikan data untuk mengetahui ringkasan data dan mengetahui apakah terdapat data missing atau tidak.

#cekmissing
summary(data_shevina)

Setelah dipastikan tidak ada data missing, dilakukan analisis cluster hierarki dengan menghitung jarak antar data.

#menghitungjarak
jarak=dist(data_shevina)
jarak

Kemudian kita analisis cluster serta menacri korelasi dengan menggunakan beberapa metode yaitu average linkage, single linkage, complete linkage, ward linkage dan centroid linkag menggunakansintaks analisis dan korelasi seperti berikut:

Average Linkage #Averagelinkage
metode_ave<-hclust(dist(scale(data_shevina)),method=”ave”)
plot(metode_ave)#korelasi
d1=dist(data_shevina)
hc=hclust(d1,”ave”)
d2=cophenetic(hc)
corcomp=cor(d1,d2)
>corcomp
[1] 0.7800435

Single Linkage

#Singlelinkage
metode_sl<-hclust(dist(scale(data_shevina)),method=”single”)
plot(metode_sl)#korelasi
d1=dist(data_shevina)
hc=hclust(d1,”single”)
d2=cophenetic(hc)
corcomp=cor(d1,d2)
>corcomp
[1] 0.7765157

Complete Linkage

#Completelinkage
metode_cl<-hclust(dist(scale(data_shevina)),method=”complete”)
plot(metode_cl)#korelasi
d1=dist(data_shevina)
hc=hclust(d1,”complete”)
d2=cophenetic(hc)
corcomp=cor(d1,d2)
>corcomp
[1] 0.716435

Ward Linkage

#Wardlinkage
metode_ward<-hclust(dist(scale(data_shevina)),method=”ward.D”)
plot(metode_ward)#korelasi
d1=dist(data_shevina)
hc=hclust(d1,”ward.D”)
d2=cophenetic(hc)
corcomp=cor(d1,d2)
>corcomp
[1] 0.6175448

Centroid Linkage

#Centroidlinkage
metode_centroid<-hclust(dist(scale(data_shevina)),method=”centroid”)
plot(metode_centroid)#korelasi
d1=dist(data_shevina)
hc=hclust(d1,”centroid”)
d2=cophenetic(hc)
corcomp=cor(d1,d2)
>corcomp
[1] 0.7687897

Setelah kita tahu Cluster dendogram dan nilai korelasi dari masing-masing metode Kita lakukan analisis kelompok dengan menggunakan nilai korelasi yang paling besar, dalam studi kasus ini nilai korelasi yang paling besar didapatkan dari metode average linkage yaitu sebesar 0.7800435.

Jumlah kelompok yang optimal ditentukan dengan menginstall package factorextraterlebih dahulu, kemudian dilanjutkan dengan fungsi fviz_ncblust()seperti berikut.

library(factoextra)
fviz_nbclust(data_shevina,FUN=hcut,method = “silhouette”, hc_method=”average”)

Sehingga didapatkan jumlah kelompok optimal yaitu 2 kelompok dengan menggunakan metode silhouette.

Setelah diketahui terdapat 2 pengelompokkan, kita lanjutkan dengan menentukan anggota dari masing-masing kelompok dengan menggunakan sintaks berikut,

rect.hclust(metode_ave,2)
anggota<-cutree(metode_ave,2)
>anggota
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2
[34] 2 2 2 2 2 2 2 2 2 2 2 2 2

Dari hasil yang didapatkan maka dapat kita ubah dalam bentuk dataframe supaya lebih jelas dalam menganalisisnya city <- shevina_l5[,1]
tabel=data.frame(city,anggota)
> tabel
             city anggota
1  Amsterdam            1
2  Brussels             1
3  Chicago              1
4  Copenhagen           1
5  Dublin               1
6  Dusseldorf           1
7  Frankfurt            1
8  Geneva               1
9  Helsinki             1
10 Houston              1
11 London               1
12 Los Angeles          1
13 Luxembourg           1
14 Madrid               1
15 Milan                1
16 Montreal             1
17 New York             1
18 Oslo                 1
19 Paris                1
20 Stockholm            1
21 Sydney               1
22 Tokyo                1
23 Toronto              1
24 Vienna               1
25 Zurich               1
26 Athens               2
27 Bogota               2
28 Bombay               2
29 Buenos Aires         2
30 Caracas              2
31 Hong Kong            2
32 Johannesburg         2
33 Kuala Lumpur         2
34 Lagos                2
35 Lisbon               2
36 Manila               2
37 Mexico City          2
38 Nairobi              2
39 Nicosia              2
40 Panama               2
41 Rio de Janeiro       2
42 Sao Paulo            2
43 Seoul                2
44 Singpore             2
45 Taipei               2
46 Tel Aviv             2

Interpretasi Analisis Cluster Herarki Dengan Rstudio

Statistika Deskriptif

Pembahasan pertama yaitu statistika deskriptif untuk mendeskripikan ringkasan data tersebut. Selain itu juga bertujuan untuk melakukan pengecekkan data agar dapat diketahui apakah data mengandung data yang hilang (NA) atau tidak. Ringkasan data yang kita dapat adalah sebagai berikut.

Gambar di atas merupakan ringkasan dari data yang dianalisis. Ditampilkan nilai minimal, maksimal, kuartil, meanmedian , dan nilai NA pada hasil ringkasan.

Dari ringkasan tersebut dapat kita ketahui bahwa kota(city) pada data yang dianalisis memiliki rata-rata jam kerja selama 1880 jam, dengan rata-rata gaji sebesar $39 USD, serta memiliki rata-rata harga kebutuhan hidup sebesar $70 USD. Dapat diketahui juga bahwa pada tersebut tidak terdapat data missing. Sehingga dapat dilakukan analisis berikutnya adalah analisis cluster hierarki.

Pembahasan Analisis Cluster Hierarki

Analisis cluster hierarki merupakan metode pengelompokan yang terstruktur dan bertahap berdasarkan pada kemiripan sifat antar objek. Sebelum dilakukan analisis cluster terlebih dahulu diketahui jarak antar objek (city) berdasarkan ketiga faktor. Setelah diketahui jarak antar objek, dilakukan analisis clusterdengan 5 metode dan dihitung nilai korelasi dari masing-masing metode tersebut.

Average Linkage

Metode pertama yang digunakan yaitu metode average linkage dengan berdasarkan rata-rata antar objek. Cluster dendogram yang dihasilkan dari metode average linkage seperti pada gambar berikut,

gambar di atas merupakan hasil cluster dendogram dari 46 kota menggunakan metode avergae linkage. Dari analisis tersebut dapat diketahui nilai korelasi seperti pada hasil output RStudio berikut,

>corcomp
[1] 0.7800435

Dari output di atas dapat diketahui bahwa nilai korelasi dengan menggunakan metode average linkage sebesar 0.7800435 atau 78%.

Single Linkage

Yang kedua kita gunakan metode single linkage berdasarkan jarak terdekat antar objek. Cluster dendogram yang dihasilkan dari metode single linkage seperti pada gambar di bawah

gambar di atas merupakan hasil cluster dendogram dari 46 kota menggunakan metode avergae linkage. Dari analisis tersebut dapat diketahui nilai korelasi seperti pada hasil output RStudio berikut,

>corcomp
[1] 0.7800435

Dari output di atas dapat diketahui bahwa nilai korelasi dengan menggunakan metode average linkage sebesar 0.7800435 atau 78%.

Single Linkage

Yang kedua kita gunakan metode single linkage berdasarkan jarak terdekat antar objek. Cluster dendogram yang dihasilkan dari metode single linkage seperti pada gambar di bawah

dengan nilai korelasi berikut,

>corcomp
[1] 0.7765157

Kita ketahui bahwa nilai korelasi dengan menggunakan metode single linkage sebesar 0.7765157 atau 77.6%. Sehingga nilai korelasinya sedikit lebih rendah dibandingkan dengan metode average linkage.

Complete Linkage

Kemudian digunakan metode complete linkage berdasarkan jarak terjauh antar objek. Cluster dendogram dari 46 kota yang dihasilkan dari metode complete linkage seperti pada gambar di bawah ini,

Dari analisis menggunakan complete linkage, menghasilkan nilai korelasi seperti berikut

>corcomp
[1] 0.716435

Nilai korelasi dengan menggunakan metode complete linkage sebesar 0.716435 atau 71.6%. Sehingga hasil korelasi yang dihasilkan lebih rendah dibandingkan dengan menggunakan metode average, single dan centroid linkage.

Ward Linkage

Kita lanjutkan dengan metode ward linkage berdasarkan perhitungan yang lengkap dan memaksimumkan homogenitas di dalam satu kelompok. Cluster dendogram yang dihasilkan dari metode ward linkage adalah

rapi banget ya, hihihi… Dari analisis tersebut dapat diketahui nilai korelasinya yaitu

>corcomp
[1] 0.6175448

Dapat kita lihat nilai korelasi dengan menggunakan metode ward linkage sebesar 0.6175448 atau 61.7%. Sehingga dapat dikatakan bahwa nilai korelasi yang dihasilkan paling rendah dibandingakn dengan keseluruhan metode.

Centroid Linkage

Metode terakhir yang kita gunakan yaitu metode centroid linkage berdasarkan perhitungan centroidCluster dendogram yang dihasilkan dari metode centroid linkage seperti berikut

kita dapatkan nilai korelasinya adalah

>corcomp
[1] 0.7687897

Kita ketahui bahwa nilai korelasi dengan menggunakan metode centroid linkage sebesar 0.7687897 atau 76.8%Sehingga hasil korelasi yang dihasilkan lebih rendah dibandingkan dengan menggunakan metode average dan single linkage.

Cluster Optimal

Untuk membentuk kelompok, kita tentukan dari cluster yang memiliki korelasi yang paling tingi. Oh iya.. korelasi yang dimaksud di sini yaitu korelasi cophenetic. Korealsi cophenetic merupakan korelasi antara elemen matriks jarak dengan elemen yang dihasilkan oleh dendogram. Dari kelima metode yang telah dilakukan sebelumnya, yang memiliki nilai korelasi yang paling tinggi yaitu pada metode average linkage sebesar 78% untuk selanjutnya akan dilakukan pengelompokkan.

Untuk pengelompokkan sendiri, Kita menggunakan metode silhouette pada R untuk mengetahui berapa kelompok optimal yang harus dibentuk. Perlu diketahui juga pengelompokkan ini tidak harus berdasarkan metode sillouette atau metode tertentu ya frens, tetapi juga bisa ditentukan dari si peneliti itu sendiri (yaps kita) berapa kelompok yang akan dibuat. Seperti contohnya tingkat kemiskinan dibagi menjadi 3 kelompok yaitu tinggi, sedang, dan rendah.

Bisa Kita lihat dari output di atas pengelompokkan yang optimal yaitu 2 kelompok. Selanjutnya kita akan ketahui kota (city) mana saja yang masuk dalam kelompok 1 dan 2 pada tabel berikut.

Profilisasi Kelompok

Yang kita lakukan selanjutnya yaitu melakukan profilisasi kelompok untuk mengetahui karakteristik dari masing-masing kelompok. Profilisasi dilakukan dengan menghitung rata-rata dari 3 faktor (work, price, salary) masing-masing kelompok.

Dari tabel di atas diketahui bahwa kelompok 2 merupakan kelompok kota dengan rata-rata jam kerja yang tinggi. Sedangkan kelompok 1 merupakan kelompok kota dengan rata-rata harga kebutuhan dan gaji yang tinggi.

Jika dilihat lebih spesifik, kelompok 1 terdiri dari 17 kota di Eropa, 6 kota di Amerika, Autralia, dan 1 kota di Asia yaitu Tokyo, Jepang. Sedangkan kelompok 2 terdiri dari 8 kota Asia, 7 kota di Amerika, 3 kota di benua Afrika, dan 3 kota di benua Eropa. Dengan kata lain anggota dari kelompok 1 merupakan kota dari negara-negara maju, sedangkan anggota kelompok 2 mayoritas negara berkembang. Sehingga tidak heran apabila rata-rata harga kebutuhan dan gaji pada kota tersebut lebih rendah, serta memiliki jam kerja yang lebih lama dibandingkan dengan kelompok 1.

Leave a Reply