Analisis Cluster

Kelompok 5
Analisis Gerombol
(Cluster Analysis)
 Kurnia Millati Akhyar (1307469)
 Fernando (1307495)
 Novia Marliani (1307515)

PRINSIP DASAR ANALISIS
　 Analisis cluster adalah analisis statistik peubah
ganda yang digunakan apabila ada N buah individu
atau objek yang mempunyai p peubah, dan N objek
tersebut ingin dikelompokkan ke dalam k kelompok
berdasarkan sifat-sifat yang diamati sehingga
individu atau objek yang terletak dalam satu
gerombol memiliki kemiripan sifat yang lebih besar
dibandingkan dengan individu yang terletak dalam
gerombol lain (Dillon & Goldstein, 1984).

Jarak yang biasanya digunakan dalam analisis
penggerombolan diantaranya :
a. Jarak Euclidian
Jarak Euclidian adalah jarak yang paling umum dan
paling sering digunakan dalam analisis gerombol. Jarak
Euclidian antara dua titik dapat terdefinisikan dengan jelas.
Jarak Euclidian antara gerombol ke-i dan ke-j dari p
peubah didefinisikan:
dengan :

b. Jarak Kuadrat Euclidean
　 Tujuan jarak kuadrat Euclidean standar yaitu untuk
menempatkan bobot yang lebih besar secara progresif pada objek yang
jaraknya jauh.
jarak(x,y)=
c. Jarak City-Block (Manhattan)
　 Jarak ini memudahkan jarak rata-rata dimensi-dimensi secara
menyilang. Dalam banyak kasus, ukuran jarak ini mendapatkan hasil
yang mirip terhadap jarak Euklidean sederhana. Bagaimanapun,
perhatikan bahwa dalam ukuran ini, efek dari perbedaan besar yang
tunggal (pencilan) dibuang, karena tidak dikuadratkan.
jarak(x,y)=
∑ −
i
ii YX 2
)(
∑ − ii yxi

d. Jarak Chebychev
　　 Ukuran jarak ini mungkin cocok untuk kasus
menentukan 2 objek, sebagai “Berbeda” jika mereka
berbeda terhadap segala sesuatu pada dimensi. Jarak
Chebychev dihitung sbb : jarak (x,y)= maksimum
ii yx −

Tujuan analisis gerombol secara khusus antara
lain :
1. Pengelompokkan
　 Analisis cluster digunakan dengan tujuan explanatory
maupun confirmatory.
2. Penyederhanaan data
　 Analisis cluster menetapkan struktur dari observasi atau
data bukan variabel.
3. Pengidentifikasian hubungan
Analisis cluster dapat menunjukkan ada tidaknya
hubungan antar observasi atau obyek dalam analisis.

Manfaat analisis gerombol , diantaranya :
1. Untuk menerapkan dasar-dasar pengelompokan dengan lebih
konsisten.
2. Untuk mengembangkan suatu metode generalisasi secara
innduktif, yaitu AAAapengambilan kesimpulan secara umum
dengan berdasarkan fakta - fakta khusus.
3. Menemukan tipologi yang cocok dengan karakter obyek yang
diteliti.
4. Mendiskripsikan sifat-sifat / karakteristik dari masing-masing
kelompok.

ASUMSI ANALISIS GEROMBOL
1. Data yang representatif, sample yang diambil benar-benar bisa
mewakili populasi yang ada.
　　
2. Tidak terjadi Multikolinearitas

Metode Pengerombolan
A.Metode Penggerombolan Berhierarkhi
　　 Metode ini digunakan untuk menggerombolkan
pengamatan secara terstruktur berdasarkan kemiripan
sifatnya dan gerombol yang diinginkan belum diketahui
banyaknya.

Ada dua cara untuk mendapatkan gerombol dengan metode
penggerombolan hirarki yaitu dengan cara penggabungan
(aglomerative) dan pemisahan gerombol (devisive).
a. Keterhubungan Tunggal (Single Linkage)
Metode Single Linkage atau disebut juga dengan motode
pautan tunggal, jarak antara dua cluster (kelompok) dapat
ditentukan dari dua obyek berpasangan yang memiliki kesamaan
atau memiliki jarak terdekat (nearest neighbor) dalam cluster yang
berbeda.
Untuk menghitung jarak cluster (UV) dengan cluster-
cluster yang lain dapat dirumuskan dengan :
d(UV)W = min {dUW,dVW}

b. keterhubungan menyeluruh (Complete Linkage / Furthest Neighbor)
　 Jarak antar cluster pada metode Complete Linkage atau
disebut juga metode pautan lengkap, ditentukan dari jarak terjauh
antara dua obyek pada cluster yang berbeda (furthest neighbor).
Metode ini dapat digunakan dengan baik untuk kasus dimana obyek-
obyek yang ada berasal dari kelompok yang benar-benar berbeda.
Untuk menghitung jarak cluster (UV) dengan cluster-cluster
yang lain dapat dirumuskan dengan :
　　　　 d(UV)W = max {dUW,dVW}
Catatan: nilai dUW dan dVW menggambarkan jarak terjauh
antara cluster U dengan W serta V dengan W.

c. Keterhubungan Rataan (Average Linkage)
　　 Jarak antar cluster pada metode Average Linkage atau disebut
juga metode pautan rataan, ditentukan dari rata-rata jarak seluruh
objek suatu cluster terhadap seluruh objek pada cluster lainnya. Pada
berbagai keadaan, metode ini dianggap lebih stabil dibandingkan
dengan kedua metode di atas.
　　
Untuk menghitung jarak cluster (UV) dengan cluster-cluster
yang lain dapat dirumuskan dengan :
　　　　 d(UV)W = rata-rata {dUW,dVW}
Catatan: nilai dUW dan dVW menggambarkan jarak rata-rata antara
cluster U dengan W serta V dengan W.

d. Algoritma dan metode pengelompokan hirarki lainnya
Secara umum, algoritma untuk metode pengelompokan
hirarki adalah:
1. Tentukan matriks jarak antar data atau kelompok
2. Gabungkan dua data atau kelompok terdekat ke dalam
kelompok yang baru
3. Tentukan kembali matrik jarak tersebut.
4. Lakukan langkah 2 dan 3 sampai semua data masuk dalam
satu kelompok

B. Metode tak berhirarki
　　　
　 Salah satu metode dalam metode penggerombolan tak
berhirarki yaitu metode k-means.
Dua masalah utama yang harus diketahui dalam
penggerombolan non hierarki adalah jumlah gerombol dan pemilihan
pusat gerombol (centroid).

Metode K-Rataan
　　　 MacQueen menyarankan penggunaan K-rataan untuk
menjelaskan algoritma dalam penentuan suatu objek ke dalam
gerombol tertentu berdasarkan rataan terdekat. Dalam bentuk yang
paling sederhana.
proses ini terdiri dari tiga tahap:
1.Bagi objek-objek tersebut ke dalam K gerombol awal.
2.Masukkan tiap objek ke suatu gerombol berdasarkan rataan terdekat.
Jarak biasanya ditentukan dengan menggunakan Euclidean. Hitung
kembali rataan untuk gerombol yang mendapat objek dan yang
kehilangan objek.
3.Ulangi langkah 2 sampai tidak ada lagi pemindahan objek antar
gerombol.

PROSEDUR ANALISIS
1.Mengumpulkan data
2.Pembakuan data
Setelah data di peroleh kemudian di amati apakah data
memiliki satuan yang sama atau atidak. Jika tidak perlu dilakukan
pembakuan data.
3. Menentukan korelasi antar peubah
Jika terdapat multikolinearitas, maka dilakukan
transformasi terhadapadata menggunakan Analisis Komponen
Utama (AKU), korelasi menunjukkan keeratan hubungan dari
masing-masing peubah.

4. Analisis Komponen Utama (AKU)
Pada analisis komponen utama akan didapat akar ciri dan
proporsi aakeragaman. Akar ciri dipilih nilai yang besar dari satu,
sedangkan proporsi keragaman berada > 80 %.
5. Menentuan ukuran ketakmiripan antar satuan pengamatan yang
akan digerombolkan dengan menggunakan jarak yang akan
digunakan.
6. Melakukan tahap penggerombolan dengan menggunakan metode
penggerombolan.
7. Melakukan interpretasi terhadap gerombol yang terbentuk.

Tahapan Penggerombolan
1.Menghitung ukuran ketakmiripan antara pasangan objek ke –i dan
ke-j yang disusun dalam bentuk matriks.
2.Menggabungkan antara objek ke –i dan ke –j menjadi objek yang
baru berdasarkan kriteria penggerombolan tertentu.
3.Menghitung kembali ukuran pada alangkah 1, berkaitan dengan
penggabungan objek ke –i dan ke-j pada langkah 2 menjadi objek
baru.
4.Kembali pada langkah 1, bila ukuran matriks yang berisi informasi
ketakmiripan antar objek masih berukuran lebih besar 2 x 2.
(Siswandi dan Budi Suharjo,
1998:4)

Contoh Penerapan
Dari penelitian yang dilakukan terhadap 12 kota, ingin
diketahui pengelompokan kota-kota tersebut berdasarkan instrumen 5
variabel yaitu :
jumlah pendapatan kota (trilyun Rp)
jumlah pinjaman pemerintah kota (milyar Rp)
jumlah dana hibah yang dimiliki kota (milyar Rp)
jumlah konsumsi pemerintah kota (milyar Rp)
jumlah penduduk kota (juta jiwa).
Untuk itu data yang berhasil dikumpulkan sebagai berikut:

Standardisasi data
Langkah-langkah sebagai berikut:
1. Klik Analyze > Descriptive statistic > descriptive

2. Pada kotak dialog descripstiv, masukkan semua variabel ke dalam
kotak variable(s), kemudian aktifkan save standardized values as
variables.
3. Klik OK.

Metode Hierarki Cluster
Langkah-langkah:
Klik Analyze > Classify > Hierarki Cluster
Langkah-langkah:
1.Klik Analyze > Classify > Hierarki Cluster

Langkah-langkah:
b. Pada kotak dialog Hierarki cluster analysis,
masukkan seluruh variabel yang telah di standardized
ke dalam kotak variable(s). Untuk bagian “Label cases
by” masukkan kota, sedangkan untuk bagian “cluster”
pilih cases, pada bagian display pilih keduanya yaitu
statistic dan plot.

Langkah-langkah:

Langkah-langkah:
c. Kemudian klik mouse pada bagian statistic Selain kotak
aglomerative schedule, aktifkan kotak proximity matrix untuk
menampilkan jarak antar variabel, pada bagian cluster
membership klik range of solution lalu ketik 2 pada form dan 4
pada through (artinya akan ditampilkan susunan 2, 3 ,4 cluster),
kemudian tekan continu

Langkah-langkah:
d. Klik mouse pada plot
Aktifkan pilihan dendogram, kmudian pada bagian icicle pilih
none, abaikan bagian yang lain, pilih continu

Langkah-langkah:
Pada bagian “Cluster Method” pilih Between groups
linkage. Kemudian buka kotak combo Square Euclidean
distance pada “Measure”; dan pada “Transform Values”
buka kotak combo pada pilihan Z-score. Abaikan bagian yang lain
lalu tekan tombol “Continue” untuk kembali ke menu utama.
Dari tampilan menu utama, tekan tombol OK untuk
menampilkan output aplikasi program SPSS seperti berikut.

Langkah-langkah:
Tabel output di atas menunjukkan bahwa semua data
sejumlah 12 obyek telah diproses tanpa ada data yang hilang.

Langkah-langkah:
Tabel diatas menujukkan matrik jarak antara variabel
satu dengan variabel yang lain. Semakin kecil jarak
euclidean maka semakin mirip kedua variabel
tersebut sehingga akan membentuk kelompok (cluster).

Langkah-langkah:
Tabel di atas merupakan hasil proses clustering dengan
metode Between Group Linkage. Setelah jarak antar variabel diukur
dengan jarak euclidean, maka dilakukan pengelompokan, yang
dilakukan secara bertingkat.
Stage 1 : terbentuk 1 cluster yang beranggotakan Kota K dan Kota
L dengan jarak 1,139 (perhatikan pada kolom Coefficients).
Karena proses aglomerasi dimulai dari 2 obyek yang terdekat,
maka jarak tersebut adalah yang terdekat dari sekian kombinasi
jarak 12 obyek yang ada. Selanjutnya lihat kolom terakhir
(Next Stage), terlihat angka 4.

Langkah-langkah:
Hal ini berarti clustering selanjutnya dilakukan dengan
melihat stage 4, dengan penjelasan berikut.
Baris ke-4 (stage 4) terlihat obyek ke-7 (Kota G) membentuk
cluster dengan Kota K. Dengan demikian, sekarang cluster terdiri
dari 3 obyek yaitu Kota G, K, dan L. Sedangkan jarak sebesar 2,097
merupakan jarak rata-rata obyek terakhir yang bergabing dengan
2 obyek sebelumnya, seperti tampak dalam Proximity matrix dan
dapat dihitung sebagai berikut :

Langkah-langkah:
a. Jarak Kota G dan K = 2,432
b. Jarak Kota G dan L = 1,761
c. Jarak rata-rata = (2,432 + 1,761) / 2 = 2,0965
Stage 2 :terjadi pembentukan cluster Kota D dan Kota E
berjarak 1,515, yang kemudian berlanjut ke stage 6.
Demikian seterusnya dari stage 3 dilanjutkan ke stage 5,
sampai ke stage terakhir.

Langkah-langkah:
Proses aglomerasi ini bersifat kompleks, khususnya
perhitungan koefisien yang melibatkan sekian banyak obyek dan
terus bertambah. Proses aglomerasi pada akhirnya akan
menyatukan semua obyek menjadi satu cluster. Hanya saja dalam
prosesnya dihasilkan beberapa cluster dengan masing-masing
anggotanya, tergantung jumlah cluster yang dibentuk.
Perincian jumlah cluster dengan anggota yang terbentuk
dapat dilihat pada tabel output berikut ini :

Langkah-langkah:
Dari tabel diatas dapat dijabarkan bahwa :
1. Apabila diinginkan dibentuk 4 cluster, maka :
a. Anggota cluster 1 adalah Kota A
b. Anggota cluster 2 adalah Kota B dan Kota H
c. Anggota cluster 3 adalah C, D, dan E
d. Anggota cluster 4 adalah Kota F, G, I, J, K, dan L.
2. Apabila ditentukan dibentuk 3 cluster, maka :
a. Anggota cluster 1 adalah Kota A
b. Anggota cluster 2 adalah Kota B, C, D, E, dan H.
c. Anggota cluster 3 adalah Kota F, G, I, J, K, dan L.

Langkah-langkah:
1.Apabila ditentukan dibentuk 2 cluster, maka :
a.Anggota cluster 1 adalah Kota A, B, C, D, E, dan H
b.Anggota cluster 2 adalah Kota F, G, I, J, K, dan L
3. Apabila ditentukan dibentuk 2 cluster, maka :
a. Anggota cluster 1 adalah Kota A, B, C, D, E, dan H
b. Anggota cluster 2 adalah Kota F, G, I, J, K, dan L

Langkah-langkah:
Dendogram berguna untuk menunjukkan anggota
cluster yang ada jika akan ditentukan berapa cluster yang
seharusnya dibentuk. Dari dendogram di atas terlihat bahwa,
apabila akan dibentuk 2 cluster, maka cluster 1 beranggotakan
Kota K sampai dengan Kota F (sesuai urutan dalam dendogram);
dan cluster2 beranggotakan Kota D sampai dengan Kota A.
Demikian seterusnya dapat dengan mudah dilihat anggota tiap
cluster sesuai jumlah cluster yang diinginkan.

Analisis Cluster

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Analisis Cluster

Similar to Analisis Cluster (20)

Recently uploaded

Recently uploaded (7)

Analisis Cluster