analisis kluster

CLUSTER ANALYSIS
KELOMPOK 5
1. GUSTI WIRA BAYUTAMA (2513204002)
2. NATHANIA NIWEDYA (2513201004)
3. SOFYAN MUZAKKI (2513204009)
4. NI PUTU WANSRI SEPTI DEWI (2513201010)
5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012)
1

WHAT IS CLUSTER ANALYSIS?
Analisis cluster adalah salah satu teknik multivariate untuk
mengelompokkan obyek berdasarkan kesamaan
karakteristik di antara obyek-obyek tersebut sehingga
obyek-obyek yang berada dalam satu cluster akan
Cimrie-cmipriunCylaui sketemrir iypaannsgatBuasaikma lain.
• Homogenitas internal (within cluster) : kesamaan
antar anggota dalam satu cluster.
• Heterogenitas external (between cluster): perbedaan
antara cluster yang satu dengan cluster yang lain.
2
Asusmsi
• Representativeness of the sample : sampel yang
diambil dapat mewakili populasi yang ada.
•Multokolinieritas: Terdapat hubungan yang linier antar
variabel .

CLUSTER ANALYSIS
3
Metode
Pengelompokan
Hirarchical
Clustering
Method
Single Linkage
Complete
Linkage
Average Linkage Ward’s Method Centroid Method
Non Hirarchical
Clustering
Method
K-Mean Method
Tidak baik
untuk
mengolah
sampel ukuran
besar
Untuk data sampel
ukuran besar

HIRARCHICAL CLUSTERING METHOD
4
Single Linkage
Complete Linkage
Average Linkage Centroid Method

HIRARCHICAL CLUSTERING METHOD
nearest neighbor
5
1. Single Linkage  didasarkan pada jarak minimum
(nearest neighbor ). Dimulai dengan dua objek yang
dipisahkan dengan jarak paling pendek maka keduanya
akan ditempatkan pada cluster pertama, dan seterusnya.
Example :
Jarak antara
Jarak yang Paling
Minimum

HIRARCHICAL CLUSTERING METHOD CONT…
Object 5 dan object 3 digabungkan, kemudian dicari terdekat
menuju object berikutnya
6
Jarak yang
paling minimum
adalah dari
object (3,5) ke
object 1
Object (5,3) digabungkan
dengan object 1.

7
Jarak yang
paling minimum
adalah dari
object (1,3,5) ke
object 4
Jarak yang
Paling
Minimum
Jarak
antar
cluster
DENDOGRAM
Cluster 1 Cluster 2

2. Complete linkage  dasarnya adalah jarak maksimum.
Dalam metode ini seluruh objek dalam suatu cluster dikaitkan
satu sama lain pada suatu jarak maksimuma atau dengan
kesamaan minimum.
Jarak antara most
distance members
8
Example :
dari cluster
Awalnya dicari Jarak
yang Paling Minimum 
3 dan 5
didekatkan/digabungkan

Jarak paling
minimum
adalah dari
object 4 ke 2
9
Jarak yang paling
minimum.
Sehingga (2,4)
didekatkan
dengan object 1
DENDOGRAM
Cluster 1 Cluster 2

10
3. Average Linkage  Dasarnya adalah jarak rata-rata
antar object. Dimana jarak antar cluster merupakan
jarak rata-rata antar object Jarak antara object ke i
dalam cluster (UV) dan
object ke j dalam cluster
(w)
Banyaknya item di cluster
(UV) dan W
Example :
Subject
Id
Income
($ thous.)
Educatio
n (years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19

Dengan menggunakan
euclidean distance
diperoleh jarak paling
minimum yaitu S1 dan
11
S2
Jarak paling
minimum selanjutnya
sehingga S3 dan S4
digabungkan

12
4. Centroid Method  mempertimbangkan jarak
centroid pada cluster.
dimana
Jarak antara
klaster A dan
klaster B adalah
jarak rata-rata
data x dan y dari
klaster A dan B
Example :
Subject
nA dan nB masing-masing adalah
banyaknya data dalam set A dan B
Id
Income
($)
Educati
on
(years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19

13
Dengan
menggunakan
euclidean distance
dicari jarak paling
minimum yaitu (S1,
S2)
S1&S2 digabungkan
menjadi 1 klaster dengan
rata-rata income :
(5+6)/2 = 5,5 dan rata-rata
education : (5+6)/2 =
5,5

Rata-rata income dan
education dari S3 dan
14
S4
DENDOGRAM
Cluster 1 Cluster 2

5. Ward’s Method  Dalam metode ini jarak antara dua
15
cluster adalah jumlah kuadrat antara dua cluster
untuk seluruh variabel.
dimana :
nA dan nB masing-masing adalah banyaknya data
dalam set A dan B
s2
AB adalah jarak antara klaster A dan B menggunakan
centroid linkage
Metode ini bertujuan untuk meminimasi jumlah
kuadrat dalam cluster (within-cluster sum of square)

16
Example :
•ESS adalah error sum of square
ESS untuk S1 dan S2 :
(5-5,5)2+(6-5,5)2+(5-5,5)2+(6-5,5)2 = 1
Metode ward ini menghitung
kemungkinan tiap cluster
DENDOGRAM
Cluster 1 Cluster 2

NON HIRARCHICAL CLUSTERING
METHOD
• K-MEAN CLUSTERING METHOD
: Dimulai dengan menentukan
terlebih dahulu jumlah cluster yang
diinginkan (dua, tiga, atau yang
lain). Setelah jumlah cluster
ditentukan, maka proses cluster
dilakukan tanpa mengikuti proses
hirarki.
• KELEBIHAN : Cukup efisien,
algoritma berhenti dalam kondisi
optimum.
• KELEMAHAN : Harus
menentukan jumlah cluster yang
dibentuk, tidak dapat menangani
data yang mengalami
penyimpangan (outlier).
17
Menentukan Banyaknya
cluster (K)
Menentukan pusat
(centroid )
Menghitung jarak object
ke pusat (centroid)
Mengelompokan object
berdasarkan jarak minimum
Terdapat object yang harus
dipindahkan
ya
Tidak
Selesai

K-MEAN CLUSTERING METHOD CONT ...
• ALGORITMA 1
• ALGORITMA 2
• ALGORITMA 3
18
DATA
Subject
Id
Income
($)
Educati
on
(years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19

ALGORITMA 1
19
1. Tentukan jumlah cluster
(k)
2. Tentukan observasi yang menjadi centroid
sejumlah (k)
3. Menghitung jarak dari Cluster Centroids
D2
Initial
Cluster
Centroid
13= (5-15)2 + (5-14)2 = 181
S3, S4, S5, & S6
tergabung dalam
satu cluster
k = 3

ALGORITMA 1 CONT ...
• ITERASI 1
20
a. Mengubah Cluster Centroids
DATA
Rata-rata
b. Menghitung jarak dari Cluster
Centroids
D2
13= (5-21,5)2 + (5-17)2 = 416,25
Iterasi selesai karena
Reassigment = Previous
Assigment

ALGORITMA 1 VS ALGORITMA 2
• ALGORITMA 1 : KITA BEBAS MENENTUKAN INITIAL
CLUSTER CENTROID
• ALGORITMA 2 : INITIAL CLUSTER CENTROID DIMODIFIKASI
• LANGKAH SELANJUTNYA SAMA
21

ALGORITMA 2
22
1. Tentukan jumlah cluster
k = 3
(k)
2. Tentukan observasi yang menjadi centroid
sejumlah (k)
Initial
Cluster
Centroid
3. Modifikasi Initial Cluster Centroid
3.1 Tentukan jarak terkecil (selain nol) antar observasi
Jarak terkecil :
S1 & S2

23
ALGORITMA 2 CONT...
3.2 Menetukan replacement seeds
S4 tidak dapat dijadikan replacement
seed karena jarak S1 dan S2 tidak
lebih kecil dari jarak S4 dengan seed
terdekat (S3).
S5 dijadikan replacement seed karena
jarak S1 dan S2 lebih kecil dari jarak
S5 dengan seed terdekat (S3).
3.3 Cluster Centroid hasil modifikasi
S5 menggantikan seed S2
karena jarak S5 dan S2 lebih
kecil daripada S5 dan S1.
15
25
14 20

• ITERASI 1
24
4. Menghitung jarak dari Cluster Centroids
D2
12= (5-15)2 + (5-14)2 = 181 D2
13= (5-25)2 + (5-20)2 = 625
a. Mengubah Cluster Centroids
S1 &
S2
S3 & S4 S5 & S6
b. Menghitung jarak dari Cluster Centroids
D2
13= (5-27,5)2 + (5-19,5)2 = 716,5
Iterasi selesai karena
Reassigment = Previous
Assigment

ALGORITMA 3
• Initial seeds (Ci) ditentukan dengan rumus
25
• Sum(i) : total nilai semua variable tiap observasi
• Min : nilai terkecil sum(i) dari data
• Max : nilai terbesar sum(i) dari data
• K : jumlah cluster
• Reassigment berdasarkan minimum Error Sum of
Square (ESS)

26
1. Menentukan Initial Cluster melalui rumus
Ci
Sum (1) = income (1) + Education
(1)
= 5 + 5 = 10
퐶4 =
(31 − 10)(3 − 0,0001)
49 − 10
+ 1 = 2,61 ≈ 2
퐶2 =
(12 − 10)(3 − 0,0001)
49 − 10
+ 1 = 1,15 ≈ 1

27
2. Reassignment cluster melalui ESS
• S1 jika dipindah ke cluster 3
Subject berpindah cluster menuju cluster
dengan perubahan ESS yang paling
negatif
Cluster sudah
optimal karena
reassignment =
previous
assignment

SIMILARITY MEASURES
dengan j dan p adalah jumlah
variable
28
• Similarity measures dapat
diklasifikasikan menjadi tiga
bentuk :
1. Distance measures
2. Association coefficient
3. Correlation coefficient
Distance Measures
Terdapat beberapa metode dalam
mengukur jarak, seperti
Euclidean; Minkowski; City-block;
Mahalanobis; dan lain
sebagainya.
1. Euclidean Distance  untuk
mengukur similarity Jarak
euclidean antara titik i dengan
j dalam dimensi p :
Dij adalah jarak antara titik i
2. Minkowski Metric general
metric dari Euclidean
distance.
Jika n = 2 akan menghasilkan
euclidean distance, maka n = 1
akan menghasilkan city-block
distance

29
SIMILARITY MEASURES CONT...
3. City-block or manhattan
distance  bentuk khusus dari
minkowski metric dengan n = 1.
Example
:
Menghitung Jarak Dengan
menggunakan euclidean
distance :
D2 = (5-6)2 + (5-6)2 = 2
12
D12 = 1,41
Dengan menggunakan city-block
distance :
D12 = I5-6I + I5-6I = 2

SIMILARITY MEASURES CONT...
30
4. Mahalanobis Distance
menghitung korelasi diantara
variabel.
dimana Σ adalah covariance
matrix
Dalam hal Σ = 1, maka jarak ini
menjadi Euclidean
variable yang tidak berkorelasi 
mahalanobis distance mengurangi
euclidean distance untuk
unstandardized data.
sehingga euclidean distance untuk
standardized data merupakan bentuk
khusus dari mahalanobis distance.

31
CORRELATION COEFFICIENT
• Untuk mengukur similarity juga
dapat menggunakan pearson
product moment correlation
coefficient.
• Baik correlation coefficient
maupun association coefficient
merupakan bentuk dissimilarity,
dimana nilai tertinggi
menunjukkan similarity dan
kebalikannya.
• Koefisien korelasi dapat dengan
mudah dirubah ke bentuk
similarity dengan menambahkan
variabel satu dengan yang lain,
namun tidak bisa untuk beberapa
Association Coefficient
digunakan untuk menunjukkan
similarity untuk variabel biner.
Untuk data biner dapat
menggunakan ukuran seperti
polychoric correlation atau
simple matching coefficients
atau variasi untuk
menunjukkan similarity antar
observasi.
1 0
1 a b
0 c d
a, b, c, d adalah frekuensi
kejadian, similarity antara 2
variabel tersebut adalah :
a 
d
  
a b c d
Example
:

RELIABILITY AND EXTERNAL VALIDITY
32
Reliability
Salah satu indikator reliability adalah degree of
agreement antara assignment dengan analisis klaster.
External Validity diperoleh dengan
membandingkan hasil dari analisis klaster dengan
kriteria eksternal.
Misalnya mengelompokkan perusahaan berdasarkan
rasio keuangan sehingga diperoleh 2 klaster, yaitu
perusahaan yang sehat secara finansial dan
perusahaan yang tidak sehat secara finansial.

33
Thank you
for
your attention

analisis kluster

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to analisis kluster

Similar to analisis kluster (20)

Recently uploaded

Recently uploaded (12)

analisis kluster