3. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Capaian Pembelajaran
Mahasiswa mampu menjelaskan algoritma clustering berbasis
hirarki agglomerative.
4. HIERARCHYCAL CLUSTERING
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Pengelompokan data
yang menghasilkan
serangkaian cluster
bersarang dan tersusun
seperti pohon hirarki
โข Dapat divisualisasikan
menggunakan
dendogram
โข Diagram berbentuk
seperti pohon (tree)
sehingga dapat
menyimpan urutan
penggabungan atau
pemisahan cluster
1 2 3 4 5
Dendrogram
Cluster bersarang
1
2
3
4
5
5. HIERARCHYCAL CLUSTERING
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Dua tipe hierarchical clustering
โข Agglomerative:
โข Mulai dari setiap titik (data) dianggap sebagai cluster
โข Pada setiap tahap, dilakukan penggabungan sepasang cluster terdekat sampai tersisa satu cluster (atau sampai
tersisa k cluster)
โข Divisive:
โข Mulai dari satu cluster, semua titik (data) menjadi anggota cluster tersebut
โข Pada setiap tahap, dilakukan pemisahan (split) satu cluster menjadi dua, sampai setiap cluster hanya berisi satu
data (atau sampai tersisa k cluster)
โข Penggabungan atau pemisahan cluster dilakukan berdasarkan kemiripan (similarity) atau
jarak (distance)
โข Matriks kemiripan (proximity matrix) menyimpan nilai kemiripan antar cluster (kemiripan=0, objek
sangat berbeda)
โข Matriks jarak (distance matrix) menyimpan nilai jarak antar cluster (jarak=0, objek sangat mirip=sama)
6. Algoritma Clustering Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Algoritma
1. Setiap data adalah satu cluster, hitung matriks jarak
Ulang
2. Gabung dua cluster paling dekat
3. Perbarui matriks jarak
Sampai tersisa hanya satu cluster
โข Beberapa pendekatan untuk menghitung jarak antara dua cluster
โข Single link, complete link, group average, jarak centroid
โข Pemilihan pendekatan perhitungan jarak menentukan hasil clustering
7. Ilustrasi Algoritma Clustering Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฑ Terdapat 5 data, masing-
masing berupa suatu
wadah.
Jumlah balok
Jumlah
silinder
1
2
3
4
5
๏ฑ Data tersebut diplot ke dalam ruang 2
dimensi menggunakan nilai atribut
jumlah balok dan jumlah silinder.
๏ฑ 2 data yang mirip ๏ jaraknya dekat
0
d(2,1) 0
d(3,1) d(3,2) 0
d(4,1) d(4,2) d(4,3) 0
d(5,1) d(5,2) d(5,3) d(5,4) 0
๏ฑ Disusun matriks jarak yang
menyimpan jarak Euclidean
antara setiap dua data
1 2 3 4 5
1
2
3
4
5
9. Ilustrasi Algoritma
Clustering
Agglomerative
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Bottom-Up (agglomerative):
1. Dimulai dengan menjadikan
tiap objek sebagai satu
cluster.
2. Menentukan pasangan
terdekat untuk digabung
menjadi satu cluster.
Memperbarui matriks jarak.
3. Langkah 2 diulang sampai
semua cluster tergabung
menjadi satu.
Data 1 Data 2 Data 3 Data 4 Data 5
1
2
3
4
5
10. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Perbarui matriks jarak. Data 2 Data 3
1
2
3
4
5
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
1 2 3 4 5
1
2
3
4
5
0
1.41 0
2.24 2.24 0
2.00 1.41 1.00 0
1 2,3 4 5
1
2,3
4
5
11. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Iterasi 2
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
6 kemungkinan yang ada.
Perbarui matriks jarak.
1
2
3
4
5
0
1.41 0
2.24 2.24 0
2.00 1.41 1.00 0
1 2,3 4 5
1
2,3
4
5
0
1.41 0
2.24 1.41 0
1 2,3 4,5
1
2,3
4,5
12. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Iterasi 2
Iterasi 3
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
6 kemungkinan yang ada.
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
3 kemungkinan yang ada.
1
2
3
4
5
0
1.41 0
2.24 1.41 0
1 2,3 4,5
1
2,3
4,5
0
1.41 0
Perbarui matriks jarak.
1,2,3 4,5
1,2,3
4,5
13. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
10 kemungkinan yang ada.
Iterasi 1
Iterasi 2
Iterasi 3
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
6 kemungkinan yang ada.
Perbarui matriks jarak.
Gabung satu pasangan cluster
dengan nilai jarak terkecil dari
3 kemungkinan yang ada.
0
1.41 0
1,2,3 4,5
1,2,3
4,5
Perbarui matriks jarak.
1,2,3,4,5
1
2
3
4
5
18. www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
0
1.41 0
2.24 1.00 0
2.24 2.24 3.16 0
2.00 1.41 2.24 1.00 0
(๐ฅ1) (๐ฅ2) (๐ฅ3) (๐ฅ4) (๐ฅ5)
cluster
๏ฑ Pada iterasi 3 data 1 dan
data (2,3) digabung.
0
1.41 0
2.00 1.41 0
(๐ฅ2,๐ฅ3)
(๐ฅ1) (๐ฅ4,๐ฅ5)
0
1.41 0
(๐ฅ1, ๐ฅ2, ๐ฅ3) (๐ฅ4, ๐ฅ5)
Gabung
Selesai
19. Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฌ MIN
๏ฌ MAX
๏ฌ Group Average
๏ฌ Jarak centroid
๏ฌ Metode lain menggunakan fungsi objektif
โ Metode Ward menggunakan kuadrat jarak
Jarak?
Kemiripan?
20. Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฌ MIN
๏ฌ MAX
๏ฌ Group Average
๏ฌ Jarak centroid
๏ฌ Metode lain menggunakan fungsi
objektif
โ Metode Ward menggunakan jarak kuadrat
๐๐๐๐๐ ๐ถ1, ๐ถ2 = min ๐๐๐๐๐ ๐1๐, ๐2๐
21. Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฌ MIN
๏ฌ MAX
๏ฌ Group Average
๏ฌ Jarak centroid
๏ฌ Metode lain menggunakan fungsi
objektif
โ Metode Ward menggunakan jarak kuadrat
๐๐๐๐๐ ๐ถ1, ๐ถ2 = max ๐๐๐๐๐ ๐1๐, ๐2๐
22. Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฌ MIN
๏ฌ MAX
๏ฌ Group Average
๏ฌ Jarak centroid
๏ฌ Metode lain menggunakan fungsi
objektif
โ Metode Ward menggunakan jarak kuadrat
๐๐๐๐๐ ๐ถ1, ๐ถ2 = ๐๐๐๐๐ ๐๐, ๐๐ / ๐ถ1 * ๐ถ2
23. Menghitung jarak antar cluster
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฌ MIN
๏ฌ MAX
๏ฌ Group Average
๏ฌ Jarak centroid
๏ฌ Metode lain menggunakan fungsi
objektif
โ Metode Ward menggunakan jarak kuadrat
๏ด ๏ด
24. Jarak antar Cluster: MIN atau Single
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Jarak dua cluster diwakili oleh jarak terdekat antara dua titik pada
cluster yang berbeda.
0
0.10 0
0.90 0.30 0
0.35 0.40 0.60 0
0.80 0.50 0.70 0.20 0
(๐ฅ2) (๐ฅ3) (๐ฅ4) (๐ฅ5)
(๐ฅ1)
1 2 3 4 5
Dendrogram
Nested Clusters
25. Jarak antar Cluster : MIN atau Single
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Kekuatan Min atau Single Link
โข Dapat mengelompokkan kumpulan data berbentuk non-elips dengan baik, jika jarak antar
cluster tidak terlalu dekat.
Original Points
Two Clusters
Original Points Two Clusters
26. Jarak antar Cluster : MIN atau Single
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Kelemahan Min atau Single Link
โข Tidak dapat memisahkan kumpulan data dengan baik jika terdapat noise dan
outlier.
Original Points Two Clusters
27. Jarak antar Cluster: MAX atau
Complete Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Jarak dua cluster diwakili oleh jarak terjauh antara dua titik pada
cluster yang berbeda.
0
0.10 0
0.90 0.30 0
0.35 0.40 0.60 0
0.80 0.50 0.70 0.20 0
(๐ฅ2) (๐ฅ3) (๐ฅ4) (๐ฅ5)
(๐ฅ1)
1 2 3 4 5
Dendrogram
Nested Clusters
28. Jarak antar Cluster : MAX atau Complete
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Kekuatan Max atau Complete Link
โข Dapat memisahkan kumpulan data dengan baik meski terdapat noise dan
outlier.
Original Points Two Clusters
29. Jarak antar Cluster : MAX atau Complete
Link
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Kelemahan Max atau Complete Link
โข Memiliki kecenderungan memecah cluster yang besar
Original Points Two Clusters
30. Jarak antar Cluster: Group Average
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Jarak dua cluster diwakili oleh rata-rata jarak antara titik-titik pada cluster yang
berbeda.
โข Tidak terlalu sensitif dengan noise dan outlier.
Dendrogram
Nested Clusters
0
0.10 0
0.90 0.30 0
0.35 0.40 0.60 0
0.80 0.50 0.70 0.20 0
(๐ฅ2) (๐ฅ3) (๐ฅ4) (๐ฅ5)
(๐ฅ1)
1 2 3 4 5
31. Jarak antar Cluster : Metode Ward
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
โข Jarak dua cluster didasarkan pada nilai jarak kuadrat ketika dua
cluster digabung
โข Mirip dengan group average hanya saja jarak antar titik adalah jarak kuadrat
โข Tidak terlalu sensitif terhadap noise dan outlier
๐๐๐๐๐ ๐ถ1, ๐ถ2 = ๐๐๐๐๐ ๐๐, ๐๐
2
/ ๐ถ1 * ๐ถ2
33. Fakta tentang hierarchical clustering
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ฐ Tidak perlu menentukan jumlah cluster di awal
๏ฐ Menghasilkan dendogram yang dapat membantu memahami data
34. Validasi hasil clustering
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏งKebutuhan validasi hasil clustering
๏ง Evaluasi
๏ง Mengevaluasi kualitas (seberapa baik) hasil clustering
๏ง Stabilitas
๏ง Mengetahui sensitivitas hasil clustering terhadap parameter algortima, misalnya jumlah cluster
๏ง Tendensi
๏ง Menilai kesesuaian hasil clustering, misalnya apakah data memiliki karakteristik pengelompokan
tertentu
35. Mengevaluasi kualitas hasil clustering
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ง Internal
๏ง Menggunakan informasi internal, seberapa compact dan separated cluster-cluster yang dihasilkan
๏ง Silhouette coefficient
๏ง Eksternal
๏ง Membandingkan hasil clustering dengan label kelas eksternal yang tersedia (ground truth)
๏ง Entropy, purity, F-measure
๏ง Relatif
๏ง Membandingkan dua hasil clustering, misalnya yang didapat dari satu algoritma yang sama dengan nilai
parameter (k, centroid awal) yang berbeda
๏ง SSE atau entropy
๏ง Digunakan untuk menentukan hasil clustering optimal, misalnya dengan memvariasikan nilai parameter jumlah
cluster k, posisi awal centroid
36. Silhouette coefficient
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ง Silhouette dapat memberikan representasi grafis yang ringkas tentang seberapa baik setiap objek telah
dikelompokkan.
๏ง Nilai silhouette adalah ukuran seberapa mirip suatu objek dengan clusternya sendiri (kohesi) dibandingkan
dengan cluster lain.
๏ง Nilai silhouette berkisar antara โ1 hingga +1. Nilai 1 menyatakan hasil terbaik dimana suatu data sangat
compact dengan data lain pada cluster yang sama dan jauh dari cluster-cluster lain.
๏ง Silhouette dapat dihitung dengan rumus jarak apa pun, seperti jarak Euclidean atau jarak Manhattan.
๏ง Jika sebagian besar objek memiliki nilai silhouette tinggi, maka hasil clustering sudah baik.
๏ง Jika banyak objek memiliki nilai silhouette rendah atau negatif, maka hasil clustering masih kurang baik,
mungkin memiliki terlalu banyak atau terlalu sedikit jumlah cluster.
37. Silhouette coefficient
www.its.ac.id INSTITUT TEKNOLOGI SEPULUH NOPEMBER, Surabaya - Indonesia
๏ง Silhouette coefficient dari setiap data x dari hasil clustering dapat dihitung dengan :
๐ ๐ฅ =
๐ ๐ฅ โ ๐(๐ฅ)
max{๐ ๐ฅ , ๐(๐ฅ)}
๏ง a(x) adalah rataโrata jarak antara x dan semua data lain pada cluster yang sama
๏ง b(x) adalah minimum rataโrata jarak antara x dengan semua cluster yang lain
๏ง ๐๐๐ก๐ข๐ ๐ ๐๐ก๐๐๐ ๐๐๐ก๐ ๐ฅ โ ๐ถ๐ฅ ๐๐๐ก๐ ๐ฅ ๐๐๐๐๐๐ก๐ ๐๐๐ข๐ ๐ก๐๐ ๐ถ๐ฅ
๐ ๐ฅ =
1
๐ถ๐ฅ โ1 ๐โ๐ถ๐ฅ,๐ฅโ ๐ฆ ๐ ๐ฅ, ๐ฆ dan ๐ ๐ฅ = min
๐งโ ๐ฅ
1
๐ถ๐ง
๐ฆโ๐ถ๐ง
๐ ๐ฅ, ๐ฆ