Dokumen ini membahas metode klasterisasi Agglomerative Hierarchical Clustering (AHC). AHC adalah metode klasterisasi berbasis hirarki yang membangun klaster secara bottom-up dimana setiap objek dianggap sebagai klaster dan klaster-klaster digabungkan berdasarkan kemiripan hingga terbentuk satu klaster besar. Dokumen ini juga menjelaskan langkah-langkah algoritma AHC beserta contoh penerapannya untuk mengelompokkan dataset skor ked
1. DATA MINING
Klasterisasi
AHC - Agglomerative
Hierarchical Clustering
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
November 2022
2. Kategori Metode
Klasterisasi
k-Means
k-Modes
k-Medoids
Fuzzy c-Means
dll
Metode berbasis partisi
(partitioning methods)
Ukuran Jarak
BIRCH (Balanced Iterative
Reducing and Clustering)
Chameleon
Agglomerative
Divisive, dll
Metode berbasis hirarki
(hierarchical methods)
DBSCAN
OPTICS
DENCLUE
dll
Metode berbasis kepadatan
(density-based methods)
STING
CLIQUE
dll
Metode berbasis kisi
(grid-based methods)
3. Hierarchical Clustering
Hierarchical clustering adalah metode analisis klaster untuk
membangun hierarki kelompok data
Analisis klaster hierarki adalah pendekatan umum untuk
analisis klaster, dimana objek digunakan untuk
mengelompokkan objek-objek atau catatan yang dekat satu
sama lain.
K-Means dan Agglomerative Hierarchical Clustering
4. Hierarchical Clustering
Hierarchical clustering adalah metode analisis klaster untuk
membangun hierarki kelompok data
Analisis klaster hierarki adalah pendekatan umum untuk analisis
klaster, dimana objek digunakan untuk mengelompokkan objek-
objek atau catatan yang dekat satu sama lain.
K-Means dan Agglomerative Hierarchical Clustering
K-Means = Memilih banyaknya klaster dan menetapkan pusat
klaster.
Hierarki Agglomerative = Semua titik pada data dianggap sebagai
klaster. Kemudian dicari dua titik terdekat dan dijadikan satu
klaster. Kemudian dipilih lagi titik terdekat dan dijadikan satu
klaster. Hal ini dilakukan sampai diperoleh satu klaster besar.
6. Bagaimana
Algoritma
AHC
Bekerja?
Hitung matriks jarak antar titik-titik
sampel yang diketahui. (Menggunakan
metode-metode perhitungan jarak seperti
Euclidian, Manhattan Distance, dll).
Gabungkan dua klaster terdekat menjadi
satu klaster.
Single Linkage (Jarak Terdekat)
Complete Linkage (Jarak Terjauh)
Average Linkage (Jarak Rata-Rata)
Perbaharui matriks jarak antar data untuk
merepresentasikan antara kelompok baru
dengan kelompok yang masih tersisa.
Ulangi langkah 2-3 sampai hanya satu
kelompok yang tersisa.
7. Latihan Soal
Kelompokkan dataset di bawah ini dengan menggunakan metode AHC (Single
Linkage) dan metode perhitungan jarak Manhattan Distance.
Dataset Skor Kedisiplinan Siswa
8. Langkah 1
Hitung matrik jarak antar data.
Hitung jarak dua data secara berpasang-pasangan dengan menggunakan
Manhattan Distance.
9. Langkah 1
Hitung jarak dua data secara berpasang-pasangan dengan menggunakan
Manhattan Distance.
12. Langkah 2
Gabungkan dua kelompok terdekat menjadi satu.
Menggunakan Single Linkage, pilih jarak dari dua
kelompok yang terdekat.
Terpilih kelompok 2 dan 3, sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok (2 dan 3) dengan kelompok yang tersisa,
yaitu 1, 4, dan 5.
13. Langkah 2
Gabungkan dua kelompok terdekat menjadi satu.
Menggunakan Single Linkage, pilih jarak dari dua
kelompok yang terdekat.
Terpilih kelompok 2 dan 3, sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok (2 dan 3) dengan kelompok yang tersisa,
yaitu 1, 4, dan 5.
14. Langkah 3
Perbaharui matriks jarak antar data
Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3.
Lengkapi matriks di atas!
15. Langkah 3
Perbaharui matriks jarak antar data
Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3.
Lengkapi matriks di atas!
18. Langkah 4
Gabungkan dua kelompok terdekat menjadi satu.
Pilih jarak dua kelompok terdekat.
Terpilih kelompok 1 dan 4, sehingga kedua kelompok digabungkan.
Menghitung jarak terdekat antar kelompok (1 dan 4) dengan kelompok yang
tersisa, yaitu {23} dan 5.
19. Langkah 4
Gabungkan dua kelompok terdekat menjadi satu.
Pilih jarak dua kelompok terdekat.
Terpilih kelompok 1 dan 4, sehingga kedua kelompok digabungkan.
Menghitung jarak terdekat antar kelompok (1 dan 4) dengan kelompok yang
tersisa, yaitu {23} dan 5.
20. Langkah 5
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok 1 dan kelompok 4.
Lengkapi matriks di atas!
22. Gabungkan dua kelompok terdekat menjadi satu.
Langkah 6
Pilih jarak dua kelompok terdekat.
Terpilih kelompok (1 dan 4) dan kelompok (2 dan 3), sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok ((1 dan 4)(2 dan 3)) dengan
kelompok yang tersisa, yaitu kelompok 5.
23. Gabungkan dua kelompok terdekat menjadi satu.
Langkah 6
Pilih jarak dua kelompok terdekat.
Terpilih kelompok (1 dan 4) dan kelompok (2 dan 3), sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok ((1 dan 4)(2 dan 3)) dengan
kelompok yang tersisa, yaitu kelompok 5.
24. Langkah 7
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok {23} dan kelompok {14}.
25. Langkah 7
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok {23} dan kelompok {14}.
Kelompok (1234) dan 5 digabung
menjadi kelompok tunggal dari
lima data, yaitu (12345) dengan
jarak terdekat 5.
27. Referensi
Suyanto. 2019. Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Bandung. Informatika
Junta Zeniarja. 2021. Pertemuan 11 - Agglomerative Hierarchical Clustering (AHC) dengan
Python | Python Data Mining 2021. https://www.youtube.com/watch?v=s8K0lO9OFOA.
Diakses November 2022.