DATA MINING
Klasterisasi
AHC - Agglomerative
Hierarchical Clustering
Elvi Rahmi, S.T., M.Kom.
elvizasri@gmail.com
November 2022
Kategori Metode
Klasterisasi
k-Means
k-Modes
k-Medoids
Fuzzy c-Means
dll
Metode berbasis partisi
(partitioning methods)
Ukuran Jarak
BIRCH (Balanced Iterative
Reducing and Clustering)
Chameleon
Agglomerative
Divisive, dll
Metode berbasis hirarki
(hierarchical methods)
DBSCAN
OPTICS
DENCLUE
dll
Metode berbasis kepadatan
(density-based methods)
STING
CLIQUE
dll
Metode berbasis kisi
(grid-based methods)
Hierarchical Clustering
Hierarchical clustering adalah metode analisis klaster untuk
membangun hierarki kelompok data
Analisis klaster hierarki adalah pendekatan umum untuk
analisis klaster, dimana objek digunakan untuk
mengelompokkan objek-objek atau catatan yang dekat satu
sama lain.
K-Means dan Agglomerative Hierarchical Clustering
Hierarchical Clustering
Hierarchical clustering adalah metode analisis klaster untuk
membangun hierarki kelompok data
Analisis klaster hierarki adalah pendekatan umum untuk analisis
klaster, dimana objek digunakan untuk mengelompokkan objek-
objek atau catatan yang dekat satu sama lain.
K-Means dan Agglomerative Hierarchical Clustering
K-Means = Memilih banyaknya klaster dan menetapkan pusat
klaster.
Hierarki Agglomerative = Semua titik pada data dianggap sebagai
klaster. Kemudian dicari dua titik terdekat dan dijadikan satu
klaster. Kemudian dipilih lagi titik terdekat dan dijadikan satu
klaster. Hal ini dilakukan sampai diperoleh satu klaster besar.
Agglomerative
Divisive
Kategori Utama Metode
Hierarchical Clustering
Top-Down
Bottom-Up
Pada setiap langkah, pasangan klaster
dengan jarak klaster ke klaster terkecil
menyatu menjadi satu klaster.
Bagaimana
Algoritma
AHC
Bekerja?
Hitung matriks jarak antar titik-titik
sampel yang diketahui. (Menggunakan
metode-metode perhitungan jarak seperti
Euclidian, Manhattan Distance, dll).
Gabungkan dua klaster terdekat menjadi
satu klaster.
Single Linkage (Jarak Terdekat)
Complete Linkage (Jarak Terjauh)
Average Linkage (Jarak Rata-Rata)
Perbaharui matriks jarak antar data untuk
merepresentasikan antara kelompok baru
dengan kelompok yang masih tersisa.
Ulangi langkah 2-3 sampai hanya satu
kelompok yang tersisa.
Latihan Soal
Kelompokkan dataset di bawah ini dengan menggunakan metode AHC (Single
Linkage) dan metode perhitungan jarak Manhattan Distance.
Dataset Skor Kedisiplinan Siswa
Langkah 1
Hitung matrik jarak antar data.
Hitung jarak dua data secara berpasang-pasangan dengan menggunakan
Manhattan Distance.
Langkah 1
Hitung jarak dua data secara berpasang-pasangan dengan menggunakan
Manhattan Distance.
Langkah 2
Gabungkan dua kelompok terdekat menjadi satu.
Langkah 2
Gabungkan dua kelompok terdekat menjadi satu.
Langkah 2
Gabungkan dua kelompok terdekat menjadi satu.
Menggunakan Single Linkage, pilih jarak dari dua
kelompok yang terdekat.
Terpilih kelompok 2 dan 3, sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok (2 dan 3) dengan kelompok yang tersisa,
yaitu 1, 4, dan 5.
Langkah 2
Gabungkan dua kelompok terdekat menjadi satu.
Menggunakan Single Linkage, pilih jarak dari dua
kelompok yang terdekat.
Terpilih kelompok 2 dan 3, sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok (2 dan 3) dengan kelompok yang tersisa,
yaitu 1, 4, dan 5.
Langkah 3
Perbaharui matriks jarak antar data
Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3.
Lengkapi matriks di atas!
Langkah 3
Perbaharui matriks jarak antar data
Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3.
Lengkapi matriks di atas!
Langkah 3
Perbaharui matriks jarak antar data
Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3.
Langkah 4
Gabungkan dua kelompok terdekat menjadi satu.
Pilih jarak dua kelompok terdekat.
Langkah 4
Gabungkan dua kelompok terdekat menjadi satu.
Pilih jarak dua kelompok terdekat.
Terpilih kelompok 1 dan 4, sehingga kedua kelompok digabungkan.
Menghitung jarak terdekat antar kelompok (1 dan 4) dengan kelompok yang
tersisa, yaitu {23} dan 5.
Langkah 4
Gabungkan dua kelompok terdekat menjadi satu.
Pilih jarak dua kelompok terdekat.
Terpilih kelompok 1 dan 4, sehingga kedua kelompok digabungkan.
Menghitung jarak terdekat antar kelompok (1 dan 4) dengan kelompok yang
tersisa, yaitu {23} dan 5.
Langkah 5
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok 1 dan kelompok 4.
Lengkapi matriks di atas!
Langkah 5
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok 1 dan kelompok 4.
Gabungkan dua kelompok terdekat menjadi satu.
Langkah 6
Pilih jarak dua kelompok terdekat.
Terpilih kelompok (1 dan 4) dan kelompok (2 dan 3), sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok ((1 dan 4)(2 dan 3)) dengan
kelompok yang tersisa, yaitu kelompok 5.
Gabungkan dua kelompok terdekat menjadi satu.
Langkah 6
Pilih jarak dua kelompok terdekat.
Terpilih kelompok (1 dan 4) dan kelompok (2 dan 3), sehingga kedua kelompok
digabungkan.
Menghitung jarak terdekat antar kelompok ((1 dan 4)(2 dan 3)) dengan
kelompok yang tersisa, yaitu kelompok 5.
Langkah 7
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok {23} dan kelompok {14}.
Langkah 7
Perbaharui matriks jarak antar data.
Hasil matriks jarak penggabungan kelompok {23} dan kelompok {14}.
Kelompok (1234) dan 5 digabung
menjadi kelompok tunggal dari
lima data, yaitu (12345) dengan
jarak terdekat 5.
Langkah 7
Hasil klastering dengan AHC
Referensi
Suyanto. 2019. Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Bandung. Informatika
Junta Zeniarja. 2021. Pertemuan 11 - Agglomerative Hierarchical Clustering (AHC) dengan
Python | Python Data Mining 2021. https://www.youtube.com/watch?v=s8K0lO9OFOA.
Diakses November 2022.

Klasterisasi - AHC (Agglomerative Hierarchical Clustering).pdf

  • 1.
    DATA MINING Klasterisasi AHC -Agglomerative Hierarchical Clustering Elvi Rahmi, S.T., M.Kom. elvizasri@gmail.com November 2022
  • 2.
    Kategori Metode Klasterisasi k-Means k-Modes k-Medoids Fuzzy c-Means dll Metodeberbasis partisi (partitioning methods) Ukuran Jarak BIRCH (Balanced Iterative Reducing and Clustering) Chameleon Agglomerative Divisive, dll Metode berbasis hirarki (hierarchical methods) DBSCAN OPTICS DENCLUE dll Metode berbasis kepadatan (density-based methods) STING CLIQUE dll Metode berbasis kisi (grid-based methods)
  • 3.
    Hierarchical Clustering Hierarchical clusteringadalah metode analisis klaster untuk membangun hierarki kelompok data Analisis klaster hierarki adalah pendekatan umum untuk analisis klaster, dimana objek digunakan untuk mengelompokkan objek-objek atau catatan yang dekat satu sama lain. K-Means dan Agglomerative Hierarchical Clustering
  • 4.
    Hierarchical Clustering Hierarchical clusteringadalah metode analisis klaster untuk membangun hierarki kelompok data Analisis klaster hierarki adalah pendekatan umum untuk analisis klaster, dimana objek digunakan untuk mengelompokkan objek- objek atau catatan yang dekat satu sama lain. K-Means dan Agglomerative Hierarchical Clustering K-Means = Memilih banyaknya klaster dan menetapkan pusat klaster. Hierarki Agglomerative = Semua titik pada data dianggap sebagai klaster. Kemudian dicari dua titik terdekat dan dijadikan satu klaster. Kemudian dipilih lagi titik terdekat dan dijadikan satu klaster. Hal ini dilakukan sampai diperoleh satu klaster besar.
  • 5.
    Agglomerative Divisive Kategori Utama Metode HierarchicalClustering Top-Down Bottom-Up Pada setiap langkah, pasangan klaster dengan jarak klaster ke klaster terkecil menyatu menjadi satu klaster.
  • 6.
    Bagaimana Algoritma AHC Bekerja? Hitung matriks jarakantar titik-titik sampel yang diketahui. (Menggunakan metode-metode perhitungan jarak seperti Euclidian, Manhattan Distance, dll). Gabungkan dua klaster terdekat menjadi satu klaster. Single Linkage (Jarak Terdekat) Complete Linkage (Jarak Terjauh) Average Linkage (Jarak Rata-Rata) Perbaharui matriks jarak antar data untuk merepresentasikan antara kelompok baru dengan kelompok yang masih tersisa. Ulangi langkah 2-3 sampai hanya satu kelompok yang tersisa.
  • 7.
    Latihan Soal Kelompokkan datasetdi bawah ini dengan menggunakan metode AHC (Single Linkage) dan metode perhitungan jarak Manhattan Distance. Dataset Skor Kedisiplinan Siswa
  • 8.
    Langkah 1 Hitung matrikjarak antar data. Hitung jarak dua data secara berpasang-pasangan dengan menggunakan Manhattan Distance.
  • 9.
    Langkah 1 Hitung jarakdua data secara berpasang-pasangan dengan menggunakan Manhattan Distance.
  • 10.
    Langkah 2 Gabungkan duakelompok terdekat menjadi satu.
  • 11.
    Langkah 2 Gabungkan duakelompok terdekat menjadi satu.
  • 12.
    Langkah 2 Gabungkan duakelompok terdekat menjadi satu. Menggunakan Single Linkage, pilih jarak dari dua kelompok yang terdekat. Terpilih kelompok 2 dan 3, sehingga kedua kelompok digabungkan. Menghitung jarak terdekat antar kelompok (2 dan 3) dengan kelompok yang tersisa, yaitu 1, 4, dan 5.
  • 13.
    Langkah 2 Gabungkan duakelompok terdekat menjadi satu. Menggunakan Single Linkage, pilih jarak dari dua kelompok yang terdekat. Terpilih kelompok 2 dan 3, sehingga kedua kelompok digabungkan. Menghitung jarak terdekat antar kelompok (2 dan 3) dengan kelompok yang tersisa, yaitu 1, 4, dan 5.
  • 14.
    Langkah 3 Perbaharui matriksjarak antar data Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3. Lengkapi matriks di atas!
  • 15.
    Langkah 3 Perbaharui matriksjarak antar data Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3. Lengkapi matriks di atas!
  • 16.
    Langkah 3 Perbaharui matriksjarak antar data Hasil matriks jarak penggabungan kelompok 2 dan kelompok 3.
  • 17.
    Langkah 4 Gabungkan duakelompok terdekat menjadi satu. Pilih jarak dua kelompok terdekat.
  • 18.
    Langkah 4 Gabungkan duakelompok terdekat menjadi satu. Pilih jarak dua kelompok terdekat. Terpilih kelompok 1 dan 4, sehingga kedua kelompok digabungkan. Menghitung jarak terdekat antar kelompok (1 dan 4) dengan kelompok yang tersisa, yaitu {23} dan 5.
  • 19.
    Langkah 4 Gabungkan duakelompok terdekat menjadi satu. Pilih jarak dua kelompok terdekat. Terpilih kelompok 1 dan 4, sehingga kedua kelompok digabungkan. Menghitung jarak terdekat antar kelompok (1 dan 4) dengan kelompok yang tersisa, yaitu {23} dan 5.
  • 20.
    Langkah 5 Perbaharui matriksjarak antar data. Hasil matriks jarak penggabungan kelompok 1 dan kelompok 4. Lengkapi matriks di atas!
  • 21.
    Langkah 5 Perbaharui matriksjarak antar data. Hasil matriks jarak penggabungan kelompok 1 dan kelompok 4.
  • 22.
    Gabungkan dua kelompokterdekat menjadi satu. Langkah 6 Pilih jarak dua kelompok terdekat. Terpilih kelompok (1 dan 4) dan kelompok (2 dan 3), sehingga kedua kelompok digabungkan. Menghitung jarak terdekat antar kelompok ((1 dan 4)(2 dan 3)) dengan kelompok yang tersisa, yaitu kelompok 5.
  • 23.
    Gabungkan dua kelompokterdekat menjadi satu. Langkah 6 Pilih jarak dua kelompok terdekat. Terpilih kelompok (1 dan 4) dan kelompok (2 dan 3), sehingga kedua kelompok digabungkan. Menghitung jarak terdekat antar kelompok ((1 dan 4)(2 dan 3)) dengan kelompok yang tersisa, yaitu kelompok 5.
  • 24.
    Langkah 7 Perbaharui matriksjarak antar data. Hasil matriks jarak penggabungan kelompok {23} dan kelompok {14}.
  • 25.
    Langkah 7 Perbaharui matriksjarak antar data. Hasil matriks jarak penggabungan kelompok {23} dan kelompok {14}. Kelompok (1234) dan 5 digabung menjadi kelompok tunggal dari lima data, yaitu (12345) dengan jarak terdekat 5.
  • 26.
  • 27.
    Referensi Suyanto. 2019. DataMining: Untuk Klasifikasi dan Klasterisasi Data. Bandung. Informatika Junta Zeniarja. 2021. Pertemuan 11 - Agglomerative Hierarchical Clustering (AHC) dengan Python | Python Data Mining 2021. https://www.youtube.com/watch?v=s8K0lO9OFOA. Diakses November 2022.