Machine Learning Diskusi 10.pdf

1
Machine Learning
Pertemuan 10
Hierarchical Clustering
Gambar 1. Ilustrasi metode hierarchical clustering
10.1 Pendahuluan
Startegi pengelompokannya umumnya ada dua jenis, yaitu:
1. Agglomerative (Bottom-Up)
Algomerative merupakan algoritma yang melakukan clustering dari N cluster menjadi
satu kesatuan cluster ( bottom to up), di mana N merupakan banyak data atau objek.
2. Divisive (Top-Down)
Kebalikannya dari agglomerative, algoritma devisive melakukan clustering dari satu
cluster menjadi N cluster (top to down)
10.2 Algoritma Aglomerative Hierarchical Clustering
Algoritma Agglomerative atau metode penggabungan merupakan metode clustering dengan
cara mengelompokkan dua atau lebih data yang memiliki kemiripan terdekat. Kemudian hasil
pengelompokan tersebut dikelompokkan lagi dengan data lain yang memiliki kemiripan hingga
terbentuk seperti struktur pohon. Sehingga dapat disimpulkan banyaknya cluster awal algoritma
agglomerative sama dengan banyaknya data atau objek.

2
Gambar 2. Teknik pengelompokan pada agglomerative hierarchical clustering
Secara umum, terdapat tiga metode pengelompokan dalam algoritma Agglomerative hierarchical
clustering yang sering digunakan yaitu:
1. Singgle linkage (jarak terdekat)
Merupakan metode pengelompokan berdasarkan pengukurn jarak terdekat setiap cluster.
2. Average linkage ( jarak rata-rata)
Average linkage atau disebut juga group average merupakan metode pengelompokan
berdasarkan jarak rata-rata setiap cluster.
3. Complete linkage (jarak terjauh)
Selain metode single linkage, dan average linkage, terdapat metode lain yaitu coplate linkage.
Secara umum tahapan metode ini hampir sama dengan metode single linkage. Hanya saja, pada
metode complete linkage pengelompokan cluster berdasarkan pengukuran jarak terjauh.
Cara kerja algoritme agglomerative dapat diuraikan sebagai berikut:
1. Menghitung matrik jarak antar data menggunakan Euclidean distance.
2. Menggabungkan dua cluster terdekat berdasarkan metode pengelompokan (Single
linkage, Complete linkage, dan Average linkage).
3. Memperbaharui matriks jarak antar data untuk mempresentasikan antara cluster baru
dengan cluster yang masih tersisa.
4. Ulangi langkah 2 dan 3 hingga hanya tersisa satu kelompok atau cluster.
5. Membuat dendrogram.
6. Selesai.
10.3 Metode Pengelompokan Agglomerative Hierarchical
Beberapa metode pengelompokan secara hierarki agglomerative:
▪ Single Linkage (Jarak Terdekat)
𝐷(𝑥𝑦)𝑧 = min{𝐷𝑥,𝑧 ; 𝐷𝑦,𝑧}
▪ Complete Linkage (Jarak Terjauh)
𝐷(𝑥𝑦)𝑧 = max{𝐷𝑥,𝑧 ; 𝐷𝑦,𝑧}
▪ Average Linkage (Jarak rata-rata)

3
𝐷(𝑥𝑦)𝑧 = Average{𝐷𝑥,𝑧 ; 𝐷𝑦,𝑧}
10.4 Diskusi
Pertanyaan diskusi:
Jelaskan secara singkat perbedaan K-Means dan Hierarchical Clustering!!!!
Jawaban:
Perbedaan antara K-Means dan Hierarchical Clustering dapat dijelaskan sebagai berikut:
K-Means Clustering
1. Konsep: K-Means adalah metode klastering yang berbasis pusat, di mana titik data
dikelompokkan menjadi K klaster yang berdasarkan jarak mereka terhadap pusat klaster
terdekat.
2. Jumlah klaster: Jumlah kluster K harus ditentukan sebelumnya.
3. Proses: Metode ini melibatkan langkah-langkah iteratif intuk memindahkan pusat klaster dan
pengelompokan titik data ke klaster yang sesuai, berdasarkan jarak Euklides.
4. Skalabilitas: K-Means dapat menjadi lebih efisien dalam hal waktu komputasi dan memori
untuk dataset yang besar.
Hierarchical Clustering:
1. Konsep: Hierarchical Clustering adalah metode klastering yang membangun hirarki klaster,
baik dalam bentuk penggabungan (agglomerative) atau pemisah (divisive).Klaster yang mirip
secara hierarkis dibangun berdsarkan jarak antara titik data.
2. Jumlah Klaster: Jumlah klaster tidak perlu ditentukan sebslumnya. Hierarchical Clustering
menghasilkan hierarki klaster yang dapat diwakili dalam bentuk dendrogram.
3. Proses: Proses dimulai denngan setiap titikdata sebagai klaster terpisah, kemudian dilakukan
penggabungan atau pemisahan klaster berdasarkan jarak antara klaster yang sesuai.
4. Interpretasi: Dendrogram dari Hierarchical Clustering memungkinkan interpretasi visual
yang lebih baik terkait tingkat keterkaitan dan jarak antara klaster.
5. Skalabilitas: Hierarchical Clustering cenderung lebih lambat dan membutuhkan lebih banyak
sumber daya komputasi untuk dataset yang besar dibandingkan dengan K-Means.
Perbedaan utama antara K-Means dan Hierarchical Clustering terletak pada cara mereka
mengelompokkan titik data. K-Means menggunakan pendekatan berbasis pusat dengan jumlah
klaster yang telah ditentukan, sedangkan Hierarchical Clustering membangun hierarki klaster
tanpa memerlukan jumlah klaster yang telah ditentukan sebelumnya. Selain itu, Hierarchical
Clustering memberikan interpretasi visual melalui dendrogram, sementara K-Means memiliki
keuntungan dalam hal skalabilitas untuk dataset yang besar.
10.5 Kelebihan dan Kekurangan Agglomeratif

4
Berikut beberapa kelebihan dan kekurangan aglomeratif hierarchical clustering yang dapat
dipertimbangkan sebelum digunakan untuk analisis data.
Kelebihan
Kita tidak perlu menentukan jumlah cluster sebelumnya seperti dalam kasus KMeans
Clustering, kita dapat meninjau Dendogram dan memutuskan jumlah cluster berdasarkan
skenario data kita.
Kekurangan
Beberapa kelemahan dari metode linkage yang dipilih adalah sensitif terhadap nilai outlier,
untuk data berukuran besar komputasinya cukup berat.
Terima kasih
Referensi
Syahid Abdullah, S. M. (2023). Machine Learning. Dalam S. M. Syahid Abdullah, Sesi 9-Unsupervised
Learning: Hierarchical Clustering (hal. 1 - 13). Jakarta: Informatika UNSIA.
Irwansyah Saputra, D. A. (2022). MACHINE LEARNING UNTUK PEMULA. Bandung:
INFORMATIKA
File PDF:

Machine Learning Diskusi 10.pdf

More Related Content

More from HendroGunawan8

Recently uploaded

Machine Learning Diskusi 10.pdf