2. Diberikan data profil pelanggan, bagaimana memilih data pelanggan yang potensial untuk
ditawarkan produk tertentu?
3. Diberikan data profil pelanggan, bagaimana memilih data pelanggan yang potensial
untuk ditawarkan produk tertentu?
Kita diminta untuk
mengelompokkan data
customer di samping
berdasarkan kesamaan
profil pelanggan.
Customer Segmentation
Clustering
5. Klasterisasi
Klasterisasi mengelompokkan data secara otomatis tanpa perlu diberitahu label
kelasnya.
Klasterisasi atau clustering adalah proses pengelompokan himpunan data ke dalam
beberapa group atau klaster sedemikian hingga objek-objek dalam suatu klaster
memiliki kemiripan yang tinggi, namun sangat berbeda (memiliki ketidakmiripan yang
tinggi) dengan objek-objek di klaster-klaster lainnya (J Han et al. 2012).
Kemiripan (similarities) dan ketidakmiripan (dissimilarities) dihitung berdasarkan
nilai-nilai atribut yang menggambarkan objek-objek tersebut dan seringkali
melibatkan ukuran jarak.
Data Mining
6. Penerapan Klasterisasi
Retail/Marketing
Analisis pola transaksi yang dilakukan pelanggan
Rekomendasi buku, film, atau produk baru untuk pelanggan
baru
Perbankan
Deteksi fraud dalam transaksi perbankan
Pengelompokan nasabah (program loyalitas
nasabah)
Asuransi
Deteksi fraud dalam klaim asuransi
Analisis risiko asuransi bagi pelanggan
Berita dan Penerbitan
Kategorisasi berita secara otomatis
Rekomendasi artikel/berita baru
7. Penggunaan
Algoritma Clustering
Exploratory Data Analysis
Generate Rangkuman (summary generation)
Deteksi Pencilan (outlier detection)
Mencari duplikat (finding duplicates)
Tahap pra-pemrosesan data
Kompresi data/image
Optimasi algoritma k-NN
dll
8. Kategori Metode
Klasterisasi
k-Means
k-Modes
k-Medoids
Fuzzy c-Means
dll
Metode berbasis partisi
(partitioning methods)
Ukuran Jarak
BIRCH (Balanced Iterative
Reducing and Clustering)
Chameleon
Agglomerative
Divisive, dll
Metode berbasis hirarki
(hierarchical methods)
DBSCAN
OPTICS
DENCLUE
dll
Metode berbasis kepadatan
(density-based methods)
STING
CLIQUE
dll
Metode berbasis kisi
(grid-based methods)
9. Algoritma K-Means Clustering
Klasterisasi
K-Means merupakan algoritma klasterisasi yang paling tua dan paling banyak digunakan.
Algoritma K-Means bersifat iteratif yang mencoba untuk mempartisi dataset menjadi
subkelompok nonoverlapping berbeda yang ditentukan oleh K (cluster) di mana setiap titik
data hanya dimiliki oleh satu kelompok.
K-Means mencoba membuat titik data intracluster semirip mungkin dengan titik data yang
lain pada satu cluster.
K-Means menetapkan poin data ke cluster sedemikian rupa sehingga jumlah jarak kuadrat
antara titik data dan pusat data cluster (centroid) adalah minimal.
Ide dasar algoritma K-Means adalah meminimalkan Sum of Squared Error (SSE) antara objek-
objek data dengan sejumlah k centroid.
10. Langkah Algoritma K-Means Clustering
Klasterisasi
Tentukan jumlah klaster (nilai K)
1.
Ditentukan dengan melihat kebutuhan atau tujuan klastering, melakukan pengujian jumlah k
yang tepat.
2. Inisialisasi nilai centroid awal setiap klaster secara acak
3. Hitung jarak setiap titik data dengan setiap centroid
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan pusat klaster
5. Untuk setiap klaster, tentukan nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
6. Ulangi langkah 3-5 hingga tidak ada perubahan anggota klaster
11. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Data Pelanggan
Diketahui terdapat data pelanggan. Kita diminta
untuk mengelompokkan data pelanggan menjadi
dua kelompok.
12. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Tentukan Jumlah Klaster
1.
Dalam contoh kasus ini, klaster berjumlah 2.
Klaster 1 Klaster 2
13. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
2. Inisialisasi nilai centroid awal setiap klaster secara acak
Cara penentuan centroid awal:
Memilih salah satu data untuk atribut "Age"
dan "Income" secara acak.
Membangkitkan bilangan acak sesuai rentang
nilai "Age" dan "Income".
1.
2.
Misal, kita menentukan centroid awal
berdasarkan cara 1. Kita tentukan C1 = (41,19)
dan C2 = (47,100).
14. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
2. Inisialisasi nilai centroid awal setiap klaster secara acak
Misal, kita menentukan centroid awal berdasarkan
cara 1. Kita tentukan C1 = (41,19) dan C2 = (47,100).
15. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
3. Hitung jarak setiap titik data dengan setiap centroid.
Misal: menggunakan Euclidean Distance
16. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan centroid
17. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
4. Masukkan setiap titik data ke dalam klaster berdasarkan jarak terdekat dengan centroid
Klaster 1 Klaster 2
Cust 1
Cust 3
Cust 4
Cust 7
Cust 9
Cust 2
Cust 5
Cust 6
Cust 8
Cust 10
18. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
19. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Nilai centroid baru C1?
20. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Centroid baru C1= (mean(41;33;29;38;26), mean(19;57;19;56;18)) = (33,4; 33,8)
21. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Nilai centroid baru C2?
22. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
5. Untuk setiap klaster, hitung nilai centroid baru berdasarkan rerata (means) dari setiap data di
dalam klaster
Centroid baru C2 = (mean(47;47;40;42;47), mean(100;253;81;64;115)) = (44,6; 122,6)
23. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
Pergeseran centroid setiap klaster. C1 = (33,4; 33,8) dan C2 = (44,6; 122,6)
25. Contoh Kasus: Klasterisasi Pelanggan
Klasterisasi
6. Ulangi langkah 3-5 menggunakan centroid baru
Apakah hasil klasterisasinya sama dengan tahap sebelumnya?
Jika sama, hentikan proses klasterisasi
Jika belum sama, ulangi langkah 3-5
30. Optimasi Nilai k pada K-Means
Klasterisasi
Jumlah klaster (nilai k) merupakan salah satu faktor krusial baik atau tidaknya metode K-
Means. Hasil pengelompokan akan menghasilkan analisa yang berbeda untuk jumlah klaster
yang berbeda.
Semakin kecil nilai k, maka pembagian kluster menjadi cepat. Namun, mungkin ada informasi
tersembunyi yang tidak terungkap.
Semakin besar nilai k, maka akan terbentuk banyak klaster. Mungkin akan terlalu sulit untuk
membuat analisa atau memilih dukungan keputusan dari hasil klaster.
31. Optimasi Nilai k pada K-Means
Klasterisasi
Penentuan nilai k terbaik dapat dilakukan berdasarkan ukuran kualitas hasil klasterisasi.
Beberapa ukuran kualitas klaster:
Sum Square Error (SSE)
Davies Bouldin Index (DBI)
Silhoutte Coefficient
Rand Index
Mutual Information
Calinski-Harabasz Index (C-H Index)
Dunn Index
1.
2.
3.
4.
5.
6.
7.
32. Penentuan Nilai k Terbaik dengan Metode Elbow
Klasterisasi
Untuk mengetahui jumlah klaster yang
paling baik adalah dengan cara melihat
perbandingan kualitas klaster untuk
setiap pilihan nilai k (Misal: k=2,3,4,5, ...).
Nilai k yang dipilih adalah nilai k yang
memiliki perubahan kualitas signifikan,
seperti sebuah siku (elbow).
33. Referensi
Klasterisasi
Suyanto. 2019. Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Bandung. Informatika
Achmad Solichin. 2021. Algoritma K-Means Clustering: Konsep dan Contoh Perhitungannya |
Unsupervised Learning. https://www.youtube.com/watch?v=oO0Wn_h8fe8. Diakses
November 2022.