SlideShare a Scribd company logo
1 of 34
DATA SCIENCE
CLUSTERING
Oleh :
I Gede Aris Gunadi
Program Pascasarjana Ilmu Komputer
Universitas Pendidikan Ganesha
CLUSTERING
 Clustering adalah proses pengelompokan objek
yang didasarkan pada kesamaan antar objek.
 Tidak seperti proses klasifikasi yang bersifat
supervised learning, pada clustering proses
pengelompokan dilakukan atas dasar
unsupervised learning.
 Pada proses klasifikasi, akan ditentukan lokasi
dari suatu kejadian pada klas tertentu dari
beberapa klas yang telah teridentifikasi
sebelumnya.
 Sedangkan pada proses clustering, proses
pengelompokan kejadian dalam klas akan
dilakukan secara alami tanpa mengidentifikasi
klas-klas sebelumnya.
CLUSTERING
 Suatu metode clustering dikatakan baik apabila
metode tersebut dapat menghasilkan cluster-
cluster dengan kualitas yang sangat baik.
 Metode tersebut akan menghasilkan cluster-
cluster dengan objek-objek yang memiliki
tingkat kesamaan yang cukup tinggi dalam
suatu cluster, dan memiliki tingkat
ketidaksamaan yang cukup tinggi juga apabila
objek-objek tersebut terletak pada cluster yang
berbeda.
 Untuk mendapatkan kualitas yang baik, metode
clustering sangat tergantung pada ukuran
kesamaan yang akan digunakan dan
kemampuannya untuk menemukan beberapa
pola yang tersembunyi.
ILUSTRASI CLUSTERING
Di berikan data pelanggan telpon
seperti tabel disamping.
•Kita diminta untuk membagi data
tersebut menjadi 2 kelompok,
pelanggan yang layak dapat bonus dan
tidak.
•Coba pikirkan strategi/caranya
bagaimana
ILUSTRASI CLUSTERING (SEBARAN DATA)
Setelah sebaran data didapatkan , lalu apa langkah
selanjutnya, …. Ada yang punya Ide ?
STRATEGI PALING SEDERHANA
 Bangkitkan titik pusat (centroids) cluster secara
acak, dan perbaiki secara iteratif.
BEBERAPA ALGORITMA UNTUK CLUSTERING
 K Means
 K Medoids
 Fuzzy C Means
K MEANS CLUSTERING
K-MEANS CLUSTERING
 Konsep dasar dari K-Means adalah pencarian
pusat cluster secara iteratif.
 Pusat cluster ditetapkan berdasarkan jarak setiap
data ke pusat cluster.
 Proses clustering dimulai dengan mengidentifikasi
data yang akan dicluster, xij (i=1,...,n; j=1,...,m)
dengan n adalah jumlah data yang akan dicluster
dan m adalah jumlah variabel.
K-MEANS
 Pada awal iterasi, pusat setiap cluster ditetapkan secara
bebas (sembarang), ckj (k=1,...,K; j=1,...,m).
 Kemudian dihitung jarak antara setiap data dengan
setiap pusat cluster.
 Untuk melakukan penghitungan jarak data ke-i (Xi) pada
pusat cluster ke-k (Ck), diberi nama (dik), dapat
digunakan formula Euclidean, yaitu:
 




m
1
j
2
kj
ij
ik c
x
d
JARAK . ECLUDIAN DISTANCE
 A ( umur, gaji, berat badan)
 A1( 30, 1025, 60)
 B1 (35, 1020, 62)
 C1 (40), 1035,60)
 Jarak /similarity (A1,B1)
 = ( (-5)^2 + (5)^2 + (-2)^2 )^0.5 = (54)^0.5
 Jarak (A1,C1) = ( 100 +100+0)^0.5 = (200)^0.5
K-MEANS
 Suatu data akan menjadi anggota dari cluster ke-J
apabila jarak data tersebut ke pusat cluster ke-J
bernilai paling kecil jika dibandingkan dengan jarak ke
pusat cluster lainnya.
 Selanjutnya, kelompokkan data-data yang menjadi
anggota pada setiap cluster.
 Nilai pusat cluster yang baru dapat dihitung dengan
cara mencari nilai rata-rata dari data yang menjadi
anggota pada cluster tersebut, dengan rumus:
k
ke
cluster
x
y
;
p
y
c ij
hj
p
1
h
hj
kj 





K-MEANS
 Algoritma:
1. Tentukan jumlah kelompok, dan titik pusat secara
acak
2.Alokasikan data kedalam kelompok berdasarkan
kedekatan dengan titik pusat (Inisiasi awal)
3. Hitung titik pusat kelompok berdasarkan rata rata
data pada masing masing kelompok
4. Alokasikan masing-masing data ke centroid terdekat
5 Kembali ke langkah 3, apabila masih ada data yang
berpindah kelompok, atau apabila ada perubahan
centrioid, atau apabila nilai fungsi objektif diatas
ambang.
C1
C2
SSE1= 36 - SSE= 7.8 - SSE= 6.25
ELBOW EFFECT
 Salah satu penerapan SSE adalah untuk
mengetahui nilai K optimal dari suatu kelompok
data
HITUNG NILAI SSE PADA SETIAP SKEMA
SKEMA 1 :
SKEMA 2 : COBA HITUNG !!!
KUALITAS K-MEAN : SILHOUTE INDEK
 Silhoute Indek / Koefesien adalah untuk melihat
seberapa baik kualitas sebuah objek didalam
sebuah cluster.
 Nilai : +1 s/d -1 : (+1) : menyatakan keberadaan
objek tersebut sangat baik pada cluster tersebut, (-
1) Sangat jelek.
PERHITUNGAN SILHOUTE KOEFESIEN
 Hitung jarak objek ke semua objek dalam satu
cluster ( : a(i))
 Hitung jarak objek ke semua objek diluar clusternya
( : b(i) )
 S(i) = b(i) – a(i) / mak (a(i) ,b(i)
APA KELEMAHAN UTAMA K- MEAN ?
 pemilihan Centroid yg acak kemungkinan akan
membutuh iterasi yang lebih untuk menemukan
kondisi Centroid yang stabil
 Sensitif data outlier
 Kualitas Cluster setiap K harus dianlisis
CONTOH
SSE = -0.4 SSE = 0.522
Apakah D (5,3)  C2
K MEDOID
 Kelemahan K Means adalah kinerja tidak baik
apabila terdapat data yang bersifat outlier.
 K Medoids adalah solusi untuk mengatasi hal
tersebut.
 Pada K Medoids dilakukan dengan cara
menghilangkan penggunaan rata rata untuk
memperbaharui centroid dan menganti dengan
objek actual sebagai represntasi klaster.
ALGORITMA K MEDOIS
ILUSTRASI
ILUSTRASI
ILUSTRASI
PENENTUAN JUMLAH CLUSTER
 Salah satu masalah yang dihadapi pada proses
clustering adalah pemilihan jumlah cluster yang
optimal.
 Kauffman dan Rousseeuw (1990) memperkenal-kan
suatu metode untuk menentukan jumlah cluster yang
optimal, metode ini disebut dengan silhouette
measure.
 Misalkan kita sebut A sebagai cluster dimana data Xi
berada, hitung ai sebagai rata-rata jarak Xi ke semua
data yang menjadi anggota A.
 Anggaplah bahwa C adalah sembarang cluster selain
A.
PENENTUAN JUMLAH CLUSTER
 Hitung rata-rata jarak antara Xi dengan data yang menjadi
anggota dari C, sebut sebagai d(Xi, C).
 Cari rata-rata jarak terkecil dari semua cluster, sebut
sebagai bi, bi = min(d(Xi,C)) dengan CA.
 Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai
berikut (Chih-Ping, 2005):

















i
i
i
i
i
i
i
i
i
i
i
b
a
,
1
a
b
b
a
,
0
b
a
,
b
a
1
s
PENENTUAN JUMLAH CLUSTER
 Rata-rata si untuk semua data untuk k cluster tersebut
disebut sebagai rata-rata silhouette ke-k,
 Nilai rata-rata silhouette terbesar pada jumlah cluster
(katakanlah: k) menunjukkan bahwa k merupakan jumlah
cluster yang optimal.
k
s
~
TERIMA KASIH

More Related Content

Similar to Clustering _IgedeAris.ppt

Modul praktikum 3 cluster
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 cluster
DeiHart DeiHart
 
komparasi LVQ dengan FCM dalam Analisis Butir Soal
komparasi LVQ dengan FCM dalam Analisis Butir Soal komparasi LVQ dengan FCM dalam Analisis Butir Soal
komparasi LVQ dengan FCM dalam Analisis Butir Soal
Halley AI
 
Artikel Final Yan Yan G
Artikel Final Yan Yan GArtikel Final Yan Yan G
Artikel Final Yan Yan G
Yan Gustiana
 
klastering-k-means-untuk-penentuan-nilai-ujian
klastering-k-means-untuk-penentuan-nilai-ujianklastering-k-means-untuk-penentuan-nilai-ujian
klastering-k-means-untuk-penentuan-nilai-ujian
Anam Syamsul
 

Similar to Clustering _IgedeAris.ppt (20)

Algoritma Klasifikasi K-Means Clustering.pptx
Algoritma Klasifikasi K-Means Clustering.pptxAlgoritma Klasifikasi K-Means Clustering.pptx
Algoritma Klasifikasi K-Means Clustering.pptx
 
Analisis Cluster
Analisis ClusterAnalisis Cluster
Analisis Cluster
 
K-Means Clustering.ppt
K-Means Clustering.pptK-Means Clustering.ppt
K-Means Clustering.ppt
 
Pert 04 clustering data mining
Pert 04 clustering   data miningPert 04 clustering   data mining
Pert 04 clustering data mining
 
KMeans.pdf
KMeans.pdfKMeans.pdf
KMeans.pdf
 
PPT_Data_Mining_Kel_3.pptx
PPT_Data_Mining_Kel_3.pptxPPT_Data_Mining_Kel_3.pptx
PPT_Data_Mining_Kel_3.pptx
 
Modul clustering data mining modul clustering
Modul clustering data mining modul clusteringModul clustering data mining modul clustering
Modul clustering data mining modul clustering
 
Clustering
ClusteringClustering
Clustering
 
Kelompok 7 clustering data mining and Retrieval mode
Kelompok 7 clustering data mining and Retrieval modeKelompok 7 clustering data mining and Retrieval mode
Kelompok 7 clustering data mining and Retrieval mode
 
Modul praktikum 3 cluster
Modul praktikum 3   clusterModul praktikum 3   cluster
Modul praktikum 3 cluster
 
komparasi LVQ dengan FCM dalam Analisis Butir Soal
komparasi LVQ dengan FCM dalam Analisis Butir Soal komparasi LVQ dengan FCM dalam Analisis Butir Soal
komparasi LVQ dengan FCM dalam Analisis Butir Soal
 
Artikel Final Yan Yan G
Artikel Final Yan Yan GArtikel Final Yan Yan G
Artikel Final Yan Yan G
 
Komparasi lvq dengan fcm pada abs
Komparasi lvq dengan fcm pada absKomparasi lvq dengan fcm pada abs
Komparasi lvq dengan fcm pada abs
 
K-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptxK-MEANS CLUSTERING.pptx
K-MEANS CLUSTERING.pptx
 
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-meansJurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
Jurnal 15235 pengelompokan kayu kelapa menggunakan algoritma k-means
 
Machine Learning Diskusi 10.pdf
Machine Learning Diskusi 10.pdfMachine Learning Diskusi 10.pdf
Machine Learning Diskusi 10.pdf
 
Analisis cluster
Analisis clusterAnalisis cluster
Analisis cluster
 
klastering-k-means-untuk-penentuan-nilai-ujian
klastering-k-means-untuk-penentuan-nilai-ujianklastering-k-means-untuk-penentuan-nilai-ujian
klastering-k-means-untuk-penentuan-nilai-ujian
 
Klasterisasi buku berbahasa indonesia
Klasterisasi buku berbahasa indonesiaKlasterisasi buku berbahasa indonesia
Klasterisasi buku berbahasa indonesia
 
CUSTOMER SEGMENTATION ANALYSIS WITH PYTHON.pdf
CUSTOMER SEGMENTATION ANALYSIS WITH PYTHON.pdfCUSTOMER SEGMENTATION ANALYSIS WITH PYTHON.pdf
CUSTOMER SEGMENTATION ANALYSIS WITH PYTHON.pdf
 

Clustering _IgedeAris.ppt

  • 1. DATA SCIENCE CLUSTERING Oleh : I Gede Aris Gunadi Program Pascasarjana Ilmu Komputer Universitas Pendidikan Ganesha
  • 2. CLUSTERING  Clustering adalah proses pengelompokan objek yang didasarkan pada kesamaan antar objek.  Tidak seperti proses klasifikasi yang bersifat supervised learning, pada clustering proses pengelompokan dilakukan atas dasar unsupervised learning.  Pada proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya.  Sedangkan pada proses clustering, proses pengelompokan kejadian dalam klas akan dilakukan secara alami tanpa mengidentifikasi klas-klas sebelumnya.
  • 3. CLUSTERING  Suatu metode clustering dikatakan baik apabila metode tersebut dapat menghasilkan cluster- cluster dengan kualitas yang sangat baik.  Metode tersebut akan menghasilkan cluster- cluster dengan objek-objek yang memiliki tingkat kesamaan yang cukup tinggi dalam suatu cluster, dan memiliki tingkat ketidaksamaan yang cukup tinggi juga apabila objek-objek tersebut terletak pada cluster yang berbeda.  Untuk mendapatkan kualitas yang baik, metode clustering sangat tergantung pada ukuran kesamaan yang akan digunakan dan kemampuannya untuk menemukan beberapa pola yang tersembunyi.
  • 4. ILUSTRASI CLUSTERING Di berikan data pelanggan telpon seperti tabel disamping. •Kita diminta untuk membagi data tersebut menjadi 2 kelompok, pelanggan yang layak dapat bonus dan tidak. •Coba pikirkan strategi/caranya bagaimana
  • 5. ILUSTRASI CLUSTERING (SEBARAN DATA) Setelah sebaran data didapatkan , lalu apa langkah selanjutnya, …. Ada yang punya Ide ?
  • 6. STRATEGI PALING SEDERHANA  Bangkitkan titik pusat (centroids) cluster secara acak, dan perbaiki secara iteratif.
  • 7. BEBERAPA ALGORITMA UNTUK CLUSTERING  K Means  K Medoids  Fuzzy C Means
  • 9. K-MEANS CLUSTERING  Konsep dasar dari K-Means adalah pencarian pusat cluster secara iteratif.  Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster.  Proses clustering dimulai dengan mengidentifikasi data yang akan dicluster, xij (i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel.
  • 10. K-MEANS  Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), ckj (k=1,...,K; j=1,...,m).  Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster.  Untuk melakukan penghitungan jarak data ke-i (Xi) pada pusat cluster ke-k (Ck), diberi nama (dik), dapat digunakan formula Euclidean, yaitu:       m 1 j 2 kj ij ik c x d
  • 11. JARAK . ECLUDIAN DISTANCE  A ( umur, gaji, berat badan)  A1( 30, 1025, 60)  B1 (35, 1020, 62)  C1 (40), 1035,60)  Jarak /similarity (A1,B1)  = ( (-5)^2 + (5)^2 + (-2)^2 )^0.5 = (54)^0.5  Jarak (A1,C1) = ( 100 +100+0)^0.5 = (200)^0.5
  • 12. K-MEANS  Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya.  Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster.  Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data yang menjadi anggota pada cluster tersebut, dengan rumus: k ke cluster x y ; p y c ij hj p 1 h hj kj      
  • 13.
  • 14. K-MEANS  Algoritma: 1. Tentukan jumlah kelompok, dan titik pusat secara acak 2.Alokasikan data kedalam kelompok berdasarkan kedekatan dengan titik pusat (Inisiasi awal) 3. Hitung titik pusat kelompok berdasarkan rata rata data pada masing masing kelompok 4. Alokasikan masing-masing data ke centroid terdekat 5 Kembali ke langkah 3, apabila masih ada data yang berpindah kelompok, atau apabila ada perubahan centrioid, atau apabila nilai fungsi objektif diatas ambang.
  • 15. C1 C2
  • 16.
  • 17.
  • 18. SSE1= 36 - SSE= 7.8 - SSE= 6.25
  • 19. ELBOW EFFECT  Salah satu penerapan SSE adalah untuk mengetahui nilai K optimal dari suatu kelompok data
  • 20. HITUNG NILAI SSE PADA SETIAP SKEMA SKEMA 1 :
  • 21. SKEMA 2 : COBA HITUNG !!!
  • 22. KUALITAS K-MEAN : SILHOUTE INDEK  Silhoute Indek / Koefesien adalah untuk melihat seberapa baik kualitas sebuah objek didalam sebuah cluster.  Nilai : +1 s/d -1 : (+1) : menyatakan keberadaan objek tersebut sangat baik pada cluster tersebut, (- 1) Sangat jelek.
  • 23. PERHITUNGAN SILHOUTE KOEFESIEN  Hitung jarak objek ke semua objek dalam satu cluster ( : a(i))  Hitung jarak objek ke semua objek diluar clusternya ( : b(i) )  S(i) = b(i) – a(i) / mak (a(i) ,b(i)
  • 24. APA KELEMAHAN UTAMA K- MEAN ?  pemilihan Centroid yg acak kemungkinan akan membutuh iterasi yang lebih untuk menemukan kondisi Centroid yang stabil  Sensitif data outlier  Kualitas Cluster setiap K harus dianlisis
  • 25. CONTOH SSE = -0.4 SSE = 0.522 Apakah D (5,3)  C2
  • 26. K MEDOID  Kelemahan K Means adalah kinerja tidak baik apabila terdapat data yang bersifat outlier.  K Medoids adalah solusi untuk mengatasi hal tersebut.  Pada K Medoids dilakukan dengan cara menghilangkan penggunaan rata rata untuk memperbaharui centroid dan menganti dengan objek actual sebagai represntasi klaster.
  • 31. PENENTUAN JUMLAH CLUSTER  Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal.  Kauffman dan Rousseeuw (1990) memperkenal-kan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure.  Misalkan kita sebut A sebagai cluster dimana data Xi berada, hitung ai sebagai rata-rata jarak Xi ke semua data yang menjadi anggota A.  Anggaplah bahwa C adalah sembarang cluster selain A.
  • 32. PENENTUAN JUMLAH CLUSTER  Hitung rata-rata jarak antara Xi dengan data yang menjadi anggota dari C, sebut sebagai d(Xi, C).  Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi = min(d(Xi,C)) dengan CA.  Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai berikut (Chih-Ping, 2005):                  i i i i i i i i i i i b a , 1 a b b a , 0 b a , b a 1 s
  • 33. PENENTUAN JUMLAH CLUSTER  Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k,  Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal. k s ~