Clustering _IgedeAris.ppt

DATA SCIENCE
CLUSTERING
Oleh :
I Gede Aris Gunadi
Program Pascasarjana Ilmu Komputer
Universitas Pendidikan Ganesha

CLUSTERING
 Clustering adalah proses pengelompokan objek
yang didasarkan pada kesamaan antar objek.
 Tidak seperti proses klasifikasi yang bersifat
supervised learning, pada clustering proses
pengelompokan dilakukan atas dasar
unsupervised learning.
 Pada proses klasifikasi, akan ditentukan lokasi
dari suatu kejadian pada klas tertentu dari
beberapa klas yang telah teridentifikasi
sebelumnya.
 Sedangkan pada proses clustering, proses
pengelompokan kejadian dalam klas akan
dilakukan secara alami tanpa mengidentifikasi
klas-klas sebelumnya.

CLUSTERING
 Suatu metode clustering dikatakan baik apabila
metode tersebut dapat menghasilkan cluster-
cluster dengan kualitas yang sangat baik.
 Metode tersebut akan menghasilkan cluster-
cluster dengan objek-objek yang memiliki
tingkat kesamaan yang cukup tinggi dalam
suatu cluster, dan memiliki tingkat
ketidaksamaan yang cukup tinggi juga apabila
objek-objek tersebut terletak pada cluster yang
berbeda.
 Untuk mendapatkan kualitas yang baik, metode
clustering sangat tergantung pada ukuran
kesamaan yang akan digunakan dan
kemampuannya untuk menemukan beberapa
pola yang tersembunyi.

ILUSTRASI CLUSTERING
Di berikan data pelanggan telpon
seperti tabel disamping.
•Kita diminta untuk membagi data
tersebut menjadi 2 kelompok,
pelanggan yang layak dapat bonus dan
tidak.
•Coba pikirkan strategi/caranya
bagaimana

ILUSTRASI CLUSTERING (SEBARAN DATA)
Setelah sebaran data didapatkan , lalu apa langkah
selanjutnya, …. Ada yang punya Ide ?

STRATEGI PALING SEDERHANA
 Bangkitkan titik pusat (centroids) cluster secara
acak, dan perbaiki secara iteratif.

BEBERAPA ALGORITMA UNTUK CLUSTERING
 K Means
 K Medoids
 Fuzzy C Means

K-MEANS CLUSTERING
 Konsep dasar dari K-Means adalah pencarian
pusat cluster secara iteratif.
 Pusat cluster ditetapkan berdasarkan jarak setiap
data ke pusat cluster.
 Proses clustering dimulai dengan mengidentifikasi
data yang akan dicluster, xij (i=1,...,n; j=1,...,m)
dengan n adalah jumlah data yang akan dicluster
dan m adalah jumlah variabel.

K-MEANS
 Pada awal iterasi, pusat setiap cluster ditetapkan secara
bebas (sembarang), ckj (k=1,...,K; j=1,...,m).
 Kemudian dihitung jarak antara setiap data dengan
setiap pusat cluster.
 Untuk melakukan penghitungan jarak data ke-i (Xi) pada
pusat cluster ke-k (Ck), diberi nama (dik), dapat
digunakan formula Euclidean, yaitu:
 




m
1
j
2
kj
ij
ik c
x
d

JARAK . ECLUDIAN DISTANCE
 A ( umur, gaji, berat badan)
 A1( 30, 1025, 60)
 B1 (35, 1020, 62)
 C1 (40), 1035,60)
 Jarak /similarity (A1,B1)
 = ( (-5)^2 + (5)^2 + (-2)^2 )^0.5 = (54)^0.5
 Jarak (A1,C1) = ( 100 +100+0)^0.5 = (200)^0.5

K-MEANS
 Suatu data akan menjadi anggota dari cluster ke-J
apabila jarak data tersebut ke pusat cluster ke-J
bernilai paling kecil jika dibandingkan dengan jarak ke
pusat cluster lainnya.
 Selanjutnya, kelompokkan data-data yang menjadi
anggota pada setiap cluster.
 Nilai pusat cluster yang baru dapat dihitung dengan
cara mencari nilai rata-rata dari data yang menjadi
anggota pada cluster tersebut, dengan rumus:
k
ke
cluster
x
y
;
p
y
c ij
hj
p
1
h
hj
kj 






K-MEANS
 Algoritma:
1. Tentukan jumlah kelompok, dan titik pusat secara
acak
2.Alokasikan data kedalam kelompok berdasarkan
kedekatan dengan titik pusat (Inisiasi awal)
3. Hitung titik pusat kelompok berdasarkan rata rata
data pada masing masing kelompok
4. Alokasikan masing-masing data ke centroid terdekat
5 Kembali ke langkah 3, apabila masih ada data yang
berpindah kelompok, atau apabila ada perubahan
centrioid, atau apabila nilai fungsi objektif diatas
ambang.

SSE1= 36 - SSE= 7.8 - SSE= 6.25

ELBOW EFFECT
 Salah satu penerapan SSE adalah untuk
mengetahui nilai K optimal dari suatu kelompok
data

HITUNG NILAI SSE PADA SETIAP SKEMA
SKEMA 1 :

KUALITAS K-MEAN : SILHOUTE INDEK
 Silhoute Indek / Koefesien adalah untuk melihat
seberapa baik kualitas sebuah objek didalam
sebuah cluster.
 Nilai : +1 s/d -1 : (+1) : menyatakan keberadaan
objek tersebut sangat baik pada cluster tersebut, (-
1) Sangat jelek.

PERHITUNGAN SILHOUTE KOEFESIEN
 Hitung jarak objek ke semua objek dalam satu
cluster ( : a(i))
 Hitung jarak objek ke semua objek diluar clusternya
( : b(i) )
 S(i) = b(i) – a(i) / mak (a(i) ,b(i)

APA KELEMAHAN UTAMA K- MEAN ?
 pemilihan Centroid yg acak kemungkinan akan
membutuh iterasi yang lebih untuk menemukan
kondisi Centroid yang stabil
 Sensitif data outlier
 Kualitas Cluster setiap K harus dianlisis

CONTOH
SSE = -0.4 SSE = 0.522
Apakah D (5,3)  C2

K MEDOID
 Kelemahan K Means adalah kinerja tidak baik
apabila terdapat data yang bersifat outlier.
 K Medoids adalah solusi untuk mengatasi hal
tersebut.
 Pada K Medoids dilakukan dengan cara
menghilangkan penggunaan rata rata untuk
memperbaharui centroid dan menganti dengan
objek actual sebagai represntasi klaster.

PENENTUAN JUMLAH CLUSTER
 Salah satu masalah yang dihadapi pada proses
clustering adalah pemilihan jumlah cluster yang
optimal.
 Kauffman dan Rousseeuw (1990) memperkenal-kan
suatu metode untuk menentukan jumlah cluster yang
optimal, metode ini disebut dengan silhouette
measure.
 Misalkan kita sebut A sebagai cluster dimana data Xi
berada, hitung ai sebagai rata-rata jarak Xi ke semua
data yang menjadi anggota A.
 Anggaplah bahwa C adalah sembarang cluster selain
A.

 Hitung rata-rata jarak antara Xi dengan data yang menjadi
anggota dari C, sebut sebagai d(Xi, C).
 Cari rata-rata jarak terkecil dari semua cluster, sebut
sebagai bi, bi = min(d(Xi,C)) dengan CA.
 Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai
berikut (Chih-Ping, 2005):

















i
i
i
i
i
i
i
i
i
i
i
b
a
,
1
a
b
b
a
,
0
b
a
,
b
a
1
s

 Rata-rata si untuk semua data untuk k cluster tersebut
disebut sebagai rata-rata silhouette ke-k,
 Nilai rata-rata silhouette terbesar pada jumlah cluster
(katakanlah: k) menunjukkan bahwa k merupakan jumlah
cluster yang optimal.
k
s
~

Clustering _IgedeAris.ppt

Recommended

Recommended

More Related Content

Similar to Clustering _IgedeAris.ppt

Similar to Clustering _IgedeAris.ppt (20)

Clustering _IgedeAris.ppt