3. Definisi
• proses untuk mengelompokan data ke dalam
beberapa cluster atau kelompok sehingga data
dalam satu cluster memiliki tingkat kemiripan
yang maksimum dan data antar cluster
memiliki kemiripan yang minimum
• Clustering juga dikenal sebagai data
segmentasi karena clustering mempartisi
banyak data set ke dalam banyak group
berdasarkan kemiripan.
7. Algoritma k-mean
• Langkah 1 – Menentukan secara acak K titik data
sebagai pusat cluster yang disebut centroid.
• Langkah 2 – Menandai masing masing 𝑥𝑖 masuk ke ke
cluster tertentu, dengan cara menghitung jarak 𝑥𝑖 ke
masing masing pusat cluster (centroid) dan
memasukkan 𝑥𝑖 anggota pusat cluster tertentu
tersebut jika memiliki jarak terdekat.
• Langkah 3 – Menentukan pusat cluster baru dengan
menghitungya rata rata dari anggota cluster
• Langkah 4 – Ulangai langkah 2 dan 3 sampai tidak
tidak ada dari anggota setiap cluster berubah tempat
kelompoknya
10. A Simple example showing the implementation of
k-means algorithm
(using K=2)
11. Step 1:
Ininialisasi: Secara acak dipilih dua centroid (k=2) untuk 2
cluster .
Misal 2 centroid adalah: m1=(1.0,1.0) and m2=(5.0,7.0).
12. Step 2:
• Sehingga, Kita dapatkan dua
cluster dengan anggotanya:
{1,2,3} and {4,5,6,7}.
• Centroid baru adalah:
13. Step 3:
• Sekarang kita gunakan
centroid baru ini untuk
menghitung jarak euclidian
dari masing masing objek
• Sehingga dapatkan cluster
baru yaitu:
{1,2} and {3,4,5,6,7}
• Centroid berikutnya adalah
yaitu: m1=(1.25,1.5) dan m2
= (3.9,5.1)
14. • Step 4 :
Cluster baru diperoleh
diperoleh dengan masing
masing anggotanya yaitu:
{1,2} dan {3,4,5,6,7}
• Selanjutnya , karena tidak
ada perubahan anggota dari
cluster.
• Sehingga hasil akhir dari 2
cluster adalah {1,2} dan
{3,4,5,6,7}.
16. • Menentukan jumlah kluster
• Jarak Intra cluster = 𝑖=1
𝑘
𝑥∈𝑐𝑖
𝑥 − 𝑧𝑖
2
• Jarak Inter-cluster = min (zi –zj)2
• i=1,2,3…K-1
• J=i+1,…K
intra
Validity=
inter
16
Editor's Notes
intra minimize the sum of squared distances from all points to their cluster centers.
inter separate the differences between clusters …. bigger the better. 越大表越分散,故可用較少的點便可分群