Namunalarni K taklasterga ajratish algoritmi
K ta klasterga ajratishda klaster markazigacha bulgan masofalar yigindisi eng kichik
bo’lishiga erishga harakat qiladi. Buning uchun har bir namuna va sentroid deb ataluvchi
klaster markazi orasidagi Yevklid masofasi hisoblanadi. Dastlab k ta klaster markazi
ixtiyoriy tanlanadi.
3.
Klaster markazlarini yangilash
•Bir klasterga mansub deb topilgan nuqtalar (namunalar)
kordinatalarining o’rtachasi hisoblanadi va ushbu yangi nuqta
klastening yangi markazi deb tanlanadi. Ushbu jarayon o’zgarmas
markaz nuqtasi topilgunga qadar takrorlanadi.
Klasterlash bajarilgandan so’ng, har bir
klasterni nomlash yani unga label
biriktirish mumkin bo’ladi. Misol uchun
onlayn savdoda haridorlarni turlarga
ajratish, fazodagi yulduzlar turkumi va
hakazo..
4.
Klasterlar sonini belgilash.
•1. ixtiyoriy belgilash.
• 2. Elbow Metodi yordamida eng maqbul K qiymatini toppish.
• Bu usulda K ning qiymati 1 dan N gacha seeking o’zgartirib boriladi va har bir
klister Ichida klister markazidan namunagacha bo’lgan masofalar kvadrati
yig’indisi eng minimum bo’lgunga qadar K ning qiymati ortirib boriladi.
• Kning qiymati ortgan sari klasterlar soni oshib boradi va klister markazidan
namunagacha bulgan masofalarning kvadratik yigindisi kamayib boradi.
5.
Klasterlar sonini belgilash.
•K ning soni ortishi bilan kamayishlar miqdori pasayib boradi va k ni
yana orttirishning ahamiyati bo’lmay qoladi. Ushbu nuqta Elbow
(chig’anoq) nuqtasi deb atalib u optimal K qiymatini ko’rsatadi.
6.
Inersiya va buzilishkoeffitsenti
• Inersiya - har bir namunadan unga eng yaqin klister markazigacha
bo’lgan masofa kvadrati yig’indisini anglatadi. Inersiya ko’rsatgichining
kichik bo’lishi yaxshi hisoblanadi.
• Buzilish koeffitsenti klister markazi va namunalar orasidagi o’rtacha
kvadratik masofa bo’lib, u klasterning namunalarni qay darajada aniq
akjratayotganligini anglatadi. kichik qiymat yaxshi ko’rsatgich
hisoblanadi.
7.
Ushbu dataset uchunk means klasterlshni
turli k qiymatlari uchun bajarish.
• Kagglega qarang!