SlideShare a Scribd company logo
1 of 17
Кластерний аналіз даних
методом k-середніх

Бахрушин Володимир Євгенович,
професор, д.ф.-м.н.
Vladimir.Bakhrushin@gmail.com
Постановка завдання
Завданням класифікації даних є розбиття наявної
множини точок на задану кількість кластерів так, щоб сума
квадратів відстаней точок до центрів кластерів була
мінімальною.
В точці мінімуму всі центри кластерів збігаються з центрами
відповідних областей діаграми Вороного.
Основні алгоритми:
Хартігана-Вонга

Ллойда

Форджи

Маккуина
Початкове наближення
Перш за все необхідно задати початкові наближення
центрів кластерів.
Для цього найчастіше використовують такі способи:
безпосередньо задають центри кластерів;
задають кількість кластерів k та беруть як центри,

координати k перших точок;
задають кількість кластерів k та беруть як центри,
координати k випадково обраних точок (доцільно
здійснювати розрахунки для декількох випадкових
запусків алгоритму).
Ітераційна процедура
1. Зарахування кожної точки до кластера, центр якого є
найближчим до неї. Як міру близькості найчастіше беруть
квадрат евклідової відстані, але можуть бути обрані й інші
міри відстані.

2. Перерахунок координат центрів кластерів. Якщо мірою
близькості є евклідова відстань (або її квадрат), центри
кластерів розраховують як середні арифметичні відповідних
координат точок, що належать до цих кластерів.
Ітерації зупиняють, коли здійснено задану максимальну
кількість ітерацій або якщо перестає змінюватися склад
кластерів.
Обмеження та недоліки
Вибір кількості
кластерів
(початкового
наближення)

Обмеження
(недоліки)

Попередній аналіз
даних

Чутливість до
викидів

Застосування

Повільна робота
на великих
масивах

k-медіан

Застосування
випадкових
вибірок з масивів
Формування масиву даних
a1 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean = 5,
sd = 1)), nrow=20, ncol = 2)
a2 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean =
13, sd = 1)), nrow=20, ncol = 2)
a3 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean =
6, sd = 1)), nrow=20, ncol = 2)
a4 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean =
12, sd = 1)), nrow=20, ncol = 2)
a <- rbind(a1,a2,a3,a4)
Функція rbind() формує матрицю a, в якій перші 20 рядків є
відповідними елементами матриці a1, наступні 20 – матриці
a2 й т. д.
Центри груп
Розраховуємо матрицю значень центрів сформованих
груп і виводимо результати розрахунків на екран:
Функція kmeans()
Для формування кластерів методом k-середніх можна
використовувати функцію:
kmeans(x, centers, iter.max = 10, nstart = 1, algorithm =
c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen") )
 x – матриця числових даних;
 centers – початкове наближення центрів кластерів або кількість

кластерів (тоді як початкове наближення буде взято відповідну
кількість випадково обраних рядків матриці x);
 iter.max – максимальна кількість ітерацій;
 nstart – кількість випадкових множин, які треба вибрати, якщо
centers – це кількість кластерів;
 algorithm – вибір алгоритму кластеризації.
Результати кластеризації
Результати кластеризації
Результати кластеризації
Порівняння центрів
№ групи
(кластера)
a1

xa

ya

xcl

ycl

4,613619

5,169488

4,613619

5,169488

a2

4,570456 13,396202 4,570456 13,396202

a3

11,855793 5,936099 11,855793 5,936099

a4

12,197688 11,930728 12,197688 11,930728

b1

5,531175

b2

5,340795 12,983168 5,472965 13,239925

b3

11,770917 6,725708 11,842934 6,916365

b4

11,701643 12,233062 11,792042 12,391985

5,405187

5,545309

5,527677
Залишки

За допомогою команди sd(resid.a) можна розрахувати
стандартні відхилення залишків. Вони є близькими до
заданих значень стандартних відхилень вихідних масивів
точок, що підтверджує адекватність результатів
кластеризації.
Результати поділу на 3 кластери
Результати поділу на 5 кластерів
Внутрішньо- та міжгрупові
варіації
Література

1.Бахрушин В.Є. Методи аналізу даних: Навчальний
посібник / В.Є. Бахрушин – Запоріжжя: КПУ, 2011. – 268 с.
https
://www.researchgate.net/publication/235825660_The_Methods_of_
2.Лепский А.Е. Математические методы распознавания
образов: Курс лекций / А.Е. Лепский, А.Г. Броневич –
Таганрог: Изд-во ТТИ ЮФУ, 2009. – 155 с. http
://window.edu.ru/resource/800/73800/files/lect_Lepskiy_Bronevich_
3.http://stat.ethz.ch/R-manual/Rdevel/library/stats/html/kmeans.html

More Related Content

What's hot

практичне заняття 5
практичне заняття 5практичне заняття 5
практичне заняття 5
cdecit
 
практичне заняття 4
практичне заняття 4практичне заняття 4
практичне заняття 4
cdecit
 
практ.зан. 1. степеневі ряди
практ.зан. 1.  степеневі рядипракт.зан. 1.  степеневі ряди
практ.зан. 1. степеневі ряди
cit-cit
 
практичне заняття 2
практичне заняття 2практичне заняття 2
практичне заняття 2
cdecit
 
Похідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідноїПохідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідної
Formula.co.ua
 
мпр т 2
мпр т 2мпр т 2
мпр т 2
Ivan
 
лекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразівлекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразів
cdecit
 
мпр т 9
мпр т 9мпр т 9
мпр т 9
Ivan
 
мпр т 5
мпр т 5мпр т 5
мпр т 5
Ivan
 
мпр т 8
мпр т 8мпр т 8
мпр т 8
Ivan
 
практ заняття 23
практ заняття 23практ заняття 23
практ заняття 23
cit-cit
 
мпр т 3
мпр т 3мпр т 3
мпр т 3
Ivan
 
мпр т 4
мпр т 4мпр т 4
мпр т 4
Ivan
 

What's hot (19)

практичне заняття 5
практичне заняття 5практичне заняття 5
практичне заняття 5
 
практичне заняття 4
практичне заняття 4практичне заняття 4
практичне заняття 4
 
Презентація на тему :"Первісна та невизначений інтеграл"
Презентація на тему :"Первісна та невизначений інтеграл"Презентація на тему :"Первісна та невизначений інтеграл"
Презентація на тему :"Первісна та невизначений інтеграл"
 
практ.зан. 1. степеневі ряди
практ.зан. 1.  степеневі рядипракт.зан. 1.  степеневі ряди
практ.зан. 1. степеневі ряди
 
практичне заняття 2
практичне заняття 2практичне заняття 2
практичне заняття 2
 
Похідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідноїПохідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідної
 
мпр т 2
мпр т 2мпр т 2
мпр т 2
 
лекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразівлекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразів
 
мпр т 9
мпр т 9мпр т 9
мпр т 9
 
мпр т 5
мпр т 5мпр т 5
мпр т 5
 
B20 доповідь гуменюк
B20 доповідь гуменюкB20 доповідь гуменюк
B20 доповідь гуменюк
 
Ppp
PppPpp
Ppp
 
мпр т 8
мпр т 8мпр т 8
мпр т 8
 
Границі
ГраниціГраниці
Границі
 
Mnk
MnkMnk
Mnk
 
Урок ділова гра
Урок ділова граУрок ділова гра
Урок ділова гра
 
практ заняття 23
практ заняття 23практ заняття 23
практ заняття 23
 
мпр т 3
мпр т 3мпр т 3
мпр т 3
 
мпр т 4
мпр т 4мпр т 4
мпр т 4
 

Similar to Кластерний аналіз даних методом k-середніх в R

Similar to Кластерний аналіз даних методом k-середніх в R (9)

лекція 9
лекція 9лекція 9
лекція 9
 
Matrici
MatriciMatrici
Matrici
 
Net framework і c# module 3
Net framework і c# module 3Net framework і c# module 3
Net framework і c# module 3
 
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.pptЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
 
лекція 8
лекція 8лекція 8
лекція 8
 
Презентація до курсової роботи по програмуванню
Презентація до курсової роботи по програмуваннюПрезентація до курсової роботи по програмуванню
Презентація до курсової роботи по програмуванню
 
Lr4
Lr4Lr4
Lr4
 
Lec (5) інегрування раціональних функцій
Lec (5) інегрування раціональних функційLec (5) інегрування раціональних функцій
Lec (5) інегрування раціональних функцій
 
лабораторна робота 5 вправа 14 калькулятор auto cad
лабораторна робота 5 вправа 14 калькулятор auto cadлабораторна робота 5 вправа 14 калькулятор auto cad
лабораторна робота 5 вправа 14 калькулятор auto cad
 

More from Vladimir Bakhrushin

Закон про освіту
Закон про освітуЗакон про освіту
Закон про освіту
Vladimir Bakhrushin
 

More from Vladimir Bakhrushin (20)

Decision-making on assessment of higher education institutions under uncertainty
Decision-making on assessment of higher education institutions under uncertaintyDecision-making on assessment of higher education institutions under uncertainty
Decision-making on assessment of higher education institutions under uncertainty
 
Якими бути стандартам вищої освіти для докторів філософії
Якими бути стандартам вищої освіти для докторів філософіїЯкими бути стандартам вищої освіти для докторів філософії
Якими бути стандартам вищої освіти для докторів філософії
 
Академічна автономія і трансформація української освіти
Академічна автономія і трансформація української освітиАкадемічна автономія і трансформація української освіти
Академічна автономія і трансформація української освіти
 
Оптимізація в освіті і управлінні
Оптимізація в освіті і управлінні Оптимізація в освіті і управлінні
Оптимізація в освіті і управлінні
 
Мій 2015
Мій 2015Мій 2015
Мій 2015
 
Українські університети: Сучасні виклики та можливі відповіді
Українські університети: Сучасні виклики та можливі відповідіУкраїнські університети: Сучасні виклики та можливі відповіді
Українські університети: Сучасні виклики та можливі відповіді
 
Два проекти закону україни
Два проекти закону україниДва проекти закону україни
Два проекти закону україни
 
Окремі аспекти реформування освіти України з погляду системного підходу
Окремі аспекти реформування освіти України з погляду системного підходуОкремі аспекти реформування освіти України з погляду системного підходу
Окремі аспекти реформування освіти України з погляду системного підходу
 
Decision-making in education based on multi-criteria ranking of alternatives
Decision-making in education based on multi-criteria ranking of alternativesDecision-making in education based on multi-criteria ranking of alternatives
Decision-making in education based on multi-criteria ranking of alternatives
 
Деякі проблеми прийняття рішень в освіті
Деякі проблеми прийняття рішень в освітіДеякі проблеми прийняття рішень в освіті
Деякі проблеми прийняття рішень в освіті
 
Закон про освіту
Закон про освітуЗакон про освіту
Закон про освіту
 
Описова статистика в R
Описова статистика в RОписова статистика в R
Описова статистика в R
 
Деякі графічні засоби R
Деякі графічні засоби RДеякі графічні засоби R
Деякі графічні засоби R
 
Plot function in R
Plot function in RPlot function in R
Plot function in R
 
Функція plot() в R
Функція plot() в RФункція plot() в R
Функція plot() в R
 
Files,blocks and functions in R
Files,blocks and functions in RFiles,blocks and functions in R
Files,blocks and functions in R
 
Робота з файлами даних в R, блоки виразів, цикли, функції
Робота з файлами даних в R, блоки виразів, цикли, функціїРобота з файлами даних в R, блоки виразів, цикли, функції
Робота з файлами даних в R, блоки виразів, цикли, функції
 
Cluster analysis using k-means method in R
Cluster analysis using k-means method in RCluster analysis using k-means method in R
Cluster analysis using k-means method in R
 
Нові застосування статистичних методів в прикладних дослідженнях
Нові застосування статистичних методів в прикладних дослідженняхНові застосування статистичних методів в прикладних дослідженнях
Нові застосування статистичних методів в прикладних дослідженнях
 
Парадоксы голосования
Парадоксы голосованияПарадоксы голосования
Парадоксы голосования
 

Recently uploaded

Принципові відмінності досконалої (повної) конкуренції від інших форм організ...
Принципові відмінності досконалої (повної) конкуренції від інших форм організ...Принципові відмінності досконалої (повної) конкуренції від інших форм організ...
Принципові відмінності досконалої (повної) конкуренції від інших форм організ...
JurgenstiX
 
ЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.ppt
ЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.pptЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.ppt
ЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.ppt
ssuser59e649
 
Презентациія для сайта Група «Незабудка».pptx
Презентациія для сайта Група «Незабудка».pptxПрезентациія для сайта Група «Незабудка».pptx
Презентациія для сайта Група «Незабудка».pptx
OlgaDidenko6
 

Recently uploaded (17)

Застосування Гайду безбар’єрності в роботі закладів культури громад Одещини.pdf
Застосування Гайду безбар’єрності в роботі закладів культури громад Одещини.pdfЗастосування Гайду безбар’єрності в роботі закладів культури громад Одещини.pdf
Застосування Гайду безбар’єрності в роботі закладів культури громад Одещини.pdf
 
Бомбочки для ванни своїми руками презентація
Бомбочки для ванни своїми руками презентаціяБомбочки для ванни своїми руками презентація
Бомбочки для ванни своїми руками презентація
 
Іваніщук Надія Вікторівна атестація .pdf
Іваніщук Надія Вікторівна атестація  .pdfІваніщук Надія Вікторівна атестація  .pdf
Іваніщук Надія Вікторівна атестація .pdf
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptx
 
Принципові відмінності досконалої (повної) конкуренції від інших форм організ...
Принципові відмінності досконалої (повної) конкуренції від інших форм організ...Принципові відмінності досконалої (повної) конкуренції від інших форм організ...
Принципові відмінності досконалої (повної) конкуренції від інших форм організ...
 
Хімічні елементи в літературних творах 8 клас
Хімічні елементи в літературних творах 8 класХімічні елементи в літературних творах 8 клас
Хімічні елементи в літературних творах 8 клас
 
ЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.ppt
ЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.pptЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.ppt
ЛЕКЦІЯ Засоби масової інформації –важливий інструмент ПР.ppt
 
Бібліотека – розвиток дитячої творчості та дозвілля для дітейpptx
Бібліотека – розвиток дитячої творчості  та дозвілля для дітейpptxБібліотека – розвиток дитячої творчості  та дозвілля для дітейpptx
Бібліотека – розвиток дитячої творчості та дозвілля для дітейpptx
 
Відкрита лекція на тему «Контроль бур'янів в посівах соняшника»
Відкрита лекція на тему «Контроль бур'янів в посівах соняшника»Відкрита лекція на тему «Контроль бур'янів в посівах соняшника»
Відкрита лекція на тему «Контроль бур'янів в посівах соняшника»
 
psychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptpsychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.ppt
 
атестація 2023-2024 Kewmrbq wtynh GNJ.pdf
атестація 2023-2024 Kewmrbq wtynh GNJ.pdfатестація 2023-2024 Kewmrbq wtynh GNJ.pdf
атестація 2023-2024 Kewmrbq wtynh GNJ.pdf
 
Defectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxDefectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptx
 
Р.Шеклі "Запах думки". Аналіз оповідання
Р.Шеклі "Запах думки". Аналіз оповіданняР.Шеклі "Запах думки". Аналіз оповідання
Р.Шеклі "Запах думки". Аналіз оповідання
 
Презентациія для сайта Група «Незабудка».pptx
Презентациія для сайта Група «Незабудка».pptxПрезентациія для сайта Група «Незабудка».pptx
Презентациія для сайта Група «Незабудка».pptx
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptx
 
Горбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxГорбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptx
 
Проблеми захисту лісу в Україні та шляхи вирішення
Проблеми захисту лісу в Україні та шляхи вирішенняПроблеми захисту лісу в Україні та шляхи вирішення
Проблеми захисту лісу в Україні та шляхи вирішення
 

Кластерний аналіз даних методом k-середніх в R

  • 1. Кластерний аналіз даних методом k-середніх Бахрушин Володимир Євгенович, професор, д.ф.-м.н. Vladimir.Bakhrushin@gmail.com
  • 2. Постановка завдання Завданням класифікації даних є розбиття наявної множини точок на задану кількість кластерів так, щоб сума квадратів відстаней точок до центрів кластерів була мінімальною. В точці мінімуму всі центри кластерів збігаються з центрами відповідних областей діаграми Вороного. Основні алгоритми: Хартігана-Вонга Ллойда Форджи Маккуина
  • 3. Початкове наближення Перш за все необхідно задати початкові наближення центрів кластерів. Для цього найчастіше використовують такі способи: безпосередньо задають центри кластерів; задають кількість кластерів k та беруть як центри, координати k перших точок; задають кількість кластерів k та беруть як центри, координати k випадково обраних точок (доцільно здійснювати розрахунки для декількох випадкових запусків алгоритму).
  • 4. Ітераційна процедура 1. Зарахування кожної точки до кластера, центр якого є найближчим до неї. Як міру близькості найчастіше беруть квадрат евклідової відстані, але можуть бути обрані й інші міри відстані. 2. Перерахунок координат центрів кластерів. Якщо мірою близькості є евклідова відстань (або її квадрат), центри кластерів розраховують як середні арифметичні відповідних координат точок, що належать до цих кластерів. Ітерації зупиняють, коли здійснено задану максимальну кількість ітерацій або якщо перестає змінюватися склад кластерів.
  • 5. Обмеження та недоліки Вибір кількості кластерів (початкового наближення) Обмеження (недоліки) Попередній аналіз даних Чутливість до викидів Застосування Повільна робота на великих масивах k-медіан Застосування випадкових вибірок з масивів
  • 6. Формування масиву даних a1 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean = 5, sd = 1)), nrow=20, ncol = 2) a2 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean = 13, sd = 1)), nrow=20, ncol = 2) a3 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean = 6, sd = 1)), nrow=20, ncol = 2) a4 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean = 12, sd = 1)), nrow=20, ncol = 2) a <- rbind(a1,a2,a3,a4) Функція rbind() формує матрицю a, в якій перші 20 рядків є відповідними елементами матриці a1, наступні 20 – матриці a2 й т. д.
  • 7. Центри груп Розраховуємо матрицю значень центрів сформованих груп і виводимо результати розрахунків на екран:
  • 8. Функція kmeans() Для формування кластерів методом k-середніх можна використовувати функцію: kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen") )  x – матриця числових даних;  centers – початкове наближення центрів кластерів або кількість кластерів (тоді як початкове наближення буде взято відповідну кількість випадково обраних рядків матриці x);  iter.max – максимальна кількість ітерацій;  nstart – кількість випадкових множин, які треба вибрати, якщо centers – це кількість кластерів;  algorithm – вибір алгоритму кластеризації.
  • 12. Порівняння центрів № групи (кластера) a1 xa ya xcl ycl 4,613619 5,169488 4,613619 5,169488 a2 4,570456 13,396202 4,570456 13,396202 a3 11,855793 5,936099 11,855793 5,936099 a4 12,197688 11,930728 12,197688 11,930728 b1 5,531175 b2 5,340795 12,983168 5,472965 13,239925 b3 11,770917 6,725708 11,842934 6,916365 b4 11,701643 12,233062 11,792042 12,391985 5,405187 5,545309 5,527677
  • 13. Залишки За допомогою команди sd(resid.a) можна розрахувати стандартні відхилення залишків. Вони є близькими до заданих значень стандартних відхилень вихідних масивів точок, що підтверджує адекватність результатів кластеризації.
  • 17. Література 1.Бахрушин В.Є. Методи аналізу даних: Навчальний посібник / В.Є. Бахрушин – Запоріжжя: КПУ, 2011. – 268 с. https ://www.researchgate.net/publication/235825660_The_Methods_of_ 2.Лепский А.Е. Математические методы распознавания образов: Курс лекций / А.Е. Лепский, А.Г. Броневич – Таганрог: Изд-во ТТИ ЮФУ, 2009. – 155 с. http ://window.edu.ru/resource/800/73800/files/lect_Lepskiy_Bronevich_ 3.http://stat.ethz.ch/R-manual/Rdevel/library/stats/html/kmeans.html