SlideShare a Scribd company logo
Кластерний аналіз даних
методом k-середніх

Бахрушин Володимир Євгенович,
професор, д.ф.-м.н.
Vladimir.Bakhrushin@gmail.com
Постановка завдання
Завданням класифікації даних є розбиття наявної
множини точок на задану кількість кластерів так, щоб сума
квадратів відстаней точок до центрів кластерів була
мінімальною.
В точці мінімуму всі центри кластерів збігаються з центрами
відповідних областей діаграми Вороного.
Основні алгоритми:
Хартігана-Вонга

Ллойда

Форджи

Маккуина
Початкове наближення
Перш за все необхідно задати початкові наближення
центрів кластерів.
Для цього найчастіше використовують такі способи:
безпосередньо задають центри кластерів;
задають кількість кластерів k та беруть як центри,

координати k перших точок;
задають кількість кластерів k та беруть як центри,
координати k випадково обраних точок (доцільно
здійснювати розрахунки для декількох випадкових
запусків алгоритму).
Ітераційна процедура
1. Зарахування кожної точки до кластера, центр якого є
найближчим до неї. Як міру близькості найчастіше беруть
квадрат евклідової відстані, але можуть бути обрані й інші
міри відстані.

2. Перерахунок координат центрів кластерів. Якщо мірою
близькості є евклідова відстань (або її квадрат), центри
кластерів розраховують як середні арифметичні відповідних
координат точок, що належать до цих кластерів.
Ітерації зупиняють, коли здійснено задану максимальну
кількість ітерацій або якщо перестає змінюватися склад
кластерів.
Обмеження та недоліки
Вибір кількості
кластерів
(початкового
наближення)

Обмеження
(недоліки)

Попередній аналіз
даних

Чутливість до
викидів

Застосування

Повільна робота
на великих
масивах

k-медіан

Застосування
випадкових
вибірок з масивів
Формування масиву даних
a1 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean = 5,
sd = 1)), nrow=20, ncol = 2)
a2 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean =
13, sd = 1)), nrow=20, ncol = 2)
a3 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean =
6, sd = 1)), nrow=20, ncol = 2)
a4 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean =
12, sd = 1)), nrow=20, ncol = 2)
a <- rbind(a1,a2,a3,a4)
Функція rbind() формує матрицю a, в якій перші 20 рядків є
відповідними елементами матриці a1, наступні 20 – матриці
a2 й т. д.
Центри груп
Розраховуємо матрицю значень центрів сформованих
груп і виводимо результати розрахунків на екран:
Функція kmeans()
Для формування кластерів методом k-середніх можна
використовувати функцію:
kmeans(x, centers, iter.max = 10, nstart = 1, algorithm =
c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen") )
 x – матриця числових даних;
 centers – початкове наближення центрів кластерів або кількість

кластерів (тоді як початкове наближення буде взято відповідну
кількість випадково обраних рядків матриці x);
 iter.max – максимальна кількість ітерацій;
 nstart – кількість випадкових множин, які треба вибрати, якщо
centers – це кількість кластерів;
 algorithm – вибір алгоритму кластеризації.
Результати кластеризації
Результати кластеризації
Результати кластеризації
Порівняння центрів
№ групи
(кластера)
a1

xa

ya

xcl

ycl

4,613619

5,169488

4,613619

5,169488

a2

4,570456 13,396202 4,570456 13,396202

a3

11,855793 5,936099 11,855793 5,936099

a4

12,197688 11,930728 12,197688 11,930728

b1

5,531175

b2

5,340795 12,983168 5,472965 13,239925

b3

11,770917 6,725708 11,842934 6,916365

b4

11,701643 12,233062 11,792042 12,391985

5,405187

5,545309

5,527677
Залишки

За допомогою команди sd(resid.a) можна розрахувати
стандартні відхилення залишків. Вони є близькими до
заданих значень стандартних відхилень вихідних масивів
точок, що підтверджує адекватність результатів
кластеризації.
Результати поділу на 3 кластери
Результати поділу на 5 кластерів
Внутрішньо- та міжгрупові
варіації
Література

1.Бахрушин В.Є. Методи аналізу даних: Навчальний
посібник / В.Є. Бахрушин – Запоріжжя: КПУ, 2011. – 268 с.
https
://www.researchgate.net/publication/235825660_The_Methods_of_
2.Лепский А.Е. Математические методы распознавания
образов: Курс лекций / А.Е. Лепский, А.Г. Броневич –
Таганрог: Изд-во ТТИ ЮФУ, 2009. – 155 с. http
://window.edu.ru/resource/800/73800/files/lect_Lepskiy_Bronevich_
3.http://stat.ethz.ch/R-manual/Rdevel/library/stats/html/kmeans.html

More Related Content

What's hot

практичне заняття 5
практичне заняття 5практичне заняття 5
практичне заняття 5
cdecit
 
практичне заняття 4
практичне заняття 4практичне заняття 4
практичне заняття 4
cdecit
 
Презентація на тему :"Первісна та невизначений інтеграл"
Презентація на тему :"Первісна та невизначений інтеграл"Презентація на тему :"Первісна та невизначений інтеграл"
Презентація на тему :"Первісна та невизначений інтеграл"
Антонина Антонина
 
практ.зан. 1. степеневі ряди
практ.зан. 1.  степеневі рядипракт.зан. 1.  степеневі ряди
практ.зан. 1. степеневі ряди
cit-cit
 
практичне заняття 2
практичне заняття 2практичне заняття 2
практичне заняття 2
cdecit
 
Похідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідноїПохідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідноїFormula.co.ua
 
мпр т 2
мпр т 2мпр т 2
мпр т 2Ivan
 
лекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразівлекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразів
cdecit
 
мпр т 9
мпр т 9мпр т 9
мпр т 9Ivan
 
мпр т 5
мпр т 5мпр т 5
мпр т 5Ivan
 
B20 доповідь гуменюк
B20 доповідь гуменюкB20 доповідь гуменюк
B20 доповідь гуменюк
Тарас Гуменюк
 
Ppp
PppPpp
мпр т 8
мпр т 8мпр т 8
мпр т 8Ivan
 
Урок ділова гра
Урок ділова граУрок ділова гра
Урок ділова гра
metodist_selid
 
практ заняття 23
практ заняття 23практ заняття 23
практ заняття 23
cit-cit
 
мпр т 3
мпр т 3мпр т 3
мпр т 3Ivan
 
мпр т 4
мпр т 4мпр т 4
мпр т 4Ivan
 

What's hot (19)

практичне заняття 5
практичне заняття 5практичне заняття 5
практичне заняття 5
 
практичне заняття 4
практичне заняття 4практичне заняття 4
практичне заняття 4
 
Презентація на тему :"Первісна та невизначений інтеграл"
Презентація на тему :"Первісна та невизначений інтеграл"Презентація на тему :"Первісна та невизначений інтеграл"
Презентація на тему :"Первісна та невизначений інтеграл"
 
практ.зан. 1. степеневі ряди
практ.зан. 1.  степеневі рядипракт.зан. 1.  степеневі ряди
практ.зан. 1. степеневі ряди
 
практичне заняття 2
практичне заняття 2практичне заняття 2
практичне заняття 2
 
Похідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідноїПохідна. Фізичний і геометричний зміст похідної
Похідна. Фізичний і геометричний зміст похідної
 
мпр т 2
мпр т 2мпр т 2
мпр т 2
 
лекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразівлекц №3. інтегр. рац. виразів
лекц №3. інтегр. рац. виразів
 
мпр т 9
мпр т 9мпр т 9
мпр т 9
 
мпр т 5
мпр т 5мпр т 5
мпр т 5
 
B20 доповідь гуменюк
B20 доповідь гуменюкB20 доповідь гуменюк
B20 доповідь гуменюк
 
Ppp
PppPpp
Ppp
 
мпр т 8
мпр т 8мпр т 8
мпр т 8
 
Границі
ГраниціГраниці
Границі
 
Mnk
MnkMnk
Mnk
 
Урок ділова гра
Урок ділова граУрок ділова гра
Урок ділова гра
 
практ заняття 23
практ заняття 23практ заняття 23
практ заняття 23
 
мпр т 3
мпр т 3мпр т 3
мпр т 3
 
мпр т 4
мпр т 4мпр т 4
мпр т 4
 

Similar to Кластерний аналіз даних методом k-середніх в R

лекція 9
лекція 9лекція 9
лекція 9
cit-cit
 
Net framework і c# module 3
Net framework і c# module 3Net framework і c# module 3
Net framework і c# module 3
Andrii Hladkyi
 
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.pptЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
Kostiantyn Hrytsenko
 
лекція 8
лекція 8лекція 8
лекція 8
cit-cit
 
Презентація до курсової роботи по програмуванню
Презентація до курсової роботи по програмуваннюПрезентація до курсової роботи по програмуванню
Презентація до курсової роботи по програмуванню
markmakonaken
 
Lec (5) інегрування раціональних функцій
Lec (5) інегрування раціональних функційLec (5) інегрування раціональних функцій
Lec (5) інегрування раціональних функцій
Roman Yukhym
 
лабораторна робота 5 вправа 14 калькулятор auto cad
лабораторна робота 5 вправа 14 калькулятор auto cadлабораторна робота 5 вправа 14 калькулятор auto cad
лабораторна робота 5 вправа 14 калькулятор auto cad
Cit Cit
 

Similar to Кластерний аналіз даних методом k-середніх в R (9)

лекція 9
лекція 9лекція 9
лекція 9
 
Matrici
MatriciMatrici
Matrici
 
Net framework і c# module 3
Net framework і c# module 3Net framework і c# module 3
Net framework і c# module 3
 
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.pptЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
ЛК03. Кластерний аналіз даних в SAS Enterprise Miner.ppt
 
лекція 8
лекція 8лекція 8
лекція 8
 
Презентація до курсової роботи по програмуванню
Презентація до курсової роботи по програмуваннюПрезентація до курсової роботи по програмуванню
Презентація до курсової роботи по програмуванню
 
Lr4
Lr4Lr4
Lr4
 
Lec (5) інегрування раціональних функцій
Lec (5) інегрування раціональних функційLec (5) інегрування раціональних функцій
Lec (5) інегрування раціональних функцій
 
лабораторна робота 5 вправа 14 калькулятор auto cad
лабораторна робота 5 вправа 14 калькулятор auto cadлабораторна робота 5 вправа 14 калькулятор auto cad
лабораторна робота 5 вправа 14 калькулятор auto cad
 

More from Vladimir Bakhrushin

Decision-making on assessment of higher education institutions under uncertainty
Decision-making on assessment of higher education institutions under uncertaintyDecision-making on assessment of higher education institutions under uncertainty
Decision-making on assessment of higher education institutions under uncertainty
Vladimir Bakhrushin
 
Якими бути стандартам вищої освіти для докторів філософії
Якими бути стандартам вищої освіти для докторів філософіїЯкими бути стандартам вищої освіти для докторів філософії
Якими бути стандартам вищої освіти для докторів філософії
Vladimir Bakhrushin
 
Академічна автономія і трансформація української освіти
Академічна автономія і трансформація української освітиАкадемічна автономія і трансформація української освіти
Академічна автономія і трансформація української освіти
Vladimir Bakhrushin
 
Оптимізація в освіті і управлінні
Оптимізація в освіті і управлінні Оптимізація в освіті і управлінні
Оптимізація в освіті і управлінні
Vladimir Bakhrushin
 
Мій 2015
Мій 2015Мій 2015
Мій 2015
Vladimir Bakhrushin
 
Українські університети: Сучасні виклики та можливі відповіді
Українські університети: Сучасні виклики та можливі відповідіУкраїнські університети: Сучасні виклики та можливі відповіді
Українські університети: Сучасні виклики та можливі відповіді
Vladimir Bakhrushin
 
Два проекти закону україни
Два проекти закону україниДва проекти закону україни
Два проекти закону україни
Vladimir Bakhrushin
 
Окремі аспекти реформування освіти України з погляду системного підходу
Окремі аспекти реформування освіти України з погляду системного підходуОкремі аспекти реформування освіти України з погляду системного підходу
Окремі аспекти реформування освіти України з погляду системного підходу
Vladimir Bakhrushin
 
Decision-making in education based on multi-criteria ranking of alternatives
Decision-making in education based on multi-criteria ranking of alternativesDecision-making in education based on multi-criteria ranking of alternatives
Decision-making in education based on multi-criteria ranking of alternatives
Vladimir Bakhrushin
 
Деякі проблеми прийняття рішень в освіті
Деякі проблеми прийняття рішень в освітіДеякі проблеми прийняття рішень в освіті
Деякі проблеми прийняття рішень в освіті
Vladimir Bakhrushin
 
Закон про освіту
Закон про освітуЗакон про освіту
Закон про освіту
Vladimir Bakhrushin
 
Описова статистика в R
Описова статистика в RОписова статистика в R
Описова статистика в R
Vladimir Bakhrushin
 
Деякі графічні засоби R
Деякі графічні засоби RДеякі графічні засоби R
Деякі графічні засоби R
Vladimir Bakhrushin
 
Plot function in R
Plot function in RPlot function in R
Plot function in R
Vladimir Bakhrushin
 
Функція plot() в R
Функція plot() в RФункція plot() в R
Функція plot() в R
Vladimir Bakhrushin
 
Files,blocks and functions in R
Files,blocks and functions in RFiles,blocks and functions in R
Files,blocks and functions in R
Vladimir Bakhrushin
 
Робота з файлами даних в R, блоки виразів, цикли, функції
Робота з файлами даних в R, блоки виразів, цикли, функціїРобота з файлами даних в R, блоки виразів, цикли, функції
Робота з файлами даних в R, блоки виразів, цикли, функції
Vladimir Bakhrushin
 
Cluster analysis using k-means method in R
Cluster analysis using k-means method in RCluster analysis using k-means method in R
Cluster analysis using k-means method in R
Vladimir Bakhrushin
 
Нові застосування статистичних методів в прикладних дослідженнях
Нові застосування статистичних методів в прикладних дослідженняхНові застосування статистичних методів в прикладних дослідженнях
Нові застосування статистичних методів в прикладних дослідженнях
Vladimir Bakhrushin
 
Парадоксы голосования
Парадоксы голосованияПарадоксы голосования
Парадоксы голосования
Vladimir Bakhrushin
 

More from Vladimir Bakhrushin (20)

Decision-making on assessment of higher education institutions under uncertainty
Decision-making on assessment of higher education institutions under uncertaintyDecision-making on assessment of higher education institutions under uncertainty
Decision-making on assessment of higher education institutions under uncertainty
 
Якими бути стандартам вищої освіти для докторів філософії
Якими бути стандартам вищої освіти для докторів філософіїЯкими бути стандартам вищої освіти для докторів філософії
Якими бути стандартам вищої освіти для докторів філософії
 
Академічна автономія і трансформація української освіти
Академічна автономія і трансформація української освітиАкадемічна автономія і трансформація української освіти
Академічна автономія і трансформація української освіти
 
Оптимізація в освіті і управлінні
Оптимізація в освіті і управлінні Оптимізація в освіті і управлінні
Оптимізація в освіті і управлінні
 
Мій 2015
Мій 2015Мій 2015
Мій 2015
 
Українські університети: Сучасні виклики та можливі відповіді
Українські університети: Сучасні виклики та можливі відповідіУкраїнські університети: Сучасні виклики та можливі відповіді
Українські університети: Сучасні виклики та можливі відповіді
 
Два проекти закону україни
Два проекти закону україниДва проекти закону україни
Два проекти закону україни
 
Окремі аспекти реформування освіти України з погляду системного підходу
Окремі аспекти реформування освіти України з погляду системного підходуОкремі аспекти реформування освіти України з погляду системного підходу
Окремі аспекти реформування освіти України з погляду системного підходу
 
Decision-making in education based on multi-criteria ranking of alternatives
Decision-making in education based on multi-criteria ranking of alternativesDecision-making in education based on multi-criteria ranking of alternatives
Decision-making in education based on multi-criteria ranking of alternatives
 
Деякі проблеми прийняття рішень в освіті
Деякі проблеми прийняття рішень в освітіДеякі проблеми прийняття рішень в освіті
Деякі проблеми прийняття рішень в освіті
 
Закон про освіту
Закон про освітуЗакон про освіту
Закон про освіту
 
Описова статистика в R
Описова статистика в RОписова статистика в R
Описова статистика в R
 
Деякі графічні засоби R
Деякі графічні засоби RДеякі графічні засоби R
Деякі графічні засоби R
 
Plot function in R
Plot function in RPlot function in R
Plot function in R
 
Функція plot() в R
Функція plot() в RФункція plot() в R
Функція plot() в R
 
Files,blocks and functions in R
Files,blocks and functions in RFiles,blocks and functions in R
Files,blocks and functions in R
 
Робота з файлами даних в R, блоки виразів, цикли, функції
Робота з файлами даних в R, блоки виразів, цикли, функціїРобота з файлами даних в R, блоки виразів, цикли, функції
Робота з файлами даних в R, блоки виразів, цикли, функції
 
Cluster analysis using k-means method in R
Cluster analysis using k-means method in RCluster analysis using k-means method in R
Cluster analysis using k-means method in R
 
Нові застосування статистичних методів в прикладних дослідженнях
Нові застосування статистичних методів в прикладних дослідженняхНові застосування статистичних методів в прикладних дослідженнях
Нові застосування статистичних методів в прикладних дослідженнях
 
Парадоксы голосования
Парадоксы голосованияПарадоксы голосования
Парадоксы голосования
 

Recently uploaded

Управлінські процеси закладу освіти.pptx
Управлінські процеси закладу освіти.pptxУправлінські процеси закладу освіти.pptx
Управлінські процеси закладу освіти.pptx
ssuserce4e97
 
POPOVICH_Nina_PORTFOLIO_librarianCRE.pdf
POPOVICH_Nina_PORTFOLIO_librarianCRE.pdfPOPOVICH_Nina_PORTFOLIO_librarianCRE.pdf
POPOVICH_Nina_PORTFOLIO_librarianCRE.pdf
Olga Kudriavtseva
 
Portfolio2024 .pdf
Portfolio2024                       .pdfPortfolio2024                       .pdf
Portfolio2024 .pdf
home
 
Главлит_2_0_Книжкова_цензура_в_Росії.pdf
Главлит_2_0_Книжкова_цензура_в_Росії.pdfГлавлит_2_0_Книжкова_цензура_в_Росії.pdf
Главлит_2_0_Книжкова_цензура_в_Росії.pdf
olaola5673
 
Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...
Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...
Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...
tetiana1958
 
zvit_kerivnuka_ZDO28_2023-2024_n.rik.pptx
zvit_kerivnuka_ZDO28_2023-2024_n.rik.pptxzvit_kerivnuka_ZDO28_2023-2024_n.rik.pptx
zvit_kerivnuka_ZDO28_2023-2024_n.rik.pptx
sadochok
 
ПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptx
ПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptxПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptx
ПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptx
ssuserd1824d
 
Практика студентів на складі одягу H&M у Польщі
Практика студентів на складі одягу H&M у ПольщіПрактика студентів на складі одягу H&M у Польщі
Практика студентів на складі одягу H&M у Польщі
tetiana1958
 
Наказ про зарахування 1 класу 2024 2025.pdf
Наказ про зарахування 1 класу 2024 2025.pdfНаказ про зарахування 1 класу 2024 2025.pdf
Наказ про зарахування 1 класу 2024 2025.pdf
Ostap Vuschna
 
KUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdf
KUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdfKUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdf
KUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdf
Olga Kudriavtseva
 
Основи_історичної_просвіти_—_для_перекладу.pdf
Основи_історичної_просвіти_—_для_перекладу.pdfОснови_історичної_просвіти_—_для_перекладу.pdf
Основи_історичної_просвіти_—_для_перекладу.pdf
olaola5673
 
педрада 2024 травень 2педрада 2024 травень .pptx
педрада 2024 травень 2педрада 2024 травень .pptxпедрада 2024 травень 2педрада 2024 травень .pptx
педрада 2024 травень 2педрада 2024 травень .pptx
home
 
LOBANOVA_Tetiana_PORTFOLIO_Librarian.pdf
LOBANOVA_Tetiana_PORTFOLIO_Librarian.pdfLOBANOVA_Tetiana_PORTFOLIO_Librarian.pdf
LOBANOVA_Tetiana_PORTFOLIO_Librarian.pdf
Olga Kudriavtseva
 
звіт 2023-2024 32024 32024 32024 32024 3.pptx
звіт 2023-2024 32024 32024 32024 32024 3.pptxзвіт 2023-2024 32024 32024 32024 32024 3.pptx
звіт 2023-2024 32024 32024 32024 32024 3.pptx
home
 

Recently uploaded (14)

Управлінські процеси закладу освіти.pptx
Управлінські процеси закладу освіти.pptxУправлінські процеси закладу освіти.pptx
Управлінські процеси закладу освіти.pptx
 
POPOVICH_Nina_PORTFOLIO_librarianCRE.pdf
POPOVICH_Nina_PORTFOLIO_librarianCRE.pdfPOPOVICH_Nina_PORTFOLIO_librarianCRE.pdf
POPOVICH_Nina_PORTFOLIO_librarianCRE.pdf
 
Portfolio2024 .pdf
Portfolio2024                       .pdfPortfolio2024                       .pdf
Portfolio2024 .pdf
 
Главлит_2_0_Книжкова_цензура_в_Росії.pdf
Главлит_2_0_Книжкова_цензура_в_Росії.pdfГлавлит_2_0_Книжкова_цензура_в_Росії.pdf
Главлит_2_0_Книжкова_цензура_в_Росії.pdf
 
Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...
Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...
Важливість впровадження стандарту ISO/IEC 17025:2019 у процес державних випро...
 
zvit_kerivnuka_ZDO28_2023-2024_n.rik.pptx
zvit_kerivnuka_ZDO28_2023-2024_n.rik.pptxzvit_kerivnuka_ZDO28_2023-2024_n.rik.pptx
zvit_kerivnuka_ZDO28_2023-2024_n.rik.pptx
 
ПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptx
ПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptxПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptx
ПРЕЗЕНТАЦІЯ ПРО СХОВИЩЕ захисна споруда.pptx
 
Практика студентів на складі одягу H&M у Польщі
Практика студентів на складі одягу H&M у ПольщіПрактика студентів на складі одягу H&M у Польщі
Практика студентів на складі одягу H&M у Польщі
 
Наказ про зарахування 1 класу 2024 2025.pdf
Наказ про зарахування 1 класу 2024 2025.pdfНаказ про зарахування 1 класу 2024 2025.pdf
Наказ про зарахування 1 класу 2024 2025.pdf
 
KUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdf
KUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdfKUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdf
KUDRIAVTSEVA_Olha_PORTFOLIO_librarian.pdf
 
Основи_історичної_просвіти_—_для_перекладу.pdf
Основи_історичної_просвіти_—_для_перекладу.pdfОснови_історичної_просвіти_—_для_перекладу.pdf
Основи_історичної_просвіти_—_для_перекладу.pdf
 
педрада 2024 травень 2педрада 2024 травень .pptx
педрада 2024 травень 2педрада 2024 травень .pptxпедрада 2024 травень 2педрада 2024 травень .pptx
педрада 2024 травень 2педрада 2024 травень .pptx
 
LOBANOVA_Tetiana_PORTFOLIO_Librarian.pdf
LOBANOVA_Tetiana_PORTFOLIO_Librarian.pdfLOBANOVA_Tetiana_PORTFOLIO_Librarian.pdf
LOBANOVA_Tetiana_PORTFOLIO_Librarian.pdf
 
звіт 2023-2024 32024 32024 32024 32024 3.pptx
звіт 2023-2024 32024 32024 32024 32024 3.pptxзвіт 2023-2024 32024 32024 32024 32024 3.pptx
звіт 2023-2024 32024 32024 32024 32024 3.pptx
 

Кластерний аналіз даних методом k-середніх в R

  • 1. Кластерний аналіз даних методом k-середніх Бахрушин Володимир Євгенович, професор, д.ф.-м.н. Vladimir.Bakhrushin@gmail.com
  • 2. Постановка завдання Завданням класифікації даних є розбиття наявної множини точок на задану кількість кластерів так, щоб сума квадратів відстаней точок до центрів кластерів була мінімальною. В точці мінімуму всі центри кластерів збігаються з центрами відповідних областей діаграми Вороного. Основні алгоритми: Хартігана-Вонга Ллойда Форджи Маккуина
  • 3. Початкове наближення Перш за все необхідно задати початкові наближення центрів кластерів. Для цього найчастіше використовують такі способи: безпосередньо задають центри кластерів; задають кількість кластерів k та беруть як центри, координати k перших точок; задають кількість кластерів k та беруть як центри, координати k випадково обраних точок (доцільно здійснювати розрахунки для декількох випадкових запусків алгоритму).
  • 4. Ітераційна процедура 1. Зарахування кожної точки до кластера, центр якого є найближчим до неї. Як міру близькості найчастіше беруть квадрат евклідової відстані, але можуть бути обрані й інші міри відстані. 2. Перерахунок координат центрів кластерів. Якщо мірою близькості є евклідова відстань (або її квадрат), центри кластерів розраховують як середні арифметичні відповідних координат точок, що належать до цих кластерів. Ітерації зупиняють, коли здійснено задану максимальну кількість ітерацій або якщо перестає змінюватися склад кластерів.
  • 5. Обмеження та недоліки Вибір кількості кластерів (початкового наближення) Обмеження (недоліки) Попередній аналіз даних Чутливість до викидів Застосування Повільна робота на великих масивах k-медіан Застосування випадкових вибірок з масивів
  • 6. Формування масиву даних a1 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean = 5, sd = 1)), nrow=20, ncol = 2) a2 = matrix(c(rnorm(20, mean = 5, sd = 1), rnorm(20, mean = 13, sd = 1)), nrow=20, ncol = 2) a3 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean = 6, sd = 1)), nrow=20, ncol = 2) a4 = matrix(c(rnorm(20, mean = 12, sd = 1), rnorm(20, mean = 12, sd = 1)), nrow=20, ncol = 2) a <- rbind(a1,a2,a3,a4) Функція rbind() формує матрицю a, в якій перші 20 рядків є відповідними елементами матриці a1, наступні 20 – матриці a2 й т. д.
  • 7. Центри груп Розраховуємо матрицю значень центрів сформованих груп і виводимо результати розрахунків на екран:
  • 8. Функція kmeans() Для формування кластерів методом k-середніх можна використовувати функцію: kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen") )  x – матриця числових даних;  centers – початкове наближення центрів кластерів або кількість кластерів (тоді як початкове наближення буде взято відповідну кількість випадково обраних рядків матриці x);  iter.max – максимальна кількість ітерацій;  nstart – кількість випадкових множин, які треба вибрати, якщо centers – це кількість кластерів;  algorithm – вибір алгоритму кластеризації.
  • 12. Порівняння центрів № групи (кластера) a1 xa ya xcl ycl 4,613619 5,169488 4,613619 5,169488 a2 4,570456 13,396202 4,570456 13,396202 a3 11,855793 5,936099 11,855793 5,936099 a4 12,197688 11,930728 12,197688 11,930728 b1 5,531175 b2 5,340795 12,983168 5,472965 13,239925 b3 11,770917 6,725708 11,842934 6,916365 b4 11,701643 12,233062 11,792042 12,391985 5,405187 5,545309 5,527677
  • 13. Залишки За допомогою команди sd(resid.a) можна розрахувати стандартні відхилення залишків. Вони є близькими до заданих значень стандартних відхилень вихідних масивів точок, що підтверджує адекватність результатів кластеризації.
  • 17. Література 1.Бахрушин В.Є. Методи аналізу даних: Навчальний посібник / В.Є. Бахрушин – Запоріжжя: КПУ, 2011. – 268 с. https ://www.researchgate.net/publication/235825660_The_Methods_of_ 2.Лепский А.Е. Математические методы распознавания образов: Курс лекций / А.Е. Лепский, А.Г. Броневич – Таганрог: Изд-во ТТИ ЮФУ, 2009. – 155 с. http ://window.edu.ru/resource/800/73800/files/lect_Lepskiy_Bronevich_ 3.http://stat.ethz.ch/R-manual/Rdevel/library/stats/html/kmeans.html