SlideShare a Scribd company logo
1 of 16
Лекция №8

Алгоритмы кластеризации




                          1
План лекции
●   Иерархические алгоритмы
●   Алгоритм ближайшего соседа
●   Откуда мерить соседство
●   Неиерархические алгоритмы
●   Итеративные алгоритмы
●   Плотностные алгоритмы
    Цель лекции — получить представление об
    основных подходах в кластеризации
                                              2
Иерархические алгоритмы

●   Строят иерархию кластеров
●   Дивизимные
●   Агломеративные
●   Отображать на дендрограмме результат
●   Кластеры в любой момент — срез
    дендрограммы



                                           3
Алгоритм ближайшего
                     соседа
●   Агломеративный
●   Строит таблицу попарного расстояния
    между кластеров
●   Выбирает на каждом шаге самый малый
    элемент из этой таблицы и сливает эту пару
    в единый кластер
●   Перестраивает таблицу расстояния


                                                 4
Откуда мерить

●   От ближнего соседа
●   От дальнего соседа
●   От среднего соседа
●   И т.п.




                                  5
Откуда мерить

●   От ближнего соседа
●   От дальнего соседа
●   От среднего соседа
●   Приведите свой вариант?




                                  6
Применение

●   Когда надо достигнуть определенного порога
    кластеризации
●   Когда надо отследить весь путь
    кластеризации




                                             7
Неиерархические
                    алгоритмы
●   Используют различные приемы или
    «хитрости» для выявления кластеров
●   Обычно создаются для каких-то конкретных
    задач
●   Отражают различные подходы к созданию
    алгоритмов кластеризации
●   И различные задачи, которые с их помощью
    решаются

                                               8
Итеративные алгоритмы

●   Основа — итеративное приближение к
    идеальному разбиению
●   Похожи на иерархические, но нельзя
    построить иерархию кластеров




                                         9
Алгоритм k-means

●   Минимизируем расстояние между
    объектами в кластерах
●   Основная идея — кластер имеет некий
    центр, который его идеально характеризует,
    и расстояние именно до него от объектов
    стоит минимизировать




                                                 10
Алгоритм k-means:
                    итерация
●   Вычисление расстояния от объекта до
    центроидов
●   Выбор минимального из них
●   Отнесение объекта к соответствующему
    кластеру
●   Для всех объектов
●   А затем нахождение новых центроидов для
    всех кластеров
●   И так пока новые центроиды не будут равны11
    старым
Алгоритм k-means:
                   применение
●   Кластеры получаются сферообразными
●   Что, в общем, для группы нормально
●   Достаточно удобно характеризовать кластер
    по центру
●   И достаточно быстрый алгоритм
●   Но зависит от изначального выбора
    центроидов
●   И может давать неоптимальные результаты
●   И требует число кластеров на вход         12
Плотностные алгоритмы

●   Основная идея — группы объектов
    достаточно плотные — то есть можно в
    группу добавлять все точки в «окрестности»
    объекта




                                                 13
Алгоритм DBSCAN

●   Чаще всего выполняется над специально
    предварительно упорядоченными данными
●   На входе требуется определение, что мы
    считаем «плотным расположением»
●   Начинаем с любого объекта
●   Проверяем его на наличие в «окрестностях»
    других объектов
●   Если нет — то это не кластер, а шум
                                             14
Алгоритм DBSCAN. Ход
                   алгоритма
●   Если же есть, то это кластер
●   Заносим в кластер этот объект, а его
    «окрестные» объекты — в спецмассив
●   Далее берем объекты из этого спецмассива
    по очереди, заносим их в кластер, а их
    окрестности — в спецмассив
●   Пока спецмассив не опустеет
●   Далее ищем новый корень кластера
                                               15
Алгоритм DBSCAN.
                  Применение
●   Кластеры получаются сложной формы
●   Но через «тонкие» мостики кластеры не
    соединяются
●   Поэтому может быть несколько похожих
    кластеров
●   Характеризовать достаточно сложно — надо
    просматривать различные графики для
    кластера

                                            16

More Related Content

More from Ivan Ignatyev

Приватность
ПриватностьПриватность
ПриватностьIvan Ignatyev
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связиIvan Ignatyev
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписиIvan Ignatyev
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказовIvan Ignatyev
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияIvan Ignatyev
 
Криптография
КриптографияКриптография
КриптографияIvan Ignatyev
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объектIvan Ignatyev
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияIvan Ignatyev
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностьюIvan Ignatyev
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к даннымIvan Ignatyev
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Ivan Ignatyev
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализIvan Ignatyev
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализIvan Ignatyev
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Ivan Ignatyev
 
Введение в анализ данных
Введение в анализ данныхВведение в анализ данных
Введение в анализ данныхIvan Ignatyev
 
Игровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТИгровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТIvan Ignatyev
 

More from Ivan Ignatyev (16)

Приватность
ПриватностьПриватность
Приватность
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связи
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписи
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказов
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, Авторизация
 
Криптография
КриптографияКриптография
Криптография
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверия
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностью
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к данным
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализ
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализ
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1
 
Введение в анализ данных
Введение в анализ данныхВведение в анализ данных
Введение в анализ данных
 
Игровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТИгровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТ
 

Алгоритмы кластеризации. ч.2

  • 2. План лекции ● Иерархические алгоритмы ● Алгоритм ближайшего соседа ● Откуда мерить соседство ● Неиерархические алгоритмы ● Итеративные алгоритмы ● Плотностные алгоритмы Цель лекции — получить представление об основных подходах в кластеризации 2
  • 3. Иерархические алгоритмы ● Строят иерархию кластеров ● Дивизимные ● Агломеративные ● Отображать на дендрограмме результат ● Кластеры в любой момент — срез дендрограммы 3
  • 4. Алгоритм ближайшего соседа ● Агломеративный ● Строит таблицу попарного расстояния между кластеров ● Выбирает на каждом шаге самый малый элемент из этой таблицы и сливает эту пару в единый кластер ● Перестраивает таблицу расстояния 4
  • 5. Откуда мерить ● От ближнего соседа ● От дальнего соседа ● От среднего соседа ● И т.п. 5
  • 6. Откуда мерить ● От ближнего соседа ● От дальнего соседа ● От среднего соседа ● Приведите свой вариант? 6
  • 7. Применение ● Когда надо достигнуть определенного порога кластеризации ● Когда надо отследить весь путь кластеризации 7
  • 8. Неиерархические алгоритмы ● Используют различные приемы или «хитрости» для выявления кластеров ● Обычно создаются для каких-то конкретных задач ● Отражают различные подходы к созданию алгоритмов кластеризации ● И различные задачи, которые с их помощью решаются 8
  • 9. Итеративные алгоритмы ● Основа — итеративное приближение к идеальному разбиению ● Похожи на иерархические, но нельзя построить иерархию кластеров 9
  • 10. Алгоритм k-means ● Минимизируем расстояние между объектами в кластерах ● Основная идея — кластер имеет некий центр, который его идеально характеризует, и расстояние именно до него от объектов стоит минимизировать 10
  • 11. Алгоритм k-means: итерация ● Вычисление расстояния от объекта до центроидов ● Выбор минимального из них ● Отнесение объекта к соответствующему кластеру ● Для всех объектов ● А затем нахождение новых центроидов для всех кластеров ● И так пока новые центроиды не будут равны11 старым
  • 12. Алгоритм k-means: применение ● Кластеры получаются сферообразными ● Что, в общем, для группы нормально ● Достаточно удобно характеризовать кластер по центру ● И достаточно быстрый алгоритм ● Но зависит от изначального выбора центроидов ● И может давать неоптимальные результаты ● И требует число кластеров на вход 12
  • 13. Плотностные алгоритмы ● Основная идея — группы объектов достаточно плотные — то есть можно в группу добавлять все точки в «окрестности» объекта 13
  • 14. Алгоритм DBSCAN ● Чаще всего выполняется над специально предварительно упорядоченными данными ● На входе требуется определение, что мы считаем «плотным расположением» ● Начинаем с любого объекта ● Проверяем его на наличие в «окрестностях» других объектов ● Если нет — то это не кластер, а шум 14
  • 15. Алгоритм DBSCAN. Ход алгоритма ● Если же есть, то это кластер ● Заносим в кластер этот объект, а его «окрестные» объекты — в спецмассив ● Далее берем объекты из этого спецмассива по очереди, заносим их в кластер, а их окрестности — в спецмассив ● Пока спецмассив не опустеет ● Далее ищем новый корень кластера 15
  • 16. Алгоритм DBSCAN. Применение ● Кластеры получаются сложной формы ● Но через «тонкие» мостики кластеры не соединяются ● Поэтому может быть несколько похожих кластеров ● Характеризовать достаточно сложно — надо просматривать различные графики для кластера 16