Методы кластеризации         Андрей Федоровский        fedorovsky@gmail.com
А. Федоровский Методы кластеризации     Обучение без учителяГруппировка объектов по похожести.Задача кластеризации обычно ...
А. Федоровский Методы кластеризации               Результат• Разбиение объектов на группы• Нахождение типичных точечных пр...
А. Федоровский Методы кластеризацииПостановка задачи
А. Федоровский Методы кластеризации  Уменьшение размерностиДля большинства алгоритмов слишком большаяразмерность критична....
А. Федоровский Методы кластеризации  Уменьшение размерностиДля большинства алгоритмов слишком большаяразмерность критична....
А. Федоровский Методы кластеризации           Виды кластеров•   Сферические•   Гауссовы•   Ленточные•   Содержащие перемыч...
А. Федоровский Методы кластеризацииГрафы: алгоритм КНП
А. Федоровский Методы кластеризацииИерархическая кластеризация
А. Федоровский Методы кластеризацииАлгоритм Ланса-Уильямса
А. Федоровский Методы кластеризацииРасстояние Ланса-Уильямса
А. Федоровский Методы кластеризацииРасстояние Ланса-Уильямса
А. Федоровский Методы кластеризацииБыстрый алгоритм Ланса-Уильямса
А. Федоровский Методы кластеризацииk-means
А. Федоровский Методы кластеризацииk-means: частичное обучение
А. Федоровский Методы кластеризации                         DBSCANB,C плотно-достижимы из A.B и C плотно связаны.N – шум.
А. Федоровский Методы кластеризацииDBSCAN
А. Федоровский Методы кластеризацииDBSCAN
А. Федоровский Методы кластеризацииКритерии останова: silhouette
А. Федоровский Методы кластеризации                Муки выбораИерархический лучше, когда нужна таксономия.Кстати, она позв...
Вопросы?   Андрей Федоровский  fedorovsky@gmail.com
Upcoming SlideShare
Loading in …5
×

Методы кластеризации

1,739 views

Published on

Семинар прошел в московском хакспейсе Neuron в августе 2012

  • Be the first to comment

Методы кластеризации

  1. 1. Методы кластеризации Андрей Федоровский fedorovsky@gmail.com
  2. 2. А. Федоровский Методы кластеризации Обучение без учителяГруппировка объектов по похожести.Задача кластеризации обычно поставлена нечетко:• Неизвестны свойства классов• Неизвестно их количество• Неизвестно, есть ли они вообще• Нет обучающей выборки• Нет очевидных критериев качества• Зато обычно есть множество эвристик
  3. 3. А. Федоровский Методы кластеризации Результат• Разбиение объектов на группы• Нахождение типичных точечных представителей классов (объекты, центроиды)• Нахождение нетипичных представителей классов (выбросы)• Построение полной иерархии групп объектов (таксономия)
  4. 4. А. Федоровский Методы кластеризацииПостановка задачи
  5. 5. А. Федоровский Методы кластеризации Уменьшение размерностиДля большинства алгоритмов слишком большаяразмерность критична.Какие есть способы снижения размерности?
  6. 6. А. Федоровский Методы кластеризации Уменьшение размерностиДля большинства алгоритмов слишком большаяразмерность критична.• Выбор признаков • Частотность слов • Information gain• Feature extraction
  7. 7. А. Федоровский Методы кластеризации Виды кластеров• Сферические• Гауссовы• Ленточные• Содержащие перемычки• Содержащие фон• Перекрывающиеся
  8. 8. А. Федоровский Методы кластеризацииГрафы: алгоритм КНП
  9. 9. А. Федоровский Методы кластеризацииИерархическая кластеризация
  10. 10. А. Федоровский Методы кластеризацииАлгоритм Ланса-Уильямса
  11. 11. А. Федоровский Методы кластеризацииРасстояние Ланса-Уильямса
  12. 12. А. Федоровский Методы кластеризацииРасстояние Ланса-Уильямса
  13. 13. А. Федоровский Методы кластеризацииБыстрый алгоритм Ланса-Уильямса
  14. 14. А. Федоровский Методы кластеризацииk-means
  15. 15. А. Федоровский Методы кластеризацииk-means: частичное обучение
  16. 16. А. Федоровский Методы кластеризации DBSCANB,C плотно-достижимы из A.B и C плотно связаны.N – шум.
  17. 17. А. Федоровский Методы кластеризацииDBSCAN
  18. 18. А. Федоровский Методы кластеризацииDBSCAN
  19. 19. А. Федоровский Методы кластеризацииКритерии останова: silhouette
  20. 20. А. Федоровский Методы кластеризации Муки выбораИерархический лучше, когда нужна таксономия.Кстати, она позволяет менять k на лету.K-means – когда есть оценка числа кластеров и/или кластерасферические. И лучше провести несколько раундов с разныминачальными значениями и разными k.DBSTAT – кластера ленточные или линейно неразделимыеи/или сильно зашумленные данные.Помогут также пре-кластеризация, такая как canopy clusteringили гибридные методы.Если есть возможность получить обучающую коллекцию –надо брать.
  21. 21. Вопросы? Андрей Федоровский fedorovsky@gmail.com

×