Методы кластеризации

         Андрей Федоровский
        fedorovsky@gmail.com
А. Федоровский Методы кластеризации



     Обучение без учителя
Группировка объектов по похожести.

Задача кластеризации обычно поставлена нечетко:
• Неизвестны свойства классов
• Неизвестно их количество
• Неизвестно, есть ли они вообще
• Нет обучающей выборки
• Нет очевидных критериев качества
• Зато обычно есть множество эвристик
А. Федоровский Методы кластеризации



               Результат
• Разбиение объектов на группы
• Нахождение типичных точечных представителей
  классов (объекты, центроиды)
• Нахождение нетипичных представителей классов
  (выбросы)
• Построение полной иерархии групп объектов
  (таксономия)
А. Федоровский Методы кластеризации



Постановка задачи
А. Федоровский Методы кластеризации



  Уменьшение размерности
Для большинства алгоритмов слишком большая
размерность критична.

Какие есть способы снижения размерности?
А. Федоровский Методы кластеризации



  Уменьшение размерности
Для большинства алгоритмов слишком большая
размерность критична.

• Выбор признаков
   • Частотность слов
   • Information gain
• Feature extraction
А. Федоровский Методы кластеризации



           Виды кластеров
•   Сферические
•   Гауссовы
•   Ленточные
•   Содержащие перемычки
•   Содержащие фон
•   Перекрывающиеся
А. Федоровский Методы кластеризации



Графы: алгоритм КНП
А. Федоровский Методы кластеризации



Иерархическая кластеризация
А. Федоровский Методы кластеризации



Алгоритм Ланса-Уильямса
А. Федоровский Методы кластеризации



Расстояние Ланса-Уильямса
А. Федоровский Методы кластеризации



Расстояние Ланса-Уильямса
А. Федоровский Методы кластеризации



Быстрый алгоритм Ланса-Уильямса
А. Федоровский Методы кластеризации



k-means
А. Федоровский Методы кластеризации



k-means: частичное обучение
А. Федоровский Методы кластеризации



                         DBSCAN




B,C плотно-достижимы из A.
B и C плотно связаны.
N – шум.
А. Федоровский Методы кластеризации



DBSCAN
А. Федоровский Методы кластеризации



DBSCAN
А. Федоровский Методы кластеризации



Критерии останова: silhouette
А. Федоровский Методы кластеризации



                Муки выбора
Иерархический лучше, когда нужна таксономия.
Кстати, она позволяет менять k на лету.

K-means – когда есть оценка числа кластеров и/или кластера
сферические. И лучше провести несколько раундов с разными
начальными значениями и разными k.

DBSTAT – кластера ленточные или линейно неразделимые
и/или сильно зашумленные данные.

Помогут также пре-кластеризация, такая как canopy clustering
или гибридные методы.
Если есть возможность получить обучающую коллекцию –
надо брать.
Вопросы?

   Андрей Федоровский
  fedorovsky@gmail.com

Методы кластеризации

  • 1.
    Методы кластеризации Андрей Федоровский fedorovsky@gmail.com
  • 2.
    А. Федоровский Методыкластеризации Обучение без учителя Группировка объектов по похожести. Задача кластеризации обычно поставлена нечетко: • Неизвестны свойства классов • Неизвестно их количество • Неизвестно, есть ли они вообще • Нет обучающей выборки • Нет очевидных критериев качества • Зато обычно есть множество эвристик
  • 3.
    А. Федоровский Методыкластеризации Результат • Разбиение объектов на группы • Нахождение типичных точечных представителей классов (объекты, центроиды) • Нахождение нетипичных представителей классов (выбросы) • Построение полной иерархии групп объектов (таксономия)
  • 4.
    А. Федоровский Методыкластеризации Постановка задачи
  • 5.
    А. Федоровский Методыкластеризации Уменьшение размерности Для большинства алгоритмов слишком большая размерность критична. Какие есть способы снижения размерности?
  • 6.
    А. Федоровский Методыкластеризации Уменьшение размерности Для большинства алгоритмов слишком большая размерность критична. • Выбор признаков • Частотность слов • Information gain • Feature extraction
  • 7.
    А. Федоровский Методыкластеризации Виды кластеров • Сферические • Гауссовы • Ленточные • Содержащие перемычки • Содержащие фон • Перекрывающиеся
  • 8.
    А. Федоровский Методыкластеризации Графы: алгоритм КНП
  • 9.
    А. Федоровский Методыкластеризации Иерархическая кластеризация
  • 10.
    А. Федоровский Методыкластеризации Алгоритм Ланса-Уильямса
  • 11.
    А. Федоровский Методыкластеризации Расстояние Ланса-Уильямса
  • 12.
    А. Федоровский Методыкластеризации Расстояние Ланса-Уильямса
  • 13.
    А. Федоровский Методыкластеризации Быстрый алгоритм Ланса-Уильямса
  • 14.
    А. Федоровский Методыкластеризации k-means
  • 15.
    А. Федоровский Методыкластеризации k-means: частичное обучение
  • 16.
    А. Федоровский Методыкластеризации DBSCAN B,C плотно-достижимы из A. B и C плотно связаны. N – шум.
  • 17.
    А. Федоровский Методыкластеризации DBSCAN
  • 18.
    А. Федоровский Методыкластеризации DBSCAN
  • 19.
    А. Федоровский Методыкластеризации Критерии останова: silhouette
  • 20.
    А. Федоровский Методыкластеризации Муки выбора Иерархический лучше, когда нужна таксономия. Кстати, она позволяет менять k на лету. K-means – когда есть оценка числа кластеров и/или кластера сферические. И лучше провести несколько раундов с разными начальными значениями и разными k. DBSTAT – кластера ленточные или линейно неразделимые и/или сильно зашумленные данные. Помогут также пре-кластеризация, такая как canopy clustering или гибридные методы. Если есть возможность получить обучающую коллекцию – надо брать.
  • 21.
    Вопросы? Андрей Федоровский fedorovsky@gmail.com