Алгоритмы кластеризации. ч.1

Лекция №7

Кластеризация

1

План лекции
● Обучение с учителем и без
● Применение кластеризации
● Общие понятия кластерного анализа
● Общий алгоритм кластеризации
● Меры близости
● Представление результатов
● Типы алгоритмов кластеризации
Цель лекции — овладеть основами
кластеризации 2

Классификация

● Предварительное накопление данных
● Обучение классификатора
● Проверка классификатора
● Применение классификатора

3

Обучение без учителя

● Обучение классификатора
● Применение классификатора

Кластеризация!

4

Кластеризация

● Нахождение общего у различных групп в
выборке данных
● Выявление близких групп данных
● Изначально не заданы сами классы
● Иногда изначально требуется задать их
число (впрочем, это можно обойти)

5

Применение

● Аналогично классификации
● Выявление паттернов
● Агрегаторы

● Быстро меняющиеся данные, для которых
классификаторы строить накладно

6

Общие понятия

● Объект, строка, атрибут, признак,
переменная — как в классификации
● Атрибут - часто свойство
● Вместо класса — кластер — группа близких
по свойствам объектов
● Степень близости — метрика, мера
близости, расстояние, дистанция

7

Обобщенный алгоритм
кластеризации
● Приведение данных к нужному виду
● Выбор меры близости
● Выбор алгоритма кластеризации
● Выполнение алгоритма над данными
● Представление результатов алгоритма
● Интерпретация результатов кластеризации

8

Мера близости

● Мера близости
● Представление — как расстояние между
двумя объектами
● Фактически — функция шкалирования
● Может быть интерпретирована как
численное сопоставление

9

Популярные расстояния

● Двумерное расстояние
● Трехмерное расстояние
● Расстояние Минковского
● Расстояние Хэмминга
● Расстояние Левенштейна (Дамерау-
Левенштейна)

10

Свойства расстояния

● Неотрицательность
∀ х,у r(x,y)≥ 0, r(x,y) = 0 ⇨ x=y

● Симметричность
∀ х,у r(x,y) = r(y,x)

● Неравенство треугольника
∀ х,у,z r(x,z) ≤ r(x,y) + r(y,z) 11

Подберите свое
расстояние!

12

Метрики для разнородных
атрибутов
● Расстояние — (числовая) функция
● Тогда можно считать попарные расстония и
их складывать!
● А можно и не попарные

13

Представление
результатов кластеризации
● Дендрограмма
● Мозаичное представление
● Линейная проекция
● Номограмма
● Другие графики

● Кластеры чаще всего цветом выделяются

14

Типы алгоритмов
● Иерархические
● Неиерархические

15

Типы алгоритмов
– Агломеративные и дивизимные
– Плотностные
– Итеративные
– Модельные
– Концептуальные
– Другие

16

Представление в
зависимости от типа

17

– Дендрограмма
– Мозаичное представление

18

– Дендрограмма
– Мозаичное представление
– Линейная проекция
– Номограмма
– Другие графики

19

Алгоритмы кластеризации. ч.1

Recommended

Recommended

More Related Content

More from Ivan Ignatyev

More from Ivan Ignatyev (19)

Алгоритмы кластеризации. ч.1