SlideShare a Scribd company logo
Лекция №7

Кластеризация




                      1
План лекции
●   Обучение с учителем и без
●   Применение кластеризации
●   Общие понятия кластерного анализа
●   Общий алгоритм кластеризации
●   Меры близости
●   Представление результатов
●   Типы алгоритмов кластеризации
    Цель лекции — овладеть основами
    кластеризации                       2
Классификация

●   Предварительное накопление данных
●   Обучение классификатора
●   Проверка классификатора
●   Применение классификатора




                                        3
Обучение без учителя

●   Обучение классификатора
●   Применение классификатора


    Кластеризация!


                                    4
Кластеризация

●   Нахождение общего у различных групп в
    выборке данных
●   Выявление близких групп данных
●   Изначально не заданы сами классы
●   Иногда изначально требуется задать их
    число (впрочем, это можно обойти)



                                            5
Применение

●   Аналогично классификации
●   Выявление паттернов
●   Агрегаторы



●   Быстро меняющиеся данные, для которых
    классификаторы строить накладно

                                            6
Общие понятия

●   Объект, строка, атрибут, признак,
    переменная — как в классификации
●   Атрибут - часто свойство
●   Вместо класса — кластер — группа близких
    по свойствам объектов
●   Степень близости — метрика, мера
    близости, расстояние, дистанция


                                               7
Обобщенный алгоритм
                кластеризации
●   Приведение данных к нужному виду
●   Выбор меры близости
●   Выбор алгоритма кластеризации
●   Выполнение алгоритма над данными
●   Представление результатов алгоритма
●   Интерпретация результатов кластеризации


                                              8
Мера близости

●   Мера близости
●   Представление — как расстояние между
    двумя объектами
●   Фактически — функция шкалирования
●   Может быть интерпретирована как
    численное сопоставление



                                           9
Популярные расстояния

●   Двумерное расстояние
●   Трехмерное расстояние
●   Расстояние Минковского
●   Расстояние Хэмминга
●   Расстояние Левенштейна (Дамерау-
    Левенштейна)



                                       10
Свойства расстояния

●   Неотрицательность
    ∀ х,у r(x,y)≥ 0, r(x,y) = 0 ⇨ x=y

●   Симметричность
    ∀ х,у r(x,y) = r(y,x)

●   Неравенство треугольника
    ∀ х,у,z r(x,z) ≤ r(x,y) + r(y,z)    11
Подберите свое
 расстояние!




                 12
Метрики для разнородных
                  атрибутов
●   Расстояние — (числовая) функция
●   Тогда можно считать попарные расстония и
    их складывать!
●   А можно и не попарные




                                               13
Представление
          результатов кластеризации
●   Дендрограмма
●   Мозаичное представление
●   Линейная проекция
●   Номограмма
●   Другие графики

●   Кластеры чаще всего цветом выделяются

                                            14
Типы алгоритмов
                 кластеризации
●   Иерархические
●   Неиерархические




                                  15
Типы алгоритмов
                     кластеризации
●   Иерархические
       –   Агломеративные и дивизимные
●   Неиерархические
       –   Плотностные
       –   Итеративные
       –   Модельные
       –   Концептуальные
       –   Другие

                                         16
Представление в
              зависимости от типа
●   Иерархические




                                    17
Представление в
                 зависимости от типа
●   Иерархические
       –   Дендрограмма
       –   Мозаичное представление
●   Неиерархические




                                       18
Представление в
                  зависимости от типа
●   Иерархические
       –   Дендрограмма
       –   Мозаичное представление
●   Неиерархические
       –   Линейная проекция
       –   Номограмма
       –   Другие графики


                                        19

More Related Content

More from Ivan Ignatyev

Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите Информации
Ivan Ignatyev
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.
Ivan Ignatyev
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системеIvan Ignatyev
 
Приватность
ПриватностьПриватность
ПриватностьIvan Ignatyev
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связиIvan Ignatyev
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписиIvan Ignatyev
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказовIvan Ignatyev
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияIvan Ignatyev
 
Криптография
КриптографияКриптография
КриптографияIvan Ignatyev
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объектIvan Ignatyev
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияIvan Ignatyev
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностьюIvan Ignatyev
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к даннымIvan Ignatyev
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Ivan Ignatyev
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализIvan Ignatyev
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализIvan Ignatyev
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Ivan Ignatyev
 
Введение в анализ данных
Введение в анализ данныхВведение в анализ данных
Введение в анализ данныхIvan Ignatyev
 
Игровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТИгровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТ
Ivan Ignatyev
 

More from Ivan Ignatyev (19)

Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите Информации
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системе
 
Приватность
ПриватностьПриватность
Приватность
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связи
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписи
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказов
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, Авторизация
 
Криптография
КриптографияКриптография
Криптография
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверия
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностью
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к данным
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализ
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализ
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2
 
Введение в анализ данных
Введение в анализ данныхВведение в анализ данных
Введение в анализ данных
 
Игровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТИгровые методы обучения на кафедре ИКТ
Игровые методы обучения на кафедре ИКТ
 

Алгоритмы кластеризации. ч.1

  • 2. План лекции ● Обучение с учителем и без ● Применение кластеризации ● Общие понятия кластерного анализа ● Общий алгоритм кластеризации ● Меры близости ● Представление результатов ● Типы алгоритмов кластеризации Цель лекции — овладеть основами кластеризации 2
  • 3. Классификация ● Предварительное накопление данных ● Обучение классификатора ● Проверка классификатора ● Применение классификатора 3
  • 4. Обучение без учителя ● Обучение классификатора ● Применение классификатора Кластеризация! 4
  • 5. Кластеризация ● Нахождение общего у различных групп в выборке данных ● Выявление близких групп данных ● Изначально не заданы сами классы ● Иногда изначально требуется задать их число (впрочем, это можно обойти) 5
  • 6. Применение ● Аналогично классификации ● Выявление паттернов ● Агрегаторы ● Быстро меняющиеся данные, для которых классификаторы строить накладно 6
  • 7. Общие понятия ● Объект, строка, атрибут, признак, переменная — как в классификации ● Атрибут - часто свойство ● Вместо класса — кластер — группа близких по свойствам объектов ● Степень близости — метрика, мера близости, расстояние, дистанция 7
  • 8. Обобщенный алгоритм кластеризации ● Приведение данных к нужному виду ● Выбор меры близости ● Выбор алгоритма кластеризации ● Выполнение алгоритма над данными ● Представление результатов алгоритма ● Интерпретация результатов кластеризации 8
  • 9. Мера близости ● Мера близости ● Представление — как расстояние между двумя объектами ● Фактически — функция шкалирования ● Может быть интерпретирована как численное сопоставление 9
  • 10. Популярные расстояния ● Двумерное расстояние ● Трехмерное расстояние ● Расстояние Минковского ● Расстояние Хэмминга ● Расстояние Левенштейна (Дамерау- Левенштейна) 10
  • 11. Свойства расстояния ● Неотрицательность ∀ х,у r(x,y)≥ 0, r(x,y) = 0 ⇨ x=y ● Симметричность ∀ х,у r(x,y) = r(y,x) ● Неравенство треугольника ∀ х,у,z r(x,z) ≤ r(x,y) + r(y,z) 11
  • 13. Метрики для разнородных атрибутов ● Расстояние — (числовая) функция ● Тогда можно считать попарные расстония и их складывать! ● А можно и не попарные 13
  • 14. Представление результатов кластеризации ● Дендрограмма ● Мозаичное представление ● Линейная проекция ● Номограмма ● Другие графики ● Кластеры чаще всего цветом выделяются 14
  • 15. Типы алгоритмов кластеризации ● Иерархические ● Неиерархические 15
  • 16. Типы алгоритмов кластеризации ● Иерархические – Агломеративные и дивизимные ● Неиерархические – Плотностные – Итеративные – Модельные – Концептуальные – Другие 16
  • 17. Представление в зависимости от типа ● Иерархические 17
  • 18. Представление в зависимости от типа ● Иерархические – Дендрограмма – Мозаичное представление ● Неиерархические 18
  • 19. Представление в зависимости от типа ● Иерархические – Дендрограмма – Мозаичное представление ● Неиерархические – Линейная проекция – Номограмма – Другие графики 19