Adaptive pre-processing for streaming dataLARCA UPC
Many supervised learning approaches that adapt to changes in data distribution over time (e.g. concept drift) have been developed. The majority of them assume that data comes already pre-processed or that pre-processing is an integral part of a learning algorithm. In real application tasks data that comes from, e.g. sensor readings, is typically noisy, contains missing values, redundant features and a large part of model training needs to be devoted to data cleaning and pre-processing. As data is evolving over time, not only learning models, but also pre-processing mechanisms need to adapt. We will discuss under what circumstances it is beneficial to handle adaptivity of pre-processing and adaptivity of the learning model separately.
Adaptive pre-processing for streaming dataLARCA UPC
Many supervised learning approaches that adapt to changes in data distribution over time (e.g. concept drift) have been developed. The majority of them assume that data comes already pre-processed or that pre-processing is an integral part of a learning algorithm. In real application tasks data that comes from, e.g. sensor readings, is typically noisy, contains missing values, redundant features and a large part of model training needs to be devoted to data cleaning and pre-processing. As data is evolving over time, not only learning models, but also pre-processing mechanisms need to adapt. We will discuss under what circumstances it is beneficial to handle adaptivity of pre-processing and adaptivity of the learning model separately.
2. План лекции
● Обучение с учителем и без
● Применение кластеризации
● Общие понятия кластерного анализа
● Общий алгоритм кластеризации
● Меры близости
● Представление результатов
● Типы алгоритмов кластеризации
Цель лекции — овладеть основами
кластеризации 2
3. Классификация
● Предварительное накопление данных
● Обучение классификатора
● Проверка классификатора
● Применение классификатора
3
4. Обучение без учителя
● Обучение классификатора
● Применение классификатора
Кластеризация!
4
5. Кластеризация
● Нахождение общего у различных групп в
выборке данных
● Выявление близких групп данных
● Изначально не заданы сами классы
● Иногда изначально требуется задать их
число (впрочем, это можно обойти)
5
6. Применение
● Аналогично классификации
● Выявление паттернов
● Агрегаторы
● Быстро меняющиеся данные, для которых
классификаторы строить накладно
6
7. Общие понятия
● Объект, строка, атрибут, признак,
переменная — как в классификации
● Атрибут - часто свойство
● Вместо класса — кластер — группа близких
по свойствам объектов
● Степень близости — метрика, мера
близости, расстояние, дистанция
7
8. Обобщенный алгоритм
кластеризации
● Приведение данных к нужному виду
● Выбор меры близости
● Выбор алгоритма кластеризации
● Выполнение алгоритма над данными
● Представление результатов алгоритма
● Интерпретация результатов кластеризации
8
9. Мера близости
● Мера близости
● Представление — как расстояние между
двумя объектами
● Фактически — функция шкалирования
● Может быть интерпретирована как
численное сопоставление
9
10. Популярные расстояния
● Двумерное расстояние
● Трехмерное расстояние
● Расстояние Минковского
● Расстояние Хэмминга
● Расстояние Левенштейна (Дамерау-
Левенштейна)
10
13. Метрики для разнородных
атрибутов
● Расстояние — (числовая) функция
● Тогда можно считать попарные расстония и
их складывать!
● А можно и не попарные
13
14. Представление
результатов кластеризации
● Дендрограмма
● Мозаичное представление
● Линейная проекция
● Номограмма
● Другие графики
● Кластеры чаще всего цветом выделяются
14
18. Представление в
зависимости от типа
● Иерархические
– Дендрограмма
– Мозаичное представление
● Неиерархические
18
19. Представление в
зависимости от типа
● Иерархические
– Дендрограмма
– Мозаичное представление
● Неиерархические
– Линейная проекция
– Номограмма
– Другие графики
19