Алгоритмы классификации в машинном обучении

Сентябрь 2011 Алгоритмы машинного обучения Докладчик: Станислав Пак

О докладчике ,[object Object],[object Object],[object Object]

О чем будем говорить? Какие алгоритмы? k-means, EM, kNN, Naive Bayes, SVM, ST Хотим рассмотреть некоторые алгоритмы машинного обучения, позволяющие классифицировать или кластеризовать данные. Рассмотреть их применения в задачах классификации текстов по классам эмоций.

k-means Инициализация: выбор k векторов-представителей кластеров, центроидов Возможные способы: случайный выбор вектора k раз, решение задачи кластеризации для маленького подмножества и выбор представителей из центроидов кластеров, возмущение центра X k раз Шаг 1. Data Assignment. Связывание векторов из X c ближайшим центроидом из . Неоднозначности разрешаются произвольным образом.

k-means Шаг 2. Relocation of "means". Каждый представитель кластера заменяется центром множества привязанных к нему векторов. Условие остановки: не меняется. Сложность:

Expectation maximization Композиция распределений конечного числа случайных величин дает гибкий и математически обоснованный метод моделирования и кластеризации данных, наблюдаемых как реализация случайных величин.

Expectation maximization Aпостериорная вероятность, что случайная величина y_j принадлежит i-ой компоненте смешанного распределения Параметр можно оценить как нуль уравнения , где

Expectation maximization Одна замечательная особенность использования симметричных распределений (нормальное, t-распределение Стьюдента) - это инвариантность относительно афинного преобразования (поворота, гомотетии, параллельного переноса), что означает независимость кластеризации от единиц измерения и ориентации в пространстве.

kNN Один из простых классификаторов - классификатор Рота, "запоминает" всю обучающую выборку и умеет делать классификацию нового объекта, если он точно совпадает с каким-нибудь из обучающей выборки. Недостатки очевидны. Можно обобщить этот алгоритм, введя понятие метрики и определив способ выбора класса нового объекта на основе k ближайших объектов из обучающей выборки.

kNN Алгоритм. Входные данные. Множество объектов обучающей выборки и новый объект Шаг 1. Находим ближайших к объектов из по метрике Шаг 2.

kNN Какие могут быть проблемы? При небольших значениях параметра, алгоритм становится чувствительным к шуму во входных данных, при больших - вычисление соседей занимает много времени. Как хорошо определять класс нового объекта? Очевидно, что если метрика адекватная, то более близкие соседи должны больше влиять на класс нового объекта. Можно определить веса для соседей

kNN Тогда выбор класса определяется результатом взвешенного голосования - индикатор Если у объекта много признаков, то обычно их нужно нормировать.

Naive Bayes Особенностью метода является простота модели и вычислений. Также на фоне остальных методов он показывает неплохие результаты. Часто используется в спам-фильтрах. - вероятность того, что вектор признаков принадлежит классу . означает, что принадлежит классу 0. http://demonstrations.wolfram.com/KNearestNeighborKNNClassifier/

Naive Bayes - формула условной вероятности Байеса - вероятность того, что новый объект будет принадлежать i-му классу Делаем предположение о независимости компонент вектора

Naive Bayes Что делаем, если переменные вектора коррелируют между собой?

Naive Bayes Как строить эмпирические вероятности , строим гистограмму по значениям , берем вероятности пропорционально размеру группы значений можно приблизить долей данных из класса - число категорий - число значений - число значений в категории

Naive Bayes почти нормальное распределение

Support vector machines Компоненты векторов нормируем, чтобы большие отклонения от средних значений не повлияли на классификатор - уравнение плоскости - знаковое расстояние до начала координат

Support vector machines Выборка линейно разделима? - расстояние между разделяющими гиперплоскостями - условие того, что точки лежат вне полосы

Support vector machines Получаем задачу квадратичной оптимизации Можно применить теорему Куна-Таккера и получить эквивалентную задачу поиска седловой точки функции Лагранжа

Spanning tree http://demonstrations.wolfram.com/FuelBreak/

Классификация текстов по эмоциям Carlo Strapparava FBK-Irst, Italy Rada Mihalcea University of North Texas, USA Learning to Identify Emotions in Text, http://www.cse.unt.edu/~rada/papers/strapparava.acm08.pdf Области применения ,[object Object],[object Object],[object Object]

Классификация текстов по эмоциям Тексты для обучения: заголовки интернет и газетных новостей

Классификация текстов по эмоциям Классы эмоций

Классификация текстов по эмоциям ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Классификация текстов по эмоциям http://wndomains.fbk.eu/

Спасибо за внимание! Обсуждение: http://blog.witology.com

Алгоритмы классификации в машинном обучении

Recommended

Recommended

More Related Content

Similar to Алгоритмы классификации в машинном обучении

Similar to Алгоритмы классификации в машинном обучении (20)

More from Witology

More from Witology (20)

Алгоритмы классификации в машинном обучении