02 классификация документов

Классификация документов Лидия Михайловна Пивоварова Системы понимания текста

Введение Классификация (кластеризация) документов – это разбиение множества документов на заранее заданные группы (например, тематические) Классификация (в отличие от кластеризации) – это обучение с учителем; необходимое условие – наличие разбитой по группам коллекции документов. Классификация индексирование в предкоординированных информационных системах (т.е. тех, где ключи индекса заданы заранее) этап при решении других задач: фильтрация спама, определение авторства, определение тональности сообщений и т.п.

Содержание Наивный баесовский подход Классификация в векторном пространстве Метод Роккио Метод k ближайших соседей Машина опорных векторов

Условная вероятность Вероятность того, что документ d принадлежит классу c : P(c) – объем данного класса относительно коллекции в целом P(t k |c) – вес термина t k в данном классе; может вычисляться как доля документов, в которые входит этот термин, в классе или как доля употреблений этого термина относительно объема класса в словоупотреблениях «Наивность»: считается, что все термины в классе независимы; отсюда произведение вероятностей

Максимальная апостериорная вероятность Цель – найти наилучший класс для документа, т.е. имеющий максимальную апостериорную вероятность :

Выбор признаков Для классификации обычно используют не все слова (термины) коллекции, а только часть из них сокращение пространства признаков -> уменьшение вычислительной сложности удаление шумов Выбор «наиболее полезных» признаков -полезность может вычисляться по-разному: частота, взаимная информация, логарифм правдоподобия… Как минимум – удаление стоп-слов

Классификация в векторном пространстве Документы – точки в пространстве терминов (аналогично векторной модели информационного поиска) Цель классификации: найти поверхности, которые разделяют векторы обучающего множества Новые документы классифицируются по их расположению относительно этих поверхностей

Линейная vs. нелинейная классификация Линейная классификация – разделяющие поверхности – это гиперплоскости Нелинейная – произвольные поверхности Линейная классификация: меньшая точность, но и меньшая чувствительность к шумам

Метод Роккио Линейная классификация Класс определяется своим центроидом: Разделяющая гиперплоскость: плоскость, все точки которой находятся на равном расстоянии от центроидов Новые документы классифицируются по ближайшему к ним центроиду

Метод k -ближайших соседей Нелийнейная классификация Документ относится к тому же классу, к которому относится большинство из k ближайших к нему Соседи могут «голосовать» с весами, в зависимости от их близости к рассматриваемому документу Метод может использоваться для нечеткой (вероятностной) классификации

Машина опорных векторов ( SVM) Линейная классификация Используется не все обучающее множество, а только те документы, которые ближе всего к документам противоположного класса – опорные вектора Цель: найти такую гиперплоскость, что обучающие примеры отстоят от нее на максимальное расстояние.

SVM Обучающее множество: x i – обучающие примеры, y i = ± 1 в зависимости от классификации Разделяющая гиперплоскость: w – перпендикуляр, b – смещение Для y i = + 1 Для y i = – 1

Источники К . Д. Маннинг, П . Рагхаван, Х . Шютце Введение в информационный поиск – М.:Вильямс, 2011 – Главы 13-15 Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Интернетика. Навигация в сложных сетях: модели и алгоритмы – М .: URSS, 2009 – Глава 4

02 классификация документов

More Related Content

Viewers also liked

Similar to 02 классификация документов

More from Lidia Pivovarova

02 классификация документов