Классификация документов Лидия Михайловна Пивоварова Системы понимания текста
Введение Классификация (кластеризация) документов – это разбиение множества документов на заранее заданные группы (например, тематические) Классификация (в отличие от кластеризации) – это обучение с учителем; необходимое условие – наличие разбитой по группам коллекции документов. Классификация  индексирование в предкоординированных информационных системах (т.е. тех, где ключи индекса заданы заранее)  этап при решении других задач: фильтрация спама, определение авторства, определение тональности сообщений и т.п.
Содержание Наивный баесовский подход Классификация в векторном пространстве Метод Роккио Метод  k  ближайших соседей Машина опорных векторов
Условная вероятность Вероятность того, что документ  d   принадлежит классу  c : P(c)  –  объем данного класса относительно коллекции в целом P(t k |c) –  вес термина  t k  в данном классе;  может вычисляться как доля документов, в которые входит этот термин, в классе или как доля употреблений этого термина относительно объема класса в словоупотреблениях «Наивность»: считается, что все термины в классе независимы; отсюда произведение вероятностей
Максимальная апостериорная вероятность Цель – найти наилучший класс для документа, т.е. имеющий  максимальную апостериорную вероятность :
Выбор признаков Для классификации обычно используют не все слова (термины) коллекции, а только часть из них сокращение пространства признаков  ->  уменьшение вычислительной сложности удаление шумов Выбор «наиболее полезных» признаков -полезность может вычисляться по-разному: частота, взаимная информация, логарифм правдоподобия… Как минимум – удаление стоп-слов
Содержание Наивный баесовский подход Классификация в векторном пространстве Метод Роккио Метод  k  ближайших соседей Машина опорных векторов
Классификация в векторном пространстве Документы – точки в пространстве терминов (аналогично векторной модели информационного поиска) Цель классификации: найти поверхности, которые разделяют векторы обучающего множества Новые документы классифицируются по их расположению относительно этих поверхностей
Линейная  vs.  нелинейная классификация Линейная классификация – разделяющие поверхности – это гиперплоскости Нелинейная – произвольные поверхности Линейная классификация: меньшая точность, но и меньшая чувствительность к шумам
Метод Роккио Линейная классификация Класс определяется своим центроидом: Разделяющая гиперплоскость: плоскость, все точки которой находятся на равном расстоянии от центроидов Новые документы классифицируются по ближайшему к ним центроиду
Метод  k -ближайших соседей Нелийнейная классификация Документ относится к тому же классу, к которому относится большинство из  k   ближайших к нему Соседи могут «голосовать» с весами, в зависимости от их близости к рассматриваемому документу Метод может использоваться для нечеткой (вероятностной) классификации
Машина опорных векторов ( SVM) Линейная классификация Используется не все обучающее множество, а только те документы, которые ближе всего к документам противоположного класса – опорные вектора Цель: найти такую гиперплоскость, что обучающие примеры отстоят от нее на максимальное расстояние.
SVM Обучающее множество:  x i   – обучающие примеры,   y i   =  ± 1   в зависимости от классификации Разделяющая гиперплоскость: w  – перпендикуляр,  b –  смещение Для  y i   =   + 1   Для  y i   =   – 1
Источники К .  Д. Маннинг, П .  Рагхаван, Х .  Шютце   Введение в информационный поиск – М.:Вильямс, 2011 – Главы 13-15 Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Интернетика. Навигация в сложных сетях: модели и алгоритмы – М .:   URSS,  2009  –  Глава 4

02 классификация документов

  • 1.
    Классификация документов ЛидияМихайловна Пивоварова Системы понимания текста
  • 2.
    Введение Классификация (кластеризация)документов – это разбиение множества документов на заранее заданные группы (например, тематические) Классификация (в отличие от кластеризации) – это обучение с учителем; необходимое условие – наличие разбитой по группам коллекции документов. Классификация индексирование в предкоординированных информационных системах (т.е. тех, где ключи индекса заданы заранее) этап при решении других задач: фильтрация спама, определение авторства, определение тональности сообщений и т.п.
  • 3.
    Содержание Наивный баесовскийподход Классификация в векторном пространстве Метод Роккио Метод k ближайших соседей Машина опорных векторов
  • 4.
    Условная вероятность Вероятностьтого, что документ d принадлежит классу c : P(c) – объем данного класса относительно коллекции в целом P(t k |c) – вес термина t k в данном классе; может вычисляться как доля документов, в которые входит этот термин, в классе или как доля употреблений этого термина относительно объема класса в словоупотреблениях «Наивность»: считается, что все термины в классе независимы; отсюда произведение вероятностей
  • 5.
    Максимальная апостериорная вероятностьЦель – найти наилучший класс для документа, т.е. имеющий максимальную апостериорную вероятность :
  • 6.
    Выбор признаков Дляклассификации обычно используют не все слова (термины) коллекции, а только часть из них сокращение пространства признаков -> уменьшение вычислительной сложности удаление шумов Выбор «наиболее полезных» признаков -полезность может вычисляться по-разному: частота, взаимная информация, логарифм правдоподобия… Как минимум – удаление стоп-слов
  • 7.
    Содержание Наивный баесовскийподход Классификация в векторном пространстве Метод Роккио Метод k ближайших соседей Машина опорных векторов
  • 8.
    Классификация в векторномпространстве Документы – точки в пространстве терминов (аналогично векторной модели информационного поиска) Цель классификации: найти поверхности, которые разделяют векторы обучающего множества Новые документы классифицируются по их расположению относительно этих поверхностей
  • 9.
    Линейная vs. нелинейная классификация Линейная классификация – разделяющие поверхности – это гиперплоскости Нелинейная – произвольные поверхности Линейная классификация: меньшая точность, но и меньшая чувствительность к шумам
  • 10.
    Метод Роккио Линейнаяклассификация Класс определяется своим центроидом: Разделяющая гиперплоскость: плоскость, все точки которой находятся на равном расстоянии от центроидов Новые документы классифицируются по ближайшему к ним центроиду
  • 11.
    Метод k-ближайших соседей Нелийнейная классификация Документ относится к тому же классу, к которому относится большинство из k ближайших к нему Соседи могут «голосовать» с весами, в зависимости от их близости к рассматриваемому документу Метод может использоваться для нечеткой (вероятностной) классификации
  • 12.
    Машина опорных векторов( SVM) Линейная классификация Используется не все обучающее множество, а только те документы, которые ближе всего к документам противоположного класса – опорные вектора Цель: найти такую гиперплоскость, что обучающие примеры отстоят от нее на максимальное расстояние.
  • 13.
    SVM Обучающее множество: x i – обучающие примеры, y i = ± 1 в зависимости от классификации Разделяющая гиперплоскость: w – перпендикуляр, b – смещение Для y i = + 1 Для y i = – 1
  • 14.
    Источники К . Д. Маннинг, П . Рагхаван, Х . Шютце Введение в информационный поиск – М.:Вильямс, 2011 – Главы 13-15 Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Интернетика. Навигация в сложных сетях: модели и алгоритмы – М .: URSS, 2009 – Глава 4