Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

02 классификация документов

3,623 views

Published on

Презентация к курса "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

  • Dating direct: ❤❤❤ http://bit.ly/2F7hN3u ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/2F7hN3u ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

02 классификация документов

  1. 1. Классификация документов Лидия Михайловна Пивоварова Системы понимания текста
  2. 2. Введение <ul><li>Классификация (кластеризация) документов – это разбиение множества документов на заранее заданные группы (например, тематические) </li></ul><ul><li>Классификация (в отличие от кластеризации) – это обучение с учителем; необходимое условие – наличие разбитой по группам коллекции документов. </li></ul><ul><li>Классификация </li></ul><ul><ul><li>индексирование в предкоординированных информационных системах (т.е. тех, где ключи индекса заданы заранее) </li></ul></ul><ul><ul><li>этап при решении других задач: фильтрация спама, определение авторства, определение тональности сообщений и т.п. </li></ul></ul>
  3. 3. Содержание <ul><li>Наивный баесовский подход </li></ul><ul><li>Классификация в векторном пространстве </li></ul><ul><ul><li>Метод Роккио </li></ul></ul><ul><ul><li>Метод k ближайших соседей </li></ul></ul><ul><ul><li>Машина опорных векторов </li></ul></ul>
  4. 4. Условная вероятность <ul><li>Вероятность того, что документ d принадлежит классу c : </li></ul><ul><li>P(c) – объем данного класса относительно коллекции в целом </li></ul><ul><li>P(t k |c) – вес термина t k в данном классе; </li></ul><ul><ul><li>может вычисляться как доля документов, в которые входит этот термин, в классе </li></ul></ul><ul><ul><li>или как доля употреблений этого термина относительно объема класса в словоупотреблениях </li></ul></ul><ul><li>«Наивность»: считается, что все термины в классе независимы; отсюда произведение вероятностей </li></ul>
  5. 5. Максимальная апостериорная вероятность <ul><li>Цель – найти наилучший класс для документа, т.е. имеющий максимальную апостериорную вероятность : </li></ul>
  6. 6. Выбор признаков <ul><li>Для классификации обычно используют не все слова (термины) коллекции, а только часть из них </li></ul><ul><ul><li>сокращение пространства признаков -> уменьшение вычислительной сложности </li></ul></ul><ul><ul><li>удаление шумов </li></ul></ul><ul><li>Выбор «наиболее полезных» признаков -полезность может вычисляться по-разному: частота, взаимная информация, логарифм правдоподобия… </li></ul><ul><li>Как минимум – удаление стоп-слов </li></ul>
  7. 7. Содержание <ul><li>Наивный баесовский подход </li></ul><ul><li>Классификация в векторном пространстве </li></ul><ul><ul><li>Метод Роккио </li></ul></ul><ul><ul><li>Метод k ближайших соседей </li></ul></ul><ul><ul><li>Машина опорных векторов </li></ul></ul>
  8. 8. Классификация в векторном пространстве <ul><li>Документы – точки в пространстве терминов (аналогично векторной модели информационного поиска) </li></ul><ul><li>Цель классификации: найти поверхности, которые разделяют векторы обучающего множества </li></ul><ul><li>Новые документы классифицируются по их расположению относительно этих поверхностей </li></ul>
  9. 9. Линейная vs. нелинейная классификация <ul><li>Линейная классификация – разделяющие поверхности – это гиперплоскости </li></ul><ul><li>Нелинейная – произвольные поверхности </li></ul><ul><li>Линейная классификация: меньшая точность, но и меньшая чувствительность к шумам </li></ul>
  10. 10. Метод Роккио <ul><li>Линейная классификация </li></ul><ul><li>Класс определяется своим центроидом: </li></ul><ul><li>Разделяющая гиперплоскость: плоскость, все точки которой находятся на равном расстоянии от центроидов </li></ul><ul><li>Новые документы классифицируются по ближайшему к ним центроиду </li></ul>
  11. 11. Метод k -ближайших соседей <ul><li>Нелийнейная классификация </li></ul><ul><li>Документ относится к тому же классу, к которому относится большинство из k ближайших к нему </li></ul><ul><li>Соседи могут «голосовать» с весами, в зависимости от их близости к рассматриваемому документу </li></ul><ul><li>Метод может использоваться для нечеткой (вероятностной) классификации </li></ul>
  12. 12. Машина опорных векторов ( SVM) <ul><li>Линейная классификация </li></ul><ul><li>Используется не все обучающее множество, а только те документы, которые ближе всего к документам противоположного класса – опорные вектора </li></ul><ul><li>Цель: найти такую гиперплоскость, что обучающие примеры отстоят от нее на максимальное расстояние. </li></ul>
  13. 13. SVM <ul><li>Обучающее множество: </li></ul><ul><ul><li>x i – обучающие примеры, y i = ± 1 в зависимости от классификации </li></ul></ul><ul><li>Разделяющая гиперплоскость: </li></ul><ul><ul><li>w – перпендикуляр, b – смещение </li></ul></ul><ul><ul><li>Для y i = + 1 </li></ul></ul><ul><ul><li>Для y i = – 1 </li></ul></ul>
  14. 14. Источники <ul><li>К . Д. Маннинг, П . Рагхаван, Х . Шютце Введение в информационный поиск – М.:Вильямс, 2011 – Главы 13-15 </li></ul><ul><li>Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов Интернетика. Навигация в сложных сетях: модели и алгоритмы – М .: URSS, 2009 – Глава 4 </li></ul>

×