SlideShare a Scribd company logo
1 of 44
Автоматическое аннотирование
      новостного потока
    Алексей Шаграев, Я.Новости
План
1.   Введение: Я.Новости в целом
2.   Задачи автоматического аннотирования
3.   Оценка и сравнение качества программ-аннотаторов
4.   Методы решения задач автоматического аннотирования
План
1.   Введение: Я.Новости в целом
2.   Задачи автоматического аннотирования
3.   Оценка и сравнение качества программ-аннотаторов
4.   Методы решения задач автоматического аннотирования




1. Введение
Я.Новости
• Я.Новости – служба автоматической агрегации новостей
    –   Выделяет в новостном потоке темы (сюжеты)
    –   Составляет краткие описания выделенных сюжетов
    –   Производит рубрикацию сюжетов
    –   Ранжирует сюжеты в соответствии с их актуальностью на
        настоящий момент
• Задача – представление новостной картины дня




1. Введение
Этапы агрегации новостного потока
1. Скачивание новостных сообщений
2. Сегментация сообщений
    – Выделение заголовка, описания, основного текста, картинок, видео, …
3. Выделение сюжетов
    – Кластеризация документов на основе анализа их текстов
4. Рубрикация сюжетов (политика, общество, наука, …)
5. Аннотирование сюжетов
    – Представление в кратком виде основного содержания сюжетов
6. Ранжирование сюжетов
    – Определение позиций сюжетов на главной странице Яндекса и в
      рубриках



1. Введение
Представление результатов агрегации
1. Заголовки топ-5 новостей на главной странице Яндекса:




1. Введение
Представление результатов агрегации
2. Новостные рубрики:




1. Введение
Представление результатов агрегации
3. Страницы сюжетов:




1. Введение
Страница сюжета
• Результаты аннотирования сюжета
    –   Заголовок сюжета
    –   Несколько вырезок из документов, вошедших в сюжет (сниппеты)
    –   Список действующих лиц (персоны, организации)
    –   Карта
    –   Цитата
• Дополнительная информация
    – Последние сообщения, статьи, интервью на эту тему
    – Список сюжетов, имеющих сходную тематику
    – Для сюжетов на спортивные темы – текстовые
      трансляции, информация о соревновании и т. д.




1. Введение
Аннотирование
• В качестве аннотации будем рассматривать только
  заголовок сюжета и три сниппета
    – Поиск цитатных и адресных сниппетов, действующих лиц – задача
      выделения фактов
• Мы не занимаемся автоматической генерацией текстов, мы
  используем фрагменты текстов, написанных новостными
  изданиями




1. Введение
План
1.   Введение: Я.Новости в целом
2.   Задачи автоматического аннотирования
3.   Оценка и сравнение качества программ-аннотаторов
4.   Методы решения задач автоматического аннотирования




2. Задачи автоматического аннотирования
Задачи аннотирования
• Аннотирование – создание краткой версии некоторого
  текста или множества текстов
• Создание аннотации человеком – часто встречающаяся
  задача




2. Задачи автоматического аннотирования
Задачи аннотирования
• Следует различать задачу аннотирования одного документа
  и задачу аннотирования множества документов
• Задача аннотирования одного документа
    – Краткое представление основного содержания этого документа
• Задача аннотирования множества документов
    – Краткое представление общей темы
    – Выявление различных точек зрения на эту тему
    – Возможно, существует влияние временного фактора, т.е. некоторые
      документы устаревают и не должны учитываться
• Задача аннотирования новостных сюжетов – задача
  многодокументного аннотирования с учетом временного
  фактора


2. Задачи автоматического аннотирования
Критерии качества аннотации
• Требования к аннотации:
    – Свежесть: отражает последнее важное событие, произошедшее в
      сюжете
    – Разнообразие: представляет различные точки зрения на
      описываемые события, описывает контекст происходящего
    – Ядерность: полностью относится к теме сюжета
• Например:




2. Задачи автоматического аннотирования
Критерии качества аннотации
• Заголовок сюжета должен быть ясен без прочтения всей
  аннотации
    – На главной странице Яндекса показываются только заголовки
    – Только заголовками представлены некоторые сюжеты в рубриках:




2. Задачи автоматического аннотирования
Критерии качества аннотации
• Сниппет, показывающийся на странице рубрики, должен
  раскрывать содержание заголовка



• Другие два сниппета должны вносить разнообразие в
  аннотацию, при этом не теряя ядерности




2. Задачи автоматического аннотирования
План
1.   Введение: Я.Новости в целом
2.   Задачи автоматического аннотирования
3.   Оценка и сравнение качества программ-аннотаторов
4.   Методы решения задач автоматического аннотирования




3. Оценка и сравнение качества программ-аннотаторов
Способы оценивания качества
• Формальные метрики
    – Формальная метрика – это некоторая числовая функция, значение
      которой можно рассчитать для каждой из аннотаций
    – Усредненное значение метрики на некотором множестве
      аннотаций является интегральной метрикой качества алгоритма
      аннотирования (на этом множестве аннотаций)
• Сравнение с участием человека
    – Для некоторых сюжетов сравниваются аннотации, построенные
      различными алгоритмами
    – Лучшим из алгоритмов считается тот, аннотации которого
      оказались лучшими в большем числе случаев




3. Оценка и сравнение качества программ-аннотаторов
Ручная разметка сюжетов
• Для того, чтобы вычислять важнейшие метрики
  качества, необходима ручная разметка сюжетов
• В каждом сюжете асессором оцениваются слова, заголовки
  и сниппеты
• Слова, заголовки и сниппеты, размеченные как
  «подходящие сюжету», будем называть
  релевантными, размеченные как «не подходящие сюжету»
  – нерелевантными
• Желательно, чтобы градаций оценки было больше, чем
  две




3. Оценка и сравнение качества программ-аннотаторов
Основные метрики качества




3. Оценка и сравнение качества программ-аннотаторов
Основные метрики качества




3. Оценка и сравнение качества программ-аннотаторов
Основные метрики качества




3. Оценка и сравнение качества программ-аннотаторов
Второстепенные метрики качества




3. Оценка и сравнение качества программ-аннотаторов
Второстепенные метрики качества




3. Оценка и сравнение качества программ-аннотаторов
Что трудно измерить автоматически
• Соответствие первого сниппета выбранному заголовку
    – Не всегда наличие в сниппете слов из заголовка гарантирует, что
      он имеет тот же смысл, что и заголовок
    – И, напротив, одно и то же можно сказать разными словами
• Разнообразие аннотации
    – Люди по-разному реагируют на повторяемость разных слов
    – Слишком большое разнообразие, как правило, приводит к
      снижению ядерности
• При равных значениях формальных метрик две аннотации
  могут совершенно по-разному восприниматься людьми




3. Оценка и сравнение качества программ-аннотаторов
Сравнение аннотаций человеком
• Важнейший этап проверки нового алгоритма – просмотр
  человеком результатов аннотирования
• Сравнение двух алгоритмов:
    – Просмотр человеком результатов аннотирования двумя разными
      алгоритмами некоторого случайно выбранного множества
      сюжетов
    – Человек не должен знать, какой алгоритм какую аннотацию
      сгенерировал («слепой тест»)
• Проблема: занимает много времени
• Использование формальных метрик позволяет делать
  ручные сравнения редко



3. Оценка и сравнение качества программ-аннотаторов
План
1.   Введение: Я.Новости в целом
2.   Задачи автоматического аннотирования
3.   Оценка и сравнение качества программ-аннотаторов
4.   Методы решения задач автоматического аннотирования




4. Методы решения задач автоматического аннотирования
Методика аннотирования в Я.Новостях
• Общий процесс:
    1.   Определяем для каждого слова, встретившегося в
         сюжете, степень его релевантности для этому сюжету
    2.   Выбираем заголовок сюжета
    3.   Выбираем первый сниппет, раскрывающий выбранный
         заголовок
    4.   Выбираем второй и третий сниппет из соображений
         разнообразия и ядерности
• Для автоматического определения степени релевантности
  слов, заголовков и сниппетов сюжету, используются
  методы машинного обучения
• При выборе сниппетов в аннотацию также используются
  эвристические правила

4. Методы решения задач автоматического аннотирования
Машинное обучение
• Пусть дано некоторое конечное множество объектов
    – Каждый объект описывается набором свойств
    – Для каждого объекта известно значение некоторой неизвестной
      функции
• Пытаемся построить приближение неизвестной
  функции, основываясь на известных данных
• Требования:
    – Возможность спрогнозировать значение неизвестной функции на
      новых объектах
    – Обобщающая способность: на новых объектах приближение не
      должно быть хуже, чем на уже известных
• Важнейшие проблемы:
    – Выбор свойств, которыми будут описываться объекты
    – Выбор алгоритма построения приближающей функции
4. Методы решения задач автоматического аннотирования
Машинное обучение




4. Методы решения задач автоматического аннотирования
Машинное обучение
• Пример: интерполяция многочленом (machinelearning.ru)




• Обобщающая способность полинома степени 20
  выше, чем полинома степени 40
• При этом отклонение от значений в точках обучающей
  выборки меньше у полинома степени 40


4. Методы решения задач автоматического аннотирования
Машинное обучение




4. Методы решения задач автоматического аннотирования
Машинное обучение




4. Методы решения задач автоматического аннотирования
Машинное обучение




4. Методы решения задач автоматического аннотирования
Предсказание релевантности слов




4. Методы решения задач автоматического аннотирования
Предсказание релевантности слов
• Пример: релевантные слова – только в начале текстов?
• Рассмотрим среднюю позицию предложения, в котором
  впервые встретилось слово
          Доля
            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной
                       1   2   3       4    5    6     7   8   9   10   11   12   13   14   > 14

                                   Релевантные слова
                                                                             Средняя позиция


4. Методы решения задач автоматического аннотирования
Предсказание релевантности слов
• Пример: релевантные слова – только в начале текстов?
• Распределение среди нерелевантных слов практически
  такое же
          Доля
            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной

            Основной
                       1   2   3      4    5    6      7   8   9    10   11      12   13   14   > 14

                                   Релевантные слова       Нерелевантные слова
                                                                                 Средняя позиция


4. Методы решения задач автоматического аннотирования
Выбор заголовков
• Используемые факторы:
    –   Предсказанная весомость входящих в заголовок слов
    –   Возраст заголовка
    –   Цитируемость источника
    –   Количество заголовков, «похожих» на данный
    –   …
• Заголовки внутри сюжета дополнительно кластеризуются
  для выделения тем внутри сюжета
   Пожар в жилом доме на Ямале, шесть человек погибли
   Пожар в жилом доме на Ямале, шесть человек погибли// Свободная пресса
   Шесть человек погибли в пожаре в многоквартирном доме в Надыме// GlobalSib.com
   Шесть человек погибли при пожаре в жилом доме в Надыме// Вести.Ru
   Шесть человек погибли при пожаре на Ямале// Интерфакс
   Шесть человек погибли при пожаре на Ямале// NewsProm.Ru
   Пожар в Надыме: шесть человек погибших, жители дома эвакуированы// Аргументы.ру
   В рабочем поселке на Ямале шесть человек погибли во время пожара// МТРК Мир
   Шесть человек погибли в Надыме на пожаре в многоквартирном деревянном доме// ИТАР-ТАСС

4. Методы решения задач автоматического аннотирования
Выбор заголовков
• Не всегда самая объемная тема оказывается «свежей»
   Пожар в жилом доме на Ямале, шесть человек погибли
   Пожар в жилом доме на Ямале, шесть человек погибли// Свободная пресса
   Шесть человек погибли в пожаре в многоквартирном доме в Надыме// GlobalSib.com
   Шесть человек погибли при пожаре в жилом доме в Надыме// Вести.Ru
   Шесть человек погибли при пожаре на Ямале// Интерфакс
   Шесть человек погибли при пожаре на Ямале// NewsProm.Ru
   Пожар в Надыме: шесть человек погибших, жители дома эвакуированы// Аргументы.ру
   В рабочем поселке на Ямале шесть человек погибли во время пожара// МТРК Мир
   Шесть человек погибли в Надыме на пожаре в многоквартирном деревянном доме// ИТАР-ТАСС

   Пожар в жилом доме на Ямале, унесший жизни шести человек, ликвидирован
   Пожар в жилом доме на Ямале, унесший жизни шести человек, ликвидирован// РИА Новости
   Пожар в жилом доме на Ямале ликвидирован// Росбалт




4. Методы решения задач автоматического аннотирования
Выбор заголовков
• Заголовки, содержащие релевантные слова, также не
  обязательно «свежи»

       Доля
      Основной



      Основной



      Основной



      Основной



      Основной



      Основной
                 1   2 Релевантные заголовки 5
                            3        4           Нерелевантные заголовки 9
                                                 6      7       8            10   11
                                                                  Количество релевантных слов


4. Методы решения задач автоматического аннотирования
Выбор сниппетов
• 40% релевантных сниппетов – первые предложения
  текстов
• 40% всех предложений встречаются на позициях дальше
  девятой
• Первые предложения обычно также хорошо согласованы с
  заголовком
           Основной
    Доля   Основной
           Основной
           Основной
           Основной
           Основной
           Основной
           Основной
           Основной
           Основной
                      1   2         3      4       5    6        7       8    9   >9   Позиция
                              Релевантные предложения       Все предложения

4. Методы решения задач автоматического аннотирования
Выбор сниппетов
• Не всегда первые сниппеты текста – лучшие в смысле
  соответствия заголовку




4. Методы решения задач автоматического аннотирования
Выбор сниппетов
• После выбора заголовка сюжета рассматриваем
  начальные фрагменты сообщений, заголовки которых
  отнеслись к тому же кластеру
• Вычисляем весомость слов на основе частот их вхождения
  в эти фрагменты
• Выбирается первый сниппет на основе вычисленной
  весомости входящих в него слов
• Выбираются второй и третий сниппеты
    – Три сниппета должны покрывать как можно больше весомых слов
    – Три сниппета должны быть разнообразными: используется
      модификация энтропийного критерия




4. Методы решения задач автоматического аннотирования
Спасибо за внимание!

      Вопросы? 

More Related Content

Similar to автоматическое аннотирование новостного потока

Оценка эффективности работы аналитика
Оценка эффективности работы аналитикаОценка эффективности работы аналитика
Оценка эффективности работы аналитикаSQALab
 
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"Yandex
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснетаyaevents
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paperAnton Konushin
 
Titanic.csv – Как заметить макушку айсберга в океане багов?
Titanic.csv – Как заметить макушку айсберга в океане багов?Titanic.csv – Как заметить макушку айсберга в океане багов?
Titanic.csv – Как заметить макушку айсберга в океане багов?CEE-SEC(R)
 
Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3Denis Umnov
 
принципы написания новостей 2013
принципы написания новостей 2013принципы написания новостей 2013
принципы написания новостей 2013Ilona Fanta
 
задания для самостоятеьного изучения предмета математика
задания для самостоятеьного изучения предмета математиказадания для самостоятеьного изучения предмета математика
задания для самостоятеьного изучения предмета математикаRoman Prilipa
 
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...Alexey Neznanov
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
 
Семантика под бурж. Как построить мультиязычный отдел семантики
Семантика под бурж. Как построить мультиязычный отдел семантикиСемантика под бурж. Как построить мультиязычный отдел семантики
Семантика под бурж. Как построить мультиязычный отдел семантикиNaZapad
 
Контент-маркетинг для бизнеса
Контент-маркетинг для бизнесаКонтент-маркетинг для бизнеса
Контент-маркетинг для бизнесаNetpeak
 
как подготовить статью для публикации в зарубежных журналах
как подготовить статью для публикации в зарубежных журналахкак подготовить статью для публикации в зарубежных журналах
как подготовить статью для публикации в зарубежных журналахОльга Золотова
 
Планирование по информатике в 5-6 классах
Планирование по информатике в 5-6 классахПланирование по информатике в 5-6 классах
Планирование по информатике в 5-6 классахСергей Афонин
 

Similar to автоматическое аннотирование новостного потока (20)

Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Analyst Days 2014
Analyst Days 2014Analyst Days 2014
Analyst Days 2014
 
Оценка эффективности работы аналитика
Оценка эффективности работы аналитикаОценка эффективности работы аналитика
Оценка эффективности работы аналитика
 
Как собрать 50 000 трафика в мес при помощи блога!
Как собрать 50 000 трафика в мес при помощи блога!Как собрать 50 000 трафика в мес при помощи блога!
Как собрать 50 000 трафика в мес при помощи блога!
 
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
Татьяна Исаева, Лев Гершензон "Новости: как и зачем"
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснета
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paper
 
Titanic.csv – Как заметить макушку айсберга в океане багов?
Titanic.csv – Как заметить макушку айсберга в океане багов?Titanic.csv – Как заметить макушку айсберга в океане багов?
Titanic.csv – Как заметить макушку айсберга в океане багов?
 
Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3
 
принципы написания новостей 2013
принципы написания новостей 2013принципы написания новостей 2013
принципы написания новостей 2013
 
задания для самостоятеьного изучения предмета математика
задания для самостоятеьного изучения предмета математиказадания для самостоятеьного изучения предмета математика
задания для самостоятеьного изучения предмета математика
 
1
11
1
 
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
Неотрефлексированный сдвиг парадигмы: от поколений языков программирования вы...
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
Семантика под бурж. Как построить мультиязычный отдел семантики
Семантика под бурж. Как построить мультиязычный отдел семантикиСемантика под бурж. Как построить мультиязычный отдел семантики
Семантика под бурж. Как построить мультиязычный отдел семантики
 
Контент-маркетинг для бизнеса
Контент-маркетинг для бизнесаКонтент-маркетинг для бизнеса
Контент-маркетинг для бизнеса
 
как подготовить статью для публикации в зарубежных журналах
как подготовить статью для публикации в зарубежных журналахкак подготовить статью для публикации в зарубежных журналах
как подготовить статью для публикации в зарубежных журналах
 
Kuidas hinnata?
Kuidas hinnata?Kuidas hinnata?
Kuidas hinnata?
 
Планирование по информатике в 5-6 классах
Планирование по информатике в 5-6 классахПланирование по информатике в 5-6 классах
Планирование по информатике в 5-6 классах
 

More from Natalia Ostapuk

More from Natalia Ostapuk (20)

Aist academic writing
Aist academic writingAist academic writing
Aist academic writing
 
Aist academic writing
Aist academic writingAist academic writing
Aist academic writing
 
Ponomareva
PonomarevaPonomareva
Ponomareva
 
Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013
 
Tomita одесса
Tomita одессаTomita одесса
Tomita одесса
 
Mt engine on nlp semniar
Mt engine on nlp semniarMt engine on nlp semniar
Mt engine on nlp semniar
 
Tomita 4марта
Tomita 4мартаTomita 4марта
Tomita 4марта
 
Konyushkova
KonyushkovaKonyushkova
Konyushkova
 
Braslavsky 13.12.12
Braslavsky 13.12.12Braslavsky 13.12.12
Braslavsky 13.12.12
 
Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12
 
Zizka synasc 2012
Zizka synasc 2012Zizka synasc 2012
Zizka synasc 2012
 
Zizka immm 2012
Zizka immm 2012Zizka immm 2012
Zizka immm 2012
 
Zizka aimsa 2012
Zizka aimsa 2012Zizka aimsa 2012
Zizka aimsa 2012
 
Analysis by-variants
Analysis by-variantsAnalysis by-variants
Analysis by-variants
 
место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1
 
Text mining
Text miningText mining
Text mining
 
Additional2
Additional2Additional2
Additional2
 
Additional1
Additional1Additional1
Additional1
 
Seminar1
Seminar1Seminar1
Seminar1
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge
 

автоматическое аннотирование новостного потока

  • 1. Автоматическое аннотирование новостного потока Алексей Шаграев, Я.Новости
  • 2. План 1. Введение: Я.Новости в целом 2. Задачи автоматического аннотирования 3. Оценка и сравнение качества программ-аннотаторов 4. Методы решения задач автоматического аннотирования
  • 3. План 1. Введение: Я.Новости в целом 2. Задачи автоматического аннотирования 3. Оценка и сравнение качества программ-аннотаторов 4. Методы решения задач автоматического аннотирования 1. Введение
  • 4. Я.Новости • Я.Новости – служба автоматической агрегации новостей – Выделяет в новостном потоке темы (сюжеты) – Составляет краткие описания выделенных сюжетов – Производит рубрикацию сюжетов – Ранжирует сюжеты в соответствии с их актуальностью на настоящий момент • Задача – представление новостной картины дня 1. Введение
  • 5. Этапы агрегации новостного потока 1. Скачивание новостных сообщений 2. Сегментация сообщений – Выделение заголовка, описания, основного текста, картинок, видео, … 3. Выделение сюжетов – Кластеризация документов на основе анализа их текстов 4. Рубрикация сюжетов (политика, общество, наука, …) 5. Аннотирование сюжетов – Представление в кратком виде основного содержания сюжетов 6. Ранжирование сюжетов – Определение позиций сюжетов на главной странице Яндекса и в рубриках 1. Введение
  • 6. Представление результатов агрегации 1. Заголовки топ-5 новостей на главной странице Яндекса: 1. Введение
  • 7. Представление результатов агрегации 2. Новостные рубрики: 1. Введение
  • 8. Представление результатов агрегации 3. Страницы сюжетов: 1. Введение
  • 9. Страница сюжета • Результаты аннотирования сюжета – Заголовок сюжета – Несколько вырезок из документов, вошедших в сюжет (сниппеты) – Список действующих лиц (персоны, организации) – Карта – Цитата • Дополнительная информация – Последние сообщения, статьи, интервью на эту тему – Список сюжетов, имеющих сходную тематику – Для сюжетов на спортивные темы – текстовые трансляции, информация о соревновании и т. д. 1. Введение
  • 10. Аннотирование • В качестве аннотации будем рассматривать только заголовок сюжета и три сниппета – Поиск цитатных и адресных сниппетов, действующих лиц – задача выделения фактов • Мы не занимаемся автоматической генерацией текстов, мы используем фрагменты текстов, написанных новостными изданиями 1. Введение
  • 11. План 1. Введение: Я.Новости в целом 2. Задачи автоматического аннотирования 3. Оценка и сравнение качества программ-аннотаторов 4. Методы решения задач автоматического аннотирования 2. Задачи автоматического аннотирования
  • 12. Задачи аннотирования • Аннотирование – создание краткой версии некоторого текста или множества текстов • Создание аннотации человеком – часто встречающаяся задача 2. Задачи автоматического аннотирования
  • 13. Задачи аннотирования • Следует различать задачу аннотирования одного документа и задачу аннотирования множества документов • Задача аннотирования одного документа – Краткое представление основного содержания этого документа • Задача аннотирования множества документов – Краткое представление общей темы – Выявление различных точек зрения на эту тему – Возможно, существует влияние временного фактора, т.е. некоторые документы устаревают и не должны учитываться • Задача аннотирования новостных сюжетов – задача многодокументного аннотирования с учетом временного фактора 2. Задачи автоматического аннотирования
  • 14. Критерии качества аннотации • Требования к аннотации: – Свежесть: отражает последнее важное событие, произошедшее в сюжете – Разнообразие: представляет различные точки зрения на описываемые события, описывает контекст происходящего – Ядерность: полностью относится к теме сюжета • Например: 2. Задачи автоматического аннотирования
  • 15. Критерии качества аннотации • Заголовок сюжета должен быть ясен без прочтения всей аннотации – На главной странице Яндекса показываются только заголовки – Только заголовками представлены некоторые сюжеты в рубриках: 2. Задачи автоматического аннотирования
  • 16. Критерии качества аннотации • Сниппет, показывающийся на странице рубрики, должен раскрывать содержание заголовка • Другие два сниппета должны вносить разнообразие в аннотацию, при этом не теряя ядерности 2. Задачи автоматического аннотирования
  • 17. План 1. Введение: Я.Новости в целом 2. Задачи автоматического аннотирования 3. Оценка и сравнение качества программ-аннотаторов 4. Методы решения задач автоматического аннотирования 3. Оценка и сравнение качества программ-аннотаторов
  • 18. Способы оценивания качества • Формальные метрики – Формальная метрика – это некоторая числовая функция, значение которой можно рассчитать для каждой из аннотаций – Усредненное значение метрики на некотором множестве аннотаций является интегральной метрикой качества алгоритма аннотирования (на этом множестве аннотаций) • Сравнение с участием человека – Для некоторых сюжетов сравниваются аннотации, построенные различными алгоритмами – Лучшим из алгоритмов считается тот, аннотации которого оказались лучшими в большем числе случаев 3. Оценка и сравнение качества программ-аннотаторов
  • 19. Ручная разметка сюжетов • Для того, чтобы вычислять важнейшие метрики качества, необходима ручная разметка сюжетов • В каждом сюжете асессором оцениваются слова, заголовки и сниппеты • Слова, заголовки и сниппеты, размеченные как «подходящие сюжету», будем называть релевантными, размеченные как «не подходящие сюжету» – нерелевантными • Желательно, чтобы градаций оценки было больше, чем две 3. Оценка и сравнение качества программ-аннотаторов
  • 20. Основные метрики качества 3. Оценка и сравнение качества программ-аннотаторов
  • 21. Основные метрики качества 3. Оценка и сравнение качества программ-аннотаторов
  • 22. Основные метрики качества 3. Оценка и сравнение качества программ-аннотаторов
  • 23. Второстепенные метрики качества 3. Оценка и сравнение качества программ-аннотаторов
  • 24. Второстепенные метрики качества 3. Оценка и сравнение качества программ-аннотаторов
  • 25. Что трудно измерить автоматически • Соответствие первого сниппета выбранному заголовку – Не всегда наличие в сниппете слов из заголовка гарантирует, что он имеет тот же смысл, что и заголовок – И, напротив, одно и то же можно сказать разными словами • Разнообразие аннотации – Люди по-разному реагируют на повторяемость разных слов – Слишком большое разнообразие, как правило, приводит к снижению ядерности • При равных значениях формальных метрик две аннотации могут совершенно по-разному восприниматься людьми 3. Оценка и сравнение качества программ-аннотаторов
  • 26. Сравнение аннотаций человеком • Важнейший этап проверки нового алгоритма – просмотр человеком результатов аннотирования • Сравнение двух алгоритмов: – Просмотр человеком результатов аннотирования двумя разными алгоритмами некоторого случайно выбранного множества сюжетов – Человек не должен знать, какой алгоритм какую аннотацию сгенерировал («слепой тест») • Проблема: занимает много времени • Использование формальных метрик позволяет делать ручные сравнения редко 3. Оценка и сравнение качества программ-аннотаторов
  • 27. План 1. Введение: Я.Новости в целом 2. Задачи автоматического аннотирования 3. Оценка и сравнение качества программ-аннотаторов 4. Методы решения задач автоматического аннотирования 4. Методы решения задач автоматического аннотирования
  • 28. Методика аннотирования в Я.Новостях • Общий процесс: 1. Определяем для каждого слова, встретившегося в сюжете, степень его релевантности для этому сюжету 2. Выбираем заголовок сюжета 3. Выбираем первый сниппет, раскрывающий выбранный заголовок 4. Выбираем второй и третий сниппет из соображений разнообразия и ядерности • Для автоматического определения степени релевантности слов, заголовков и сниппетов сюжету, используются методы машинного обучения • При выборе сниппетов в аннотацию также используются эвристические правила 4. Методы решения задач автоматического аннотирования
  • 29. Машинное обучение • Пусть дано некоторое конечное множество объектов – Каждый объект описывается набором свойств – Для каждого объекта известно значение некоторой неизвестной функции • Пытаемся построить приближение неизвестной функции, основываясь на известных данных • Требования: – Возможность спрогнозировать значение неизвестной функции на новых объектах – Обобщающая способность: на новых объектах приближение не должно быть хуже, чем на уже известных • Важнейшие проблемы: – Выбор свойств, которыми будут описываться объекты – Выбор алгоритма построения приближающей функции 4. Методы решения задач автоматического аннотирования
  • 30. Машинное обучение 4. Методы решения задач автоматического аннотирования
  • 31. Машинное обучение • Пример: интерполяция многочленом (machinelearning.ru) • Обобщающая способность полинома степени 20 выше, чем полинома степени 40 • При этом отклонение от значений в точках обучающей выборки меньше у полинома степени 40 4. Методы решения задач автоматического аннотирования
  • 32. Машинное обучение 4. Методы решения задач автоматического аннотирования
  • 33. Машинное обучение 4. Методы решения задач автоматического аннотирования
  • 34. Машинное обучение 4. Методы решения задач автоматического аннотирования
  • 35. Предсказание релевантности слов 4. Методы решения задач автоматического аннотирования
  • 36. Предсказание релевантности слов • Пример: релевантные слова – только в начале текстов? • Рассмотрим среднюю позицию предложения, в котором впервые встретилось слово Доля Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной 1 2 3 4 5 6 7 8 9 10 11 12 13 14 > 14 Релевантные слова Средняя позиция 4. Методы решения задач автоматического аннотирования
  • 37. Предсказание релевантности слов • Пример: релевантные слова – только в начале текстов? • Распределение среди нерелевантных слов практически такое же Доля Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной 1 2 3 4 5 6 7 8 9 10 11 12 13 14 > 14 Релевантные слова Нерелевантные слова Средняя позиция 4. Методы решения задач автоматического аннотирования
  • 38. Выбор заголовков • Используемые факторы: – Предсказанная весомость входящих в заголовок слов – Возраст заголовка – Цитируемость источника – Количество заголовков, «похожих» на данный – … • Заголовки внутри сюжета дополнительно кластеризуются для выделения тем внутри сюжета Пожар в жилом доме на Ямале, шесть человек погибли Пожар в жилом доме на Ямале, шесть человек погибли// Свободная пресса Шесть человек погибли в пожаре в многоквартирном доме в Надыме// GlobalSib.com Шесть человек погибли при пожаре в жилом доме в Надыме// Вести.Ru Шесть человек погибли при пожаре на Ямале// Интерфакс Шесть человек погибли при пожаре на Ямале// NewsProm.Ru Пожар в Надыме: шесть человек погибших, жители дома эвакуированы// Аргументы.ру В рабочем поселке на Ямале шесть человек погибли во время пожара// МТРК Мир Шесть человек погибли в Надыме на пожаре в многоквартирном деревянном доме// ИТАР-ТАСС 4. Методы решения задач автоматического аннотирования
  • 39. Выбор заголовков • Не всегда самая объемная тема оказывается «свежей» Пожар в жилом доме на Ямале, шесть человек погибли Пожар в жилом доме на Ямале, шесть человек погибли// Свободная пресса Шесть человек погибли в пожаре в многоквартирном доме в Надыме// GlobalSib.com Шесть человек погибли при пожаре в жилом доме в Надыме// Вести.Ru Шесть человек погибли при пожаре на Ямале// Интерфакс Шесть человек погибли при пожаре на Ямале// NewsProm.Ru Пожар в Надыме: шесть человек погибших, жители дома эвакуированы// Аргументы.ру В рабочем поселке на Ямале шесть человек погибли во время пожара// МТРК Мир Шесть человек погибли в Надыме на пожаре в многоквартирном деревянном доме// ИТАР-ТАСС Пожар в жилом доме на Ямале, унесший жизни шести человек, ликвидирован Пожар в жилом доме на Ямале, унесший жизни шести человек, ликвидирован// РИА Новости Пожар в жилом доме на Ямале ликвидирован// Росбалт 4. Методы решения задач автоматического аннотирования
  • 40. Выбор заголовков • Заголовки, содержащие релевантные слова, также не обязательно «свежи» Доля Основной Основной Основной Основной Основной Основной 1 2 Релевантные заголовки 5 3 4 Нерелевантные заголовки 9 6 7 8 10 11 Количество релевантных слов 4. Методы решения задач автоматического аннотирования
  • 41. Выбор сниппетов • 40% релевантных сниппетов – первые предложения текстов • 40% всех предложений встречаются на позициях дальше девятой • Первые предложения обычно также хорошо согласованы с заголовком Основной Доля Основной Основной Основной Основной Основной Основной Основной Основной Основной 1 2 3 4 5 6 7 8 9 >9 Позиция Релевантные предложения Все предложения 4. Методы решения задач автоматического аннотирования
  • 42. Выбор сниппетов • Не всегда первые сниппеты текста – лучшие в смысле соответствия заголовку 4. Методы решения задач автоматического аннотирования
  • 43. Выбор сниппетов • После выбора заголовка сюжета рассматриваем начальные фрагменты сообщений, заголовки которых отнеслись к тому же кластеру • Вычисляем весомость слов на основе частот их вхождения в эти фрагменты • Выбирается первый сниппет на основе вычисленной весомости входящих в него слов • Выбираются второй и третий сниппеты – Три сниппета должны покрывать как можно больше весомых слов – Три сниппета должны быть разнообразными: используется модификация энтропийного критерия 4. Методы решения задач автоматического аннотирования