2. План
1. Введение: Я.Новости в целом
2. Задачи автоматического аннотирования
3. Оценка и сравнение качества программ-аннотаторов
4. Методы решения задач автоматического аннотирования
3. План
1. Введение: Я.Новости в целом
2. Задачи автоматического аннотирования
3. Оценка и сравнение качества программ-аннотаторов
4. Методы решения задач автоматического аннотирования
1. Введение
4. Я.Новости
• Я.Новости – служба автоматической агрегации новостей
– Выделяет в новостном потоке темы (сюжеты)
– Составляет краткие описания выделенных сюжетов
– Производит рубрикацию сюжетов
– Ранжирует сюжеты в соответствии с их актуальностью на
настоящий момент
• Задача – представление новостной картины дня
1. Введение
5. Этапы агрегации новостного потока
1. Скачивание новостных сообщений
2. Сегментация сообщений
– Выделение заголовка, описания, основного текста, картинок, видео, …
3. Выделение сюжетов
– Кластеризация документов на основе анализа их текстов
4. Рубрикация сюжетов (политика, общество, наука, …)
5. Аннотирование сюжетов
– Представление в кратком виде основного содержания сюжетов
6. Ранжирование сюжетов
– Определение позиций сюжетов на главной странице Яндекса и в
рубриках
1. Введение
9. Страница сюжета
• Результаты аннотирования сюжета
– Заголовок сюжета
– Несколько вырезок из документов, вошедших в сюжет (сниппеты)
– Список действующих лиц (персоны, организации)
– Карта
– Цитата
• Дополнительная информация
– Последние сообщения, статьи, интервью на эту тему
– Список сюжетов, имеющих сходную тематику
– Для сюжетов на спортивные темы – текстовые
трансляции, информация о соревновании и т. д.
1. Введение
10. Аннотирование
• В качестве аннотации будем рассматривать только
заголовок сюжета и три сниппета
– Поиск цитатных и адресных сниппетов, действующих лиц – задача
выделения фактов
• Мы не занимаемся автоматической генерацией текстов, мы
используем фрагменты текстов, написанных новостными
изданиями
1. Введение
11. План
1. Введение: Я.Новости в целом
2. Задачи автоматического аннотирования
3. Оценка и сравнение качества программ-аннотаторов
4. Методы решения задач автоматического аннотирования
2. Задачи автоматического аннотирования
12. Задачи аннотирования
• Аннотирование – создание краткой версии некоторого
текста или множества текстов
• Создание аннотации человеком – часто встречающаяся
задача
2. Задачи автоматического аннотирования
13. Задачи аннотирования
• Следует различать задачу аннотирования одного документа
и задачу аннотирования множества документов
• Задача аннотирования одного документа
– Краткое представление основного содержания этого документа
• Задача аннотирования множества документов
– Краткое представление общей темы
– Выявление различных точек зрения на эту тему
– Возможно, существует влияние временного фактора, т.е. некоторые
документы устаревают и не должны учитываться
• Задача аннотирования новостных сюжетов – задача
многодокументного аннотирования с учетом временного
фактора
2. Задачи автоматического аннотирования
14. Критерии качества аннотации
• Требования к аннотации:
– Свежесть: отражает последнее важное событие, произошедшее в
сюжете
– Разнообразие: представляет различные точки зрения на
описываемые события, описывает контекст происходящего
– Ядерность: полностью относится к теме сюжета
• Например:
2. Задачи автоматического аннотирования
15. Критерии качества аннотации
• Заголовок сюжета должен быть ясен без прочтения всей
аннотации
– На главной странице Яндекса показываются только заголовки
– Только заголовками представлены некоторые сюжеты в рубриках:
2. Задачи автоматического аннотирования
16. Критерии качества аннотации
• Сниппет, показывающийся на странице рубрики, должен
раскрывать содержание заголовка
• Другие два сниппета должны вносить разнообразие в
аннотацию, при этом не теряя ядерности
2. Задачи автоматического аннотирования
17. План
1. Введение: Я.Новости в целом
2. Задачи автоматического аннотирования
3. Оценка и сравнение качества программ-аннотаторов
4. Методы решения задач автоматического аннотирования
3. Оценка и сравнение качества программ-аннотаторов
18. Способы оценивания качества
• Формальные метрики
– Формальная метрика – это некоторая числовая функция, значение
которой можно рассчитать для каждой из аннотаций
– Усредненное значение метрики на некотором множестве
аннотаций является интегральной метрикой качества алгоритма
аннотирования (на этом множестве аннотаций)
• Сравнение с участием человека
– Для некоторых сюжетов сравниваются аннотации, построенные
различными алгоритмами
– Лучшим из алгоритмов считается тот, аннотации которого
оказались лучшими в большем числе случаев
3. Оценка и сравнение качества программ-аннотаторов
19. Ручная разметка сюжетов
• Для того, чтобы вычислять важнейшие метрики
качества, необходима ручная разметка сюжетов
• В каждом сюжете асессором оцениваются слова, заголовки
и сниппеты
• Слова, заголовки и сниппеты, размеченные как
«подходящие сюжету», будем называть
релевантными, размеченные как «не подходящие сюжету»
– нерелевантными
• Желательно, чтобы градаций оценки было больше, чем
две
3. Оценка и сравнение качества программ-аннотаторов
25. Что трудно измерить автоматически
• Соответствие первого сниппета выбранному заголовку
– Не всегда наличие в сниппете слов из заголовка гарантирует, что
он имеет тот же смысл, что и заголовок
– И, напротив, одно и то же можно сказать разными словами
• Разнообразие аннотации
– Люди по-разному реагируют на повторяемость разных слов
– Слишком большое разнообразие, как правило, приводит к
снижению ядерности
• При равных значениях формальных метрик две аннотации
могут совершенно по-разному восприниматься людьми
3. Оценка и сравнение качества программ-аннотаторов
26. Сравнение аннотаций человеком
• Важнейший этап проверки нового алгоритма – просмотр
человеком результатов аннотирования
• Сравнение двух алгоритмов:
– Просмотр человеком результатов аннотирования двумя разными
алгоритмами некоторого случайно выбранного множества
сюжетов
– Человек не должен знать, какой алгоритм какую аннотацию
сгенерировал («слепой тест»)
• Проблема: занимает много времени
• Использование формальных метрик позволяет делать
ручные сравнения редко
3. Оценка и сравнение качества программ-аннотаторов
27. План
1. Введение: Я.Новости в целом
2. Задачи автоматического аннотирования
3. Оценка и сравнение качества программ-аннотаторов
4. Методы решения задач автоматического аннотирования
4. Методы решения задач автоматического аннотирования
28. Методика аннотирования в Я.Новостях
• Общий процесс:
1. Определяем для каждого слова, встретившегося в
сюжете, степень его релевантности для этому сюжету
2. Выбираем заголовок сюжета
3. Выбираем первый сниппет, раскрывающий выбранный
заголовок
4. Выбираем второй и третий сниппет из соображений
разнообразия и ядерности
• Для автоматического определения степени релевантности
слов, заголовков и сниппетов сюжету, используются
методы машинного обучения
• При выборе сниппетов в аннотацию также используются
эвристические правила
4. Методы решения задач автоматического аннотирования
29. Машинное обучение
• Пусть дано некоторое конечное множество объектов
– Каждый объект описывается набором свойств
– Для каждого объекта известно значение некоторой неизвестной
функции
• Пытаемся построить приближение неизвестной
функции, основываясь на известных данных
• Требования:
– Возможность спрогнозировать значение неизвестной функции на
новых объектах
– Обобщающая способность: на новых объектах приближение не
должно быть хуже, чем на уже известных
• Важнейшие проблемы:
– Выбор свойств, которыми будут описываться объекты
– Выбор алгоритма построения приближающей функции
4. Методы решения задач автоматического аннотирования
31. Машинное обучение
• Пример: интерполяция многочленом (machinelearning.ru)
• Обобщающая способность полинома степени 20
выше, чем полинома степени 40
• При этом отклонение от значений в точках обучающей
выборки меньше у полинома степени 40
4. Методы решения задач автоматического аннотирования
36. Предсказание релевантности слов
• Пример: релевантные слова – только в начале текстов?
• Рассмотрим среднюю позицию предложения, в котором
впервые встретилось слово
Доля
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
1 2 3 4 5 6 7 8 9 10 11 12 13 14 > 14
Релевантные слова
Средняя позиция
4. Методы решения задач автоматического аннотирования
37. Предсказание релевантности слов
• Пример: релевантные слова – только в начале текстов?
• Распределение среди нерелевантных слов практически
такое же
Доля
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
1 2 3 4 5 6 7 8 9 10 11 12 13 14 > 14
Релевантные слова Нерелевантные слова
Средняя позиция
4. Методы решения задач автоматического аннотирования
38. Выбор заголовков
• Используемые факторы:
– Предсказанная весомость входящих в заголовок слов
– Возраст заголовка
– Цитируемость источника
– Количество заголовков, «похожих» на данный
– …
• Заголовки внутри сюжета дополнительно кластеризуются
для выделения тем внутри сюжета
Пожар в жилом доме на Ямале, шесть человек погибли
Пожар в жилом доме на Ямале, шесть человек погибли// Свободная пресса
Шесть человек погибли в пожаре в многоквартирном доме в Надыме// GlobalSib.com
Шесть человек погибли при пожаре в жилом доме в Надыме// Вести.Ru
Шесть человек погибли при пожаре на Ямале// Интерфакс
Шесть человек погибли при пожаре на Ямале// NewsProm.Ru
Пожар в Надыме: шесть человек погибших, жители дома эвакуированы// Аргументы.ру
В рабочем поселке на Ямале шесть человек погибли во время пожара// МТРК Мир
Шесть человек погибли в Надыме на пожаре в многоквартирном деревянном доме// ИТАР-ТАСС
4. Методы решения задач автоматического аннотирования
39. Выбор заголовков
• Не всегда самая объемная тема оказывается «свежей»
Пожар в жилом доме на Ямале, шесть человек погибли
Пожар в жилом доме на Ямале, шесть человек погибли// Свободная пресса
Шесть человек погибли в пожаре в многоквартирном доме в Надыме// GlobalSib.com
Шесть человек погибли при пожаре в жилом доме в Надыме// Вести.Ru
Шесть человек погибли при пожаре на Ямале// Интерфакс
Шесть человек погибли при пожаре на Ямале// NewsProm.Ru
Пожар в Надыме: шесть человек погибших, жители дома эвакуированы// Аргументы.ру
В рабочем поселке на Ямале шесть человек погибли во время пожара// МТРК Мир
Шесть человек погибли в Надыме на пожаре в многоквартирном деревянном доме// ИТАР-ТАСС
Пожар в жилом доме на Ямале, унесший жизни шести человек, ликвидирован
Пожар в жилом доме на Ямале, унесший жизни шести человек, ликвидирован// РИА Новости
Пожар в жилом доме на Ямале ликвидирован// Росбалт
4. Методы решения задач автоматического аннотирования
40. Выбор заголовков
• Заголовки, содержащие релевантные слова, также не
обязательно «свежи»
Доля
Основной
Основной
Основной
Основной
Основной
Основной
1 2 Релевантные заголовки 5
3 4 Нерелевантные заголовки 9
6 7 8 10 11
Количество релевантных слов
4. Методы решения задач автоматического аннотирования
41. Выбор сниппетов
• 40% релевантных сниппетов – первые предложения
текстов
• 40% всех предложений встречаются на позициях дальше
девятой
• Первые предложения обычно также хорошо согласованы с
заголовком
Основной
Доля Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
1 2 3 4 5 6 7 8 9 >9 Позиция
Релевантные предложения Все предложения
4. Методы решения задач автоматического аннотирования
42. Выбор сниппетов
• Не всегда первые сниппеты текста – лучшие в смысле
соответствия заголовку
4. Методы решения задач автоматического аннотирования
43. Выбор сниппетов
• После выбора заголовка сюжета рассматриваем
начальные фрагменты сообщений, заголовки которых
отнеслись к тому же кластеру
• Вычисляем весомость слов на основе частот их вхождения
в эти фрагменты
• Выбирается первый сниппет на основе вычисленной
весомости входящих в него слов
• Выбираются второй и третий сниппеты
– Три сниппета должны покрывать как можно больше весомых слов
– Три сниппета должны быть разнообразными: используется
модификация энтропийного критерия
4. Методы решения задач автоматического аннотирования