Автоматическое порождение тематических отчетов из потоков новостей
1. Автоматическое порождение
тематических отчетов
из потоков новостей
Дипломная работа
Александров Дмитрий Вадимович
группа 524
Научный руководитель:
К.ф.-м.н., в.н.с. НИВЦ МГУ
Лукашевич Наталья Валентиновна
Москва, 2011 г.
2. Автоматическое порождение
отчетов
Информации слишком много, ее необходимо
обрабатывать автоматически, приводя к виду,
удобному для восприятия и работы
Поток данных — это последовательность
сообщений с общей тематикой, поступающих из
разнородных источников
Тематический отчет — структурированная сводка,
описывающая характерные признаки каждого
объекта, о котором идет речь, отдельно
3. Постановка задачи
Исследовать существующие методы автоматической
обработки потоков документов
Разработать систему, порождающую краткие
структурированные сводки по кластеру текстов
Для этого необходимо:
классифицировать данные по однородным объектам;
выделить структуру целевых отчетов;
извлечь значения признаков из текстов;
аннотировать описания
Задача рассматривается на примере построения
тематических отчетов по отзывам путешественников.
4. Входные данные
Типичный отзыв:
Наше пребывание в Чехии в этот раз было кратким. Мы с семьей разместились в Подебрадах,
курорте, расположенном километрах в 50 от столицы. Был конец апреля, но весна
развернулась не на шутку. Цвели деревья и цветы, радостно порхали пернатые, в то время как
у нас на Урале было холодно и неуютно. Тихий и уютный городишко запомнился нам
удивительной красотой. Да, это курорт, но и они бывают разные. Сюда приезжают лечиться
пациенты с сердечно-сосудистыми заболеваниями, ревматизмом и сахарным диабетом.
Выделенные рубрики:
памятники истории и культуры;
лечебный туризм (Сюда приезжают лечиться пациенты с … заболеваниями);
климат (Был конец апреля, но весна развернулась не на шутку.);
где остановиться;
природные достопримечательности;
местоположение (...расположенном километрах в 50 от столицы...);
вечерние и ночные развлечения
5. Предложенный подход (1)
Производится морфологический анализ текстов,
нормализующий текст (разработка НИВЦ МГУ)
Для сегментации по объектам (собственный
алгоритм)
из заголовка и первой строки выделяется объект по
умолчанию;
считается, что описывается текущий объект;
когда упоминается новый объект, текущий
заменяется;
вводится механизм коэффициентов сомнения
6. Предложенный подход (2)
Для классификации по набору описываемых признаков
применяется система автоматической рубрикации
(разработка НИВЦ МГУ):
множество рубрик порождает набор признаков;
система соотносит предложения с рубриками;
Для аннотирования описаний (собственный алгоритм):
применяется метод тематических узлов (узлы — сущности,
объединяющие близкие по смыслу слова, строятся с
применением тезауруса);
ранжирование по релевантности запросу (в качестве запроса
используется рубрика для акцентирования внимания на
нужном признаке);
снижение повторяемости информации
9. Результаты
Памятники
Лечебный
истории и Как добраться
туризм
культуры
Мы с семьей Сюда приезжают
Меня же, помешанного
разместились в лечиться пациенты с
на замках, порадовала
Подебрадах, курорте, сердечно-сосудистыми
Подебрады внушительная
расположенном заболеваниями,
постройка в центре
километрах в 50 от ревматизмом и
исторического ядра.
столицы. сахарным диабетом.
Синагога была Туда мы ехали с
построена в 1892 году Пльзень - известный
автовокзала Florenc на
на границе Старого центр пивоварения. С
автобусе Прага-
Пльзень города рядом с Пльзень-Марианские
1842-го года здесь
собором Святого варят известнейшее
Лазни некоей
пиво Pilsner Urquell.
Варфоломея. карловарской фирмы.
Млынская колоннада Я взял билет на
В Карловых Варах на
самая большая в главной вокзале из
поверхность выходят
Карловы Вары Карловых Варах и Праги до Карловых
12 целебных
один из символов Вар. Он стоит на
источников.
города одного 350 кс.
10. Оценка
Модуль сегментирования
Метрика точности — доля предложений, правильно
соотнесенных с описываемыми объектами
Результат — около 70%
Модуль аннотирования
Метрика точности — вычитание из единицы доли
паразитных предложений и предложений, ошибочно
отнесенных к тематике сводки
Результат — около 85%
11. Итоги работы
Предложен подход к задаче автоматического
порождения тематических отчетов, основанный на
декомпозиции задачи на более простые шаги:
Разработан алгоритм сегментации текстов;
Используется автоматический рубрикатор;
Разработан метод аннотирования по запросурубрике,
основанный на построении тематических узлов,
поддерживающий новизну информации.
Создан программный комплекс, реализующий
предложенный подход и решающий поставленную
задачу