1. АВТОМАТИЧЕСКОЕ
ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА
ОСНОВЕ СТРУКТУРЫ
НОВОСТНОГО КЛАСТЕРА
Автор: Алексеев Алексей Александрович
Научный руководитель: Лукашевич Наталья Валентиновна
2. ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ
2
Новостные сервисы (30-40 тыс. документов в
день)
Кластеризация новостей на одну тему –
новостной кластер (вхождения слов)
Удаление дубликатов
Рубрикация по тематическим рубрикам
Автоматическое аннотирование
Определение новизны
Извлечение информации
Многие операции выполняются на основе
пословного представления
24.10.2011
3. ПРОБЛЕМЫ ПОСЛОВНОГО
ПРЕДСТАВЛЕНИЯ
3
Одна сущность названа посредством цепочки слов
(многословным выражением)
В кластере используется много разных наименований
одной и той же сущности
Авиабаза США в Киргизии:
база Манас, авиабаза Манас, Манас,
база в международном аэропорту Манас,
база США, американская авиабаза
Проблемы:
Определение границ кластера
Автоматическое порождение аннотации
Определение новизны информации
Выделение подкластеров и др.
24.10.2011
4. ПРИРОДА ВОЗНИКНОВЕНИЯ
ВАРИАТИВНОСТИ - 1
4
Цель использования:
Референция (отнесенность языкового выражения к одному
и тому же объекту действительности)
3 февраля президент Киргизии Курманбек Бакиев заявил о решении
правительства прекратить деятельность авиабазы на территории
республики… Президент не стал скрывать, что экономические резоны
стали главной причиной побудившей правительство страны принять
такое решение.
Перефразирование (изменение текста без изменения
смысла - рерайтинг)
Судьбу авиабазы США в "Манасе" решит парламент Киргизии.
Парламент Киргизии в четверг примет окончательное решение о судьбе
авиабазы США.
Лексическая связность (обеспечение связности текста
посредством известных взаимоотношений слов) 24.10.2011
5. ПРИРОДА ВОЗНИКНОВЕНИЯ
ВАРИАТИВНОСТИ - 2
5
Привязка к контексту:
Общеизвестно (Киргизия – Киргизстан)
Выводится из контекста
В декабре 2006 года 46-летний водитель топливозаправщика киргизской
фирмы, занимающейся обслуживанием аэропорта "Манас", Александр
Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом
на КПП при въезде на перрон аэропорта"… Американский военный,
несмотря на неоднократные требования киргизского МИДа, также был
тайно вывезен с территории страны и до сих пор не предстал перед
судом.
Одинаково по смыслу (синонимы) или близко по
смыслу (часть-целое, род-вид)
Власти Киргизии не опасаются, что решение о закрытии базы может
привести к обострению взаимоотношений с США и западноевропейским
государствами. "Никаких политических разногласий у нас с США нет."
24.10.2011
6. МЕТОДЫ УСЛОЖНЕНИЯ
ПРЕДСТАВЛЕНИЯ
6
Применение тезаурусов
Синонимы
Словосочетания
Лексические цепочки
Но: все заранее описать невозможно
Разрешение кореферентности
Именованные объекты
Полное и частичное наименование
Разрешение кореферентности
Но: вариативность наименования относится не только к
именованным сущностям
24.10.2011
7. МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И
КВАЗИСИНОНИМЫ
7
Многословные выражения, отдельные части
которых зачастую не отражают смысла всего
выражения («Российская Федерация», «Авиабаза
Манас»)
Квазисинонимы – слова или выражения, которые
не являются синонимами в общем случае, но
могут таковыми являться к некотором контексте
Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не
являются синонимами в общем случае, но в
контексте некоторого специфичного текста могут
таковыми являться
24.10.2011
8. ИДЕЯ ИССЛЕДОВАНИЯ
8
Новостной кластер содержит множество документов на
одну и ту же тему
Рерайтеры специально переписывают тексты, используя
синонимы и близкие по смыслу слова
Задача: на основе структуры кластера
извлечь многословные выражения, обозначающие
основные сущности кластера,
найти слова и словосочетания, являющиеся
квазисинонимами в рамках данного кластера
Метод:
Свойства связного текста - глобальная связность
Новостной кластер (посвящен одной теме)
24.10.2011
9. ПЛАН ДОКЛАДА
9
Постановка задачи выделения
многословных выражений и
квазисинонимов
Обзор существующих методов
Гипотеза и ее проверка
Предлагаемый подход и его оценка
Заключение 24.10.2011
10. Context-based Quasi-Synonym Extraction - 1
University of Massachusetts, USA, 2009
10
Van Dang, Xiaobing Xue and W. Bruce Croft
Извлечение квазисинонимов из текстового корпуса
Метод основан на анализе контекстов употребления
кандидатов в квазисинонимы (как и большинство
существующих методов)
Различия методов: какой контекст рассматривать и с
помощью какой метрики вычислять меру схожести
В работе предлагается метод акцентирующийся на
качестве, а не на типе контекста
Например слова-кандидаты «пистолет» и «ружьё» и
контекстные слова «целиться» и «положить»:
“.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..”
“.. целиться из пистолета .. “ – “.. целиться из ружья ..”
24.10.2011
11. Context-based Quasi-Synonym Extraction - 2
University of Massachusetts, USA, 2009
11
Van Dang, Xiaobing Xue and W. Bruce Croft
Чем чаще слово употребляется в различных контекстах,
тем меньше контекстной информации оно несёт:
1 1
P( с)
Z W
W – количество слов с данным контекстом
Z – нормализующий параметр
Контекст слова – n-грамма слов вокруг него
Предложено два варианта вычисления
квазисинонимичности выражений: с начислением
«штрафных» баллов за несовпадающий контекст и без
Идея – чем больше контекстов лучшего качества выражения
разделяют, тем выше их квазисинонимичность
24.10.2011
12. Extracting Paraphrases from a Parallel Corpus - 1
Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
12
Задача – построение корпуса парафраз для дальнейшего
его применения в различных областях
Сравнении различных переводов одного и того же текста
Использовались различные переводы различных романов
на английский язык (всего 11 текстов)
Препроцессинг: выравнивание предложений текстов (на
основе одинаковых слов, которых было 42%, P = 92%)
Всего получилось 44.562 предложения (1.798.526 слов)
Алгоритм взаимного обучения (co-training)
24.10.2011
13. Extracting Paraphrases from a Parallel Corpus - 2
Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
13
Шаблоны (паттерны) парафраз: последовательность
частей речи с пометками о повторении слов:
Emma burst into tears and he tried to comfort her, saying things
to make her smile.
Emma cried, and he tried to console her, adorning his words with
puns.
left =“VB1 TO2 ” (“tried to”) right =“PRP$3 ,4 ” (“her ,”)
Инициализация алгоритма: шаблоны контекстов
одинаковых слов
В качестве отрицательных примеров – остальные
сочетания со словами предложения ((n-1) + (m-1))
После извлечения шаблонов опять извлекаются
парафразы и алгоритм зацикливается 24.10.2011
14. Extracting Paraphrases from a Parallel Corpus - 3
Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
14
Длина контекста – 3 слова (но также запоминаются более
короткие контексты, так как они иногда лучше)
В рамках оценки результатов проведен анализ
согласованности асессоров при определении парафраз
Согласованность асессоров:
68% без контекстов 97% с контекстами
Точность:
~85% без контекстов ~92% с контекстами
Полнота: 69%
Синонимы( 35%) гиперонимы (32%) сёстры (18%)
без связи (10%) другие типы связи (5%) 24.10.2011
15. ПЛАН ДОКЛАДА
15
Постановка задачи выделения
многословных выражений и
квазисинонимов
Обзор существующих методов
Гипотеза и ее проверка
Предлагаемый подход и его оценка
Заключение 24.10.2011
16. ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА
16
Van Dijk и гипотеза глобальной связности (1985)
Связный текст имеет одну главную тему и эта
тема может быть выражена как пропозиция
Тема целого текста раскрывается в тексте
посредством локальных тем
Каждое предложение текста соответствует
некоторой теме текста
Механизм глобальной связности позволяет
контролировать локальный связки и переходы
24.10.2011
17. ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs.
ГЛОБАЛЬНАЯ СВЯЗНОСТЬ
17
Связный текст обладает лексической
связностью: лексические и семантические
повторы
Лексическая связность – инструмент глобальной
связности
Чем больше две сущности упоминаются в одних
и тех же предложениях текста, тем более важно
отношение между ними для содержания текста
Если сущности часто упоминаются, но мало
встречаются в одних и тех же предложениях
текста, то возможно они связаны между собой
по смыслу (синоним, род-вид, часть-целое)
24.10.2011
18. АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1
18
Проверка предположений была произведена с
помощью Тезауруса русского языка РуТез
В качестве правильных примеров
квазисинонимии рассматривались объекты,
связанные в Тезаурусе
Различные типы связи рассматривались отдельно
Две группы по частям речи:
СУЩ. + СУЩ. # ПРИЛ. + СУЩ.
Для каждой пары объектов вычислялись
количество вхождений в одни и те же
предложения (Fsegm) и в соседние (Fsent)
24.10.2011
19. АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2
19
Тип связи Fsegm / Fsent Число пар
Синонимы (СУЩ + СУЩ) 0.309 31
Синонимы (ПРИЛ + СУЩ) 0.491 53
Род – Вид (СУЩ + СУЩ) 1.130 88
Род – Вид (ПРИЛ + СУЩ) 1.471 28
Часть – Целое (СУЩ + СУЩ) 0.779 58
Часть – Целое (ПРИЛ + СУЩ) 1.580 29
Без связи по Тезаурусу 1.440 21483
20. НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА
СВЯЗНОГО ТЕКСТА
20
Кластер – не является связным текстом,
но имеет тему кластера
статистические особенности усиливаются
Извлечение
Многословных выражений,
Совокупностей квазисинонимов
Пример: Новостной кластер от 19.02.2009
Тема: Денонсация соглашения между Киргизией и США
по поводу авиабазы США, расположенной в
международном аэропорту Манас
195 новостных документов
24.10.2011
21. ПЛАН ДОКЛАДА
21
Постановка задачи выделения
многословных выражений и
квазисинонимов
Обзор существующих методов
Гипотеза и ее проверка
Предлагаемый подход и его оценка
Заключение
24.10.2011
22. ПРЕДЛАГАЕМЫЙ ПОДХОД
22
Комбинация классического подхода (анализ контекстов) с
гипотезой совместной встречаемости
4 типа контекстов: через глагол (AV); рядом (Near); не
рядом (NN); в соседних предложениях (NS)
Основное правило:
NS > 2 * (AV + Near + NN)
Выделение квазисинонимов проходит в 3 этапа
«Классическая» составляющая: использование жестких
контекстов (2 слова до и после сущности)
Использование формальных сходств сущностей-
кандидатов
24.10.2011
23. ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ
23
Этап 1: Совместное использование «жестких» контекстов
и формальных сходств сущностей-кандидатов, таких как:
Метрики схожести (использовался простой вариант -
одинаковые начала слов объектов)
«Вложенные» объекты (все слова одного объекта
встречаются в другом)
«Пересекающиеся» объекты (слова объектов имеют
пересечения)
Этап 2: Использование только «жестких» контекстов
Этап 3: Использование только формальных сходств
Каждый этап является итеративным (до тех пор, пока
происходит хотя бы одна склейка) 24.10.2011
24. РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА
НА КЛАСТЕРЕ ПРИМЕРЕ
24
Авиабаза: авиабаза Манас, база, база Манас,
военный база, закрытие базы
Денонсация соглашения с США: денонсация
соглашения, денонсация договора, расторжение
договора, соглашение, денонсация
Парламент Киргизии: Киргизский парламент,
парламент Кыргызстана, парламент,
киргизский, парламентский, парламентарий;
Манас: аэропорт Манас, Международный
аэропорт Манас
24.10.2011
25. ТЕСТИРОВАНИЕ МЕТОДА
25
Оценка результата нетривиальна: высокая степень
субъективности и низкая согласованность экспертов
«Человеческое» восприятие не самое главное – важна
применимость в других задачах
Исследована применимость к задаче аннотирования
11 новостных кластеров, 2-4 ручные аннотации к каждому
Оценка содержания аннотаций методом «Пирамиды»
Ручное выделение «информационных единиц» – фактов
Итоговая оценка:
вес _ найденных _ ИЕ
вес _ всех _ ИЕ _ данного _ кластера 24.10.2011
26. Maximal Marginal Relevance (MMR)
26
Известный метод для запрос-ориентированного
аннотирования (1998)
Итеративный метод
Ранжирование предложений-кандидатов:
Максимизировать сходство с запросом
Минимизировать сходство с уже отобранными в
аннотацию предложениями
Пусть: Q – запрос к системе, S – множество предложений
кандидатов, s – рассматриваемое предложение кандидат,
Е – множество выбранных предложений. Тогда:
MMR arg max Sim1 s, Q 1 max Sim2 s, s j
sS s j E 24.10.2011
27. Аннотирование на основе
тематического представления текста
27
Построение тематического представления - разбиение
понятий на группы близких по смыслу понятий (Тезаурус)
Оперируем не отдельными словами, а набором близких
по смыслу слов, используемых именно в этом тексте
Аннотация состоит из заголовка и нескольких
предложений (из разных документов кластера)
Заголовок – один из заголовков документов (по весу)
Основная идея: включение как уже упомянутого, так и
нового тематического узла при отборе предложения
Выбирается предложение:
Имеющее наибольший вес
Содержащее уже упомянутый тематический узел
Содержащее новый тематический узел 24.10.2011
28. РЕЗУЛЬТАТЫ
28
Название метода Оценка
M
MMR по словам 0,557
M MMR по квазисинонимам 0,601
R MMR по тематическим узлам тезауруса 0,537
Аннотирование по тематическим узлам
(узлы на основе тезауруса)
0,560
Ан.
Аннотирование по тематическим узлам
по
(узлы на основе рядов квазисинонимов, 30 штук)
0,669
Т.У.
Аннотирование по тематическим узлам
(узлы на основе рядов квазисинонимов, 50 штук)
0,665
29. ЗАКЛЮЧЕНИЕ
29
Поставлена задача выделения квазисинонимов в текстах
Дан обзор существующих подходов в данной области
Выдвинута и проверена гипотеза о скрытых взаимосвязях
в реальных текстах
На основании гипотезы предложен новый подход для
выделения квазисинонимов
Предложенный подход протестирован в контексте
применимости к важной задаче автоматической
обработки текста – автоматическое аннотирование
В дальнейшем предполагается создание комплексного
метода, комбинирующего текущие ряды квазисинонимов
с информацией из тезауруса 24.10.2011