презентация (Quasi synonyms, вмк 25.10.2011)

АВТОМАТИЧЕСКОЕ
ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА
ОСНОВЕ СТРУКТУРЫ
НОВОСТНОГО КЛАСТЕРА
Автор: Алексеев Алексей Александрович
Научный руководитель: Лукашевич Наталья Валентиновна

ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ
2

 Новостные сервисы (30-40 тыс. документов в
день)
 Кластеризация новостей на одну тему –
новостной кластер (вхождения слов)
 Удаление дубликатов
 Рубрикация по тематическим рубрикам
 Автоматическое аннотирование
 Определение новизны
 Извлечение информации

 Многие операции выполняются на основе
пословного представления
24.10.2011

ПРОБЛЕМЫ ПОСЛОВНОГО
ПРЕДСТАВЛЕНИЯ
3

 Одна сущность названа посредством цепочки слов
(многословным выражением)
 В кластере используется много разных наименований
одной и той же сущности
 Авиабаза США в Киргизии:
 база Манас, авиабаза Манас, Манас,
 база в международном аэропорту Манас,
 база США, американская авиабаза
 Проблемы:
 Определение границ кластера
 Автоматическое порождение аннотации
 Определение новизны информации
 Выделение подкластеров и др.
24.10.2011

ПРИРОДА ВОЗНИКНОВЕНИЯ
ВАРИАТИВНОСТИ - 1
4

 Цель использования:
 Референция (отнесенность языкового выражения к одному
и тому же объекту действительности)
3 февраля президент Киргизии Курманбек Бакиев заявил о решении
правительства прекратить деятельность авиабазы на территории
республики… Президент не стал скрывать, что экономические резоны
стали главной причиной побудившей правительство страны принять
такое решение.
 Перефразирование (изменение текста без изменения
смысла - рерайтинг)
Судьбу авиабазы США в "Манасе" решит парламент Киргизии.
Парламент Киргизии в четверг примет окончательное решение о судьбе
авиабазы США.
 Лексическая связность (обеспечение связности текста
посредством известных взаимоотношений слов) 24.10.2011

ПРИРОДА ВОЗНИКНОВЕНИЯ
ВАРИАТИВНОСТИ - 2
5

 Привязка к контексту:
 Общеизвестно (Киргизия – Киргизстан)
 Выводится из контекста
В декабре 2006 года 46-летний водитель топливозаправщика киргизской
фирмы, занимающейся обслуживанием аэропорта "Манас", Александр
Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом
на КПП при въезде на перрон аэропорта"… Американский военный,
несмотря на неоднократные требования киргизского МИДа, также был
тайно вывезен с территории страны и до сих пор не предстал перед
судом.
 Одинаково по смыслу (синонимы) или близко по
смыслу (часть-целое, род-вид)
Власти Киргизии не опасаются, что решение о закрытии базы может
привести к обострению взаимоотношений с США и западноевропейским
государствами. "Никаких политических разногласий у нас с США нет."
24.10.2011

МЕТОДЫ УСЛОЖНЕНИЯ
ПРЕДСТАВЛЕНИЯ
6

 Применение тезаурусов
 Синонимы
 Словосочетания
 Лексические цепочки
 Но: все заранее описать невозможно

 Разрешение кореферентности
 Именованные объекты
 Полное и частичное наименование
 Разрешение кореферентности
 Но: вариативность наименования относится не только к
именованным сущностям
24.10.2011

МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И
КВАЗИСИНОНИМЫ
7

 Многословные выражения, отдельные части
которых зачастую не отражают смысла всего
выражения («Российская Федерация», «Авиабаза
Манас»)
 Квазисинонимы – слова или выражения, которые
не являются синонимами в общем случае, но
могут таковыми являться к некотором контексте
 Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не
являются синонимами в общем случае, но в
контексте некоторого специфичного текста могут
таковыми являться
24.10.2011

ИДЕЯ ИССЛЕДОВАНИЯ
8

 Новостной кластер содержит множество документов на
одну и ту же тему
 Рерайтеры специально переписывают тексты, используя
синонимы и близкие по смыслу слова
 Задача: на основе структуры кластера
 извлечь многословные выражения, обозначающие
основные сущности кластера,
 найти слова и словосочетания, являющиеся
квазисинонимами в рамках данного кластера
 Метод:
 Свойства связного текста - глобальная связность

 Новостной кластер (посвящен одной теме)
24.10.2011

ПЛАН ДОКЛАДА
9

 Постановка задачи выделения
многословных выражений и
квазисинонимов

 Обзор существующих методов
 Гипотеза и ее проверка
 Предлагаемый подход и его оценка
 Заключение 24.10.2011

Context-based Quasi-Synonym Extraction - 1
University of Massachusetts, USA, 2009
10
Van Dang, Xiaobing Xue and W. Bruce Croft
 Извлечение квазисинонимов из текстового корпуса
 Метод основан на анализе контекстов употребления
кандидатов в квазисинонимы (как и большинство
существующих методов)
 Различия методов: какой контекст рассматривать и с
помощью какой метрики вычислять меру схожести
 В работе предлагается метод акцентирующийся на
качестве, а не на типе контекста
 Например слова-кандидаты «пистолет» и «ружьё» и
контекстные слова «целиться» и «положить»:
“.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..”
“.. целиться из пистолета .. “ – “.. целиться из ружья ..”
24.10.2011

Context-based Quasi-Synonym Extraction - 2
University of Massachusetts, USA, 2009
11
Van Dang, Xiaobing Xue and W. Bruce Croft
 Чем чаще слово употребляется в различных контекстах,
тем меньше контекстной информации оно несёт:
1 1
P( с)  
Z W
W – количество слов с данным контекстом
Z – нормализующий параметр
 Контекст слова – n-грамма слов вокруг него
 Предложено два варианта вычисления
квазисинонимичности выражений: с начислением
«штрафных» баллов за несовпадающий контекст и без
 Идея – чем больше контекстов лучшего качества выражения
разделяют, тем выше их квазисинонимичность
24.10.2011

Extracting Paraphrases from a Parallel Corpus - 1
Columbia University, USA, 2001
Regina Barzilay and Kathleen R. McKeown
12

 Задача – построение корпуса парафраз для дальнейшего
его применения в различных областях

 Сравнении различных переводов одного и того же текста

 Использовались различные переводы различных романов
на английский язык (всего 11 текстов)

 Препроцессинг: выравнивание предложений текстов (на
основе одинаковых слов, которых было 42%, P = 92%)

 Всего получилось 44.562 предложения (1.798.526 слов)

 Алгоритм взаимного обучения (co-training)
24.10.2011

13

 Шаблоны (паттерны) парафраз: последовательность
частей речи с пометками о повторении слов:
Emma burst into tears and he tried to comfort her, saying things
to make her smile.
Emma cried, and he tried to console her, adorning his words with
puns.
left =“VB1 TO2 ” (“tried to”) right =“PRP$3 ,4 ” (“her ,”)
 Инициализация алгоритма: шаблоны контекстов
одинаковых слов
 В качестве отрицательных примеров – остальные
сочетания со словами предложения ((n-1) + (m-1))
 После извлечения шаблонов опять извлекаются
парафразы и алгоритм зацикливается 24.10.2011

14

 Длина контекста – 3 слова (но также запоминаются более
короткие контексты, так как они иногда лучше)
 В рамках оценки результатов проведен анализ
согласованности асессоров при определении парафраз
 Согласованность асессоров:
68% без контекстов 97% с контекстами
 Точность:
~85% без контекстов ~92% с контекстами
 Полнота: 69%
 Синонимы( 35%) гиперонимы (32%) сёстры (18%)
без связи (10%) другие типы связи (5%) 24.10.2011

15

 Обзор существующих методов

 Гипотеза и ее проверка
 Предлагаемый подход и его оценка
 Заключение 24.10.2011

ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА
16

 Van Dijk и гипотеза глобальной связности (1985)
 Связный текст имеет одну главную тему и эта
тема может быть выражена как пропозиция
 Тема целого текста раскрывается в тексте
посредством локальных тем
 Каждое предложение текста соответствует
некоторой теме текста
 Механизм глобальной связности позволяет
контролировать локальный связки и переходы
24.10.2011

ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs.
ГЛОБАЛЬНАЯ СВЯЗНОСТЬ
17

 Связный текст обладает лексической
связностью: лексические и семантические
повторы
 Лексическая связность – инструмент глобальной
связности
 Чем больше две сущности упоминаются в одних
и тех же предложениях текста, тем более важно
отношение между ними для содержания текста
 Если сущности часто упоминаются, но мало
встречаются в одних и тех же предложениях
текста, то возможно они связаны между собой
по смыслу (синоним, род-вид, часть-целое)
24.10.2011

АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1
18

 Проверка предположений была произведена с
помощью Тезауруса русского языка РуТез
 В качестве правильных примеров
квазисинонимии рассматривались объекты,
связанные в Тезаурусе
 Различные типы связи рассматривались отдельно
 Две группы по частям речи:
СУЩ. + СУЩ. # ПРИЛ. + СУЩ.
 Для каждой пары объектов вычислялись
количество вхождений в одни и те же
предложения (Fsegm) и в соседние (Fsent)
24.10.2011

АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2
19

Тип связи Fsegm / Fsent Число пар

Синонимы (СУЩ + СУЩ) 0.309 31
Синонимы (ПРИЛ + СУЩ) 0.491 53
Род – Вид (СУЩ + СУЩ) 1.130 88
Род – Вид (ПРИЛ + СУЩ) 1.471 28
Часть – Целое (СУЩ + СУЩ) 0.779 58
Часть – Целое (ПРИЛ + СУЩ) 1.580 29
Без связи по Тезаурусу 1.440 21483

НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА
СВЯЗНОГО ТЕКСТА
20

 Кластер – не является связным текстом,
 но имеет тему кластера
 статистические особенности усиливаются
 Извлечение
 Многословных выражений,
 Совокупностей квазисинонимов

 Пример: Новостной кластер от 19.02.2009
 Тема: Денонсация соглашения между Киргизией и США
по поводу авиабазы США, расположенной в
международном аэропорту Манас
 195 новостных документов
24.10.2011

21

 Обзор существующих методов
 Гипотеза и ее проверка
 Предлагаемый подход и его оценка
 Заключение
24.10.2011

ПРЕДЛАГАЕМЫЙ ПОДХОД
22

 Комбинация классического подхода (анализ контекстов) с
гипотезой совместной встречаемости
 4 типа контекстов: через глагол (AV); рядом (Near); не
рядом (NN); в соседних предложениях (NS)
 Основное правило:
NS > 2 * (AV + Near + NN)
 Выделение квазисинонимов проходит в 3 этапа
 «Классическая» составляющая: использование жестких
контекстов (2 слова до и после сущности)
 Использование формальных сходств сущностей-
кандидатов
24.10.2011

ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ
23

 Этап 1: Совместное использование «жестких» контекстов
и формальных сходств сущностей-кандидатов, таких как:
 Метрики схожести (использовался простой вариант -
одинаковые начала слов объектов)
 «Вложенные» объекты (все слова одного объекта
встречаются в другом)
 «Пересекающиеся» объекты (слова объектов имеют
пересечения)

 Этап 2: Использование только «жестких» контекстов

 Этап 3: Использование только формальных сходств

 Каждый этап является итеративным (до тех пор, пока
происходит хотя бы одна склейка) 24.10.2011

РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА
НА КЛАСТЕРЕ ПРИМЕРЕ
24

 Авиабаза: авиабаза Манас, база, база Манас,
военный база, закрытие базы
 Денонсация соглашения с США: денонсация
соглашения, денонсация договора, расторжение
договора, соглашение, денонсация
 Парламент Киргизии: Киргизский парламент,
парламент Кыргызстана, парламент,
киргизский, парламентский, парламентарий;
 Манас: аэропорт Манас, Международный
аэропорт Манас
24.10.2011

ТЕСТИРОВАНИЕ МЕТОДА
25

 Оценка результата нетривиальна: высокая степень
субъективности и низкая согласованность экспертов
 «Человеческое» восприятие не самое главное – важна
применимость в других задачах
 Исследована применимость к задаче аннотирования
 11 новостных кластеров, 2-4 ручные аннотации к каждому
 Оценка содержания аннотаций методом «Пирамиды»
 Ручное выделение «информационных единиц» – фактов
 Итоговая оценка:
 вес _ найденных _ ИЕ
 вес _ всех _ ИЕ _ данного _ кластера 24.10.2011

Maximal Marginal Relevance (MMR)
26

 Известный метод для запрос-ориентированного
аннотирования (1998)
 Итеративный метод
 Ранжирование предложений-кандидатов:
 Максимизировать сходство с запросом

 Минимизировать сходство с уже отобранными в
аннотацию предложениями
Пусть: Q – запрос к системе, S – множество предложений
кандидатов, s – рассматриваемое предложение кандидат,
Е – множество выбранных предложений. Тогда:
 
MMR  arg max   Sim1 s, Q   1     max Sim2 s, s j 
sS  s j E  24.10.2011

Аннотирование на основе
тематического представления текста
27

 Построение тематического представления - разбиение
понятий на группы близких по смыслу понятий (Тезаурус)
 Оперируем не отдельными словами, а набором близких
по смыслу слов, используемых именно в этом тексте
 Аннотация состоит из заголовка и нескольких
предложений (из разных документов кластера)
 Заголовок – один из заголовков документов (по весу)
 Основная идея: включение как уже упомянутого, так и
нового тематического узла при отборе предложения
 Выбирается предложение:
 Имеющее наибольший вес
 Содержащее уже упомянутый тематический узел
 Содержащее новый тематический узел 24.10.2011

РЕЗУЛЬТАТЫ
28

Название метода Оценка

M
MMR по словам 0,557
M MMR по квазисинонимам 0,601
R MMR по тематическим узлам тезауруса 0,537
Аннотирование по тематическим узлам
(узлы на основе тезауруса)
0,560
Ан.
по
(узлы на основе рядов квазисинонимов, 30 штук)
0,669
Т.У.
(узлы на основе рядов квазисинонимов, 50 штук)
0,665

ЗАКЛЮЧЕНИЕ
29

 Поставлена задача выделения квазисинонимов в текстах
 Дан обзор существующих подходов в данной области
 Выдвинута и проверена гипотеза о скрытых взаимосвязях
в реальных текстах
 На основании гипотезы предложен новый подход для
выделения квазисинонимов
 Предложенный подход протестирован в контексте
применимости к важной задаче автоматической
обработки текста – автоматическое аннотирование
 В дальнейшем предполагается создание комплексного
метода, комбинирующего текущие ряды квазисинонимов
с информацией из тезауруса 24.10.2011

презентация (Quasi synonyms, вмк 25.10.2011)

Recommended

Recommended

More Related Content

Similar to презентация (Quasi synonyms, вмк 25.10.2011)

Similar to презентация (Quasi synonyms, вмк 25.10.2011) (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

презентация (Quasi synonyms, вмк 25.10.2011)