Комбинирование факторов для разрешения референции местоимений

ДИПЛОМНАЯ РАБОТА

Комбинирование факторов
для разрешения
референции местоимений

Автор: Ерин Александр (группа 525)
Научный руководитель:
к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.

Задача разрешения референции
Разрешение референции, т.е. нахождение для местоимений
соответствующих референтов, в тексте и есть задача
референциального анализа.
«Сам Евгений Чичваркин [референт] приветствовал
сегодняшний вердикт присяжных, в интервью
радиостанции "Эхо Москвы" он заявил, что инициаторов
этого процесса нужно судить.»
Применение
 Семантический анализ текста
 Перевод с одного естественного языка на другой
 Информационный поиск
 Извлечение знаний из текстов
2

Постановка задачи
• Создать программную систему для
разрешения референции местоимений
русскоязычных текстов
• Предложить и опробовать различные
подходы к разрешению референции в ходе
реализации программной системы
• Для настройки и тестирования
использовать наборы русскоязычных
новостных текстов
3

Предварительная обработка
• Разбивка текста на предложения
• Выделение слов, знаков препинания и прочих объектов в
предложении
• Сопоставление слов из текста с результатом работы
морфологического анализа

• Выделение цитат
• Определение однородных членов предложения

4

Базовый этап
Используется только морфологический анализ – высокая
неоднозначность слов
Факторы оценки потенциального референта:
 взаимное расположение местоимения и кандидата в
референты – количество предложений между,
количество грамматических основ между, положение
внутри цитаты
 количество совпавших атрибутов – род, число
 одушевленность – наибольшая оценка одушевленным
 падеж кандидата

5

Устранение неоднозначности - 1
• Фильтрация падежей слов на основе предшествующих им
предлогов и предложных слов:
«благодаря фракции [рд, дт, пр, им, вн]»
• Подключение синтаксического анализа (Диалинг АОТ) и
корректировка на его основе:
– Частей речи
• ПОДЛ {дорога [СУЩ, ПРИЛ] -> прокладывается}
– Падежей
• ПРЯМ_ДОП {дали -> показания [рд, им, вн]}
– Множественности слов
• ЧИСЛ_СУЩ {чиновника [ед, мн] -> оба}
6

Создание базы сущностей – наследование атрибутов
Для некоторых имен собственных морфологический
анализатор не предоставляет никаких атрибутов, либо
только неверные наборы
• «Финская компания Tieto [] намерена вложить более 130
млн долл. в создание центров разработки в российских
технопарках.»
• «Г-н Песня [жр] не уточнил, какую сумму он получил,
продав компанию, сказав только, что ее оборот за 2008
год…»
• «По словам аналитика iKS-Сonsulting Константина
Анкилова [жр],…»
7

При проходе текста основные атрибуты наследуются от
уточняющего слова, при этом создается следующая база
сущностей
Основное слово Дополнительные слова Наборы атрибутов

Tieto компания жр, ед, неодуш
Песня Юрий; г-н мр, ед, одуш
Основываясь на данной базе корректируются наборы
атрибутов слов по всему тексту.

8

Применение статистики - 1
Текстов 2,6 млн ПОДЛ 1,8 / 13 млн ГЕНИТ_ИГ 1,3 / 23 млн
База статистически близких глаголов - 2838 слов .
Статистические признаки:
1) ПОДЛ {СУЩ1 -> ГЛАГ}
2) ГЕНИТ_ИГ {СУЩ1 -> СУЩ2}, где
СУЩ1 – потенциальный референт
ГЛАГ – глагол употребленный с местоимением
СУЩ2 – слово зависимое от ГЛАГ
«…приказал Медведев. Также он издал указ о…»
Если потенциальный референт – имя собственное, для
поиска по статистической базе используются
«дополнительные слова» из базы сущностей.
9

Применение статистики - 2
3) Статистика употребления с глаголом одушевленных и
неодушевленных слов (заменяет базовую оценку на
одушевленность):
ВНЕДРИТЬ од = 12.5% ЛЮБИТЬ од = 85.71%
АКЦЕНТИРОВАТЬ од = 92.59% СПАТЬ од = 100.0%
4) Статистическая близость глагола употребленного с
местоимением и глагола употребленного с
потенциальным референтом.
«…поведал аналитик компании Head Hunter. Он также
сказал, что рост рынка труда…»

10

Комбинирование факторов
• Каждый фактор из базовой оценки и статистической
оценки имеет свой вес в векторе весовых коэффициентов
• Значения коэффициентов данного вектора подбирались
опытным путем
• Этап устранения неоднозначности влияет на все факторы в
совокупности
ЭТАП НАСТРОЕЧНЫЙ ПРОВЕРОЧНЫЙ

Базовый уровень 76,1% 75,32%

Устранение неоднозначности 81,2% 80,6%

Применение статистики 82,71% 82,41%

11

Схема программной системы
Язык разработки - Морфологический
Java анализатор Входной текст

Коричневые модули
– внешние Диалинг Модуль
Синтаксический
АОТ предварительной
анализатор
обработки

Входные данные –
русскоязычный текст Модуль устранения
Статистическая
база неоднозначностей
Выходные данные –
размеченный текст с
установленной Текст с
референцией в XML Модуль разрешения
установленной референции
и HTML форматах референцией

12

Основные результаты
• Разработана программная система автоматического
разрешения референции местоимений
русскоязычных текстов
• Рассмотрены статистические признаки для
разрешения референции, а также предложен
способ их улучшения на основе базы сущностей
• Предложен новый признак – статистическая
близость между глаголом местоимения и глаголом
потенциального референта
• Удалось улучшить точность разрешения
референции на 9.41% по сравнению с базовым
уровнем

13

Комбинирование факторов для разрешения референции местоимений

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Комбинирование факторов для разрешения референции местоимений

Similar to Комбинирование факторов для разрешения референции местоимений (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Комбинирование факторов для разрешения референции местоимений