рогова обзор средств поддержки обучения программированию
Комбинирование факторов для разрешения референции местоимений
1. ДИПЛОМНАЯ РАБОТА
Комбинирование факторов
для разрешения
референции местоимений
Автор: Ерин Александр (группа 525)
Научный руководитель:
к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
2. Задача разрешения референции
Разрешение референции, т.е. нахождение для местоимений
соответствующих референтов, в тексте и есть задача
референциального анализа.
«Сам Евгений Чичваркин [референт] приветствовал
сегодняшний вердикт присяжных, в интервью
радиостанции "Эхо Москвы" он заявил, что инициаторов
этого процесса нужно судить.»
Применение
Семантический анализ текста
Перевод с одного естественного языка на другой
Информационный поиск
Извлечение знаний из текстов
2
3. Постановка задачи
• Создать программную систему для
разрешения референции местоимений
русскоязычных текстов
• Предложить и опробовать различные
подходы к разрешению референции в ходе
реализации программной системы
• Для настройки и тестирования
использовать наборы русскоязычных
новостных текстов
3
4. Предварительная обработка
• Разбивка текста на предложения
• Выделение слов, знаков препинания и прочих объектов в
предложении
• Сопоставление слов из текста с результатом работы
морфологического анализа
• Выделение цитат
• Определение однородных членов предложения
4
5. Базовый этап
Используется только морфологический анализ – высокая
неоднозначность слов
Факторы оценки потенциального референта:
взаимное расположение местоимения и кандидата в
референты – количество предложений между,
количество грамматических основ между, положение
внутри цитаты
количество совпавших атрибутов – род, число
одушевленность – наибольшая оценка одушевленным
падеж кандидата
5
6. Устранение неоднозначности - 1
• Фильтрация падежей слов на основе предшествующих им
предлогов и предложных слов:
«благодаря фракции [рд, дт, пр, им, вн]»
• Подключение синтаксического анализа (Диалинг АОТ) и
корректировка на его основе:
– Частей речи
• ПОДЛ {дорога [СУЩ, ПРИЛ] -> прокладывается}
– Падежей
• ПРЯМ_ДОП {дали -> показания [рд, им, вн]}
– Множественности слов
• ЧИСЛ_СУЩ {чиновника [ед, мн] -> оба}
6
7. Устранение неоднозначности - 2
Создание базы сущностей – наследование атрибутов
Для некоторых имен собственных морфологический
анализатор не предоставляет никаких атрибутов, либо
только неверные наборы
• «Финская компания Tieto [] намерена вложить более 130
млн долл. в создание центров разработки в российских
технопарках.»
• «Г-н Песня [жр] не уточнил, какую сумму он получил,
продав компанию, сказав только, что ее оборот за 2008
год…»
• «По словам аналитика iKS-Сonsulting Константина
Анкилова [жр],…»
7
8. Устранение неоднозначности - 3
При проходе текста основные атрибуты наследуются от
уточняющего слова, при этом создается следующая база
сущностей
Основное слово Дополнительные слова Наборы атрибутов
Tieto компания жр, ед, неодуш
Песня Юрий; г-н мр, ед, одуш
Основываясь на данной базе корректируются наборы
атрибутов слов по всему тексту.
8
9. Применение статистики - 1
Текстов 2,6 млн ПОДЛ 1,8 / 13 млн ГЕНИТ_ИГ 1,3 / 23 млн
База статистически близких глаголов - 2838 слов .
Статистические признаки:
1) ПОДЛ {СУЩ1 -> ГЛАГ}
2) ГЕНИТ_ИГ {СУЩ1 -> СУЩ2}, где
СУЩ1 – потенциальный референт
ГЛАГ – глагол употребленный с местоимением
СУЩ2 – слово зависимое от ГЛАГ
«…приказал Медведев. Также он издал указ о…»
Если потенциальный референт – имя собственное, для
поиска по статистической базе используются
«дополнительные слова» из базы сущностей.
9
10. Применение статистики - 2
3) Статистика употребления с глаголом одушевленных и
неодушевленных слов (заменяет базовую оценку на
одушевленность):
ВНЕДРИТЬ од = 12.5% ЛЮБИТЬ од = 85.71%
АКЦЕНТИРОВАТЬ од = 92.59% СПАТЬ од = 100.0%
4) Статистическая близость глагола употребленного с
местоимением и глагола употребленного с
потенциальным референтом.
«…поведал аналитик компании Head Hunter. Он также
сказал, что рост рынка труда…»
10
11. Комбинирование факторов
• Каждый фактор из базовой оценки и статистической
оценки имеет свой вес в векторе весовых коэффициентов
• Значения коэффициентов данного вектора подбирались
опытным путем
• Этап устранения неоднозначности влияет на все факторы в
совокупности
ЭТАП НАСТРОЕЧНЫЙ ПРОВЕРОЧНЫЙ
Базовый уровень 76,1% 75,32%
Устранение неоднозначности 81,2% 80,6%
Применение статистики 82,71% 82,41%
11
12. Схема программной системы
Язык разработки - Морфологический
Java анализатор Входной текст
Коричневые модули
– внешние Диалинг Модуль
Синтаксический
АОТ предварительной
анализатор
обработки
Входные данные –
русскоязычный текст Модуль устранения
Статистическая
база неоднозначностей
Выходные данные –
размеченный текст с
установленной Текст с
референцией в XML Модуль разрешения
установленной референции
и HTML форматах референцией
12
13. Основные результаты
• Разработана программная система автоматического
разрешения референции местоимений
русскоязычных текстов
• Рассмотрены статистические признаки для
разрешения референции, а также предложен
способ их улучшения на основе базы сущностей
• Предложен новый признак – статистическая
близость между глаголом местоимения и глаголом
потенциального референта
• Удалось улучшить точность разрешения
референции на 9.41% по сравнению с базовым
уровнем
13