SlideShare a Scribd company logo
1 of 13
Download to read offline
ДИПЛОМНАЯ РАБОТА

Комбинирование факторов
    для разрешения
референции местоимений

    Автор: Ерин Александр (группа 525)
                Научный руководитель:
    к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
Задача разрешения референции
Разрешение референции, т.е. нахождение для местоимений
соответствующих референтов, в тексте и есть задача
референциального анализа.
«Сам Евгений Чичваркин [референт] приветствовал
сегодняшний вердикт присяжных, в интервью
радиостанции "Эхо Москвы" он заявил, что инициаторов
этого процесса нужно судить.»
Применение
 Семантический анализ текста
 Перевод с одного естественного языка на другой
 Информационный поиск
 Извлечение знаний из текстов
                                                     2
Постановка задачи
• Создать программную систему для
  разрешения референции местоимений
  русскоязычных текстов
• Предложить и опробовать различные
  подходы к разрешению референции в ходе
  реализации программной системы
• Для настройки и тестирования
  использовать наборы русскоязычных
  новостных текстов
                                           3
Предварительная обработка
• Разбивка текста на предложения
• Выделение слов, знаков препинания и прочих объектов в
  предложении
• Сопоставление слов из текста с результатом работы
  морфологического анализа




• Выделение цитат
• Определение однородных членов предложения



                                                          4
Базовый этап
Используется только морфологический анализ – высокая
неоднозначность слов
Факторы оценки потенциального референта:
 взаимное расположение местоимения и кандидата в
  референты – количество предложений между,
  количество грамматических основ между, положение
  внутри цитаты
 количество совпавших атрибутов – род, число
 одушевленность – наибольшая оценка одушевленным
 падеж кандидата

                                                       5
Устранение неоднозначности - 1
• Фильтрация падежей слов на основе предшествующих им
  предлогов и предложных слов:
      «благодаря фракции [рд, дт, пр, им, вн]»
• Подключение синтаксического анализа (Диалинг АОТ) и
  корректировка на его основе:
   – Частей речи
      • ПОДЛ {дорога [СУЩ, ПРИЛ] -> прокладывается}
   – Падежей
      • ПРЯМ_ДОП {дали -> показания [рд, им, вн]}
   – Множественности слов
      • ЧИСЛ_СУЩ {чиновника [ед, мн] -> оба}
                                                        6
Устранение неоднозначности - 2
Создание базы сущностей – наследование атрибутов
Для некоторых имен собственных морфологический
анализатор не предоставляет никаких атрибутов, либо
только неверные наборы
• «Финская компания Tieto [] намерена вложить более 130
  млн долл. в создание центров разработки в российских
  технопарках.»
• «Г-н Песня [жр] не уточнил, какую сумму он получил,
  продав компанию, сказав только, что ее оборот за 2008
  год…»
• «По словам аналитика iKS-Сonsulting Константина
  Анкилова [жр],…»
                                                      7
Устранение неоднозначности - 3
При проходе текста основные атрибуты наследуются от
уточняющего слова, при этом создается следующая база
сущностей
Основное слово   Дополнительные слова   Наборы атрибутов

Tieto            компания               жр, ед, неодуш
Песня            Юрий; г-н              мр, ед, одуш
Основываясь на данной базе корректируются наборы
атрибутов слов по всему тексту.


                                                           8
Применение статистики - 1
Текстов 2,6 млн ПОДЛ 1,8 / 13 млн ГЕНИТ_ИГ 1,3 / 23 млн
База статистически близких глаголов - 2838 слов .
Статистические признаки:
1) ПОДЛ {СУЩ1 -> ГЛАГ}
2) ГЕНИТ_ИГ {СУЩ1 -> СУЩ2}, где
       СУЩ1 – потенциальный референт
       ГЛАГ – глагол употребленный с местоимением
       СУЩ2 – слово зависимое от ГЛАГ
«…приказал Медведев. Также он издал указ о…»
Если потенциальный референт – имя собственное, для
поиска по статистической базе используются
«дополнительные слова» из базы сущностей.
                                                          9
Применение статистики - 2
3) Статистика употребления с глаголом одушевленных и
неодушевленных слов (заменяет базовую оценку на
одушевленность):
ВНЕДРИТЬ            од = 12.5% ЛЮБИТЬ        од = 85.71%
АКЦЕНТИРОВАТЬ од = 92.59% СПАТЬ              од = 100.0%
4) Статистическая близость глагола употребленного с
местоимением и глагола употребленного с
потенциальным референтом.
«…поведал аналитик компании Head Hunter. Он также
сказал, что рост рынка труда…»

                                                       10
Комбинирование факторов
• Каждый фактор из базовой оценки и статистической
  оценки имеет свой вес в векторе весовых коэффициентов
• Значения коэффициентов данного вектора подбирались
  опытным путем
• Этап устранения неоднозначности влияет на все факторы в
  совокупности
 ЭТАП                        НАСТРОЕЧНЫЙ   ПРОВЕРОЧНЫЙ

 Базовый уровень             76,1%         75,32%

 Устранение неоднозначности 81,2%          80,6%

 Применение статистики       82,71%        82,41%

                                                         11
Схема программной системы
Язык разработки -     Морфологический
Java                    анализатор         Входной текст


Коричневые модули
– внешние Диалинг                            Модуль
                       Синтаксический
АОТ                                      предварительной
                         анализатор
                                            обработки

Входные данные –
русскоязычный текст                     Модуль устранения
                       Статистическая
                            база        неоднозначностей
Выходные данные –
размеченный текст с
установленной              Текст с
референцией в XML                       Модуль разрешения
                       установленной       референции
и HTML форматах         референцией

                                                            12
Основные результаты
• Разработана программная система автоматического
  разрешения референции местоимений
  русскоязычных текстов
• Рассмотрены статистические признаки для
  разрешения референции, а также предложен
  способ их улучшения на основе базы сущностей
• Предложен новый признак – статистическая
  близость между глаголом местоимения и глаголом
  потенциального референта
• Удалось улучшить точность разрешения
  референции на 9.41% по сравнению с базовым
  уровнем

                                                13

More Related Content

What's hot

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
It med.conf региональный мастер-индекс пациентов
It med.conf региональный мастер-индекс пациентовIt med.conf региональный мастер-индекс пациентов
It med.conf региональный мастер-индекс пациентовElena Ometova
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферированиеLidia Pivovarova
 
Personilized search
Personilized searchPersonilized search
Personilized searchNLPseminar
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов Lidia Pivovarova
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9Technopark
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"dbarashev
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Rostislav Shorgin
 
Zyabrev -
Zyabrev - Zyabrev -
Zyabrev - Anna
 

What's hot (20)

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
Tomita
TomitaTomita
Tomita
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
It med.conf региональный мастер-индекс пациентов
It med.conf региональный мастер-индекс пациентовIt med.conf региональный мастер-индекс пациентов
It med.conf региональный мастер-индекс пациентов
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
лезин
лезинлезин
лезин
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 
Personilized search
Personilized searchPersonilized search
Personilized search
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Query expansion
Query expansionQuery expansion
Query expansion
 
АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9АиСД осень 2012 лекция 9
АиСД осень 2012 лекция 9
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
 
Zyabrev -
Zyabrev - Zyabrev -
Zyabrev -
 

Similar to Комбинирование факторов для разрешения референции местоимений

molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)NLPseminar
 
Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Taras Gushcha
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингSergey Yurkov
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Текстовые факторы ранжирования: принцип работы ПС и практические инструкции
Текстовые факторы ранжирования: принцип работы ПС и практические инструкцииТекстовые факторы ранжирования: принцип работы ПС и практические инструкции
Текстовые факторы ранжирования: принцип работы ПС и практические инструкцииНарижный Денис
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийSoftengi
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системPaul K
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системMegaIndexTV
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Ленар Амирханов
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Ленар Амирханов
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Стас Поломарь
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 

Similar to Комбинирование факторов для разрешения референции местоимений (20)

Авиком
АвикомАвиком
Авиком
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017
 
Фишки из патентов Google
Фишки из патентов GoogleФишки из патентов Google
Фишки из патентов Google
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтинг
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Текстовые факторы ранжирования: принцип работы ПС и практические инструкции
Текстовые факторы ранжирования: принцип работы ПС и практические инструкцииТекстовые факторы ранжирования: принцип работы ПС и практические инструкции
Текстовые факторы ранжирования: принцип работы ПС и практические инструкции
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложений
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых систем
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых систем
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 

Комбинирование факторов для разрешения референции местоимений

  • 1. ДИПЛОМНАЯ РАБОТА Комбинирование факторов для разрешения референции местоимений Автор: Ерин Александр (группа 525) Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
  • 2. Задача разрешения референции Разрешение референции, т.е. нахождение для местоимений соответствующих референтов, в тексте и есть задача референциального анализа. «Сам Евгений Чичваркин [референт] приветствовал сегодняшний вердикт присяжных, в интервью радиостанции "Эхо Москвы" он заявил, что инициаторов этого процесса нужно судить.» Применение  Семантический анализ текста  Перевод с одного естественного языка на другой  Информационный поиск  Извлечение знаний из текстов 2
  • 3. Постановка задачи • Создать программную систему для разрешения референции местоимений русскоязычных текстов • Предложить и опробовать различные подходы к разрешению референции в ходе реализации программной системы • Для настройки и тестирования использовать наборы русскоязычных новостных текстов 3
  • 4. Предварительная обработка • Разбивка текста на предложения • Выделение слов, знаков препинания и прочих объектов в предложении • Сопоставление слов из текста с результатом работы морфологического анализа • Выделение цитат • Определение однородных членов предложения 4
  • 5. Базовый этап Используется только морфологический анализ – высокая неоднозначность слов Факторы оценки потенциального референта:  взаимное расположение местоимения и кандидата в референты – количество предложений между, количество грамматических основ между, положение внутри цитаты  количество совпавших атрибутов – род, число  одушевленность – наибольшая оценка одушевленным  падеж кандидата 5
  • 6. Устранение неоднозначности - 1 • Фильтрация падежей слов на основе предшествующих им предлогов и предложных слов: «благодаря фракции [рд, дт, пр, им, вн]» • Подключение синтаксического анализа (Диалинг АОТ) и корректировка на его основе: – Частей речи • ПОДЛ {дорога [СУЩ, ПРИЛ] -> прокладывается} – Падежей • ПРЯМ_ДОП {дали -> показания [рд, им, вн]} – Множественности слов • ЧИСЛ_СУЩ {чиновника [ед, мн] -> оба} 6
  • 7. Устранение неоднозначности - 2 Создание базы сущностей – наследование атрибутов Для некоторых имен собственных морфологический анализатор не предоставляет никаких атрибутов, либо только неверные наборы • «Финская компания Tieto [] намерена вложить более 130 млн долл. в создание центров разработки в российских технопарках.» • «Г-н Песня [жр] не уточнил, какую сумму он получил, продав компанию, сказав только, что ее оборот за 2008 год…» • «По словам аналитика iKS-Сonsulting Константина Анкилова [жр],…» 7
  • 8. Устранение неоднозначности - 3 При проходе текста основные атрибуты наследуются от уточняющего слова, при этом создается следующая база сущностей Основное слово Дополнительные слова Наборы атрибутов Tieto компания жр, ед, неодуш Песня Юрий; г-н мр, ед, одуш Основываясь на данной базе корректируются наборы атрибутов слов по всему тексту. 8
  • 9. Применение статистики - 1 Текстов 2,6 млн ПОДЛ 1,8 / 13 млн ГЕНИТ_ИГ 1,3 / 23 млн База статистически близких глаголов - 2838 слов . Статистические признаки: 1) ПОДЛ {СУЩ1 -> ГЛАГ} 2) ГЕНИТ_ИГ {СУЩ1 -> СУЩ2}, где СУЩ1 – потенциальный референт ГЛАГ – глагол употребленный с местоимением СУЩ2 – слово зависимое от ГЛАГ «…приказал Медведев. Также он издал указ о…» Если потенциальный референт – имя собственное, для поиска по статистической базе используются «дополнительные слова» из базы сущностей. 9
  • 10. Применение статистики - 2 3) Статистика употребления с глаголом одушевленных и неодушевленных слов (заменяет базовую оценку на одушевленность): ВНЕДРИТЬ од = 12.5% ЛЮБИТЬ од = 85.71% АКЦЕНТИРОВАТЬ од = 92.59% СПАТЬ од = 100.0% 4) Статистическая близость глагола употребленного с местоимением и глагола употребленного с потенциальным референтом. «…поведал аналитик компании Head Hunter. Он также сказал, что рост рынка труда…» 10
  • 11. Комбинирование факторов • Каждый фактор из базовой оценки и статистической оценки имеет свой вес в векторе весовых коэффициентов • Значения коэффициентов данного вектора подбирались опытным путем • Этап устранения неоднозначности влияет на все факторы в совокупности ЭТАП НАСТРОЕЧНЫЙ ПРОВЕРОЧНЫЙ Базовый уровень 76,1% 75,32% Устранение неоднозначности 81,2% 80,6% Применение статистики 82,71% 82,41% 11
  • 12. Схема программной системы Язык разработки - Морфологический Java анализатор Входной текст Коричневые модули – внешние Диалинг Модуль Синтаксический АОТ предварительной анализатор обработки Входные данные – русскоязычный текст Модуль устранения Статистическая база неоднозначностей Выходные данные – размеченный текст с установленной Текст с референцией в XML Модуль разрешения установленной референции и HTML форматах референцией 12
  • 13. Основные результаты • Разработана программная система автоматического разрешения референции местоимений русскоязычных текстов • Рассмотрены статистические признаки для разрешения референции, а также предложен способ их улучшения на основе базы сущностей • Предложен новый признак – статистическая близость между глаголом местоимения и глаголом потенциального референта • Удалось улучшить точность разрешения референции на 9.41% по сравнению с базовым уровнем 13