SlideShare a Scribd company logo
1 of 22
Автоматическое разрешение референции в русскоязычных новостных текстах Ерин А.Н. 425 группа
Понятия и определения Рефере́нция  — отнесённость актуализованных (включённых в речь) имён, именных групп или их эквивалентов к объектам внеязыковой действительности (референтам, денотатам). Рефере́нт  — объект внеязыковой действительности, который имеет в виду говорящий в контексте конкретной языковой ситуации; предмет референции. Ана́фора, анафори́ческое отноше́ние  — отношение между языковыми выражениями (словами или словосочетаниями), при котором в смысл одного выражения входит отсылка к другому, ранее упомянутому языковому выражению Корефере́нтность  — отношение между именами, имеющими один референт; то есть отношение между компонентами высказывания, которые обозначают один и тот же объект внеязыковой действительности.
Постановка задачи По сегодняшний день существует актуальная проблема обработки естественно-языковых текстов.  При проведении семантического анализа текста одной из проблем является задача разрешения референции, т.е. определения реальных объектов по каким-либо словам-указателям. В отличие от обработки англоязычных текстов, для русскоязычных данная проблема развита слабо. Например: « Иванов  разбил очки  Петрову , за это  его  наказали.» Семантическая задача: определить кого наказали?
Постановка задачи Два типа анафор 1) Представленные существительным или группой существительных: « Президент Медведев  за дальнейшее сокращение часовых поясов. Дмитрий Медведев  сегодня заявил, что считает возможным дальнейшее сокращение часовых поясов в России.  Президент  напомнил, что уже принят ряд решений по переводу пяти субъектов России в новые для них часовые пояса.» Для данного типа характерной проблемой является определение наличия анафорического отношения
Постановка задачи Отношение присутствует: « Президент Медведев  за дальнейшее сокращение часовых поясов. Дмитрий Медведев  сегодня заявил, что считает возможным дальнейшее сокращение часовых поясов в России.  Президент  напомнил, что уже принят ряд решений по переводу пяти субъектов России в новые для них часовые пояса.» Отношение отсутствует (абстрактное обозначение объектов или типов объектов): « Президент  — выборная должность главы государства» «Перед вступлением на должность  президент  обязан принять присягу государству»
Постановка задачи 2) Представленные местоимением: А) Личные местоимения (я, ты, Вы, он, она, …): « Я  категорически против вступления России в ВТО» сказал  глава КПРФ Б) Возвратное местоимения (себя, себе, собой, собою): « Я  купил  себе  машину» В) Притяжательные местоимения (мой, твой, наш, Ваш, его, …) « Ваш  автомобиль превысил скоростной режим» сказал инспектор  водителю .
Постановка задачи Г) Вопросительные местоимения (какой, каков, чей, который) « Какая планета  третья от Солнца?» Д) Указательные местоимения (этот, это, тот, такой, таков) « Этот   пример  не самый подходящий» Для остальных типов местоимений (определительные, отрицательные , неопределённые) согласованность с существительным (или выражением) может быть опущена или отсутствовать вовсе.
Проблемы и сложности Основные проблемы и сложности обработки русскоязычных текстов (в том числе и разрешения референций) возникают из-за возможной многогранности семантических форм для единственной синтаксической конструкции отдельного предложения или фразы. «Простой( прил .) солдат( ед. ч., им. п. )» «Простой( сущ .) солдат( мн. ч., род. п. )» Сложности установления кореферентности возникают при обозначении объектов именами нарицательными и местоимениями, усугубляясь еще и тем, что слово может употребляться как референтно, так и нет (как было показано в примерах выше). Имена собственные референтны всегда.
Методы и подходы Первым шагом, который присутствует во всех принципах и подходах разрешения референции, является определения кандидатов-референтов по номинационным свойствам: - число и род  - одушевленность / неодушевленность  - и.т.д.;  То есть эти свойства у антецедента(референта) и его анафоры должны совпадать или по крайней мере не различаться. Кандидатами могут быть только слова и фразы из данного или предшествующих предложений текста. Данный шаг является чисто техническим и не использует каких-либо эвристик, поэтому число кандидатов может быть очень велико.
Методы и подходы Эвристические подходы Общим подходом является оценка по расстоянию и местоположению: выбирается ближайший объект выше по тексту.  В зависимости от типа анализируемого обозначения объекта, допустимым считается тот референт, последнее упоминание которого отстоит не более, чем на заданное число предложений от текущего анализируемого упоминания: - для имен собственных ищется во всем тексте  - для личных местоимений - в текущем предложении и  в двух предложениях позади него  - для относительных местоимений - только в текущем  предложении.
Методы и подходы Двойное употребление референта в одном предложение - только в составе двух разных пропозиций (базовой и осложняющей), т.е. разделяются запятой - иначе имеется семантическое противоречие (референт участвует в одной ситуации в различных ролях) Референт в единственном числе при последнем своем упоминании не должен входить в состав группы однородных членов предложения: « Сидоров  столкнулся с Ивановым и Петровым в дверях, после чего  ему  не удалось избежать разговора»
Методы и подходы Слово во множественном числе, напротив, может иметь несколько референтов в единственном числе в составе группы однородных: « В дверях школьницы столкнулись с  Васей и Петей ,  которых  знали еще с детства ». Наиболее вероятное наличие референта в предшествующем предложение, нежели в реме: « Иванов  познакомился с Петровым в прошлом году. Тогда  он  впервые участвовал в выставке ».
Методы и подходы Референт слова не должен упоминаться после него в том же предложении, будучи обозначен более полным наименованием:  « Компания  обанкротилась, после чего акционеры  МММ  тщетно пытались вернуть свои деньги»  - если  компания  обозначает  МММ , то фраза воспринимается анормально. На практике все эти правила могут нарушаться, но тем не менее помогают в ряде случаев устранить неоднозначность выбора.
Методы и подходы Подходы для конкретных ситуаций Референт личного местоимения третьего лица - два предыдущих предложения, - одушевленные существительные, - согласование по роду-числу   Употребление в косвенном падеже  - любое существительное
Методы и подходы Относительное местоимение ( котор-ый,-ая,-ое,-ые )  - не имеют анафорических референтов  - кореферентны последней ближайшей именной группе  из того же предложения, согласованной по роду-числу,  и отделенной запятой.  Имя нарицательное это существительное-классификатор - отражает определенные признаки референта  (должность или род занятий персоны, организационно- правовую форму или форму хозяйственной  деятельности предприятия)   - может употребляться вообще не референтно  (во множественном числе, творительном падеже и в  роли приложения-уточнения)
Методы и подходы Косвенное обозначение персон и организаций Обозначение персон - не именуются по должностям - исключение для определенных категорий VIP  ("президент", "королева", "министр"  и даже без  упоминания имени собственного в тексте) Обозначение организаций - является нормой ( Сбербанк  предупредил о возможных технических  сбоях, теперь клиентам  банка  надо работать с  банкоматами с особой осторожностью)
Методы и подходы Наличие актуализатора при слове определяет одну из трех его категорий   - референтом является подходящий объект,  упоминавшийся ближайшим по тексту ( этот,  вышеуказанный ) - референт отсутствует ( другой ,  всякий, такой ) - референт есть, но практически не может быть  установлен ( его ,  чей-то ,  некий, один из, тот ).
Методы и подходы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Методы и подходы 4) Определение денотативного статуса слова, учитывая:  - лексико-семантический разряд слова,  - найденные на этапе (3) атрибуты возможного  референта  - грамматические характеристики слова.  Поиск происходит для - имен собственных - относительных и личных местоимений  - нарицательных  Имена нарицательные во множественном числе, творительном падеже и в роли приложения-уточнения считаются нереферентными.
Методы и подходы 5) Поиск возможных референтов слова, ранее упоминавшихся в тексте, или известных словарных объектов.  Проверяются необходимые и достаточные условия тождественности референтов  - значения атрибутов определенного типа у них  должны  присутствовать и совпадать;  - значения атрибутов других типов должны либо  отсутствовать у одного из объектов-референтов, либо  совпадать Например, допускается то, что референт словосочетания  нефтяная компания  именуется дальше по тексту либо как  компания Юкос , либо как  компания , либо как  российская нефтяная компания , но не как  немецкая компания . 6) При наличии более одного возможного референта выбирается ближайший подходящий.
Заключение Основные предложенные методы и подходы взяты из публикации Ермакова А.Е., которые были реализованы в коммерческих продуктах с закрытым кодом компании  RCO.  На данный момент единственной известной реализации методов разрешения референции для русскоязычных текстов. http://www.rco.ru/ http://www.rco.ru/article.asp?ob_no=2339 В рамках собственной курсовой работы планируются опробовать предложенные методы разрешения референции для местоимений. На данный момент опробован чисто технический метод (без эвристик), показавший необходимость применения дополнительных методов для сокращения количества возможных кандидатов-референтов.
Литература Лебедев М.В., Черняк А.З. Онтологические проблемы референции. М., "Праксис", 2001 Кобзарева Т. Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. - Москва, Наука, 2003 Ермаков А.Е., Плешко В.В. Компьютерная морфология в контексте анализа связного текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. - Москва, Наука, 2004 - С. 185-190.

More Related Content

Viewers also liked (7)

Вероятностная модель языка
Вероятностная модель языкаВероятностная модель языка
Вероятностная модель языка
 
Определение новизны информации в новостном кластере
Определение новизны информации в новостном кластереОпределение новизны информации в новостном кластере
Определение новизны информации в новостном кластере
 
Методы автоматического аннотирования изображений
Методы автоматического аннотирования изображенийМетоды автоматического аннотирования изображений
Методы автоматического аннотирования изображений
 
Dich cankinh thuchanh
Dich cankinh thuchanhDich cankinh thuchanh
Dich cankinh thuchanh
 
Cd avan
Cd avanCd avan
Cd avan
 
Digital Museum
Digital MuseumDigital Museum
Digital Museum
 
Vl6 b24 sunongchayvasudongdac-tranminhtho
Vl6 b24 sunongchayvasudongdac-tranminhthoVl6 b24 sunongchayvasudongdac-tranminhtho
Vl6 b24 sunongchayvasudongdac-tranminhtho
 

Similar to Автоматическое разрешение референции в новостных текстах

сравнительный анализ умк части речи
сравнительный анализ умк  части речисравнительный анализ умк  части речи
сравнительный анализ умк части речиAlisha_Rum
 
05 анализ тональности сообщений
05 анализ тональности сообщений05 анализ тональности сообщений
05 анализ тональности сообщенийLidia Pivovarova
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информацииLidia Pivovarova
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное15041982
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное15041982
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное15041982
 
подготовка к сочинению гиа
подготовка к сочинению гиаподготовка к сочинению гиа
подготовка к сочинению гиаAlex160798
 
подготовка к сочинению гиа
подготовка к сочинению гиаподготовка к сочинению гиа
подготовка к сочинению гиаAlex160798
 
подготовка к сочинению гиа
подготовка к сочинению гиаподготовка к сочинению гиа
подготовка к сочинению гиаAlex160798
 
Презентация: Лексикология и Лексикография
Презентация: Лексикология и ЛексикографияПрезентация: Лексикология и Лексикография
Презентация: Лексикология и Лексикографияozlmgouru
 
Психолингвистический анализ речи как дополнительный инструмент оценки кандида...
Психолингвистический анализ речи как дополнительный инструмент оценки кандида...Психолингвистический анализ речи как дополнительный инструмент оценки кандида...
Психолингвистический анализ речи как дополнительный инструмент оценки кандида...Natalia Bocharova
 
егэ виды грамматических ошибок
егэ виды грамматических ошибокегэ виды грамматических ошибок
егэ виды грамматических ошибокNatalya Dyrda
 

Similar to Автоматическое разрешение референции в новостных текстах (16)

Metaphors and Changes
Metaphors and ChangesMetaphors and Changes
Metaphors and Changes
 
16 ege a10_b2
16 ege a10_b216 ege a10_b2
16 ege a10_b2
 
сравнительный анализ умк части речи
сравнительный анализ умк  части речисравнительный анализ умк  части речи
сравнительный анализ умк части речи
 
егэ. задания а10, в2+
егэ. задания а10, в2+егэ. задания а10, в2+
егэ. задания а10, в2+
 
05 анализ тональности сообщений
05 анализ тональности сообщений05 анализ тональности сообщений
05 анализ тональности сообщений
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное
 
подготовка к сочинению гиа
подготовка к сочинению гиаподготовка к сочинению гиа
подготовка к сочинению гиа
 
подготовка к сочинению гиа
подготовка к сочинению гиаподготовка к сочинению гиа
подготовка к сочинению гиа
 
подготовка к сочинению гиа
подготовка к сочинению гиаподготовка к сочинению гиа
подготовка к сочинению гиа
 
Презентация: Лексикология и Лексикография
Презентация: Лексикология и ЛексикографияПрезентация: Лексикология и Лексикография
Презентация: Лексикология и Лексикография
 
Психолингвистический анализ речи как дополнительный инструмент оценки кандида...
Психолингвистический анализ речи как дополнительный инструмент оценки кандида...Психолингвистический анализ речи как дополнительный инструмент оценки кандида...
Психолингвистический анализ речи как дополнительный инструмент оценки кандида...
 
егэ виды грамматических ошибок
егэ виды грамматических ошибокегэ виды грамматических ошибок
егэ виды грамматических ошибок
 
ScienceDirect
ScienceDirectScienceDirect
ScienceDirect
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Автоматическое разрешение референции в новостных текстах

  • 1. Автоматическое разрешение референции в русскоязычных новостных текстах Ерин А.Н. 425 группа
  • 2. Понятия и определения Рефере́нция — отнесённость актуализованных (включённых в речь) имён, именных групп или их эквивалентов к объектам внеязыковой действительности (референтам, денотатам). Рефере́нт — объект внеязыковой действительности, который имеет в виду говорящий в контексте конкретной языковой ситуации; предмет референции. Ана́фора, анафори́ческое отноше́ние — отношение между языковыми выражениями (словами или словосочетаниями), при котором в смысл одного выражения входит отсылка к другому, ранее упомянутому языковому выражению Корефере́нтность  — отношение между именами, имеющими один референт; то есть отношение между компонентами высказывания, которые обозначают один и тот же объект внеязыковой действительности.
  • 3. Постановка задачи По сегодняшний день существует актуальная проблема обработки естественно-языковых текстов. При проведении семантического анализа текста одной из проблем является задача разрешения референции, т.е. определения реальных объектов по каким-либо словам-указателям. В отличие от обработки англоязычных текстов, для русскоязычных данная проблема развита слабо. Например: « Иванов разбил очки Петрову , за это его наказали.» Семантическая задача: определить кого наказали?
  • 4. Постановка задачи Два типа анафор 1) Представленные существительным или группой существительных: « Президент Медведев за дальнейшее сокращение часовых поясов. Дмитрий Медведев сегодня заявил, что считает возможным дальнейшее сокращение часовых поясов в России. Президент напомнил, что уже принят ряд решений по переводу пяти субъектов России в новые для них часовые пояса.» Для данного типа характерной проблемой является определение наличия анафорического отношения
  • 5. Постановка задачи Отношение присутствует: « Президент Медведев за дальнейшее сокращение часовых поясов. Дмитрий Медведев сегодня заявил, что считает возможным дальнейшее сокращение часовых поясов в России. Президент напомнил, что уже принят ряд решений по переводу пяти субъектов России в новые для них часовые пояса.» Отношение отсутствует (абстрактное обозначение объектов или типов объектов): « Президент  — выборная должность главы государства» «Перед вступлением на должность президент обязан принять присягу государству»
  • 6. Постановка задачи 2) Представленные местоимением: А) Личные местоимения (я, ты, Вы, он, она, …): « Я категорически против вступления России в ВТО» сказал глава КПРФ Б) Возвратное местоимения (себя, себе, собой, собою): « Я купил себе машину» В) Притяжательные местоимения (мой, твой, наш, Ваш, его, …) « Ваш автомобиль превысил скоростной режим» сказал инспектор водителю .
  • 7. Постановка задачи Г) Вопросительные местоимения (какой, каков, чей, который) « Какая планета третья от Солнца?» Д) Указательные местоимения (этот, это, тот, такой, таков) « Этот пример не самый подходящий» Для остальных типов местоимений (определительные, отрицательные , неопределённые) согласованность с существительным (или выражением) может быть опущена или отсутствовать вовсе.
  • 8. Проблемы и сложности Основные проблемы и сложности обработки русскоязычных текстов (в том числе и разрешения референций) возникают из-за возможной многогранности семантических форм для единственной синтаксической конструкции отдельного предложения или фразы. «Простой( прил .) солдат( ед. ч., им. п. )» «Простой( сущ .) солдат( мн. ч., род. п. )» Сложности установления кореферентности возникают при обозначении объектов именами нарицательными и местоимениями, усугубляясь еще и тем, что слово может употребляться как референтно, так и нет (как было показано в примерах выше). Имена собственные референтны всегда.
  • 9. Методы и подходы Первым шагом, который присутствует во всех принципах и подходах разрешения референции, является определения кандидатов-референтов по номинационным свойствам: - число и род - одушевленность / неодушевленность - и.т.д.; То есть эти свойства у антецедента(референта) и его анафоры должны совпадать или по крайней мере не различаться. Кандидатами могут быть только слова и фразы из данного или предшествующих предложений текста. Данный шаг является чисто техническим и не использует каких-либо эвристик, поэтому число кандидатов может быть очень велико.
  • 10. Методы и подходы Эвристические подходы Общим подходом является оценка по расстоянию и местоположению: выбирается ближайший объект выше по тексту. В зависимости от типа анализируемого обозначения объекта, допустимым считается тот референт, последнее упоминание которого отстоит не более, чем на заданное число предложений от текущего анализируемого упоминания: - для имен собственных ищется во всем тексте - для личных местоимений - в текущем предложении и в двух предложениях позади него - для относительных местоимений - только в текущем предложении.
  • 11. Методы и подходы Двойное употребление референта в одном предложение - только в составе двух разных пропозиций (базовой и осложняющей), т.е. разделяются запятой - иначе имеется семантическое противоречие (референт участвует в одной ситуации в различных ролях) Референт в единственном числе при последнем своем упоминании не должен входить в состав группы однородных членов предложения: « Сидоров столкнулся с Ивановым и Петровым в дверях, после чего ему не удалось избежать разговора»
  • 12. Методы и подходы Слово во множественном числе, напротив, может иметь несколько референтов в единственном числе в составе группы однородных: « В дверях школьницы столкнулись с Васей и Петей , которых знали еще с детства ». Наиболее вероятное наличие референта в предшествующем предложение, нежели в реме: « Иванов познакомился с Петровым в прошлом году. Тогда он впервые участвовал в выставке ».
  • 13. Методы и подходы Референт слова не должен упоминаться после него в том же предложении, будучи обозначен более полным наименованием: « Компания обанкротилась, после чего акционеры МММ тщетно пытались вернуть свои деньги» - если компания обозначает МММ , то фраза воспринимается анормально. На практике все эти правила могут нарушаться, но тем не менее помогают в ряде случаев устранить неоднозначность выбора.
  • 14. Методы и подходы Подходы для конкретных ситуаций Референт личного местоимения третьего лица - два предыдущих предложения, - одушевленные существительные, - согласование по роду-числу   Употребление в косвенном падеже - любое существительное
  • 15. Методы и подходы Относительное местоимение ( котор-ый,-ая,-ое,-ые ) - не имеют анафорических референтов - кореферентны последней ближайшей именной группе из того же предложения, согласованной по роду-числу, и отделенной запятой. Имя нарицательное это существительное-классификатор - отражает определенные признаки референта (должность или род занятий персоны, организационно- правовую форму или форму хозяйственной деятельности предприятия) - может употребляться вообще не референтно (во множественном числе, творительном падеже и в роли приложения-уточнения)
  • 16. Методы и подходы Косвенное обозначение персон и организаций Обозначение персон - не именуются по должностям - исключение для определенных категорий VIP ("президент", "королева", "министр" и даже без упоминания имени собственного в тексте) Обозначение организаций - является нормой ( Сбербанк предупредил о возможных технических сбоях, теперь клиентам банка надо работать с банкоматами с особой осторожностью)
  • 17. Методы и подходы Наличие актуализатора при слове определяет одну из трех его категорий - референтом является подходящий объект, упоминавшийся ближайшим по тексту ( этот, вышеуказанный ) - референт отсутствует ( другой , всякий, такой ) - референт есть, но практически не может быть установлен ( его , чей-то , некий, один из, тот ).
  • 18.
  • 19. Методы и подходы 4) Определение денотативного статуса слова, учитывая: - лексико-семантический разряд слова, - найденные на этапе (3) атрибуты возможного референта - грамматические характеристики слова. Поиск происходит для - имен собственных - относительных и личных местоимений - нарицательных Имена нарицательные во множественном числе, творительном падеже и в роли приложения-уточнения считаются нереферентными.
  • 20. Методы и подходы 5) Поиск возможных референтов слова, ранее упоминавшихся в тексте, или известных словарных объектов. Проверяются необходимые и достаточные условия тождественности референтов - значения атрибутов определенного типа у них должны присутствовать и совпадать; - значения атрибутов других типов должны либо отсутствовать у одного из объектов-референтов, либо совпадать Например, допускается то, что референт словосочетания нефтяная компания именуется дальше по тексту либо как компания Юкос , либо как компания , либо как российская нефтяная компания , но не как немецкая компания . 6) При наличии более одного возможного референта выбирается ближайший подходящий.
  • 21. Заключение Основные предложенные методы и подходы взяты из публикации Ермакова А.Е., которые были реализованы в коммерческих продуктах с закрытым кодом компании RCO. На данный момент единственной известной реализации методов разрешения референции для русскоязычных текстов. http://www.rco.ru/ http://www.rco.ru/article.asp?ob_no=2339 В рамках собственной курсовой работы планируются опробовать предложенные методы разрешения референции для местоимений. На данный момент опробован чисто технический метод (без эвристик), показавший необходимость применения дополнительных методов для сокращения количества возможных кандидатов-референтов.
  • 22. Литература Лебедев М.В., Черняк А.З. Онтологические проблемы референции. М., "Праксис", 2001 Кобзарева Т. Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. - Москва, Наука, 2003 Ермаков А.Е., Плешко В.В. Компьютерная морфология в контексте анализа связного текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. - Москва, Наука, 2004 - С. 185-190.