Your SlideShare is downloading. ×
Skatov
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Skatov

682
views

Published on

Выступление Диктум на AINL. Даниил Скатов

Выступление Диктум на AINL. Даниил Скатов


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
682
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
24
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Разрешение кореференции:обзорная экскурсияДаниил СкатовДиктум, Н. Новгород AINL, Май 2012, Санкт-Петербург
  • 2. Анафора и кореференция: суть задачи  — «перемещать против течения»; отсылка назад Анафора (референция) местоимений: Купил [телефон], [он] не понравился. Отдал [его] назад. Кореференция именных групп, сущностей: [Иван Иванов] — родился в Москве. В детстве [Иван] увлекался спортом. [Компания IBM] опубликовала отчёты. В этом году [гигант] преуспел. Мы получили новый [телефон]. [Устройство] порадовало дизайном. Катафора, «one»-анафора, «it»-неанафора; псевдоанафора Because [he] was tired, [John] didn’t got behind the wheel. That’s true story! He didn’t like a blue [cup], so he picked up a red [one]. It is so cute. Ему не нравилась голубая чашка, поэтому он выбрал красную чашку He didn’t like [a blue cup]1, so gave [it]2 back. Then I bought [the cup]3. Антецедент Анафóр, 1,2,3 — Кореферентная цепочка референт © Dictum Ltd. 2012 2 / 28
  • 3. Анафора и кореференция: суть задачи Модель дискурса: референты есть ссылки на одну сущность Опосредованный референт (bridging inference) Купил [этот телефон], но [его] крышка была неудобная Классовый референт (generic reference) Хочу купить [iPad], [они] мне очень нравятся Гипотеза активации (salience, activation): обычно местоимения ссылаются на объекты, которые рядом — один-два предложения (но иногда и 17…); для референции именных групп — расстояние часто больше Нетривиальный логический вывод? Гипотеза центрирования: Анна поставила кувшин на стол, но он (стол, кувшин) разбился Вчера Анна купила кувшин. Жёлтый цвет его напоминал о тех днях, когда она была совсем маленькой. Солнце, море, и всегда свежие цветы в таком же большом кувшине дома у тёти Иры. Вчера спокойствие нарушил неприятный случай. Анна поставила кувшин на стол, и он разбился. © Dictum Ltd. 2012 3 / 28
  • 4. Анафора местоимений: признаки-ограничения Согласование: род, число IBM представила систему Watson. Они работали над ней последние 6 лет John bought [a car]. [It] is big and fast. / [John] bought a car. [He] is happy now. Антецедент — именная группа → фильтруем лишние сущ-ые [Начальника цеха проката металла] звали Иван. [Его] успехи велики Начальника цеха проката металла, который был закрыт вчера, уволили Синтаксические ограничения Сын купил ему новый автомобиль (ему != Сын) Иван рассказал другу о нём (всё, что он о нём думает?) Семантические ограничения Я напечатал документ на принтере, затем порвал его Я напечатал документ на принтере, затем выключил его «порвал принтер»: f = 4; «порвал документ»: f = 833 Доктор помог пациенту, и позже он выздоровел сам © Dictum Ltd. 2012 4 / 28
  • 5. Анафора местоимений: признаки-предпочтения Частота всех возможных антецедентов ранее в части текста Близость возможных антецедентов к референту Грамматическая роль в предложении (субъект — объект) Иван помог Сергею. Он [Иван] знал, что делает. Сергей помог Ивану. Он [Сергей] знал, что делает. Сергей помог Ивану. Он ответил ему благодарностью. Синтаксический параллелизм (структура деревьев) Иван положил [телефон] на стол, затем положил [его] на полку Иван положил телефон на [стол], затем положил планшет на [него] Семантический параллелизм (семантика глагола) Иван передал [Сергею] документы. А Пётр передал [ему] ключи. [Иван] передал Сергею документы. [Он] также дал ключи Петру.Методы: фильтрация одного за другим / выбор из многих → © Dictum Ltd. 2012 5 / 28
  • 6. Алгоритм Хоббса (1978)Поиск справа налево в текущем предложении, начиная с первойслева NP-составляющей, которая непосредственно не подчиняетмест-ие, находится выше или на том же уровне (см. понятие c-command, Reinhart, 1976). Ищем ту, где есть NP между ней и м-м S S NP VP VP Det NP NP NPNP N V Det N N V NAnn’s sister is a lawyer. John knows her. © Dictum Ltd. 2012 6 / 28
  • 7. Алгоритм Хоббса (1978)Поиск справа налево в текущем предложении, начиная с первойслева NP-составляющей, которая непосредственно не подчиняетмест-ие, находится выше или на том же уровне (см. понятие c-command, Reinhart, 1976). Ищем ту, где есть NP между ней и м-м S S NP VP VP Det NP NP NPNP N V Det N N V NAnn’s sister is a lawyer. John knows her. © Dictum Ltd. 2012 7 / 28
  • 8. Алгоритм Хоббса (1978)Не находим в текущем — идём в предыдущее и ищем NP слеванаправо, в порядке «сначала в ширину». Найденное проверяем породу и числу на согласование. Если не нашли на нужной глубине— ищем слева направо справа от мест-ия (ищем катафору). S S NP VP VP Det NP NP NPNP N V Det N N V NAnn’s sister is a lawyer. John knows her. © Dictum Ltd. 2012 8 / 28
  • 9. Центрирование: алгоритм BFP (Бреннан, 1987) Un, Un+1 — два смежных высказывания Cb(Un) — предшествующий центр: сущность, на которой центрирован дискурс при прочтении Un; Cb(U1) не определён; Cf(Un) — последующий центр: как-то упорядоченный список сущностей, упомянутых в Un, которые могли бы стать Cb(Un+1); при этом Cb(Un+1) — это наибольший элемент списка Cf(Un), упомянутый в Un+1; он обозначается Cp Упорядочение: субъект > объект > предл. группа > … Переходы: приоритет — 1 > 2 > 3 > 4 (выбр. наибольший) Cb(Un+1) = Cb(Un) Cb(Un+1) ≠ Cb(Un) или n = 1 (не опр.) Cb(Un+1) = Cp(Un+1) Продолжить1 Мягкий сдвиг3 Cb(Un+1) ≠ Cp(Un+1) Оставить2 Жёсткий сдвиг4 © Dictum Ltd. 2012 9 / 28
  • 10. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) He showed it to Bob (U2). He bought it. (U3) Cf (U1) = {John, Ferrari, dealership} Cp (U1) = John Cb (U1) = undef © Dictum Ltd. 2012 10 / 28
  • 11. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) He showed it to Bob (U2). He bought it. (U3) Cf (U1) = {John, Ferrari, dealership} Cp (U1) = John Cb (U1) = undef it = Ferrari it = dealership Cf (U2) = {John, Ferrari, Bob} Cf (U2) = {John, dealership, Bob} Cp (U2) = John Cp (U2) = John Cb (U2) = John Cb (U2) = John Cp (U2) = Cb (U2)  Continue Cp (U2) = Cb (U2)  Continue © Dictum Ltd. 2012 11 / 28
  • 12. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) John showed Ferrari to Bob (U2). He bought it. (U3) Cf (U2) = {John, Ferrari, Bob} Cp (U2) = John Cb (U2) = Johnhe = John He = BobCf (U3) = {John, Ferrari} Cf (U3) = {Bob, Ferrari}Cp (U2) = John Cp (U3) = BobCb (U2) = John Cb (U3) = BobContinue Smooth-Shift © Dictum Ltd. 2012 12 / 28
  • 13. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) John showed Ferrari to Bob (U2). John bought it. (U3) Cf (U2) = {John, Ferrari, Bob} Cp (U2) = John Cb (U2) = John Учитывает: грамматическую роль, близость, повторы Может неверно разрешить на менее сфокусированный объект Аналогия — скользящее окно, захватывающее текущий фокус Можно усиливать те гипотезы, что соответствуют выбору BFP Синтаксис ↔ Анафоры ↔ Смысл ↔ … © Dictum Ltd. 2012 13 / 28
  • 14. Методы на основе машинного обученияРазрешение анафор местоимений 3-го лица в отзывах (на примеремобильных телефонов), написанных в свободном стиле, спропусками, ошибками, опечатками: <LG KS660> купил для бизниса, очень удобный он держит две симки. Хороший, большой десплей, на нём мертвых зон нет </LG KS660> Длинные кореферентные цепочки (до 8 элементов) «Неявные» антецеденты Особенность задачи: нужна высокая точность Можно пожертвовать полнотой. Как?.. © Dictum Ltd. 2012 14 / 28
  • 15. Методы на основе машинного обученияДля каждого местоимения: Собрать гипотезы и отранжировать их Так, что первая будет верной наиболее часто Выбрать первую в качестве верного антецедента bought for bussines, very useful [it] {* = 0.652166, business = 0.2371, NULL = 0.168611} supports two SIM cards. Nice and big displey, no dead zones on [it]{display = 0.466248, * = 0.284525, NULL = 0.0777368, business = 0.0101848} Сбор гипотез: автоматический учёт опечаток Также: на этапе синтаксического анализа © Dictum Ltd. 2012 15 / 28
  • 16. Подход к оценке качества 1 1 2 2 3 3 4 4 5 5L LДва возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 16 / 28
  • 17. Подход к оценке качестваN N 1 1 2 2 3 3 S1 4 4 5 5L L R1Два возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 17 / 28
  • 18. Подход к оценке качестваN N K 1 1 2 S2 2 N K 3 3R2 S1 4 4 5 5L L R1Два возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 18 / 28
  • 19. Подход к оценке качестваN N R1  S1 2N N Rec1    R1 2L L K 1 1 S2 R1  S1 2N 2 N K 2 Prec1   1 S1 2N 3 3 R2  S 2 KR2 Rec 2   S1 R2 N 4 4 R2  S 2 K K Prec2    S2 K N K N 5 5L L R1Два возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 19 / 28
  • 20. Подход к оценке качестваN N R1  S1 2N N Rec1    R1 2L L K 1 1 S2 R1  S1 2N 2 N K 2 Prec1   1 S1 2N 3 3 R2  S 2 KR2 Rec 2   S1 R2 N 4 4 R2  S 2 K K Prec2    S2 K N K N 5 5L L R1 N KДва возможных состояния для → Rec, Prec   , каждого местоимения: корректно L N(зелёный) или некорректно (красный) © Dictum Ltd. 2012 20 / 28
  • 21. Корпус 3 Mb Win-1251 текстовых отзывов, 3 части = Neutral, Positive, Negative. Разметка: только один вариант для каждого местоимения, в том числе неявные (# — телефон, * — производитель, # — салон сотовой связи) Явно означается расположение антецедента в тексте NULL для семантической неоднозначности: У мобильника сенсорный экран. Он очень неудобен. (экран или телефон?). Сложно разрешить и человеку, так что оставляем как есть 8.3k отзывов, 37k уникальных словоформ. Отзывы в словах: 15–35 наиболее часты, 54 в среднем, диапазон: 2–340. В предложениях: 1–16 наиболее часты, 4 в среднем, диапазон: 1–40. 6.2k всего местоимений 3-го лица, 4.5k муж., 0.8k жен., 0.7k мн.ч. 50% мнений содержали хотя бы одно местоимение 3-го лица. 35% содержали одно, 10% два, 5% три и более. Не более 9 таких местоимений на отзыв. © Dictum Ltd. 2012 21 / 28
  • 22. Пространство признаков IsVoc — принадлежность A словарю предметной области; Freq — число упоминаний гипотезы A (в любой форме) слева от P; Dist — расстояние между A и P в тексте в словах; HasVerb — прямой потомок-глагол у гипотезы A в дереве синтаксического разбора, к которому оно относится (правильных предложений нет); NumNodes — Число узлов в кусте дерева, корень которого есть A.IsVoc — трудоёмкая часть подхода, но действенная Какие признаки ещё можно было бы использовать: Расстояние Хоббса: сколько именных групп пропустил алгоритм Хоббса в поиске антецедента; Добавить признак «Выбор по BFP» Непосредственное применение этих методов — сомнительно Грамматические роли; сочетаемость слов © Dictum Ltd. 2012 22 / 28
  • 23. Лексикографический метод Формируем вектор признаков по A для заданного P, Сортируем эти векторы лексикографически для P, Ранг — это позиция вектора в отсортированном списке. Оценка качества метода: С IsVoc Без IsVoc (Rec, Prec) (93.7%, 51.9%) (93.7%, 42.4%) Значимые признаки подавляют набор остальных признаков Изучим пространство признаков дискриминантным анализом © Dictum Ltd. 2012 23 / 28
  • 24. Линейный дискриминантный анализ То же для Признак Коэффициент в LD центроида IsVoc 9.3 – 1.1 Freq – 21.5 – 1.6 Dist – 10.6 0.1 HasVerb –7 35.8 NumNodes – 0.5 18.9 © Dictum Ltd. 2012 24 / 28
  • 25. Метод на основе SVM C-SVM с полиномиальным ядром Probabilistic Outputs for Support Vector Machines Комбинирование с LD  3 метода с разным качеством q-fold валидация для 4k мнений, q=1..300 Метод Полнота Точность A 97.3% 74.2% B 75.4% 80.7% C 45.6% 90.3% © Dictum Ltd. 2012 25 / 28
  • 26. Метод на основе SVM Recall PrecisionABC © Dictum Ltd. 2012 26 / 28
  • 27. Кореференция именованных сущностей В целом — похоже на анафору местоимений Дополнительные признаки на основе свойств сущностей Приведение объектов к канонической форме Расстояние редактирования на сущностях Как решаем в Диктуме: (1) используется собственный модуль выделения именованных сущностей с получением канонической формы; на канонических формах вводится метрика, значения о 0 до ∞; (2) для n сущностей строится граф с весами связей (с ∞ — не попадают, граф разрежен), (3) выделяем в графе обычные компоненты связности (Hopcroft, Tarjan, 1973 — O(n)) Т.о.: получаем цепочки кореференций без модели дискурса Кореференция синонимичных написаний ~ сущностям, нужна база знаний © Dictum Ltd. 2012 27 / 28
  • 28. Литература для интересующихся Ruslan Mitkov, Anaphora Resolution: The State of the Art, 1999; Paper based on the COLING98/ACL98 tutorial on anaphora resolution; University of Wolverhampton. Juravsky D., Martin J. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. 2007. Толпегин П.В. «Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов» — автореферат диссертации, 2006. Ермаков А.Е. «Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей» — Материалы конференции Диалог 2007. Скатов Д.С., Ливерко С.В. «Разрешение анафор личных местоимений третьего лица в текстах узких предметных областей с грамматическими ошибками и опечатками» — Материалы конференции Диалог 2011. © Dictum Ltd. 2012 28 / 28