Skatov

1,086 views

Published on

Выступление Диктум на AINL. Даниил Скатов

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,086
On SlideShare
0
From Embeds
0
Number of Embeds
295
Actions
Shares
0
Downloads
26
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Skatov

  1. 1. Разрешение кореференции:обзорная экскурсияДаниил СкатовДиктум, Н. Новгород AINL, Май 2012, Санкт-Петербург
  2. 2. Анафора и кореференция: суть задачи  — «перемещать против течения»; отсылка назад Анафора (референция) местоимений: Купил [телефон], [он] не понравился. Отдал [его] назад. Кореференция именных групп, сущностей: [Иван Иванов] — родился в Москве. В детстве [Иван] увлекался спортом. [Компания IBM] опубликовала отчёты. В этом году [гигант] преуспел. Мы получили новый [телефон]. [Устройство] порадовало дизайном. Катафора, «one»-анафора, «it»-неанафора; псевдоанафора Because [he] was tired, [John] didn’t got behind the wheel. That’s true story! He didn’t like a blue [cup], so he picked up a red [one]. It is so cute. Ему не нравилась голубая чашка, поэтому он выбрал красную чашку He didn’t like [a blue cup]1, so gave [it]2 back. Then I bought [the cup]3. Антецедент Анафóр, 1,2,3 — Кореферентная цепочка референт © Dictum Ltd. 2012 2 / 28
  3. 3. Анафора и кореференция: суть задачи Модель дискурса: референты есть ссылки на одну сущность Опосредованный референт (bridging inference) Купил [этот телефон], но [его] крышка была неудобная Классовый референт (generic reference) Хочу купить [iPad], [они] мне очень нравятся Гипотеза активации (salience, activation): обычно местоимения ссылаются на объекты, которые рядом — один-два предложения (но иногда и 17…); для референции именных групп — расстояние часто больше Нетривиальный логический вывод? Гипотеза центрирования: Анна поставила кувшин на стол, но он (стол, кувшин) разбился Вчера Анна купила кувшин. Жёлтый цвет его напоминал о тех днях, когда она была совсем маленькой. Солнце, море, и всегда свежие цветы в таком же большом кувшине дома у тёти Иры. Вчера спокойствие нарушил неприятный случай. Анна поставила кувшин на стол, и он разбился. © Dictum Ltd. 2012 3 / 28
  4. 4. Анафора местоимений: признаки-ограничения Согласование: род, число IBM представила систему Watson. Они работали над ней последние 6 лет John bought [a car]. [It] is big and fast. / [John] bought a car. [He] is happy now. Антецедент — именная группа → фильтруем лишние сущ-ые [Начальника цеха проката металла] звали Иван. [Его] успехи велики Начальника цеха проката металла, который был закрыт вчера, уволили Синтаксические ограничения Сын купил ему новый автомобиль (ему != Сын) Иван рассказал другу о нём (всё, что он о нём думает?) Семантические ограничения Я напечатал документ на принтере, затем порвал его Я напечатал документ на принтере, затем выключил его «порвал принтер»: f = 4; «порвал документ»: f = 833 Доктор помог пациенту, и позже он выздоровел сам © Dictum Ltd. 2012 4 / 28
  5. 5. Анафора местоимений: признаки-предпочтения Частота всех возможных антецедентов ранее в части текста Близость возможных антецедентов к референту Грамматическая роль в предложении (субъект — объект) Иван помог Сергею. Он [Иван] знал, что делает. Сергей помог Ивану. Он [Сергей] знал, что делает. Сергей помог Ивану. Он ответил ему благодарностью. Синтаксический параллелизм (структура деревьев) Иван положил [телефон] на стол, затем положил [его] на полку Иван положил телефон на [стол], затем положил планшет на [него] Семантический параллелизм (семантика глагола) Иван передал [Сергею] документы. А Пётр передал [ему] ключи. [Иван] передал Сергею документы. [Он] также дал ключи Петру.Методы: фильтрация одного за другим / выбор из многих → © Dictum Ltd. 2012 5 / 28
  6. 6. Алгоритм Хоббса (1978)Поиск справа налево в текущем предложении, начиная с первойслева NP-составляющей, которая непосредственно не подчиняетмест-ие, находится выше или на том же уровне (см. понятие c-command, Reinhart, 1976). Ищем ту, где есть NP между ней и м-м S S NP VP VP Det NP NP NPNP N V Det N N V NAnn’s sister is a lawyer. John knows her. © Dictum Ltd. 2012 6 / 28
  7. 7. Алгоритм Хоббса (1978)Поиск справа налево в текущем предложении, начиная с первойслева NP-составляющей, которая непосредственно не подчиняетмест-ие, находится выше или на том же уровне (см. понятие c-command, Reinhart, 1976). Ищем ту, где есть NP между ней и м-м S S NP VP VP Det NP NP NPNP N V Det N N V NAnn’s sister is a lawyer. John knows her. © Dictum Ltd. 2012 7 / 28
  8. 8. Алгоритм Хоббса (1978)Не находим в текущем — идём в предыдущее и ищем NP слеванаправо, в порядке «сначала в ширину». Найденное проверяем породу и числу на согласование. Если не нашли на нужной глубине— ищем слева направо справа от мест-ия (ищем катафору). S S NP VP VP Det NP NP NPNP N V Det N N V NAnn’s sister is a lawyer. John knows her. © Dictum Ltd. 2012 8 / 28
  9. 9. Центрирование: алгоритм BFP (Бреннан, 1987) Un, Un+1 — два смежных высказывания Cb(Un) — предшествующий центр: сущность, на которой центрирован дискурс при прочтении Un; Cb(U1) не определён; Cf(Un) — последующий центр: как-то упорядоченный список сущностей, упомянутых в Un, которые могли бы стать Cb(Un+1); при этом Cb(Un+1) — это наибольший элемент списка Cf(Un), упомянутый в Un+1; он обозначается Cp Упорядочение: субъект > объект > предл. группа > … Переходы: приоритет — 1 > 2 > 3 > 4 (выбр. наибольший) Cb(Un+1) = Cb(Un) Cb(Un+1) ≠ Cb(Un) или n = 1 (не опр.) Cb(Un+1) = Cp(Un+1) Продолжить1 Мягкий сдвиг3 Cb(Un+1) ≠ Cp(Un+1) Оставить2 Жёсткий сдвиг4 © Dictum Ltd. 2012 9 / 28
  10. 10. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) He showed it to Bob (U2). He bought it. (U3) Cf (U1) = {John, Ferrari, dealership} Cp (U1) = John Cb (U1) = undef © Dictum Ltd. 2012 10 / 28
  11. 11. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) He showed it to Bob (U2). He bought it. (U3) Cf (U1) = {John, Ferrari, dealership} Cp (U1) = John Cb (U1) = undef it = Ferrari it = dealership Cf (U2) = {John, Ferrari, Bob} Cf (U2) = {John, dealership, Bob} Cp (U2) = John Cp (U2) = John Cb (U2) = John Cb (U2) = John Cp (U2) = Cb (U2)  Continue Cp (U2) = Cb (U2)  Continue © Dictum Ltd. 2012 11 / 28
  12. 12. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) John showed Ferrari to Bob (U2). He bought it. (U3) Cf (U2) = {John, Ferrari, Bob} Cp (U2) = John Cb (U2) = Johnhe = John He = BobCf (U3) = {John, Ferrari} Cf (U3) = {Bob, Ferrari}Cp (U2) = John Cp (U3) = BobCb (U2) = John Cb (U3) = BobContinue Smooth-Shift © Dictum Ltd. 2012 12 / 28
  13. 13. Центрирование: алгоритм BFP (Бреннан, 1987) John saw a Ferrari at the used car dealership. (U1) John showed Ferrari to Bob (U2). John bought it. (U3) Cf (U2) = {John, Ferrari, Bob} Cp (U2) = John Cb (U2) = John Учитывает: грамматическую роль, близость, повторы Может неверно разрешить на менее сфокусированный объект Аналогия — скользящее окно, захватывающее текущий фокус Можно усиливать те гипотезы, что соответствуют выбору BFP Синтаксис ↔ Анафоры ↔ Смысл ↔ … © Dictum Ltd. 2012 13 / 28
  14. 14. Методы на основе машинного обученияРазрешение анафор местоимений 3-го лица в отзывах (на примеремобильных телефонов), написанных в свободном стиле, спропусками, ошибками, опечатками: <LG KS660> купил для бизниса, очень удобный он держит две симки. Хороший, большой десплей, на нём мертвых зон нет </LG KS660> Длинные кореферентные цепочки (до 8 элементов) «Неявные» антецеденты Особенность задачи: нужна высокая точность Можно пожертвовать полнотой. Как?.. © Dictum Ltd. 2012 14 / 28
  15. 15. Методы на основе машинного обученияДля каждого местоимения: Собрать гипотезы и отранжировать их Так, что первая будет верной наиболее часто Выбрать первую в качестве верного антецедента bought for bussines, very useful [it] {* = 0.652166, business = 0.2371, NULL = 0.168611} supports two SIM cards. Nice and big displey, no dead zones on [it]{display = 0.466248, * = 0.284525, NULL = 0.0777368, business = 0.0101848} Сбор гипотез: автоматический учёт опечаток Также: на этапе синтаксического анализа © Dictum Ltd. 2012 15 / 28
  16. 16. Подход к оценке качества 1 1 2 2 3 3 4 4 5 5L LДва возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 16 / 28
  17. 17. Подход к оценке качестваN N 1 1 2 2 3 3 S1 4 4 5 5L L R1Два возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 17 / 28
  18. 18. Подход к оценке качестваN N K 1 1 2 S2 2 N K 3 3R2 S1 4 4 5 5L L R1Два возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 18 / 28
  19. 19. Подход к оценке качестваN N R1  S1 2N N Rec1    R1 2L L K 1 1 S2 R1  S1 2N 2 N K 2 Prec1   1 S1 2N 3 3 R2  S 2 KR2 Rec 2   S1 R2 N 4 4 R2  S 2 K K Prec2    S2 K N K N 5 5L L R1Два возможных состояния длякаждого местоимения: корректно(зелёный) или некорректно (красный) © Dictum Ltd. 2012 19 / 28
  20. 20. Подход к оценке качестваN N R1  S1 2N N Rec1    R1 2L L K 1 1 S2 R1  S1 2N 2 N K 2 Prec1   1 S1 2N 3 3 R2  S 2 KR2 Rec 2   S1 R2 N 4 4 R2  S 2 K K Prec2    S2 K N K N 5 5L L R1 N KДва возможных состояния для → Rec, Prec   , каждого местоимения: корректно L N(зелёный) или некорректно (красный) © Dictum Ltd. 2012 20 / 28
  21. 21. Корпус 3 Mb Win-1251 текстовых отзывов, 3 части = Neutral, Positive, Negative. Разметка: только один вариант для каждого местоимения, в том числе неявные (# — телефон, * — производитель, # — салон сотовой связи) Явно означается расположение антецедента в тексте NULL для семантической неоднозначности: У мобильника сенсорный экран. Он очень неудобен. (экран или телефон?). Сложно разрешить и человеку, так что оставляем как есть 8.3k отзывов, 37k уникальных словоформ. Отзывы в словах: 15–35 наиболее часты, 54 в среднем, диапазон: 2–340. В предложениях: 1–16 наиболее часты, 4 в среднем, диапазон: 1–40. 6.2k всего местоимений 3-го лица, 4.5k муж., 0.8k жен., 0.7k мн.ч. 50% мнений содержали хотя бы одно местоимение 3-го лица. 35% содержали одно, 10% два, 5% три и более. Не более 9 таких местоимений на отзыв. © Dictum Ltd. 2012 21 / 28
  22. 22. Пространство признаков IsVoc — принадлежность A словарю предметной области; Freq — число упоминаний гипотезы A (в любой форме) слева от P; Dist — расстояние между A и P в тексте в словах; HasVerb — прямой потомок-глагол у гипотезы A в дереве синтаксического разбора, к которому оно относится (правильных предложений нет); NumNodes — Число узлов в кусте дерева, корень которого есть A.IsVoc — трудоёмкая часть подхода, но действенная Какие признаки ещё можно было бы использовать: Расстояние Хоббса: сколько именных групп пропустил алгоритм Хоббса в поиске антецедента; Добавить признак «Выбор по BFP» Непосредственное применение этих методов — сомнительно Грамматические роли; сочетаемость слов © Dictum Ltd. 2012 22 / 28
  23. 23. Лексикографический метод Формируем вектор признаков по A для заданного P, Сортируем эти векторы лексикографически для P, Ранг — это позиция вектора в отсортированном списке. Оценка качества метода: С IsVoc Без IsVoc (Rec, Prec) (93.7%, 51.9%) (93.7%, 42.4%) Значимые признаки подавляют набор остальных признаков Изучим пространство признаков дискриминантным анализом © Dictum Ltd. 2012 23 / 28
  24. 24. Линейный дискриминантный анализ То же для Признак Коэффициент в LD центроида IsVoc 9.3 – 1.1 Freq – 21.5 – 1.6 Dist – 10.6 0.1 HasVerb –7 35.8 NumNodes – 0.5 18.9 © Dictum Ltd. 2012 24 / 28
  25. 25. Метод на основе SVM C-SVM с полиномиальным ядром Probabilistic Outputs for Support Vector Machines Комбинирование с LD  3 метода с разным качеством q-fold валидация для 4k мнений, q=1..300 Метод Полнота Точность A 97.3% 74.2% B 75.4% 80.7% C 45.6% 90.3% © Dictum Ltd. 2012 25 / 28
  26. 26. Метод на основе SVM Recall PrecisionABC © Dictum Ltd. 2012 26 / 28
  27. 27. Кореференция именованных сущностей В целом — похоже на анафору местоимений Дополнительные признаки на основе свойств сущностей Приведение объектов к канонической форме Расстояние редактирования на сущностях Как решаем в Диктуме: (1) используется собственный модуль выделения именованных сущностей с получением канонической формы; на канонических формах вводится метрика, значения о 0 до ∞; (2) для n сущностей строится граф с весами связей (с ∞ — не попадают, граф разрежен), (3) выделяем в графе обычные компоненты связности (Hopcroft, Tarjan, 1973 — O(n)) Т.о.: получаем цепочки кореференций без модели дискурса Кореференция синонимичных написаний ~ сущностям, нужна база знаний © Dictum Ltd. 2012 27 / 28
  28. 28. Литература для интересующихся Ruslan Mitkov, Anaphora Resolution: The State of the Art, 1999; Paper based on the COLING98/ACL98 tutorial on anaphora resolution; University of Wolverhampton. Juravsky D., Martin J. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. 2007. Толпегин П.В. «Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов» — автореферат диссертации, 2006. Ермаков А.Е. «Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей» — Материалы конференции Диалог 2007. Скатов Д.С., Ливерко С.В. «Разрешение анафор личных местоимений третьего лица в текстах узких предметных областей с грамматическими ошибками и опечатками» — Материалы конференции Диалог 2011. © Dictum Ltd. 2012 28 / 28

×