Разрешение лексической неоднозначности

Доклад Word Sense Disambiguation Разрешение лексической многозначности Леонид Сошинский научный руководитель: Наталья Лукашевич

Структура доклада ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Что такое WSD? Основные понятия. ,[object Object],[object Object],[object Object],[object Object],[object Object]

История области * 40е – зарождение машинного перевода – Warren Weaver, «The "Translation" memorandum » (1949) – Yehoshua Bar-Hillel, скептис учёных * 70е – WSD – часть более крупных проектов, ручные правила, в осн. * 80е – Oxford Advanced Learner's Dictionary of Current English, – ручное выписывание правил – вытеснено автоматическим извлечением знаний из подобных источников – AI winter * 90е – "статистическая революция", обучение с учителем * 00е – смещение в сторону: -> coarse-grained senses -> domain adaptation -> semi-supervised system и обучение без учителя -> смешанные методы, обработка баз знаний

Трудности ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Оценки эфф-ти алг-ма ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Типы алгоритмов Существует четыре основных метода разрешения многозначности: * методы, основанные на знаниях ( d ictionary- и knowledge-based methods ): эти методы преимущественно полагаются на словари, тезаурусы, лексикографические базы данных, не полагаясь на корпусы текстов. * методы обучения с учителем ( Supervised methods ): эти методы используют размеченные корпуса текстов для тренировки классификатора. * методы частичного обучения с учителем ( Semi-supervised or minimally-supervised methods ): эти методы используют вторичные знания, такие как определения терминов в толкованиях слов или выровненный двуязычный (билингвальный) корпус. * методы обучения без учителя ( Unsupervised methods ): большинство этих методов не предполагает использование каких-либо внешних данных и используют только raw unannotated corpora; также, они известны под термином кластеризации и "word sense discrimination".

Supervised methods. Основные понятия и подробности. Теория ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Что нам необходимо? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

II. Корпус. Методы получения. 1. поисковая выдача Yandex'a, Google'a (поиск контекстов однозначных синонимов, гипонимов/гиперонимов + опред. Фильтры -> ~670 ex. with ~91% precision / Mihalcea) 2. bootstrapping (бутстреппинг, seed examples) 3. web directories (Open Directory project – 70k сайтов (ru) / 5m (en)) 4. parallel corpora (google, англ. язык и русский, trabslated.by: 26m знаков) 5. коллаборативный отбор в стиле соц. сетей (Open Mind Word Expert project, трудные случаи показываются волонтёрам, inter-annotator agreement – 62.8%, на Senseval – 85.5%)

IIIa. Naïve Bayes (NB) Простейший вероятностный метод, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. (применяя теорему Байеса, затем форм. усл. вер-ти и получаем ... = p(C) П p(F i |C), а потом уже применяем метод максимального правдоподобия.

IIIb. Decision Lists (DL) – упорядоченный список правил (condition, sense, weight) – цель: найти веса – вероятности считаем с помощью метода максимального правдоподобия * DT (Decision Trees) – неэфф.:

IIIc. Examplar-based learning (kNN) Метод ближайших соседей. Объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента. Сравниваем со всеми с соседями расстояние Хэмминга Wj — вес j параметра δ – расстояние между примерами Пример работы алгоритма: * при k=3 * при k=5 Минусы: – чувствителен к нерелевантным фичам – majority voting -> вводим веса

IIId. AdaBoost (AB) Принцип: наращивание слабых гипотез в сильные. 1. поступенчатое обучение слабым (каждая новая is biased to classify the examples which were most difficult to classify by the ensemble of preceding weak hypotheses). После этого идёт итеративное настраивание каждого i-го веса D 1 (i),...,D t (i),...D T (i) Конечная комбинированная гопитеза h

IIIe. Support Vector Michines (SVM) Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. The linear classifier is defined by two elements: a weight vector w (with one component for each feature), and a bias b which stands for the distance of the hyperplane to the origin. Классификатор присваивает +1 либо –1 каждому новому примеру таким образом: * soft margin Supervised methods

III. Оценка эффективности 5ти методов * сложно сравнивать из-за того, что разные методы требуют разные параметры и разные реализации * исследование (Màrquez, Escudero, Martínez, and Rigau) показало примерные результаты SVM ≈ AB > kNN > NB ≈ DL > MFC * все методы превзошли MFC * paired Student’s t-test of significance with a confidence value of t=3.250 * низкая эфф-сть DL – из-за сглаживающего алгоритма * глаголы и существительные (худшие работают с глаголами лучше, чем с сущ.) * SVM круче AB на маленьких корпусах, AB круче SVM на больших

Корпус. Выбранный метод и результаты 0. в качестве тезауруса был выбран РуТез (НИВЦ)... КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНКА СОЦВЕТИЯ КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНОЧНЫЙ КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ЛУКОШКО КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ПЛЕТЕНАЯ КОРЗИНА 1. был выбран 1й метод; выбор слов в тестовую подборку (около 100 многозначных слов, с разными частями речи, частотностью и многозначностью) 2. источник и способ получения контекстов (Яндекс.XML, 3 группы (!), вид запросов), качество контекстов !!ОТРИНУТЬ lang="ru" !!ВЫСТУПАТЬ /+2 !!ПРОТИВНИКОМ lang="ru" ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.). Впавший в бедность, обедневший. || сущ. обеднелость, -и, ж. 3. каждому значению слову было получено около 400 контекстов, была проведена выборочная проверка (3 слова, 1 значение, около 80 конт., плохие тез. отбрасыв.), эфф-ть ~85%, но может варьироваться

IV. kNN; feature selection и parameter optimization Необходимо пройти несколько этапов: 0. выбрать метод и алгоритм: kNN / TiMBL (Tillburg Memory-Based Learner, DT-based имплементация) 1. выбрать параметры (локальные и тематические контексты). [w -3 , w -2 , w -1 , w, w +1 , w +2 , w +3 ] – контекст нашего слова w. p i , -3 ≤ i ≤ 3 их части речи. Примерно такие паттерны: p -3 , p -2 , p -1 , p +1 , p +2 , p +3 , w -1 , w +1 , (w -2 , w -1 ), (w -1 , w +1 ), (w +1 , w +2 ), (w -3 , w -2 , w -1 ), (w -2 , w -1 , w +1 ), (w -1 , w +1 , w +2 ) и (w +1 , w +2 , w +3 ). 2. Определиться с расстоянием δ: Хэмминг -> MVDM (modified value difference metric) 3. Определиться с весами: оценка Gain Ratio

Дальнейшее направление и действия по диплому ,[object Object],[object Object],[object Object]

Разрешение лексической неоднозначности

Recommended

Recommended

More Related Content

What's hot

What's hot (16)

Viewers also liked

Viewers also liked (20)

Similar to Разрешение лексической неоднозначности

Similar to Разрешение лексической неоднозначности (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Разрешение лексической неоднозначности