Тодуа. Методы разработки интерпретатора языка Рефал-2
Разрешение лексической неоднозначности
1. Доклад Word Sense Disambiguation Разрешение лексической многозначности Леонид Сошинский научный руководитель: Наталья Лукашевич
2.
3.
4. История области * 40е – зарождение машинного перевода – Warren Weaver, «The "Translation" memorandum » (1949) – Yehoshua Bar-Hillel, скептис учёных * 70е – WSD – часть более крупных проектов, ручные правила, в осн. * 80е – Oxford Advanced Learner's Dictionary of Current English, – ручное выписывание правил – вытеснено автоматическим извлечением знаний из подобных источников – AI winter * 90е – "статистическая революция", обучение с учителем * 00е – смещение в сторону: -> coarse-grained senses -> domain adaptation -> semi-supervised system и обучение без учителя -> смешанные методы, обработка баз знаний
5.
6.
7. Типы алгоритмов Существует четыре основных метода разрешения многозначности: * методы, основанные на знаниях ( d ictionary- и knowledge-based methods ): эти методы преимущественно полагаются на словари, тезаурусы, лексикографические базы данных, не полагаясь на корпусы текстов. * методы обучения с учителем ( Supervised methods ): эти методы используют размеченные корпуса текстов для тренировки классификатора. * методы частичного обучения с учителем ( Semi-supervised or minimally-supervised methods ): эти методы используют вторичные знания, такие как определения терминов в толкованиях слов или выровненный двуязычный (билингвальный) корпус. * методы обучения без учителя ( Unsupervised methods ): большинство этих методов не предполагает использование каких-либо внешних данных и используют только raw unannotated corpora; также, они известны под термином кластеризации и "word sense discrimination".
8.
9.
10. II. Корпус. Методы получения. 1. поисковая выдача Yandex'a, Google'a (поиск контекстов однозначных синонимов, гипонимов/гиперонимов + опред. Фильтры -> ~670 ex. with ~91% precision / Mihalcea) 2. bootstrapping (бутстреппинг, seed examples) 3. web directories (Open Directory project – 70k сайтов (ru) / 5m (en)) 4. parallel corpora (google, англ. язык и русский, trabslated.by: 26m знаков) 5. коллаборативный отбор в стиле соц. сетей (Open Mind Word Expert project, трудные случаи показываются волонтёрам, inter-annotator agreement – 62.8%, на Senseval – 85.5%)
11. IIIa. Naïve Bayes (NB) Простейший вероятностный метод, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. (применяя теорему Байеса, затем форм. усл. вер-ти и получаем ... = p(C) П p(F i |C), а потом уже применяем метод максимального правдоподобия.
12. IIIb. Decision Lists (DL) – упорядоченный список правил (condition, sense, weight) – цель: найти веса – вероятности считаем с помощью метода максимального правдоподобия * DT (Decision Trees) – неэфф.:
13. IIIc. Examplar-based learning (kNN) Метод ближайших соседей. Объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента. Сравниваем со всеми с соседями расстояние Хэмминга Wj — вес j параметра δ – расстояние между примерами Пример работы алгоритма: * при k=3 * при k=5 Минусы: – чувствителен к нерелевантным фичам – majority voting -> вводим веса
14. IIId. AdaBoost (AB) Принцип: наращивание слабых гипотез в сильные. 1. поступенчатое обучение слабым (каждая новая is biased to classify the examples which were most difficult to classify by the ensemble of preceding weak hypotheses). После этого идёт итеративное настраивание каждого i-го веса D 1 (i),...,D t (i),...D T (i) Конечная комбинированная гопитеза h
15. IIIe. Support Vector Michines (SVM) Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. The linear classifier is defined by two elements: a weight vector w (with one component for each feature), and a bias b which stands for the distance of the hyperplane to the origin. Классификатор присваивает +1 либо –1 каждому новому примеру таким образом: * soft margin Supervised methods
16. III. Оценка эффективности 5ти методов * сложно сравнивать из-за того, что разные методы требуют разные параметры и разные реализации * исследование (Màrquez, Escudero, Martínez, and Rigau) показало примерные результаты SVM ≈ AB > kNN > NB ≈ DL > MFC * все методы превзошли MFC * paired Student’s t-test of significance with a confidence value of t=3.250 * низкая эфф-сть DL – из-за сглаживающего алгоритма * глаголы и существительные (худшие работают с глаголами лучше, чем с сущ.) * SVM круче AB на маленьких корпусах, AB круче SVM на больших
17. Корпус. Выбранный метод и результаты 0. в качестве тезауруса был выбран РуТез (НИВЦ)... КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНКА СОЦВЕТИЯ КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНОЧНЫЙ КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ЛУКОШКО КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ПЛЕТЕНАЯ КОРЗИНА 1. был выбран 1й метод; выбор слов в тестовую подборку (около 100 многозначных слов, с разными частями речи, частотностью и многозначностью) 2. источник и способ получения контекстов (Яндекс.XML, 3 группы (!), вид запросов), качество контекстов !!ОТРИНУТЬ lang="ru" !!ВЫСТУПАТЬ /+2 !!ПРОТИВНИКОМ lang="ru" ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.). Впавший в бедность, обедневший. || сущ. обеднелость, -и, ж. 3. каждому значению слову было получено около 400 контекстов, была проведена выборочная проверка (3 слова, 1 значение, около 80 конт., плохие тез. отбрасыв.), эфф-ть ~85%, но может варьироваться
18. IV. kNN; feature selection и parameter optimization Необходимо пройти несколько этапов: 0. выбрать метод и алгоритм: kNN / TiMBL (Tillburg Memory-Based Learner, DT-based имплементация) 1. выбрать параметры (локальные и тематические контексты). [w -3 , w -2 , w -1 , w, w +1 , w +2 , w +3 ] – контекст нашего слова w. p i , -3 ≤ i ≤ 3 их части речи. Примерно такие паттерны: p -3 , p -2 , p -1 , p +1 , p +2 , p +3 , w -1 , w +1 , (w -2 , w -1 ), (w -1 , w +1 ), (w +1 , w +2 ), (w -3 , w -2 , w -1 ), (w -2 , w -1 , w +1 ), (w -1 , w +1 , w +2 ) и (w +1 , w +2 , w +3 ). 2. Определиться с расстоянием δ: Хэмминг -> MVDM (modified value difference metric) 3. Определиться с весами: оценка Gain Ratio