SlideShare a Scribd company logo
1 of 20
Доклад Word Sense Disambiguation Разрешение лексической многозначности Леонид Сошинский научный руководитель: Наталья Лукашевич
Структура доклада ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Что такое WSD? Основные понятия. ,[object Object],[object Object],[object Object],[object Object],[object Object]
История области *  40е –  зарождение машинного перевода –  Warren Weaver,   «The "Translation"  memorandum » (1949) –  Yehoshua  Bar-Hillel, скептис учёных *  70е –  WSD – часть более крупных проектов, ручные правила, в осн. *  80е –  Oxford Advanced Learner's Dictionary of Current English,  –  ручное выписывание правил – вытеснено автоматическим извлечением знаний из подобных источников  –  AI winter *  90е  –  "статистическая революция", обучение с учителем *  00е  – смещение в сторону: ->  coarse-grained senses ->  domain adaptation ->  semi-supervised  system  и обучение без учителя ->  смешанные методы, обработка баз знаний
Трудности ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценки эфф-ти алг-ма ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Типы алгоритмов Существует четыре основных метода разрешения многозначности: * методы, основанные на знаниях ( d ictionary- и knowledge-based methods ): эти методы преимущественно полагаются на словари, тезаурусы, лексикографические базы данных, не полагаясь на корпусы текстов. * методы обучения с учителем ( Supervised methods ): эти методы используют размеченные корпуса текстов для тренировки классификатора. * методы частичного обучения с учителем ( Semi-supervised or minimally-supervised methods ): эти методы используют вторичные знания, такие как определения терминов в толкованиях слов или выровненный двуязычный (билингвальный) корпус. * методы обучения без учителя ( Unsupervised methods ): большинство этих методов не предполагает использование каких-либо внешних данных и используют только raw unannotated corpora; также, они известны под термином кластеризации и "word sense discrimination".
Supervised methods. Основные понятия и подробности. Теория ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Что нам необходимо? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
II. Корпус. Методы получения. 1. поисковая выдача Yandex'a, Google'a (поиск контекстов однозначных синонимов, гипонимов/гиперонимов + опред. Фильтры -> ~670 ex. with ~91% precision / Mihalcea) 2. bootstrapping (бутстреппинг, seed examples) 3. web directories (Open Directory project – 70k сайтов (ru) / 5m (en)) 4. parallel corpora (google, англ. язык и русский, trabslated.by: 26m знаков) 5. коллаборативный отбор в стиле соц. сетей (Open Mind Word Expert project, трудные случаи показываются волонтёрам, inter-annotator agreement – 62.8%, на Senseval – 85.5%)
IIIa. Naïve Bayes (NB) Простейший вероятностный метод, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. (применяя теорему Байеса, затем форм. усл. вер-ти и получаем ... = p(C)  П  p(F i |C), а потом уже применяем метод максимального правдоподобия.
IIIb. Decision Lists (DL) –  упорядоченный список правил (condition, sense, weight) –  цель: найти веса  –  вероятности считаем с помощью метода максимального правдоподобия * DT (Decision Trees) – неэфф.:
IIIc. Examplar-based learning (kNN) Метод ближайших соседей. Объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента. Сравниваем со всеми с соседями расстояние Хэмминга Wj — вес j параметра δ – расстояние между примерами Пример работы алгоритма: * при k=3 * при k=5 Минусы: –  чувствителен к нерелевантным фичам –  majority voting -> вводим веса
IIId. AdaBoost (AB) Принцип: наращивание слабых гипотез в сильные. 1. поступенчатое обучение слабым (каждая новая is biased to classify the examples which were most difficult to classify by the ensemble of preceding weak hypotheses). После этого идёт итеративное настраивание каждого i-го веса D 1 (i),...,D t (i),...D T (i) Конечная комбинированная гопитеза h
IIIe. Support Vector Michines (SVM) Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. The linear classifier is defined by two elements: a weight vector w  (with one component for each feature), and a bias b which stands for the  distance of the hyperplane to the origin. Классификатор присваивает +1 либо –1 каждому новому примеру таким образом: * soft margin  Supervised methods
III. Оценка эффективности 5ти методов * сложно сравнивать из-за того, что разные методы требуют разные параметры и разные реализации * исследование (Màrquez, Escudero, Martínez, and Rigau) показало примерные результаты SVM ≈ AB > kNN > NB ≈ DL > MFC * все методы превзошли MFC * paired Student’s t-test of significance with a confidence value of t=3.250 * низкая эфф-сть DL – из-за сглаживающего алгоритма * глаголы и существительные (худшие работают с глаголами лучше, чем с сущ.) * SVM круче AB на маленьких корпусах, AB круче SVM на больших
Корпус. Выбранный метод и результаты 0. в качестве тезауруса был выбран РуТез (НИВЦ)... КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНКА СОЦВЕТИЯ КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНОЧНЫЙ КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ЛУКОШКО КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ПЛЕТЕНАЯ КОРЗИНА 1. был выбран 1й метод; выбор слов в тестовую подборку (около 100 многозначных слов, с разными частями речи, частотностью и многозначностью) 2. источник и способ получения контекстов (Яндекс.XML, 3 группы (!), вид запросов), качество контекстов !!ОТРИНУТЬ lang="ru" !!ВЫСТУПАТЬ /+2 !!ПРОТИВНИКОМ lang="ru" ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.). Впавший в бедность, обедневший. || сущ. обеднелость, -и, ж.  3. каждому значению слову было получено около 400 контекстов, была проведена выборочная проверка (3 слова, 1 значение, около 80 конт., плохие тез. отбрасыв.), эфф-ть ~85%, но может варьироваться
IV. kNN; feature selection и parameter optimization Необходимо пройти несколько этапов: 0. выбрать метод и алгоритм: kNN / TiMBL (Tillburg Memory-Based Learner, DT-based имплементация) 1. выбрать параметры (локальные и тематические контексты). [w -3 , w -2 , w -1 , w, w +1 , w +2 , w +3 ] – контекст нашего слова w. p i , -3 ≤ i ≤ 3 их части речи. Примерно такие паттерны: p -3 , p -2 , p -1 , p +1 , p +2 , p +3 , w -1 , w +1 , (w -2 , w -1 ), (w -1 , w +1 ), (w +1 , w +2 ), (w -3 , w -2 , w -1 ), (w -2 , w -1 , w +1 ), (w -1 , w +1 , w +2 ) и (w +1 , w +2 , w +3 ). 2. Определиться с расстоянием δ: Хэмминг -> MVDM (modified value difference metric) 3. Определиться с весами: оценка Gain Ratio
Дальнейшее направление и действия по диплому ,[object Object],[object Object],[object Object]
Структура доклада ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

What's hot

Работа с текстом на уроках математики
Работа с текстом на уроках математикиРабота с текстом на уроках математики
Работа с текстом на уроках математикиKirrrr123
 
Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияEvgeny Smirnov
 
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...Alexey Noskov
 
Speech technologies
Speech technologiesSpeech technologies
Speech technologiesNLPseminar
 
Ruby: основы ООП
Ruby: основы ООПRuby: основы ООП
Ruby: основы ООПEvgeny Smirnov
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение Anton Anokhin
 
Задачи по ООП в ruby
Задачи по ООП в rubyЗадачи по ООП в ruby
Задачи по ООП в rubyEvgeny Smirnov
 
Java. Наследование.
Java. Наследование.Java. Наследование.
Java. Наследование.Unguryan Vitaliy
 
Лекция 12: Трудноразрешимые задачи
Лекция 12: Трудноразрешимые задачиЛекция 12: Трудноразрешимые задачи
Лекция 12: Трудноразрешимые задачиMikhail Kurnosov
 
Основы программирования на ruby
Основы программирования на rubyОсновы программирования на ruby
Основы программирования на rubyEvgeny Smirnov
 
Управляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условияУправляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условияEvgeny Smirnov
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программированияEvgeny Smirnov
 

What's hot (16)

Работа с текстом на уроках математики
Работа с текстом на уроках математикиРабота с текстом на уроках математики
Работа с текстом на уроках математики
 
Ruby строки
Ruby строкиRuby строки
Ruby строки
 
Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсия
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
 
Speech technologies
Speech technologiesSpeech technologies
Speech technologies
 
Ruby: основы ООП
Ruby: основы ООПRuby: основы ООП
Ruby: основы ООП
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение
 
Задачи по ООП в ruby
Задачи по ООП в rubyЗадачи по ООП в ruby
Задачи по ООП в ruby
 
Java. Наследование.
Java. Наследование.Java. Наследование.
Java. Наследование.
 
Лекция 12: Трудноразрешимые задачи
Лекция 12: Трудноразрешимые задачиЛекция 12: Трудноразрешимые задачи
Лекция 12: Трудноразрешимые задачи
 
Основы программирования на ruby
Основы программирования на rubyОсновы программирования на ruby
Основы программирования на ruby
 
Механизмы обеспечения связности в системах динамической генерации текстов
Механизмы обеспечения связности в системах динамической генерации текстовМеханизмы обеспечения связности в системах динамической генерации текстов
Механизмы обеспечения связности в системах динамической генерации текстов
 
Управляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условияУправляющие структуры в Ruby: условия
Управляющие структуры в Ruby: условия
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программирования
 
Определение
ОпределениеОпределение
Определение
 

Viewers also liked

Viewers also liked (20)

Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
Datr - язык представления лингвистической информации
Datr - язык представления лингвистической информацииDatr - язык представления лингвистической информации
Datr - язык представления лингвистической информации
 
Система поддержки исследований семантики паремий
Система поддержки исследований семантики паремийСистема поддержки исследований семантики паремий
Система поддержки исследований семантики паремий
 
Программные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимовПрограммные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимов
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Вопросно-ответный поиск
Вопросно-ответный поискВопросно-ответный поиск
Вопросно-ответный поиск
 
РОМИП
РОМИПРОМИП
РОМИП
 
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Моделирование поведения взаимодействующих агентов в среде с ограничениями
Моделирование поведения взаимодействующих агентов в  среде с ограничениямиМоделирование поведения взаимодействующих агентов в  среде с ограничениями
Моделирование поведения взаимодействующих агентов в среде с ограничениями
 
Вероятностная модель языка
Вероятностная модель языкаВероятностная модель языка
Вероятностная модель языка
 
Разработка системы вопросно-ответного поиска
Разработка системы вопросно-ответного поискаРазработка системы вопросно-ответного поиска
Разработка системы вопросно-ответного поиска
 
Введение в Learning To Rank
Введение в Learning To RankВведение в Learning To Rank
Введение в Learning To Rank
 
Анализ игры "Судоку"
Анализ игры "Судоку"Анализ игры "Судоку"
Анализ игры "Судоку"
 
Программная поддержка морфемного словаря
Программная поддержка морфемного словаряПрограммная поддержка морфемного словаря
Программная поддержка морфемного словаря
 
Интегрированная среда для языка Рефал
Интегрированная среда для языка РефалИнтегрированная среда для языка Рефал
Интегрированная среда для языка Рефал
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
Экспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделийЭкспертная система по конструированию и моделированию швейных изделий
Экспертная система по конструированию и моделированию швейных изделий
 
Анализ игры “Судоку”
Анализ игры “Судоку”Анализ игры “Судоку”
Анализ игры “Судоку”
 
Алгоритмы решения Судоку
Алгоритмы решения СудокуАлгоритмы решения Судоку
Алгоритмы решения Судоку
 

Similar to Разрешение лексической неоднозначности

Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...ЗПШ СПбГУ
 
02 классификация документов
02 классификация документов02 классификация документов
02 классификация документовLidia Pivovarova
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиYandex
 
коррекционно развивающие технологии
коррекционно развивающие технологиикоррекционно развивающие технологии
коррекционно развивающие технологииLlaarriissaa
 
Системно - деятельностный подход в обучении математике и физике
Системно - деятельностный подход в обучении математике и физикеСистемно - деятельностный подход в обучении математике и физике
Системно - деятельностный подход в обучении математике и физикеalexredhill
 
Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»ScienceHunter1
 
презентации по информатике
презентации по информатикепрезентации по информатике
презентации по информатикеNick535
 
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Сообщество eLearning PRO
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Арифметична прогресія
Арифметична прогресіяАрифметична прогресія
Арифметична прогресіяsveta7940
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
 
Урок математики в 10 классе «Наибольшее и наименьшее значение функции на от...
Урок математики в 10  классе «Наибольшее и наименьшее значение  функции на от...Урок математики в 10  классе «Наибольшее и наименьшее значение  функции на от...
Урок математики в 10 классе «Наибольшее и наименьшее значение функции на от...Kirrrr123
 
7003 урок рос
7003 урок рос7003 урок рос
7003 урок росjasperwtf
 

Similar to Разрешение лексической неоднозначности (20)

Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
 
02 классификация документов
02 классификация документов02 классификация документов
02 классификация документов
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
 
коррекционно развивающие технологии
коррекционно развивающие технологиикоррекционно развивающие технологии
коррекционно развивающие технологии
 
Системно - деятельностный подход в обучении математике и физике
Системно - деятельностный подход в обучении математике и физикеСистемно - деятельностный подход в обучении математике и физике
Системно - деятельностный подход в обучении математике и физике
 
Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»Практический курс «Основы Data Mining»
Практический курс «Основы Data Mining»
 
презентации по информатике
презентации по информатикепрезентации по информатике
презентации по информатике
 
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
лекция 3
лекция 3лекция 3
лекция 3
 
Арифметична прогресія
Арифметична прогресіяАрифметична прогресія
Арифметична прогресія
 
Del test dk2011-ru
Del test dk2011-ruDel test dk2011-ru
Del test dk2011-ru
 
Metod intervaljv
Metod intervaljvMetod intervaljv
Metod intervaljv
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
S07frolov
S07frolovS07frolov
S07frolov
 
Урок математики в 10 классе «Наибольшее и наименьшее значение функции на от...
Урок математики в 10  классе «Наибольшее и наименьшее значение  функции на от...Урок математики в 10  классе «Наибольшее и наименьшее значение  функции на от...
Урок математики в 10 классе «Наибольшее и наименьшее значение функции на от...
 
7003 урок рос
7003 урок рос7003 урок рос
7003 урок рос
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 

Разрешение лексической неоднозначности

  • 1. Доклад Word Sense Disambiguation Разрешение лексической многозначности Леонид Сошинский научный руководитель: Наталья Лукашевич
  • 2.
  • 3.
  • 4. История области * 40е – зарождение машинного перевода – Warren Weaver, «The "Translation" memorandum » (1949) – Yehoshua Bar-Hillel, скептис учёных * 70е – WSD – часть более крупных проектов, ручные правила, в осн. * 80е – Oxford Advanced Learner's Dictionary of Current English, – ручное выписывание правил – вытеснено автоматическим извлечением знаний из подобных источников – AI winter * 90е – "статистическая революция", обучение с учителем * 00е – смещение в сторону: -> coarse-grained senses -> domain adaptation -> semi-supervised system и обучение без учителя -> смешанные методы, обработка баз знаний
  • 5.
  • 6.
  • 7. Типы алгоритмов Существует четыре основных метода разрешения многозначности: * методы, основанные на знаниях ( d ictionary- и knowledge-based methods ): эти методы преимущественно полагаются на словари, тезаурусы, лексикографические базы данных, не полагаясь на корпусы текстов. * методы обучения с учителем ( Supervised methods ): эти методы используют размеченные корпуса текстов для тренировки классификатора. * методы частичного обучения с учителем ( Semi-supervised or minimally-supervised methods ): эти методы используют вторичные знания, такие как определения терминов в толкованиях слов или выровненный двуязычный (билингвальный) корпус. * методы обучения без учителя ( Unsupervised methods ): большинство этих методов не предполагает использование каких-либо внешних данных и используют только raw unannotated corpora; также, они известны под термином кластеризации и "word sense discrimination".
  • 8.
  • 9.
  • 10. II. Корпус. Методы получения. 1. поисковая выдача Yandex'a, Google'a (поиск контекстов однозначных синонимов, гипонимов/гиперонимов + опред. Фильтры -> ~670 ex. with ~91% precision / Mihalcea) 2. bootstrapping (бутстреппинг, seed examples) 3. web directories (Open Directory project – 70k сайтов (ru) / 5m (en)) 4. parallel corpora (google, англ. язык и русский, trabslated.by: 26m знаков) 5. коллаборативный отбор в стиле соц. сетей (Open Mind Word Expert project, трудные случаи показываются волонтёрам, inter-annotator agreement – 62.8%, на Senseval – 85.5%)
  • 11. IIIa. Naïve Bayes (NB) Простейший вероятностный метод, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. (применяя теорему Байеса, затем форм. усл. вер-ти и получаем ... = p(C) П p(F i |C), а потом уже применяем метод максимального правдоподобия.
  • 12. IIIb. Decision Lists (DL) – упорядоченный список правил (condition, sense, weight) – цель: найти веса – вероятности считаем с помощью метода максимального правдоподобия * DT (Decision Trees) – неэфф.:
  • 13. IIIc. Examplar-based learning (kNN) Метод ближайших соседей. Объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента. Сравниваем со всеми с соседями расстояние Хэмминга Wj — вес j параметра δ – расстояние между примерами Пример работы алгоритма: * при k=3 * при k=5 Минусы: – чувствителен к нерелевантным фичам – majority voting -> вводим веса
  • 14. IIId. AdaBoost (AB) Принцип: наращивание слабых гипотез в сильные. 1. поступенчатое обучение слабым (каждая новая is biased to classify the examples which were most difficult to classify by the ensemble of preceding weak hypotheses). После этого идёт итеративное настраивание каждого i-го веса D 1 (i),...,D t (i),...D T (i) Конечная комбинированная гопитеза h
  • 15. IIIe. Support Vector Michines (SVM) Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. The linear classifier is defined by two elements: a weight vector w (with one component for each feature), and a bias b which stands for the distance of the hyperplane to the origin. Классификатор присваивает +1 либо –1 каждому новому примеру таким образом: * soft margin Supervised methods
  • 16. III. Оценка эффективности 5ти методов * сложно сравнивать из-за того, что разные методы требуют разные параметры и разные реализации * исследование (Màrquez, Escudero, Martínez, and Rigau) показало примерные результаты SVM ≈ AB > kNN > NB ≈ DL > MFC * все методы превзошли MFC * paired Student’s t-test of significance with a confidence value of t=3.250 * низкая эфф-сть DL – из-за сглаживающего алгоритма * глаголы и существительные (худшие работают с глаголами лучше, чем с сущ.) * SVM круче AB на маленьких корпусах, AB круче SVM на больших
  • 17. Корпус. Выбранный метод и результаты 0. в качестве тезауруса был выбран РуТез (НИВЦ)... КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНКА СОЦВЕТИЯ КОРЗИНКА - КОРЗИНКА (СОЦВЕТИЕ) - КОРЗИНОЧНЫЙ КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ЛУКОШКО КОРЗИНКА - ПЛЕТЕНАЯ КОРЗИНА - ПЛЕТЕНАЯ КОРЗИНА 1. был выбран 1й метод; выбор слов в тестовую подборку (около 100 многозначных слов, с разными частями речи, частотностью и многозначностью) 2. источник и способ получения контекстов (Яндекс.XML, 3 группы (!), вид запросов), качество контекстов !!ОТРИНУТЬ lang="ru" !!ВЫСТУПАТЬ /+2 !!ПРОТИВНИКОМ lang="ru" ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.). Впавший в бедность, обедневший. || сущ. обеднелость, -и, ж. 3. каждому значению слову было получено около 400 контекстов, была проведена выборочная проверка (3 слова, 1 значение, около 80 конт., плохие тез. отбрасыв.), эфф-ть ~85%, но может варьироваться
  • 18. IV. kNN; feature selection и parameter optimization Необходимо пройти несколько этапов: 0. выбрать метод и алгоритм: kNN / TiMBL (Tillburg Memory-Based Learner, DT-based имплементация) 1. выбрать параметры (локальные и тематические контексты). [w -3 , w -2 , w -1 , w, w +1 , w +2 , w +3 ] – контекст нашего слова w. p i , -3 ≤ i ≤ 3 их части речи. Примерно такие паттерны: p -3 , p -2 , p -1 , p +1 , p +2 , p +3 , w -1 , w +1 , (w -2 , w -1 ), (w -1 , w +1 ), (w +1 , w +2 ), (w -3 , w -2 , w -1 ), (w -2 , w -1 , w +1 ), (w -1 , w +1 , w +2 ) и (w +1 , w +2 , w +3 ). 2. Определиться с расстоянием δ: Хэмминг -> MVDM (modified value difference metric) 3. Определиться с весами: оценка Gain Ratio
  • 19.
  • 20.