Методы морфологического анализа текстов
Upcoming SlideShare
Loading in...5
×
 

Методы морфологического анализа текстов

on

  • 3,405 views

23 марта 2010

23 марта 2010
Корищенко Д.К.

Statistics

Views

Total Views
3,405
Views on SlideShare
3,405
Embed Views
0

Actions

Likes
1
Downloads
26
Comments
1

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • thanks for this I am studying this notes it's so useful
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Методы морфологического анализа текстов Методы морфологического анализа текстов Presentation Transcript

  • Методы морфологического анализа текстов Корищенко Д.К. 424 группа. 23.03.2010
  • Обработка текстов на естественном языке
    • Морфологический анализ и морфемный анализ
    • Синтаксический анализ
    • Семантический анализ
  • Анализ отдельных слов
    • Морфологические характеристики слова
    • Основная словоформа (нормальная форма слова)
    • Морфемный анализ (деление слова на приставки, корни, суффиксы и окончания)
    • Словарная морфология
    • Определение характеристик на базе системы правил, по заданному слову определяющих его морфологические характеристики (экспертная система)
    • Вероятностный подход – сочетания слов с конкретными характеристиками (необходим контекст слова: слова, стоящие рядом) – применим только для языков с фиксированным порядком слов в предложении
  • Морфологический анализ на базе словаря
    • Дают максимально полный анализ словоформы
    • На реальных текстах дают сбои (опечатки, уникальные слова)
    • Не существует абсолютно полных словарей – лексика языка непрерывно пополняется
    • Для примера – невозможно включить в словарь всю существующую терминологию, имена, фамилии и т.д.
  • Пример морфологического словаря системы АОТ Таблица Lemmata  содержит перечень всех лемм данного словаря, для каждой леммы даны ее свойства: 1.      псевдооснова  слова (общая для всех словоформ данного слова подстрока), 2.      ссылка на набор окончаний 3.      ссылка на набор ударений 4.      ссылка на набор приставок 5.      ссылка на пользовательскую сессию, при которой была внесено последнее изменение этой записи 6.      cсылка на общие граммемы данной леммы Таблица FlexiaModels cодержит перечень возможных окончаний всех лемм. 1.  Поле PrefixStr содержит префикс данной словоформы (возможно, пустой) 2.      Поле FlexiaStr содержит окончание данной словоформы (возможно, пустое) 3.      Поле  Ancode содержит морфологическую интерпретацию данной словоформы. Таблица AccentModels содержит перечень возможных номеров ударных гласных для словоформ.   Таблица Ancodes содержит все возможные морфологические интерпретации. Поле PartOfSpeech содержит часть речи (C,Г,П,...), а полеGrammems набор граммем, типа «мр,но,ед,им».
  • Методы хранения словарей
    • Ispell - префиксы+основа + список возможных окончаний
    • Хэширование – хэш-таблица, используется вспомогательная функция, которую называют хэшем.
    • Дерево – использование древовидной структуры, поиск осуществляемся с помощью конечного автомата.
  • Морфологический анализ без словаря
    • Вероятностно-статистические методы
    • Лексиконы суффиксов, основ
    • Лексиконы построены эмпирически
  • Пример модели морфологического анализа без словаря
    • Лексикон окончаний
    • Лексикон суффиксов
    • Лексикон корней
    • Лексикон префиксов
    • Лексикон основ
    • Лексикон баз
    • Пример:
    • -ени-
    • существительное,11, -е
    • существительное, 8, -й
    • глагол, -ть
    • 11,8 – тип склонения
  • Пример модели морфологического анализа без словаря
    • Анализ словоформы построен на правилах поиска и сочетания единиц разных лексиконов, приводящий к унификации гипотез
  • Пример модели морфологического анализа без словаря
    • Недостатки:
    • По сути метод сводится к эмпирическому сжатию исходного словаря словоформ
    • Не используются точные лингвистические методы анализа – не позволяют выбирать уникальные грамматические характеристики
    • Большой объем лексиконов
    • Вероятностно-статистические методы плохо работают с малой выборкой
  • Проектирование словарной морфологии
    • Существует 2 подхода:
    • Выделяются классы, соответствующие типу склонения и спряжения, нерегулярные формы задаются перечислением (прим. Словарь А.Зализняка)
    • Выделение регулярных и нерегулярных чередований
  • Проблема морфологической омонимии
    • Пример:
    • На завод привезли стекло.
    • Масло стекло на пол.
    • Данные эксперимента являются ошибочными.
    • Последние данные являются ошибочными.
    • Как решить?
  • Проблема морфологической омонимии
    • Подходы:
    • Детерминированные (словари)
    • Вероятностные (используют статистику встречаемости грамматических признаков слов в больших корпусах, омонимия в которых снята заранее)
  • Проблема морфологической омонимии
    • Большинство алгоритмов используют точные результаты синтаксического анализа
    • Подход с использованием нейронных сетей (управляемое обучение -> самостоятельное обучение)
  • Проблема морфологической омонимии
    • Использование скрытой Марковской модели:
    • Для каждого слова, входящего в предложение выбирается грамматический класс так, чтобы максимизировать
    • P(word|tag) * P(tag|previous n tags)
    • P(tag|previous n tags) - условная вероятность (вычисленная по
    • размеченному корпусу), появления данного тэга tag , при условии, что
    • предыдущие n тэгов уже определены.
    • P(word|tag) - условная вероятность (также вычисленная по корпусу)
    • появления в данном месте слова word , при условии, что это слово имеет
    • данный грамматический класс tag
    • Точность алгоритма для английского языка – 96%.
  • Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю.Г. Зеленков, И.В. Сегалович)
    • Использование небольшого, тщательного отобранного и размеченного вручную корпуса как источника построения словаря контекстов омонимов
    • Элементы контекста влияют на выбор омонима сильнее или слабее в зависимости от расположения относительно омонима
    • Целью алгоритма является получение леммы, то есть выбор между несколькими правилами преобразования словоформы в возможные леммы
    • При построении корпуса используется идея ранжирования частотных омонимов русского языка по степени трудности выбора леммы.
  • Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю.Г. Зеленков, И.В. Сегалович)
    • Сначала для каждого омонима исходного текста и его ближайших соседей строятся их нормализующие подстановки
    • Для каждой пары < омоним , элемент контекста > из словаря контекстов выбирается лемма и вероятность ее порождения данным элементом контекста
    • Для каждой леммы вычисляется сумма вероятностей, умноженная на значение коэффициента «силы» элемента контекста
    • Значением омонима в данном контексте считается лемма с наибольшей взвешенной суммой вероятностей
  • Проблема обработки несловарных форм
    • Несловарные формы – имена, фамилии и т.д.
    • Автопополение словаря – если одна из форм встречалась один раз, то скорее всего встретится и другая.
    • Построение гипотез, вычисление частоты каждой гипотезы - > на выходе получаем наиболее вероятную и пополняем словарь
  • Курсовая работа
    • Задача – исследование эффективность решения проблемы морфологической неоднозначности и пополнения морфологического словаря на основе новостных кластеров
    • Алгоритм решения:
    • Пусть есть словоформа Х, которой нет в словаре – с леммами Х1 и Х2
    • И встретилась слоформа Х0 - с леммами Х2 и Х3
    • Отсюда – Х имеет лемму Х2 и Х0 имеет лемму Х2, таким образом мы сузили список лемм.
    • В итоге получилось, что в среднем удается сузить список лемм для 9% слов из кластера.
  • Выводы
    • Наиболее важные проблемы:
    • Морфологическая омонимия
    • Повышение точности обработки несловарных слов