Морфологический анализатор PC-KIMMO

Морфологический
анализатор
PC-KIMMO
http://www-01.sil.org/pckimmo/

Для чего нужен автоматический
морфологический разбор слов?





Парсинг (синтаксический разбор) – это
стандартный метод, используемый в АОЕЯ.
Но сначала каждому входящему в
предложение слову должна быть приписана
определенная информация.
Чтобы разобрать предложение The cat
chased the rat, анализатор должен знать, что
слово cat – это существительное в ед.ч.,
chased – форма прошедшего времени
глагола и т.д.

Английский язык





Можно просто составить лексикон, в котором
будут перечислены все словоформы с
указанием части речи и такой информации,
как число и время.
Число всех словоформ будет не столь
велико.
Исчисляемые существительные имеют
только 2 формы – ед. и мн.ч., а правильные
глаголы имеют всего 4 формы: базовая,
форма на -s, форма на -ed и форма на -ing.

финский, турецкий, кечуа
практически невозможно составить
лексикон
 каждое существительное или глагол
могут иметь сотни словоформ
 нужен морфологический анализатор,
который, используя морфологическую
систему языка, смог бы вычислять
часть речи словоформы со всеми ее
категориями словоизменения


Английский язык






ограниченная система словоизменения, но
достаточно сложная и продуктивная система
словообразования
из слова compute производятся такие слова,
как computer, computerize, computerization,
recomputerize, noncomputerized и т.д.
Невозможно перечислить в лексиконе все
производные слова (включая неологизмы),
которые могут встретиться в тексте.

Двухуровневая модель
морфологии




Настоящий прорыв в области морфологического
разбора был сделан в 1983 году Киммо Коскеньеми,
который опубликовал свою диссертацию Two-level
morphology: A general computational model for wordform recognition and generation (Koskenniemi 1983)
Модель базировалась на традиционном
разграничении




морфотактики, которая перечисляет все возможные
морфемы и определяет, в каком порядке они могут
следовать друг за другом в слове, и
морфофонемики, которая объясняет альтернативные
формы морфем в соответствии с фонологическим
контекстом, в котором они появляются

слово chased разбирается
морфотактически на основу chase и
суффикс -ed
 ясно, что конечная e выпадает из
основы при добавлении суффикса -ed;
таким образом, chase и chas –
алломорфы или альтернативные
формы одной и той же морфемы






Модель Коскеньеми двухуровневая в том
смысле, что слово представляет собой
прямое побуквенное соответствие между его
лексической (или глубинной) и поверхностной
формами.
К примеру, слово chased представляется в
этой модели следующим образом (где + это
разделитель морфем, а 0 – нулевой символ):
Lexical form:
c h a s e + e d
Surface form:
c h a s 0 0 e d

Анализатор KIMMO








Лаури Картунен и др. реализовали двухуровневую
модель Коскеньеми на языке LISP и назвали ее
KIMMO (Karttunen 1983)
В ней было 2 аналитических компонента: компонент
правил и лексический компонент, или лексикон
Компонент правил содержал двухуровневые
правила, которые объясняли регулярные
фонологические и орфографические чередования,
такие как chase – chas
В лексиконе были перечислены все морфемы
(основы и аффиксы) в их лексической форме и
определены их морфотактические ограничения

Анализатор KIMMO







Эти 2 компонента использовались двумя
процедурами, генератором и распознавателем.
Генератор принимал на входе лексическую форму,
такую как `spy+s и возвращал поверхностную форму
spies.
Распознаватель принимал на входе поверхностную
форму такую как spies и возвращал глубинную
форму, разделенную на морфемы, в данном случае
`spy+s, плюс описание, такое как N+PLURAL
Формы соотносятся по правилу преобразования:
Лексическая форма:
` s p y + 0 s
Поверхностная форма: 0 s p i 0 e s

Двухуровневые правила







Нужны специальные правила для
преобразования `:0, y:i, +:0 и 0:e
Правило для y:i в упрощѐнном виде выглядит
так:
y:i => @:C___+:0
Как видно, окружающий место
преобразования ___ контекст также указан в
виде двухуровневых соответствий
Т.к. двухуровневые правила имеют доступ и к
глубинным и к поверхностным контекстам
несколько правил могут применяться
параллельно без указанного порядка

Двухуровневые правила



транслируются в конечные преобразователи
Например, таблица преобразования для
правила y:i => @:C___+:0 выглядит так:
|@ y + @
|C i 0 @
--+------1:|2 0 1 1
2:|2 3 2 1
3.|0 0 1 0

Анализатор PC-KIMMO






В 1990, в Summer Institute of Linguistics
создали программу PC-KIMMO version 1,
реализующую двухуровневую модель как и в
программе KIMMO (Antworth 1990).
Она была написана на языке C и запускалась
на компьютерах IBM PC и Macintosh, а также
на компьютерах под управлением
операционной системы UNIX.
PC-KIMMO хорошо работала с тем, для чего
создавалась – разбор слов на
маркированные морфемы.

Анализатор PC-KIMMO






Но у нее был один существенный недостаток:
она не могла определить часть речи слова и
его словоизменительные категории.
К примеру, PC-KIMMO могла разбить слово
enlargements на последовательность морфем
en+large+ment+s и дать описание каждой
морфемы, но она не могла определить, что
слово целиком представляет собой
существительное во мн.ч.
Это означает, что PC-KIMMO не могла
передавать результаты непосредственно в
синтаксический анализатор.

Унифицированная грамматика
слов







В 1993, появилась 2 версия программы PC-KIMMO,
которая была разработана специально, чтобы
исправить недостаток предыдущей версии.
Это было сделано за счет добавления 3-го
аналитического компонента, грамматики слов.
Грамматика слов – это анализатор, основанный на
формализме PATR-II (Shieber 1986), который выдает
деревья морфем со структурой их признаков.
Когда поверхностная форма слова подается на вход
Распознавателя PC-KIMMO, правила и лексикон
разбивают его на последовательность морфемных
структур (или возможно несколько
последовательностей, если найдено более 1 анализа
слова).

слов


Морфемная структура состоит из
лексической формы, ее описания, категории
и признаков. К примеру, слово enlargements
раскладывается на последовательность
следующих морфемных структур:
Form: en+
Gloss: VR1+
Cat:
PREFIX
Feat: [fromcat: AJ
tocat: V
finite: !-]

large
AJ
ROOT
[lexcat: AJ
aform: !POS]

+ment
+NR25
SUFFIX
[fromcat: V
tocat: N
number: !SG]

+s
+PL
INFL
[fromcat: N
tocat: N
number: SG
reg: +]

слов


Данный анализ передается дальше грамматике слов, которая в
свою очередь возвращает дерево разбора со структурой
признаков:
Word
______|_______
Stem
INFL
_____|______
+s
Stem
SUFFIX
+PL
___|____
+ment
PREFIX
Stem
+NR25
en+
|
VR1+
ROOT
`large
AJ
Word:
[ lexcat: N
number: PL ]

слов







В то время как каждый узел дерева имеет
структуру признаков данной морфемы,
структура признаков самого верхнего узла
является самой важной, так как она
показывает признаки целого слова.
Структура признаков слова enlargements
определяет 2 признака.
Первый признак lexcat имеет значение N,
означающий, что лексическая категория
(часть речи) слова – существительное.
Второй признак number имеет значение PL –
мн.ч.

Морфологический анализатор PC-KIMMO

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to Морфологический анализатор PC-KIMMO

Similar to Морфологический анализатор PC-KIMMO (12)

More from Artem Lukanin

More from Artem Lukanin (20)

Морфологический анализатор PC-KIMMO