SlideShare a Scribd company logo
Морфологический
анализатор
PC-KIMMO
http://www-01.sil.org/pckimmo/
Для чего нужен автоматический
морфологический разбор слов?





Парсинг (синтаксический разбор) – это
стандартный метод, используемый в АОЕЯ.
Но сначала каждому входящему в
предложение слову должна быть приписана
определенная информация.
Чтобы разобрать предложение The cat
chased the rat, анализатор должен знать, что
слово cat – это существительное в ед.ч.,
chased – форма прошедшего времени
глагола и т.д.
Английский язык





Можно просто составить лексикон, в котором
будут перечислены все словоформы с
указанием части речи и такой информации,
как число и время.
Число всех словоформ будет не столь
велико.
Исчисляемые существительные имеют
только 2 формы – ед. и мн.ч., а правильные
глаголы имеют всего 4 формы: базовая,
форма на -s, форма на -ed и форма на -ing.
финский, турецкий, кечуа
практически невозможно составить
лексикон
 каждое существительное или глагол
могут иметь сотни словоформ
 нужен морфологический анализатор,
который, используя морфологическую
систему языка, смог бы вычислять
часть речи словоформы со всеми ее
категориями словоизменения

Английский язык






ограниченная система словоизменения, но
достаточно сложная и продуктивная система
словообразования
из слова compute производятся такие слова,
как computer, computerize, computerization,
recomputerize, noncomputerized и т.д.
Невозможно перечислить в лексиконе все
производные слова (включая неологизмы),
которые могут встретиться в тексте.
Двухуровневая модель
морфологии




Настоящий прорыв в области морфологического
разбора был сделан в 1983 году Киммо Коскеньеми,
который опубликовал свою диссертацию Two-level
morphology: A general computational model for wordform recognition and generation (Koskenniemi 1983)
Модель базировалась на традиционном
разграничении




морфотактики, которая перечисляет все возможные
морфемы и определяет, в каком порядке они могут
следовать друг за другом в слове, и
морфофонемики, которая объясняет альтернативные
формы морфем в соответствии с фонологическим
контекстом, в котором они появляются
Двухуровневая модель
морфологии
слово chased разбирается
морфотактически на основу chase и
суффикс -ed
 ясно, что конечная e выпадает из
основы при добавлении суффикса -ed;
таким образом, chase и chas –
алломорфы или альтернативные
формы одной и той же морфемы

Двухуровневая модель
морфологии




Модель Коскеньеми двухуровневая в том
смысле, что слово представляет собой
прямое побуквенное соответствие между его
лексической (или глубинной) и поверхностной
формами.
К примеру, слово chased представляется в
этой модели следующим образом (где + это
разделитель морфем, а 0 – нулевой символ):
Lexical form:
c h a s e + e d
Surface form:
c h a s 0 0 e d
Анализатор KIMMO








Лаури Картунен и др. реализовали двухуровневую
модель Коскеньеми на языке LISP и назвали ее
KIMMO (Karttunen 1983)
В ней было 2 аналитических компонента: компонент
правил и лексический компонент, или лексикон
Компонент правил содержал двухуровневые
правила, которые объясняли регулярные
фонологические и орфографические чередования,
такие как chase – chas
В лексиконе были перечислены все морфемы
(основы и аффиксы) в их лексической форме и
определены их морфотактические ограничения
Анализатор KIMMO







Эти 2 компонента использовались двумя
процедурами, генератором и распознавателем.
Генератор принимал на входе лексическую форму,
такую как `spy+s и возвращал поверхностную форму
spies.
Распознаватель принимал на входе поверхностную
форму такую как spies и возвращал глубинную
форму, разделенную на морфемы, в данном случае
`spy+s, плюс описание, такое как N+PLURAL
Формы соотносятся по правилу преобразования:
Лексическая форма:
` s p y + 0 s
Поверхностная форма: 0 s p i 0 e s
Анализатор KIMMO
Двухуровневые правила







Нужны специальные правила для
преобразования `:0, y:i, +:0 и 0:e
Правило для y:i в упрощѐнном виде выглядит
так:
y:i => @:C___+:0
Как видно, окружающий место
преобразования ___ контекст также указан в
виде двухуровневых соответствий
Т.к. двухуровневые правила имеют доступ и к
глубинным и к поверхностным контекстам
несколько правил могут применяться
параллельно без указанного порядка
Двухуровневые правила



транслируются в конечные преобразователи
Например, таблица преобразования для
правила y:i => @:C___+:0 выглядит так:
|@ y + @
|C i 0 @
--+------1:|2 0 1 1
2:|2 3 2 1
3.|0 0 1 0
Анализатор PC-KIMMO






В 1990, в Summer Institute of Linguistics
создали программу PC-KIMMO version 1,
реализующую двухуровневую модель как и в
программе KIMMO (Antworth 1990).
Она была написана на языке C и запускалась
на компьютерах IBM PC и Macintosh, а также
на компьютерах под управлением
операционной системы UNIX.
PC-KIMMO хорошо работала с тем, для чего
создавалась – разбор слов на
маркированные морфемы.
Анализатор PC-KIMMO






Но у нее был один существенный недостаток:
она не могла определить часть речи слова и
его словоизменительные категории.
К примеру, PC-KIMMO могла разбить слово
enlargements на последовательность морфем
en+large+ment+s и дать описание каждой
морфемы, но она не могла определить, что
слово целиком представляет собой
существительное во мн.ч.
Это означает, что PC-KIMMO не могла
передавать результаты непосредственно в
синтаксический анализатор.
Унифицированная грамматика
слов







В 1993, появилась 2 версия программы PC-KIMMO,
которая была разработана специально, чтобы
исправить недостаток предыдущей версии.
Это было сделано за счет добавления 3-го
аналитического компонента, грамматики слов.
Грамматика слов – это анализатор, основанный на
формализме PATR-II (Shieber 1986), который выдает
деревья морфем со структурой их признаков.
Когда поверхностная форма слова подается на вход
Распознавателя PC-KIMMO, правила и лексикон
разбивают его на последовательность морфемных
структур (или возможно несколько
последовательностей, если найдено более 1 анализа
слова).
Унифицированная грамматика
слов


Морфемная структура состоит из
лексической формы, ее описания, категории
и признаков. К примеру, слово enlargements
раскладывается на последовательность
следующих морфемных структур:
Form: en+
Gloss: VR1+
Cat:
PREFIX
Feat: [fromcat: AJ
tocat: V
finite: !-]

large
AJ
ROOT
[lexcat: AJ
aform: !POS]

+ment
+NR25
SUFFIX
[fromcat: V
tocat: N
number: !SG]

+s
+PL
INFL
[fromcat: N
tocat: N
number: SG
reg: +]
Унифицированная грамматика
слов


Данный анализ передается дальше грамматике слов, которая в
свою очередь возвращает дерево разбора со структурой
признаков:
Word
______|_______
Stem
INFL
_____|______
+s
Stem
SUFFIX
+PL
___|____
+ment
PREFIX
Stem
+NR25
en+
|
VR1+
ROOT
`large
AJ
Word:
[ lexcat: N
number: PL ]
Унифицированная грамматика
слов







В то время как каждый узел дерева имеет
структуру признаков данной морфемы,
структура признаков самого верхнего узла
является самой важной, так как она
показывает признаки целого слова.
Структура признаков слова enlargements
определяет 2 признака.
Первый признак lexcat имеет значение N,
означающий, что лексическая категория
(часть речи) слова – существительное.
Второй признак number имеет значение PL –
мн.ч.

More Related Content

Viewers also liked

Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
prmegaindex
 
живые сайты
живые сайтыживые сайты
живые сайты
zexzex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
 
20131210прохоренков
20131210прохоренков20131210прохоренков
20131210прохоренков
Yandex
 
повышение продаж
повышение продажповышение продаж
повышение продаж
prmegaindex
 
методические рекомендации_2_часть
методические рекомендации_2_частьметодические рекомендации_2_часть
методические рекомендации_2_частьAlexander Shapovalov
 
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Yandex
 
Кейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебелиКейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебели
Нарижный Денис
 
Instrukcija
InstrukcijaInstrukcija
Instrukcijaaivenkov
 
Методы повышения Ctr (микроформаты)
Методы повышения Ctr (микроформаты)Методы повышения Ctr (микроформаты)
Методы повышения Ctr (микроформаты)
Fedotov Alex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Yandex
 
ES6 — уровень реализации и возможности использования — Денис Тужик
ES6 — уровень реализации и возможности использования — Денис ТужикES6 — уровень реализации и возможности использования — Денис Тужик
ES6 — уровень реализации и возможности использования — Денис Тужик
Yandex
 
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовArtem Lukanin
 
урок 65 настройка целей веб аналитики
урок 65 настройка целей веб аналитикиурок 65 настройка целей веб аналитики
урок 65 настройка целей веб аналитикиOlegShestakov
 
Урок № 59 схемы мошенничества в SEO
Урок № 59 схемы мошенничества в SEOУрок № 59 схемы мошенничества в SEO
Урок № 59 схемы мошенничества в SEO
OlegShestakov
 

Viewers also liked (20)

Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
 
живые сайты
живые сайтыживые сайты
живые сайты
 
1
11
1
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
cjdk
cjdkcjdk
cjdk
 
20131210прохоренков
20131210прохоренков20131210прохоренков
20131210прохоренков
 
112
112112
112
 
-
--
-
 
повышение продаж
повышение продажповышение продаж
повышение продаж
 
методические рекомендации_2_часть
методические рекомендации_2_частьметодические рекомендации_2_часть
методические рекомендации_2_часть
 
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
 
Кейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебелиКейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебели
 
Instrukcija
InstrukcijaInstrukcija
Instrukcija
 
Методы повышения Ctr (микроформаты)
Методы повышения Ctr (микроформаты)Методы повышения Ctr (микроформаты)
Методы повышения Ctr (микроформаты)
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
fg
fgfg
fg
 
ES6 — уровень реализации и возможности использования — Денис Тужик
ES6 — уровень реализации и возможности использования — Денис ТужикES6 — уровень реализации и возможности использования — Денис Тужик
ES6 — уровень реализации и возможности использования — Денис Тужик
 
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
 
урок 65 настройка целей веб аналитики
урок 65 настройка целей веб аналитикиурок 65 настройка целей веб аналитики
урок 65 настройка целей веб аналитики
 
Урок № 59 схемы мошенничества в SEO
Урок № 59 схемы мошенничества в SEOУрок № 59 схемы мошенничества в SEO
Урок № 59 схемы мошенничества в SEO
 

Similar to Морфологический анализатор PC-KIMMO

Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
QPsoft
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Применение статического анализа при разработке программ
Применение статического анализа при разработке программПрименение статического анализа при разработке программ
Применение статического анализа при разработке программ
Tatyanazaxarova
 
Функции в языке программирования QBasic
Функции в языке программирования QBasicФункции в языке программирования QBasic
Функции в языке программирования QBasickvlar
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 

Similar to Морфологический анализатор PC-KIMMO (12)

Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
Mashinny perevod
Mashinny perevodMashinny perevod
Mashinny perevod
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
лекция 3
лекция 3лекция 3
лекция 3
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Применение статического анализа при разработке программ
Применение статического анализа при разработке программПрименение статического анализа при разработке программ
Применение статического анализа при разработке программ
 
Функции в языке программирования QBasic
Функции в языке программирования QBasicФункции в языке программирования QBasic
Функции в языке программирования QBasic
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Promt
PromtPromt
Promt
 

More from Artem Lukanin

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Основные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиОсновные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиArtem Lukanin
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстовArtem Lukanin
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаArtem Lukanin
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикографияArtem Lukanin
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемыArtem Lukanin
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязыкArtem Lukanin
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
Типология словарей
Типология словарейТипология словарей
Типология словарейArtem Lukanin
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографииArtem Lukanin
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое полеArtem Lukanin
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 
Криптография
КриптографияКриптография
КриптографияArtem Lukanin
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного переводаArtem Lukanin
 

More from Artem Lukanin (20)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Основные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиОсновные понятия корпусной лингвистики
Основные понятия корпусной лингвистики
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Криптография
КриптографияКриптография
Криптография
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
 

Морфологический анализатор PC-KIMMO

  • 2. Для чего нужен автоматический морфологический разбор слов?    Парсинг (синтаксический разбор) – это стандартный метод, используемый в АОЕЯ. Но сначала каждому входящему в предложение слову должна быть приписана определенная информация. Чтобы разобрать предложение The cat chased the rat, анализатор должен знать, что слово cat – это существительное в ед.ч., chased – форма прошедшего времени глагола и т.д.
  • 3. Английский язык    Можно просто составить лексикон, в котором будут перечислены все словоформы с указанием части речи и такой информации, как число и время. Число всех словоформ будет не столь велико. Исчисляемые существительные имеют только 2 формы – ед. и мн.ч., а правильные глаголы имеют всего 4 формы: базовая, форма на -s, форма на -ed и форма на -ing.
  • 4. финский, турецкий, кечуа практически невозможно составить лексикон  каждое существительное или глагол могут иметь сотни словоформ  нужен морфологический анализатор, который, используя морфологическую систему языка, смог бы вычислять часть речи словоформы со всеми ее категориями словоизменения 
  • 5. Английский язык    ограниченная система словоизменения, но достаточно сложная и продуктивная система словообразования из слова compute производятся такие слова, как computer, computerize, computerization, recomputerize, noncomputerized и т.д. Невозможно перечислить в лексиконе все производные слова (включая неологизмы), которые могут встретиться в тексте.
  • 6. Двухуровневая модель морфологии   Настоящий прорыв в области морфологического разбора был сделан в 1983 году Киммо Коскеньеми, который опубликовал свою диссертацию Two-level morphology: A general computational model for wordform recognition and generation (Koskenniemi 1983) Модель базировалась на традиционном разграничении   морфотактики, которая перечисляет все возможные морфемы и определяет, в каком порядке они могут следовать друг за другом в слове, и морфофонемики, которая объясняет альтернативные формы морфем в соответствии с фонологическим контекстом, в котором они появляются
  • 7. Двухуровневая модель морфологии слово chased разбирается морфотактически на основу chase и суффикс -ed  ясно, что конечная e выпадает из основы при добавлении суффикса -ed; таким образом, chase и chas – алломорфы или альтернативные формы одной и той же морфемы 
  • 8. Двухуровневая модель морфологии   Модель Коскеньеми двухуровневая в том смысле, что слово представляет собой прямое побуквенное соответствие между его лексической (или глубинной) и поверхностной формами. К примеру, слово chased представляется в этой модели следующим образом (где + это разделитель морфем, а 0 – нулевой символ): Lexical form: c h a s e + e d Surface form: c h a s 0 0 e d
  • 9. Анализатор KIMMO     Лаури Картунен и др. реализовали двухуровневую модель Коскеньеми на языке LISP и назвали ее KIMMO (Karttunen 1983) В ней было 2 аналитических компонента: компонент правил и лексический компонент, или лексикон Компонент правил содержал двухуровневые правила, которые объясняли регулярные фонологические и орфографические чередования, такие как chase – chas В лексиконе были перечислены все морфемы (основы и аффиксы) в их лексической форме и определены их морфотактические ограничения
  • 10. Анализатор KIMMO     Эти 2 компонента использовались двумя процедурами, генератором и распознавателем. Генератор принимал на входе лексическую форму, такую как `spy+s и возвращал поверхностную форму spies. Распознаватель принимал на входе поверхностную форму такую как spies и возвращал глубинную форму, разделенную на морфемы, в данном случае `spy+s, плюс описание, такое как N+PLURAL Формы соотносятся по правилу преобразования: Лексическая форма: ` s p y + 0 s Поверхностная форма: 0 s p i 0 e s
  • 12. Двухуровневые правила     Нужны специальные правила для преобразования `:0, y:i, +:0 и 0:e Правило для y:i в упрощѐнном виде выглядит так: y:i => @:C___+:0 Как видно, окружающий место преобразования ___ контекст также указан в виде двухуровневых соответствий Т.к. двухуровневые правила имеют доступ и к глубинным и к поверхностным контекстам несколько правил могут применяться параллельно без указанного порядка
  • 13. Двухуровневые правила   транслируются в конечные преобразователи Например, таблица преобразования для правила y:i => @:C___+:0 выглядит так: |@ y + @ |C i 0 @ --+------1:|2 0 1 1 2:|2 3 2 1 3.|0 0 1 0
  • 14. Анализатор PC-KIMMO    В 1990, в Summer Institute of Linguistics создали программу PC-KIMMO version 1, реализующую двухуровневую модель как и в программе KIMMO (Antworth 1990). Она была написана на языке C и запускалась на компьютерах IBM PC и Macintosh, а также на компьютерах под управлением операционной системы UNIX. PC-KIMMO хорошо работала с тем, для чего создавалась – разбор слов на маркированные морфемы.
  • 15. Анализатор PC-KIMMO    Но у нее был один существенный недостаток: она не могла определить часть речи слова и его словоизменительные категории. К примеру, PC-KIMMO могла разбить слово enlargements на последовательность морфем en+large+ment+s и дать описание каждой морфемы, но она не могла определить, что слово целиком представляет собой существительное во мн.ч. Это означает, что PC-KIMMO не могла передавать результаты непосредственно в синтаксический анализатор.
  • 16. Унифицированная грамматика слов     В 1993, появилась 2 версия программы PC-KIMMO, которая была разработана специально, чтобы исправить недостаток предыдущей версии. Это было сделано за счет добавления 3-го аналитического компонента, грамматики слов. Грамматика слов – это анализатор, основанный на формализме PATR-II (Shieber 1986), который выдает деревья морфем со структурой их признаков. Когда поверхностная форма слова подается на вход Распознавателя PC-KIMMO, правила и лексикон разбивают его на последовательность морфемных структур (или возможно несколько последовательностей, если найдено более 1 анализа слова).
  • 17. Унифицированная грамматика слов  Морфемная структура состоит из лексической формы, ее описания, категории и признаков. К примеру, слово enlargements раскладывается на последовательность следующих морфемных структур: Form: en+ Gloss: VR1+ Cat: PREFIX Feat: [fromcat: AJ tocat: V finite: !-] large AJ ROOT [lexcat: AJ aform: !POS] +ment +NR25 SUFFIX [fromcat: V tocat: N number: !SG] +s +PL INFL [fromcat: N tocat: N number: SG reg: +]
  • 18. Унифицированная грамматика слов  Данный анализ передается дальше грамматике слов, которая в свою очередь возвращает дерево разбора со структурой признаков: Word ______|_______ Stem INFL _____|______ +s Stem SUFFIX +PL ___|____ +ment PREFIX Stem +NR25 en+ | VR1+ ROOT `large AJ Word: [ lexcat: N number: PL ]
  • 19. Унифицированная грамматика слов     В то время как каждый узел дерева имеет структуру признаков данной морфемы, структура признаков самого верхнего узла является самой важной, так как она показывает признаки целого слова. Структура признаков слова enlargements определяет 2 признака. Первый признак lexcat имеет значение N, означающий, что лексическая категория (часть речи) слова – существительное. Второй признак number имеет значение PL – мн.ч.