1. К ВОПРОСУ СНЯТИЯ
ЛЕКСИЧЕСКОЙ И
МОРФОЛОГИЧЕСКОЙ
НЕОДНОЗНАЧНОСТИ
Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург
Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург
2. Словоформа БОРОВ
БОР м1 Мн. Род. $1213136(!Род,!Для) – инструмент
БОР м1В Мн. Род. $122412(!Род) – лес
БОР м1о Мн. Род. Вин. $12413/03000() – фамилия
БОРЫ м1+ Мн. Род. $1214023(!Род,!наВин) – налог
БОРОВ м1о Ед. Им. $124224114(!Род) – свинья
БОРОВ м1|1 Ед. Им. Вин. $1563(!Род) – часть дымохода
9 элементов типа “Очередь”, каждый хранит до 7 лексем.
Всего используется 33 процедуры трех типов:
первый тип – начало разбора (левый контекст),
второй тип – конец разбора (правый контекст),
третий тип – оба случая (и левый, и правый контексты).
3. Морфологический разбор
•Есть культура богатых и культура бедных.
•бедных
БЕДНЫЙ п1 Мн. Род. Вин. Пред. $1241/161(!A1,!Тв)
БЕДНЫЙ м12о Мн. Род. Пред. Вин. $1241/161()
•Есть
ЕСТЬ ПК $1241/416($124~!Дат,!Инфин) +$11101(!Им)
ЕСТЬ г16н Инфинитив $101/1($124~!Им,$101/1~!Вин)
•культура
КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)
•богатых
БОГАТЫЙ п1@ Мн. Род. Вин. Пред. $1241/161(!A1,!Тв)
БОГАТЫЙ м12о Мн. Род. Пред. Вин. $1241/161()
•и
И СЗ $712()
•культура
КУЛЬТУРА ж1 Ед. Им. $1223($1223~!Род)+$1241/15(!Род)
4. Процедура Defis
Процедура осуществляет сборку отсутствующих в словаре сущ.,
прилаг., наречий и междометий, пишущихся через дефис (кроме
ТО, КА, ДЕ, КО, ТА, ТЕ, С, ЛИБО и НИБУДЬ).‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑ ‑
Вначале выполняется разделение лексем на две половины
(по 2-м буквам для коротких слов или 3-м для длинных).
Рассмотрим это на примере анализа слова Царю-освободителю.
После морфологического разбора получим три лексемы:
ЦАРИТЬ г4нН Наст. 1-ое Ед. $124134021(!Им)
ЦАРЬ м2о Ед. Дат. $124134021(!Над!Род)
ОСВОБОДИТЕЛЬ м2о Ед. Дат. $124/1(!Род,!Ото)
Запускается поиск лексем в порядке частей речи, указанных выше,
затем две последние объединяются в одну:
Царю-освободителю
ЦАРЬ-ОСВОБОДИТЕЛЬS anim,m,sg,dat
5. Процедура BigLetter
Профессор Вильфредо Парето из университета Лозанны...
•После морфологического разбора имеем:
ПРОФЕССОР м1о|1 Ед. Им. $12413202(!Род)
ВИЛЬФРЕДО м0о $12413/01000()
ПАРЕТО м0о $12413/03000()
•Находим слева “сопутствующее” слово – профессор и
однозначно определяем все падежи. На выходе имеем:
Профессор
ПРОФЕССОР S anim,m,sg,nom
Вильфредо
ВИЛЬФРЕДОS anim,m,sg,nom
Парето
ПАРЕТО S anim,m,sg,nom
* Исключения: «наследник", «последователь" или «преемник"
6. Процедура OrdinalNum
• Порядковые числительные представлены в виде набора цифр с
буквенным окончанием:
• "ОЙ" – п1 Муж.-Сред. Ед. Им. Вин. Жен. Ед. Род. Дат.
Тв. Пред. $12/135(!A1)
• "ГО" – п1 Муж.-Сред. Ед. Род. Вин. $12/135(!A1)
• "Е" – п1 Сред. Ед. Им. Вин. Мн. Им. Вин. $12/135(!A1)
• "Й" – п1 Муж. Ед. Им. Вин. Жен. Ед. Род. Дат. Тв.
Пред. $12/135(!A1)
• "М" – п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат.
$12/135(!A1)
• "Х" – п1 Мн. Род. Вин. Пред. $12/135(!A1)
• "Ю" – п1 Жен. Ед. Вин. Тв. $12/135(!A1)
• "Я" – п1 Жен. Ед. Им. $12/135(!A1)
7. В 19-м году откопали и привезли в Москву…
•После срабатывания процедуры OrdinalNum получим:
В ПР $711(!Вин!Пред)
19-М п1 Муж.-Сред. Ед. Тв. Пред. Мн. Дат. $12/135(!A1)
ГОД м1|3В@ Ед. Дат. МестВ
$1605($151$12413205$11101$124/1~!Род)
•Процедура Prepos согласует падежи предлога со
следующим за ним прилагательным (в 19-м), в результате
чего в прилагательном остается только предложный падеж:
В ПР $711(!Вин!Пред)
19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1)
ГОД м1|3В@ Ед. Дат. МестВ
$1605($151$12413205$11101$124/1~!Род)
8. В 19-м году откопали и привезли в Москву…
Процедура TwoNoun, согласует падежи прилагательного
(19-м году) со следующим за ним существительным
В ПР $711(!Вин!Пред)
19-М п1 Муж.-Сред. Ед. Пред. $12/135(!A1)
ГОД м1|3В@ Ед. Пред.
$1605($151$12413205$11101$124/1~!Род)
После срабатывания процедуры OutMorf_Eng получаем
разбор в окончательном виде:
В
В PR
19-м
19-М A-NUM m,sg,loc
году
ГОД S inan,m,sg,loc2
9. Снятие неоднозначностей
0
20%
40%
60%
80%
100%
Неоднозначностей
Согласование с
предлогом слева
К любой власти…
ЛЮБА
ЛЮБОЙ
Управление по
классам и падежам
политическая система создана средствами
массовой информации…
СРЕДСТВА
СРЕДСТВО
Подлежащее
– сказуемое
в самых разных СМИ обычными стали
фразы типа…
СТАТЬ
СТАЛЬ
Согласование
существительных –
прилагательных – причастий
криминальная хроника…
ХРОНИК
ХРОНИКА
Выбор имен
собственных
… как народный герой.
ГЕРА
ГЕРОЙ
Вводные
слова
…если, конечно, цели власти
совпадают с ее декларациями
КОНЕЧНО
КОНЕЧНЫЙ
Редкие
словоформы
Были у картин и различия.
БЫТЬ
БЫЛЬ
10. Сводные результаты
• Текст политической направленности общим объемом 116
тысяч словоформ. Анализатор не разобрал 759 различных
слов (1329 словоформ). Из них 11% чисел ($12-20, 10-15),
30% иностранных слов (Arctic, web-сайт, web-страница ) и
59% русских (в том числе, около 24% ФИО).
• Из разобранных словоформ около 20% имели две и более
лексемы. В результате работы анализатора неоднозначность
по лексемам уменьшилась в 12 раз и составила около 1.5%.
• Если Диалинг обеспечивает разбор текста с морфологический
неоднозначностью около 50%, то мы снизили ее до 10%.
• Из разобранных слов текста около 80% слов определены
семантически однозначно, т. е. каждому из них приписан
только один класс по классификатору Тузова.
11. Наиболее значимые процедуры
4443 Subj_Pred (1) подлежащее-сказуемое
4004 JoinEqual (2) объединение одинаковых лексем
3636 Fraze_0 (*) неизменяемые фразеологизмы
3046 TwoNoun (3) выбор из нескольких сущ.
2872 BigLetter (1) имена собственные
2460 Noun_Adject (1) согласование сущ. – прилаг./причаст.
1946 Class_Padeg (1) согласование по классам и падежам
1769 Adject_Prich (2) выбор прилаг. или причаст.
1530 Prepos (1) анализ предлога слева
1352 UnUsedWord (3) выбор наиболее употребительных слов
1078 Adverb_Short (2) выбор наречия или краткого прилаг.
12. Благодарим за внимание
Каневский Е. А. СПб ЭМИРАН, Санкт-Петербург
kanev@emi. nw.ru
Боярский К. К. СПб ГУ ИТМО, Санкт-Петербург
boyarin9@yandex.ru