2. Компьютерная лексикография
это совокупность методов и программных
средств обработки текстовой информации
для создания словарей
К инструментальным средствам в рамках
компьютерной лексикографии относятся
базы данных
компьютерные картотеки
программы обработки текста
3. Компьютерная лексикография
Множество различных компьютерных
лексикографических программ разделяют
на две больших группы:
компьютерные (автоматические) словари
различных типов, включающие
лексикографические базы данных
программы поддержки лексикографических
работ
4. Компьютерный (автоматический)
словарь
это словарь в специальном машинном
формате, предназначенный для
использования на ЭВМ пользователем
или компьютерной программой обработки
текста
автоматические словари конечного
пользователя-человека
автоматические словари для программ
обработки текста
5. RussNet: компьютерный тезаурус
русского языка типа WordNet
С 1999 г. на кафедре математической
лингвистики исследовательская группа
под руководством И. В. Азаровой
Наполнение структур RussNet:
сначала исследуется ядро лексики русского
языка – наиболее частотные слова с наиболее
общим значением
затем полученные иерархические структуры
расширяются за счет менее употребительной
лексики
6. Структура RussNet
Дополнительно в структуру RussNet
внесены следующие элементы,
позволяющие фиксировать
специфическую для русского языка
информацию
расширен набор собственно семантических
отношений за счет введения инхоативных
отношений;
вводится набор семантико-деривационных и
семантико-грамматических отношений;
7. Структура RussNet
основными единицами структуры RussNet, на
которых задаются семантико-деривационные и
семантико-грамматические отношения, являются
составляющие синсетов – лексико-
семантические варианты слов;
введено описание валентностной структуры
глаголов, включающее как семантические, так и
поверхностно-грамматические атрибуты;
прилагательные организованы в иерархические
структуры на основе их сочетаемости с
существительными
8. RussNet: отношение синонимии
устанавливается между лексико-семантическими
вариантами слов, которые
принадлежат одной части речи
имеют сходные значения
могут быть взаимозаменяемы в контексте
В RussNet члены синсета оказываются
упорядочены в соответствии с частотой их
появления в текстах: от нейтральных
абсолютных синонимов и дублетов – к
эмоционально и стилистически окрашенным
9. RussNet: отношение антонимии
связывает синсеты, которые
противопоставляются по наиболее
существенному компоненту значения
Антонимические отношения,
устанавливающиеся между синсетами
принадлежат одной части речи
имеют общую часть значения – принадлежат одной
лексико-семантической группе,
имеют общий гипероним,
противопоставляются по существенному признаку
значения,
взаимозаменяемы в контексте под отрицанием или в
противительной конструкции
10. RussNet: другие отношения
Типичным для тезаурусных
представлений является отношение
меронимии ("часть - целое")
Менее типичными для тезаурусных
представлений являются такие отношения
в глагольной лексике, как
каузация (каузативный глагол —
результирующее состояние каузации,
например, убить - умереть, высушить -
стать сухим и т. п.);
11. RussNet: другие отношения
отношение сложного действия и его части
– отношение лексического вывода
например, спать - храпеть, красить - мазать
и т.п.
отношение пресуппозиции (действие –
необходимое предыдущее действие)
например, выиграть - играть, развязать -
завязать
12. Синтагматические отношения
связывают слова, которые принадлежат
различным частям речи:
прилагательные и существительные
глаголы и существительные
глаголы и прилагательные
и т. п.
что дает возможность использовать
WordNet и для контекстного поиска
13. RussNet: cинтагматические
отношения
для ЛСВ глагола указываются
грамматические структура валентностей;
для ЛСВ прилагательных указываются
классы существительных, сочетаемость
с которыми можно предсказать, исходя
из значения прилагательных
14. Семантико-грамматические и
семантико-деривационные
отношения
Для лексики русского языка, особенно
существительных и глаголов, характерно
многообразие и высокая продуктивность
словообразовательных моделей
доля мотивированной лексики составляет в
русском языке около 85 %
15. Семантико-грамматические и
семантико-деривационные
отношения
В рамках RussNet введён ряд особых
семантических отношений, предполагающих
обязательное формальное выражение на
грамматическом или деривационном уровне
Специфика данных отношений заключается
в том, что они устанавливаются между
членами синсетов – лексико-
семантическими вариантами слов
16. RussNet: деривационная
синонимия
отношение, связывающее нейтральное
слово и его экспрессивные,
эмоционально окрашенные дериваты
например, старик1 - старикан, старик –
старичок
Такие слова обладают тождественным
референциальным значением, различия
между ними касаются только отношения
говорящего к референту
17. RussNet: деривационная
синонимия
Слова с такой коннотацией, как правило, не
взаимозаменяемы в контексте
Экспрессивные синонимы включаются в тот же
синсет, что и нейтральное слово
например, {старик, старикан (пейор.),
старичок1(мелиор.)}
при этом дериваты сопровождаются
специальными пометами, характеризующими
их коннотативное значение:
пейоративный – отрицательная коннотация,
мелиоративный – положительная коннотация.
18. RussNet: деривационная
гипонимия
отличается от деривационной синонимии тем,
что в данном случае деривационный аффикс
придает производному слову дополнительный
смысловой оттенок, несводимый к
эмоционально-экспрессивному или
стилистическому плану:
белый – беловатый (суффикс -оват- указывает на
неинтенсивность признака)
старик – старичок2 (в данном случае -ок указывает
на изменение референции, старичок2 = «маленький
старичок»)
19. RussNet: деривационная
гипонимия
В зависимости от того, какой дополнительный
компонент присутствует в значении
производного слова, выделяются следующие
подтипы деривационной гипонимии:
диминутивная (цветок - цветочек, книга -
книжица)
минимальная (маленький - малюсенький)
аугментативная (рука - ручища, дом - домина,
высокий - превысокий)
максимальная (последний - распоследний)
20. RussNet: деривационные ролевые
отношения
охватывают ряд семантико-деривационных
связей типа «глагол - актант»:
«глагол - агенс»
«глагол - инструмент» и др.
например, сеять – сеянец, сеятель, сеялка
Необходимость введения данных отношений
обусловлена тем, что дериваты наследуют не
только семантические, но и синтаксические
свойства, например, рамки управления
бороться за правое дело – борьба за правое дело
– борец за правое дело