силина2010

Опыт использования продукционных
правил в задаче извлечения
онтологической информации из
терминологических словарей
Е.Н. Клименко
Е.Ф. Силина
Санкт-Петербургский экономико-математический
институт РАН

Три этапа решения задачи
1. Семантико-синтаксический анализ исходного
варианта вербальных определений. В основе
системы лежит анализатор и семантический
словарь В. А. Тузова.
2. Разработка системы правил, вычленяющих из
вербального определения онтологически
значимую информацию.
3. Применение правил к вербальным
определениям.

Список структурных связей между терминами
1. Это – субъект этой связи объявляется классом.
2. subClassOf – субъект этой связи объявляется
подклассом класса, заданного объектом.
3. этоПараметр – субъект этой связи является
параметром некоторого далее конкретизируемого
свойства класса, заданного объектом связи.
4. с_Параметром – объект этой связи является
параметром субъекта.

Продукционные правила
Продукционное правило - правило вида
"УСЛОВИЕ – ДЕЙСТВИЕ".
Структура правил состоит из двух частей:
– условие, которому должен удовлетворять
фрагмент дерева синтаксического разбора;
– действие, выполняемое над заданным
фрагментом дерева, если правило оказалось
применимым к этому фрагменту.

Основные приемы определения правил
УСЛОВИЕ содержит:
– указание опорного узла дерева разбора, к
которому применимо данное правило;
– указание, если это необходимо, контекста этого
опорного узла,
– указание, если это необходимо, свойств
(морфологических и семантических) которым
должны удовлетворять узлы (все или некоторые)
из заданного контекста.
ДЕЙСТВИЕ содержит инструкции о вставке,
уничтожении или преобразовании триплетов и
узлов.

Синтаксически правило оформляется в виде
именованного блока информации, атрибутом
которого определяется T- или N-тип этого
правила:
<имя_правила ТИП={T|N} >
условие => действие
</ имя_правила>

Склонение - одна из двух координат
экваториальной системы координат.
{СКЛОНЕНИЕ - Это - Class
СКЛОНЕНИЕ - этоПараметр -
ЭКВАТОРИАЛЬНЫЙ_СИСТЕМА_КООРДИНАТА
СКЛОНЕНИЕ - subClassOf - КООРДИНАТА}

Правило РодЗн
<РодЗн ТИП = "T">
#W1 Род #W2 & ЗНАЧАЩИЙ (#W1) != 0 &
ЗНАЧАЩИЙ (#W2) != 0 =>
ВСТАВИТЬ (#W1 этоПараметр #W2);
УДАЛИТЬ (#W1 Род #W2)
</РодЗн>

Правило РодНезн
<РодНезн ТИП = "T">
#W1 Род #W2 & ЧАСТЬРЕЧИ (#W1) = Сущ &
ЧАСТЬРЕЧИ (#W2) = Сущ &
ЗНАЧАЩИЙ (#W2) = 0 =>
УДАЛИТЬ (#W1 Род #W2)
</РодНезн>

Правило РодПар2
<РодПар2 ТИП = "T">
#W1 Род #W2 & (КЛАСС(#W1) = Параметры &
ЗНАЧАЩИЙ(#W2) != 0) =>
ЗАМЕНИТЬ (#W1 Род #W2,
#W1 этоПараметр #W2)
</РодПар2>

Результаты эксперимента
• Всего в определениях терминологического
словаря использовано 237 различных слов.
Указание класса потребовалось для 48 слов.
Общее количество востребованных классов
равно 16.
• В определениях терминологического словаря
(после применения программы унификации
связей) используется 38 различных типов связей.
• Для построения онтологии по исходному
терминологическому словарю пришлось
определить 123 правила. Из них 51 правило
использовано два и более раз; 72 правила были

Общее количество связей в «эталонной
онтологии» - 93:
связи вида класс/подкласс - 62,
связи вида свойства классов - 31.
Общее количество выявленных связей - 61:
связи класс/подкласс – 29,
связи свойства классов - 32.
Конечным результатом этой работы является
формальный текст онтологии, связывающей
исходный набор терминов в сеть отношений
между терминами.

• Подтвердилась зависимость семантической
интерпретации синтаксических связей от
контекста на дереве разбора.
• Важной характеристикой является степень
общности правил и возможность их
многократного использования.
• Все правила, будучи ориентированными на
задачу онтологического анализа
терминологических словарей, вместе с тем
имеют достаточно общий характер и не зависят
от специфики конкретной предметной области (в
нашем случае это задача межзвездного
поглощения).

• Спасибо за внимание !!!

силина2010

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (19)

Similar to силина2010

Similar to силина2010 (7)

More from Lidia Pivovarova

More from Lidia Pivovarova (20)

силина2010