ОБ АВТОМАТИЗИРОВАННОМ
ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ
ИНФОРМАЦИИ ИЗ ВЕРБАЛЬНОГО
ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ
Г. В. Лезин
Санкт-Петербургский экономико-математический институт РАН
Цели эксперимента
• “Онтологическая” информативность определений в
терминологическом словаре ?
• Уровень формальных знаний, достаточных для решения задачи ?
• Технология построения терминологического словаря как
источника информации для спецификации предметной области ?
• Продукционные правила как средство описания процесса
извлечения информации из текстов определений?
Ограничения
 Определение ограничено одним предложением. Из него
исключены анафорические отношения.
 Общий контекст терминологического словаря образован
исключительно списком определяемых терминов. Получаемый
формальный результат анализа не зависит от порядка обработки
определений.
 Термином всегда обозначен класс, причем никак не связанный
с общей системой понятий естественного языка.
 В качестве формального языка для представления целевой
онтологии использован OWL в упрощенном L-диалекте
Структура системы извлечения онтологической
информации из терминологического словаря
Текст определения
Сем.-синтаксич.
анализ определения
Интерпретатор
правил
Фрагменты онтологии
Семантический
словарь
(синтактика)
Семантический.
словарь
(онтология)
Дерево разбора
Правила
Функции и
предикаты
Этапы анализа
1. Синтаксический разбор
2. Общая постсинтаксическая обработка
3. Получение тезауруса
4. Преобразование тезауруса в онтологию
Галактическая широта - одна из двух галактических координат,
измеренная от плоскости галактики к объекту».
Галактическая широта
!ЭтоЕсть
одна_из
!Какой
измеренная
двух
от_плоскости
!Ото
!Род
галактических координат
!Род
галактики
к_объекту
!Род
!кДат
Результат трасформации дерева разбора
Галактический широта
Это
Class
Галактический координата
subClassOf
Объект
этоПараметр
OWL-результат анализа определения
<owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА">
<rdfs:subClassOf><owl:Class rdf:about =
"#ГАЛАКТИЧЕСКИЙ_КООРДИНАТА"/> </rdfs:subClassOf>
</owl:Class>
<owl:Class rdf:about = "#ОБЪЕКТ">
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty> <owl:ObjectProperty rdf:about =
"#_галактический_широта"/> </owl:onProperty>
<owl:allValuesFrom>
<owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"/>
</owl:allValuesFrom>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
Виды правил
 T-правила, применяются к очередному не обработанному
исходящему триплету анализируемого узла дерева разбора;
 N-правила, применяются к анализируемому узлу только
после того, как все исходящие триплеты этого узла оказались
обработанными T-правилами.
Структура правил:
<имя_правила ТИП={T|N} >
решающая часть правила =>
исполнительная часть
</ имя_правила>
Пример правила
<ЧислРодРод ТИП = "T">
#W1 Род #W2 & #W3 Род #W1 &
ЧАСТЬРЕЧИ(#W1)= Числ &
ЧАСТЬРЕЧИ(#W3)= Сущ &
СЛОВО(#W3)=*_из &
ЗНАЧАЩИЙ(#W2) != 0 =>
ВСТАВИТЬ(#W3 Род #W2);
УДАЛИТЬ(#W1 Род #W2)
</ЧислРодРод>
Общие оценки
1. Оценка объема необходимой лексикографической
информации, поставляемой семантическим словарем
 Морфологическа информация – в полной мере
 Семантическая информация – в значительно меньшей
степени
2. Оценка объема и состава правил
 Ориентированность на общую задачу извлечения
онтологии из терминологического словаря
 Независимость от специализации предметой области
 Неполнота
Общий вывод
От разрабатываемого метода автоматизированного извлечения
онтологической информации из определений
терминологического словаря можно ожидать, по-видимому,
качественного изменения технологии разработки как
собственно словаря, так и сопутствующей ему онтологии.
Исходная версия онтологии может быть получена
полностью автоматически. Скорее всего, полученная версия
будет нуждаться в дальнейшей правке, но эта правка уже
будет осуществляться в режиме интерактивного
взаимодействия с программной системой. При этом правке
могут подвергаться в равной степени как исходные тексты,
так и выводимая из них онтология.

лезин

  • 1.
    ОБ АВТОМАТИЗИРОВАННОМ ИЗВЛЕЧЕНИИ ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИИЗ ВЕРБАЛЬНОГО ТЕРМИНОЛОГИЧЕСКОГО СЛОВАРЯ Г. В. Лезин Санкт-Петербургский экономико-математический институт РАН
  • 2.
    Цели эксперимента • “Онтологическая”информативность определений в терминологическом словаре ? • Уровень формальных знаний, достаточных для решения задачи ? • Технология построения терминологического словаря как источника информации для спецификации предметной области ? • Продукционные правила как средство описания процесса извлечения информации из текстов определений?
  • 3.
    Ограничения  Определение ограниченоодним предложением. Из него исключены анафорические отношения.  Общий контекст терминологического словаря образован исключительно списком определяемых терминов. Получаемый формальный результат анализа не зависит от порядка обработки определений.  Термином всегда обозначен класс, причем никак не связанный с общей системой понятий естественного языка.  В качестве формального языка для представления целевой онтологии использован OWL в упрощенном L-диалекте
  • 4.
    Структура системы извлеченияонтологической информации из терминологического словаря Текст определения Сем.-синтаксич. анализ определения Интерпретатор правил Фрагменты онтологии Семантический словарь (синтактика) Семантический. словарь (онтология) Дерево разбора Правила Функции и предикаты
  • 5.
    Этапы анализа 1. Синтаксическийразбор 2. Общая постсинтаксическая обработка 3. Получение тезауруса 4. Преобразование тезауруса в онтологию
  • 6.
    Галактическая широта -одна из двух галактических координат, измеренная от плоскости галактики к объекту». Галактическая широта !ЭтоЕсть одна_из !Какой измеренная двух от_плоскости !Ото !Род галактических координат !Род галактики к_объекту !Род !кДат
  • 7.
    Результат трасформации дереваразбора Галактический широта Это Class Галактический координата subClassOf Объект этоПараметр
  • 8.
    OWL-результат анализа определения <owl:Classrdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"> <rdfs:subClassOf><owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_КООРДИНАТА"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about = "#ОБЪЕКТ"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty> <owl:ObjectProperty rdf:about = "#_галактический_широта"/> </owl:onProperty> <owl:allValuesFrom> <owl:Class rdf:about = "#ГАЛАКТИЧЕСКИЙ_ШИРОТА"/> </owl:allValuesFrom> </owl:Restriction> </rdfs:subClassOf> </owl:Class>
  • 9.
    Виды правил  T-правила,применяются к очередному не обработанному исходящему триплету анализируемого узла дерева разбора;  N-правила, применяются к анализируемому узлу только после того, как все исходящие триплеты этого узла оказались обработанными T-правилами. Структура правил: <имя_правила ТИП={T|N} > решающая часть правила => исполнительная часть </ имя_правила>
  • 10.
    Пример правила <ЧислРодРод ТИП= "T"> #W1 Род #W2 & #W3 Род #W1 & ЧАСТЬРЕЧИ(#W1)= Числ & ЧАСТЬРЕЧИ(#W3)= Сущ & СЛОВО(#W3)=*_из & ЗНАЧАЩИЙ(#W2) != 0 => ВСТАВИТЬ(#W3 Род #W2); УДАЛИТЬ(#W1 Род #W2) </ЧислРодРод>
  • 11.
    Общие оценки 1. Оценкаобъема необходимой лексикографической информации, поставляемой семантическим словарем  Морфологическа информация – в полной мере  Семантическая информация – в значительно меньшей степени 2. Оценка объема и состава правил  Ориентированность на общую задачу извлечения онтологии из терминологического словаря  Независимость от специализации предметой области  Неполнота
  • 12.
    Общий вывод От разрабатываемогометода автоматизированного извлечения онтологической информации из определений терминологического словаря можно ожидать, по-видимому, качественного изменения технологии разработки как собственно словаря, так и сопутствующей ему онтологии. Исходная версия онтологии может быть получена полностью автоматически. Скорее всего, полученная версия будет нуждаться в дальнейшей правке, но эта правка уже будет осуществляться в режиме интерактивного взаимодействия с программной системой. При этом правке могут подвергаться в равной степени как исходные тексты, так и выводимая из них онтология.