ОНТОРЕДАКТОР
КАК КОМПЛЕКСНЫЙ ИНСТРУМЕНТ
ОНТОЛОГИЧЕСКОЙ ИНЖЕНЕРИИ

           Рубашкин В. Ш.
           Пивоварова Л. М.
            Чуприн Б. Ю.
      кафедра информационных систем
     в искусстве и гуманитарных науках
   Факультет филологии и искусств СПбГУ
2. Gomez-Perez A., Fernando-Lopez M., Corcho O. Ontology
   Engineering. – Springer – Ferlag, 2004.
3. Staab Steffen, Studer Rudi (eds). Handbook on Ontologies. – Berlin—
   Heidelberg: Springer—Verlag, 2004
4. Nirenburg S., Raskin V. Ontological Semantics. – Cambridge, MA:
   MIT Press, 2004
5. Denny M. Ontology Tools Survey, Revisited – 2004
   http://www.xml.com/pub/a/2004/07/14/onto.html
=========================
7. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний
   интеллектуальных систем. – СПб.: Питер, 2000. С. 271 – 316
8. Рубашкин В. Ш. Представление и анализ смысла в
   интеллектуальных информационных системах. - М.: Наука, 1989
1. Рубашкин В. Ш. Универсальный понятийный словарь:
   функциональность и средства ведения // КИИ-2002. Восьмая
   национальная конференция по искусственному интеллекту с
   международным участием. Труды конференции. М., 2002. С. 231
   – 237.
2. Рубашкин В. Ш., Лахути Д.Г. Семантический (концептуальный)
   словарь для информационных технологий. // Научно-
   техническая информация. - Сер. 2. Часть1. 1998.- N 1. - С. 19 –24;
    Часть2. 1999.- N 5. - С. 1 -12. Часть3. 2000. - N 7. - С. 1 – 9
3. Рубашкин В. Ш., Лахути Д.Г. Онтология: от натурфилософии к
   научному мировоззрению и инженерии знаний // Вопросы
   философии № 1, 2005. С. 64 – 81.
4. Guarino Nicola. Formal Ontology and Information Systems // Formal
   Ontology in Information Systems. Proceedings of FOIS’98, Trento,
   Italy, 6-8 June 1998. Amsterdam, IOS Press, pp. 3-15.
1. Русский семантический словарь. Толковый словарь,
   систематизированный по классам слов и значений / РАН. Ин-т
   рус. яз.; Под общей ред. Н.Ю.Шведовой. – М.: Азбуковник.
   Том I.-1998; Том II. - 2000; Том III. – 2003.
3. Толковый словарь русских глаголов: Идеографическое
   описание. Английские эквиваленты. Синонимы. Антонимы. –
   М.: АСТ-ПРЕСС, 1999.
Wiki:
    Ontology editors are applications designed to assist
        in the creation or manipulation of ontologies.
Онтология
Том Грубер (1991):
T. R. Gruber. The Role of Common Ontology in Achieving Sharable,
    Reusable Knowledge Bases // Principles of Knowledge Representation
    and Reasoning: Proceedings of the Second International Conference,
    1991.
    An ontology is an explicit specification of a conceptualisation.



Michael Denny. Ontology Tools Survey, 2004 :
Ontologies are a way of specifying the structure of domain knowledge
   in a formal logic designed for machine processing.
Существенны три пункта:
4) Концептуальная структура
5) Формальная модель
6) Информационно-вычислительный ресурс
Онтология



1) Концептуальная структура
   а) единицы – понятия, а не слова!
   б) система, включающая множество понятий и набор
   утверждений об этих понятиях. (классификация понятий,
   отношения между понятиями; в частности иерархии понятий по
   отношениям общее – частное и часть - целое)


Проблема выбора и уровня детализации единиц; граница между
   понятиями и лексическими вариантами.
- линейный размер, цвета и оттенки
Онтология
• Формальная модель (Модель знаний)
Формализованное (посредством некоторого ЯПЗ) описание
    концептуальной системы, специфицирующее:
а) используемую классификацию концептов
б) набор допустимых парадигматических отношений между
    концептами
 в) аксиомы и правила вывода


Принципиальная важность выбора той или иной модели знаний
• OKBC – фреймовая модель: концепты (классы), экземпляры,
   слоты, фасеты
• OWL – классы, экземпляры, свойства (datatype property, object
   property)
• InfoL – концепты, их словарные характеристики, связи между
   концептами; дерево признаков.
1) Информационно-вычислительный ресурс
      (а не просто словарь!)
 Технически – исполняемый модуль
 (напр., dll библиотека, COM-объект),
 обладающий некоторой функциональностью и стандартным
    образом подключаемый к любым информационным
    технологиям.

Формально – это набор функций вида :
                      F (D),   F (D1, D2)

 ===========================
Поэтому ближайшим и непосредственным предшественником
   можно считать информационно-поисковые тезаурусы (ИПТ),
   а переход к онтологиям интерпретировать как процесс
                                       интеллектуализации ИПТ.
Наша мотивировка функциональности онтологии –
                                     семантический анализ текста
•   вопрос – ответные соответствия (цвет - красный);
•   представление числовых данных;
•   кореференция;
•   предикат – актанты;

Функциональность:
•   полный набор объемных отношений (тигр – охотник - повар);
•   предметно –ассоциативные отношения (тигр – лапа);
•   функциональные отношения (кг - масса)
Представление данных и операционная среда онтологии:
СУБД как "естественная операционная среда".
Варианты: продукционная система.
Онторедактор –
   не просто средство ввода и редактирования,
   но интегрированная среда разработки и использования
            (integrated development environment - IDE)


Функциональность онтологии (использование)
vs
функциональность онторедактора (создание и поддержка)

Онтология предоставляет программный интерфейс
                                              приложениям;
онторедактор реализует человеко-машинный интерфейс,
                обеспечивающий администрирование онтологий.


NB: Для реализации части функций онторедактора должна
  использоваться функциональность самой онтологии.
Функциональность онторедактора
Функциональный стандарт еще только формируется.
Традиционные функции:
• навигация, броузинг и поиск;
• ввод и редактирование.
Нетрадиционные:
• тестирование онтологии;
• экспорт – импорт;
•    интеграция разнородных концептуальных систем (ontology
   merging);
• (полу)автоматическое пополнение онтологий;
• определение взаимного соответствие концептов и единиц ЕЯ
   ("Лексикон");
• работа с описаниями экземпляров, являющихся "примерами"
   (instance) концептов.

(+ Функциональность онтологии)
Специфика навигации, броузинга, поиска
Просмотр и навигация предполагают некоторую "естественную"
   упорядоченность материала. "Естественный порядок в
   концептуальной системе = ???!
      – по алфавиту?
      – по ключу?
      – в порядке "физического" следования?
- Поиск как средство навигации

-   "Лексическая" навигация

-   Классификационные фильтры и фильтры администрирования
"Естественной" для концептуальной системы можно считать,
   скорее, таксономическую (общее - частное) упорядоченность
   концептов; она образует ядро всякой концептуальной модели.
Просмотр "сверху вниз" (от общего к частному).
А   также, возможно, просмотр групп концептов связанных
    иерархическими связями другого типа (например, целое -
    часть).
Отсюда - потребность графического представления всех или
   некоторых связей между концептами и поддержки процедур
   графического редактирования.

Вопрос об объеме графического представления связей:
   – только общее – частное?
   – + целое – часть?
   – + другие виды связей?
          (артефакт – функция: судно – плыть;
            единица измерения – признак: ватт – мощность
      и т.д.)

Складывающееся решение:
в графике представляется только таксономия.
Специфика ввода и редактирования
b) "ручной" ввод (собственно ввод);
c) автоматический или автоматизированный ввод на основе
   анализа корпуса текстов;
d) автоматизированный ввод с использованием традиционной
   лексикографической информации (энциклопедических и
   толковых словарей).

Главные проблемы:
   • достоверность;
   • эргономичность.
Конечная цель при проектировании процедур собственно ввода –
      максимально исключить формально определимые ошибки.

Самое плохое решение – неконтролируемый ввод.
Не лучшее решение - обнаруживать ошибки post factum.
Технологически "хорошее" решение -
   процедура ввода должна быть организована так, чтобы ввод
   некорректных элементов описания оказался вообще
   невозможным.
Требование достоверности ввода – конкретизация:
2) Неизбыточность и полнота описания –
   должны быть определены те и только те словарные признаки,
   которые релевантны для концептов данного типа.
2) Непротиворечивость описания –
   элементы словарных характеристик не должны противоречить
                                                   друг другу.
Пример:
   Для концепта, определяемого конъюнкцией (пересечением
   объектных классов; в других терминах – класс, определяемый
   через множественное наследование), определяющие концепты
   должны быть совместимы (в терминах OWL –не должны
   находиться в отношении Disjoint):
         'слон'  'животное' And 'металлический' ???

NB: Вызов машины вывода!
3) Правильность означивания –
    значения определяемых словарных признаков должны
                  принадлежать области их допустимых значений.
Пример1:
Формально неправильно:
    БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'нагрев' ???
правильно:
   БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'линейный размер'
    (допустим только концепт класса 'наименование числового
    признака', подкласс 'сочетающийся с числом').
Пример2 :
    'лед'  'агрегатное состояние' And 'химический состав' ???
-   категориальная ошибка: формальное толкование типа
    "конъюнкция" для объектного термина может содержать только
    объектные термины, либо означенные признаки.
4) Содержательная правильность –
    вводимые словарные характеристики должны быть адекватны
    смыслу добавляемого или редактируемого концепта.
Примеры:
    ОБОБЩАЮЩИЙ_ПРИЗНАК ( 'цвет' ) =
                            'химические свойства вещества' ???
   БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'температура' ???
     'лед'  'отверстие' And 'цилиндрической формы' ???
- определение является формально правильным.

Такого рода ошибки не являются формально контролируемыми;
они могут оставаться не выявленными, пока онтология не начнет
   использоваться в приложениях, для которых именно эта связь
   окажется существенной.
Решение задач формального контроля обусловлено возможностью
   построить формальное описание системы словарных
   признаков.
   a) определение области значений каждого признака;
   b) установление отношений зависимости по условиям
      применимости между признаками.
Тестирование


Тестирование как проверка формальной корректности (вместо
                                                контроля ввода)
vs
тестирование как содержательный экспертный контроль.


Предмет тестирования во 2-м случае = ?

Формальный ответ:
проверка отдельного концепта = просмотр словарной статьи;
собственно тестирование как экспертный контроль связей:
   • объемные отношения;
   • ассоциативные отношения;
   • функциональные отношения.
Тестирование

Терминология [Gomez-Perez]:
   • evaluation - общее название для процедур проверки;
   • verification - whether the ontology is building correctly
   • validation – whether the ontology definitions really model
                                                          the real world
   • assessment – judging the ontology from the user's &
                                              application's point of view
Автоматизация пополнения
•   Интеграция онтологий (ontology merging)
•   Собственно пополнение (ontology learning)
        - по корпусу текстов
        - из традиционных словарей (+WordNet ?)
Интеграция номологических и фактографических знаний
               (представление экземпляров)

Онтология – знание о применимости признаков к классу объектов.
Фактография (напр., БД) – знание о значениях признаков для
   конкретного объекта.

Относительность разделения на классы и экземпляры (ср. марки и
   автомобили).

OntoEd

  • 1.
    ОНТОРЕДАКТОР КАК КОМПЛЕКСНЫЙ ИНСТРУМЕНТ ОНТОЛОГИЧЕСКОЙИНЖЕНЕРИИ Рубашкин В. Ш. Пивоварова Л. М. Чуприн Б. Ю. кафедра информационных систем в искусстве и гуманитарных науках Факультет филологии и искусств СПбГУ
  • 2.
    2. Gomez-Perez A.,Fernando-Lopez M., Corcho O. Ontology Engineering. – Springer – Ferlag, 2004. 3. Staab Steffen, Studer Rudi (eds). Handbook on Ontologies. – Berlin— Heidelberg: Springer—Verlag, 2004 4. Nirenburg S., Raskin V. Ontological Semantics. – Cambridge, MA: MIT Press, 2004 5. Denny M. Ontology Tools Survey, Revisited – 2004 http://www.xml.com/pub/a/2004/07/14/onto.html ========================= 7. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. – СПб.: Питер, 2000. С. 271 – 316 8. Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М.: Наука, 1989
  • 3.
    1. Рубашкин В.Ш. Универсальный понятийный словарь: функциональность и средства ведения // КИИ-2002. Восьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. М., 2002. С. 231 – 237. 2. Рубашкин В. Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий. // Научно- техническая информация. - Сер. 2. Часть1. 1998.- N 1. - С. 19 –24; Часть2. 1999.- N 5. - С. 1 -12. Часть3. 2000. - N 7. - С. 1 – 9 3. Рубашкин В. Ш., Лахути Д.Г. Онтология: от натурфилософии к научному мировоззрению и инженерии знаний // Вопросы философии № 1, 2005. С. 64 – 81. 4. Guarino Nicola. Formal Ontology and Information Systems // Formal Ontology in Information Systems. Proceedings of FOIS’98, Trento, Italy, 6-8 June 1998. Amsterdam, IOS Press, pp. 3-15.
  • 4.
    1. Русский семантическийсловарь. Толковый словарь, систематизированный по классам слов и значений / РАН. Ин-т рус. яз.; Под общей ред. Н.Ю.Шведовой. – М.: Азбуковник. Том I.-1998; Том II. - 2000; Том III. – 2003. 3. Толковый словарь русских глаголов: Идеографическое описание. Английские эквиваленты. Синонимы. Антонимы. – М.: АСТ-ПРЕСС, 1999.
  • 5.
    Wiki: Ontology editors are applications designed to assist in the creation or manipulation of ontologies.
  • 6.
    Онтология Том Грубер (1991): T.R. Gruber. The Role of Common Ontology in Achieving Sharable, Reusable Knowledge Bases // Principles of Knowledge Representation and Reasoning: Proceedings of the Second International Conference, 1991. An ontology is an explicit specification of a conceptualisation. Michael Denny. Ontology Tools Survey, 2004 : Ontologies are a way of specifying the structure of domain knowledge in a formal logic designed for machine processing.
  • 7.
    Существенны три пункта: 4)Концептуальная структура 5) Формальная модель 6) Информационно-вычислительный ресурс
  • 8.
    Онтология 1) Концептуальная структура а) единицы – понятия, а не слова! б) система, включающая множество понятий и набор утверждений об этих понятиях. (классификация понятий, отношения между понятиями; в частности иерархии понятий по отношениям общее – частное и часть - целое) Проблема выбора и уровня детализации единиц; граница между понятиями и лексическими вариантами. - линейный размер, цвета и оттенки
  • 9.
    Онтология • Формальная модель(Модель знаний) Формализованное (посредством некоторого ЯПЗ) описание концептуальной системы, специфицирующее: а) используемую классификацию концептов б) набор допустимых парадигматических отношений между концептами в) аксиомы и правила вывода Принципиальная важность выбора той или иной модели знаний • OKBC – фреймовая модель: концепты (классы), экземпляры, слоты, фасеты • OWL – классы, экземпляры, свойства (datatype property, object property) • InfoL – концепты, их словарные характеристики, связи между концептами; дерево признаков.
  • 10.
    1) Информационно-вычислительный ресурс (а не просто словарь!) Технически – исполняемый модуль (напр., dll библиотека, COM-объект), обладающий некоторой функциональностью и стандартным образом подключаемый к любым информационным технологиям. Формально – это набор функций вида : F (D), F (D1, D2) =========================== Поэтому ближайшим и непосредственным предшественником можно считать информационно-поисковые тезаурусы (ИПТ), а переход к онтологиям интерпретировать как процесс интеллектуализации ИПТ.
  • 11.
    Наша мотивировка функциональностионтологии – семантический анализ текста • вопрос – ответные соответствия (цвет - красный); • представление числовых данных; • кореференция; • предикат – актанты; Функциональность: • полный набор объемных отношений (тигр – охотник - повар); • предметно –ассоциативные отношения (тигр – лапа); • функциональные отношения (кг - масса)
  • 12.
    Представление данных иоперационная среда онтологии: СУБД как "естественная операционная среда". Варианты: продукционная система.
  • 13.
    Онторедактор – не просто средство ввода и редактирования, но интегрированная среда разработки и использования (integrated development environment - IDE) Функциональность онтологии (использование) vs функциональность онторедактора (создание и поддержка) Онтология предоставляет программный интерфейс приложениям; онторедактор реализует человеко-машинный интерфейс, обеспечивающий администрирование онтологий. NB: Для реализации части функций онторедактора должна использоваться функциональность самой онтологии.
  • 14.
    Функциональность онторедактора Функциональный стандартеще только формируется. Традиционные функции: • навигация, броузинг и поиск; • ввод и редактирование. Нетрадиционные: • тестирование онтологии; • экспорт – импорт; • интеграция разнородных концептуальных систем (ontology merging); • (полу)автоматическое пополнение онтологий; • определение взаимного соответствие концептов и единиц ЕЯ ("Лексикон"); • работа с описаниями экземпляров, являющихся "примерами" (instance) концептов. (+ Функциональность онтологии)
  • 15.
    Специфика навигации, броузинга,поиска Просмотр и навигация предполагают некоторую "естественную" упорядоченность материала. "Естественный порядок в концептуальной системе = ???! – по алфавиту? – по ключу? – в порядке "физического" следования? - Поиск как средство навигации - "Лексическая" навигация - Классификационные фильтры и фильтры администрирования
  • 16.
    "Естественной" для концептуальнойсистемы можно считать, скорее, таксономическую (общее - частное) упорядоченность концептов; она образует ядро всякой концептуальной модели. Просмотр "сверху вниз" (от общего к частному). А также, возможно, просмотр групп концептов связанных иерархическими связями другого типа (например, целое - часть).
  • 17.
    Отсюда - потребностьграфического представления всех или некоторых связей между концептами и поддержки процедур графического редактирования. Вопрос об объеме графического представления связей: – только общее – частное? – + целое – часть? – + другие виды связей? (артефакт – функция: судно – плыть; единица измерения – признак: ватт – мощность и т.д.) Складывающееся решение: в графике представляется только таксономия.
  • 18.
    Специфика ввода иредактирования b) "ручной" ввод (собственно ввод); c) автоматический или автоматизированный ввод на основе анализа корпуса текстов; d) автоматизированный ввод с использованием традиционной лексикографической информации (энциклопедических и толковых словарей). Главные проблемы: • достоверность; • эргономичность.
  • 19.
    Конечная цель припроектировании процедур собственно ввода – максимально исключить формально определимые ошибки. Самое плохое решение – неконтролируемый ввод. Не лучшее решение - обнаруживать ошибки post factum. Технологически "хорошее" решение - процедура ввода должна быть организована так, чтобы ввод некорректных элементов описания оказался вообще невозможным.
  • 20.
    Требование достоверности ввода– конкретизация: 2) Неизбыточность и полнота описания – должны быть определены те и только те словарные признаки, которые релевантны для концептов данного типа. 2) Непротиворечивость описания – элементы словарных характеристик не должны противоречить друг другу. Пример: Для концепта, определяемого конъюнкцией (пересечением объектных классов; в других терминах – класс, определяемый через множественное наследование), определяющие концепты должны быть совместимы (в терминах OWL –не должны находиться в отношении Disjoint): 'слон'  'животное' And 'металлический' ??? NB: Вызов машины вывода!
  • 21.
    3) Правильность означивания– значения определяемых словарных признаков должны принадлежать области их допустимых значений. Пример1: Формально неправильно: БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'нагрев' ??? правильно: БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'линейный размер' (допустим только концепт класса 'наименование числового признака', подкласс 'сочетающийся с числом'). Пример2 : 'лед'  'агрегатное состояние' And 'химический состав' ??? - категориальная ошибка: формальное толкование типа "конъюнкция" для объектного термина может содержать только объектные термины, либо означенные признаки.
  • 22.
    4) Содержательная правильность– вводимые словарные характеристики должны быть адекватны смыслу добавляемого или редактируемого концепта. Примеры: ОБОБЩАЮЩИЙ_ПРИЗНАК ( 'цвет' ) = 'химические свойства вещества' ??? БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'температура' ??? 'лед'  'отверстие' And 'цилиндрической формы' ??? - определение является формально правильным. Такого рода ошибки не являются формально контролируемыми; они могут оставаться не выявленными, пока онтология не начнет использоваться в приложениях, для которых именно эта связь окажется существенной.
  • 23.
    Решение задач формальногоконтроля обусловлено возможностью построить формальное описание системы словарных признаков. a) определение области значений каждого признака; b) установление отношений зависимости по условиям применимости между признаками.
  • 24.
    Тестирование Тестирование как проверкаформальной корректности (вместо контроля ввода) vs тестирование как содержательный экспертный контроль. Предмет тестирования во 2-м случае = ? Формальный ответ: проверка отдельного концепта = просмотр словарной статьи; собственно тестирование как экспертный контроль связей: • объемные отношения; • ассоциативные отношения; • функциональные отношения.
  • 25.
    Тестирование Терминология [Gomez-Perez]: • evaluation - общее название для процедур проверки; • verification - whether the ontology is building correctly • validation – whether the ontology definitions really model the real world • assessment – judging the ontology from the user's & application's point of view
  • 26.
    Автоматизация пополнения • Интеграция онтологий (ontology merging) • Собственно пополнение (ontology learning) - по корпусу текстов - из традиционных словарей (+WordNet ?)
  • 27.
    Интеграция номологических ифактографических знаний (представление экземпляров) Онтология – знание о применимости признаков к классу объектов. Фактография (напр., БД) – знание о значениях признаков для конкретного объекта. Относительность разделения на классы и экземпляры (ср. марки и автомобили).