На пути к онтологии языкознания
Рубашкин В.Ш
Санкт-Петербургский университет
Зачем?
Существует общий "технологический заказ" на онтологии со
стороны как новых, так и уже давно сформировавшихся
информационных технологий (ИТ).
Востребованная функциональность онтологий - основные
технологии -"потребители":
• Семантический поиск
• Семантический анализ текста (извлечение знаний из текста).
Здесь же: поддержка лингвистически ориентированных
информационных технологий: системы распознавания;
корректоры текста; диалог на ЕЯ (Call-центры и др.).
• Поддержка corpus-based процедур анализа (в т. ч. для перевода)
• Концептуальный доступ к информационным ресурсам:
концептуальные схемы БД, вопросно-ответные системы и др.
• Организация управляемого данными регламентированного
диалога (ср. Wikipedia; создание словарей и лингвистических
баз данных))
Круг лексики
NB: Не онтология задачи, а онтология предметной области.
• Лингвистические объекты
(+ смежные объекты: понятия, социум, психология, логика,
нейролингвистика, онтология … ?)
• Свойства лингвистических объектов, отношения между
лингвистическими объектами (анафора, согласование, …)
• Процессы – диахрония (деривация, дивергенция, …);
исследовательские процедуры (дешифровка, …)
• Законы, правила, модели, теории, исследовательские методы и
средства
• Направления и разделы языкознания (глоттохронология, …)
• Прочее (типология языков, участники и процессы языковой
коммуникации, …)
NB: Держаться терминологического мейнстрима
(ontological commitments)Источники:
Методология
Общепринятая практика:
• Отбор значимых для предметной / проблемной области
концептов.
• Категоризация терминов
• Дальнейшая внутрикатегорная систематизация - построение
таксономии.
• Установление нетаксономических отношений
• Построение формальных толкований сложных концептов
Методология
Существенное дополнение -
построение онтологии, рассчитываемой на многократное
применение, предполагает стремление к логической полноте
концептуальной системы.
При добавлении в онтологию имени некоторого подкласса всегда
полезно задаться вопросами:
- из какого исходного класса выделен данный подкласс?
- по какому основанию он выделен?
- и самое главное: какие еще подклассы могут быть выделены
по данному основанию из данного исходного класса?
(или, лучше, - какой набор подклассов получается разбиением
исходного класса по данному основанию?).
Методология
Пример:
Функционально самодостаточный (исходный) объект в системе
лингвистической терминологии - текстовое произведение.
(Текст, представляющий одно законченное сообщение, содержание
одного коммуникационного акта, основная коммуникационная
единица.)
(ср. SUMO:
Text - A &%LinguisticExpression or set of &%LinguisticExpressions
that perform a specific function related to &%Communication, e.g.
express a discourse about a particular topic).
(Научная статья, монография или диссертация; роман, эссе или губермановский
"гарик"; устав гарнизонной и караульной службы, закон о правах
потребителей, инструкция по использованию лекарства, рекламный постер,
короткий приказ армейского командира в бою и т. д., и т. п.)
Другие лингвистические объекты (слова, фонемы, предложения,…)
интересны и значимы постольку, поскольку они нужны для
построения и детального описания этой основной.
Методология
Вопросы для разработчика – эксперта:
(1) Текстовое произведение -
художественное произведение, деловой документ,
публицистическое произведение
(функционально-коммуникативный тип текстового произведения)
(2) Деловой документ -
научно-технический документ, нормативный документ,
организационно-распорядительный документ, ценная бумага
(по основной социальной функции делового документа*)
(1) Текстовое произведение (текстовый объект) -
музыкальный объект, объект изобразительного искусства,
утилитарный объект со знаковыми функциями
Результат – выход за пределы предметной области
– обозначение направлений классификации для смежных ПО.
Средства описания
1) Категоризация концептов – объекты, признаки (атрибуты),
процессы, (статические) отношения
2) Таксономия ("дерево признаков")
3) Встроенные нетаксономические отношения: часть-целое,
локализация, …
4) Язык формальных толкований
Онтология не создает нового знания, а приводит в порядок
существующее – часто на уровне трюизмов
(морфема – часть слова)
Предварительная систематизация:
ТаблицаТаксономии.doc
Предварительная систематизация:
ТаблицаТаксономии.doc

лингвонтол

  • 1.
    На пути контологии языкознания Рубашкин В.Ш Санкт-Петербургский университет
  • 2.
    Зачем? Существует общий "технологическийзаказ" на онтологии со стороны как новых, так и уже давно сформировавшихся информационных технологий (ИТ). Востребованная функциональность онтологий - основные технологии -"потребители": • Семантический поиск • Семантический анализ текста (извлечение знаний из текста). Здесь же: поддержка лингвистически ориентированных информационных технологий: системы распознавания; корректоры текста; диалог на ЕЯ (Call-центры и др.). • Поддержка corpus-based процедур анализа (в т. ч. для перевода) • Концептуальный доступ к информационным ресурсам: концептуальные схемы БД, вопросно-ответные системы и др. • Организация управляемого данными регламентированного диалога (ср. Wikipedia; создание словарей и лингвистических баз данных))
  • 3.
    Круг лексики NB: Неонтология задачи, а онтология предметной области. • Лингвистические объекты (+ смежные объекты: понятия, социум, психология, логика, нейролингвистика, онтология … ?) • Свойства лингвистических объектов, отношения между лингвистическими объектами (анафора, согласование, …) • Процессы – диахрония (деривация, дивергенция, …); исследовательские процедуры (дешифровка, …) • Законы, правила, модели, теории, исследовательские методы и средства • Направления и разделы языкознания (глоттохронология, …) • Прочее (типология языков, участники и процессы языковой коммуникации, …) NB: Держаться терминологического мейнстрима (ontological commitments)Источники:
  • 4.
    Методология Общепринятая практика: • Отборзначимых для предметной / проблемной области концептов. • Категоризация терминов • Дальнейшая внутрикатегорная систематизация - построение таксономии. • Установление нетаксономических отношений • Построение формальных толкований сложных концептов
  • 5.
    Методология Существенное дополнение - построениеонтологии, рассчитываемой на многократное применение, предполагает стремление к логической полноте концептуальной системы. При добавлении в онтологию имени некоторого подкласса всегда полезно задаться вопросами: - из какого исходного класса выделен данный подкласс? - по какому основанию он выделен? - и самое главное: какие еще подклассы могут быть выделены по данному основанию из данного исходного класса? (или, лучше, - какой набор подклассов получается разбиением исходного класса по данному основанию?).
  • 6.
    Методология Пример: Функционально самодостаточный (исходный)объект в системе лингвистической терминологии - текстовое произведение. (Текст, представляющий одно законченное сообщение, содержание одного коммуникационного акта, основная коммуникационная единица.) (ср. SUMO: Text - A &%LinguisticExpression or set of &%LinguisticExpressions that perform a specific function related to &%Communication, e.g. express a discourse about a particular topic). (Научная статья, монография или диссертация; роман, эссе или губермановский "гарик"; устав гарнизонной и караульной службы, закон о правах потребителей, инструкция по использованию лекарства, рекламный постер, короткий приказ армейского командира в бою и т. д., и т. п.) Другие лингвистические объекты (слова, фонемы, предложения,…) интересны и значимы постольку, поскольку они нужны для построения и детального описания этой основной.
  • 7.
    Методология Вопросы для разработчика– эксперта: (1) Текстовое произведение - художественное произведение, деловой документ, публицистическое произведение (функционально-коммуникативный тип текстового произведения) (2) Деловой документ - научно-технический документ, нормативный документ, организационно-распорядительный документ, ценная бумага (по основной социальной функции делового документа*) (1) Текстовое произведение (текстовый объект) - музыкальный объект, объект изобразительного искусства, утилитарный объект со знаковыми функциями Результат – выход за пределы предметной области – обозначение направлений классификации для смежных ПО.
  • 8.
    Средства описания 1) Категоризацияконцептов – объекты, признаки (атрибуты), процессы, (статические) отношения 2) Таксономия ("дерево признаков") 3) Встроенные нетаксономические отношения: часть-целое, локализация, … 4) Язык формальных толкований Онтология не создает нового знания, а приводит в порядок существующее – часто на уровне трюизмов (морфема – часть слова)
  • 9.
  • 10.