20.09.2013
Извлечение
справочных данных из
технических текстов на
естественных языках
2
Первые попытки:
Моделирование требований
Проект ОАО Росэнергоатом, июль 2011
– Методология ручной обработки
технических заданий
– Специальный софт для преобразования в
модель данных ISO 15926
– Обработка типового ТЗ на АЭС:
• Размер выборки: 12 абзацев текста
• Идентификация содержания: 16 требований, 3
классификатора
• Модель: 96 объектов, 35 отношений
3
Семантическое моделирование
технических документов
Методология TabLan, март 2012
– Методология ручной обработки
технической документации (English)
– Используя подмножество языка Gellish
http://sourceforge.net/apps/trac/gellish/
– Отображение на расширенный набор
шаблонов ISO 15926-7
– Использует открытое расширение.15926
Editor для трансформации в модель
данных ISO 15926
Можно скачать с http://techinvestlab.ru/TabLan/
4
Уроки моделирования
документов
• Перспективы:
– Верификация требований
– Автоматизированная настройка IT систем
(классификаторы и справочники для
CAD/CAM/PLM/ERP/и т.п.)
– Поддержка интеграции данных (генерация библиотек
справочных данных)
– Трассировка требований к проектным решениям
– Верификация проектных решений
• Проблемы:
– Затраты ручного труда на моделирование
– Большой объём «тупой» подготовительной работы
– Необходимость участия специалистов инженерных
областях в работе на новом формальном языке
– Фрагментированная IT архитектура в проектных
организациях – препятствие для повторного
использования моделей
5
Необходимые условия для
автоматизации моделирования
технических документов
• Использование самых современных
достижений в компьютерной обработке
естественного языка (синтаксис и семантика)
• Использование самых современных
достижений онтологического моделирования
естественного языка
• Обучение на образцах из специального
корпуса естественного языка
• Контролируемый инженерный язык (по
образцу Gellish) как промежуточная модель
• Формальное преобразование моделей в
модели ISO 15926 и их верификация
Эксперименты с
ABBYY Compreno
Technology That Translates from Human
into Computer Language
http://www.abbyy.ru/science/techno
logies/business/compreno
Compreno
AABBYY Syntactic and Semantic Parser выполняет точный и подробный
анализ текстов на русском и английском языках, создавая прочный
фундамент для решения главной задачи приложения на высоком уровне.
JОбласть применения
●- Интеллектуальный корпоративный поиск
●- Автоматическое реферировании документов
●- Извлечение фактов из больших объемов информации
●- Мониторинг СМИ и социальных сетей с
последующим анализом тональности
найденных сообщений
●- Другие приложения, включающие анализ текстов
.15926 Editor: инструментарий ISO
15926
8
Система онтологического программирования:
- просмотр, создание, поиск и преобразование данных в
форматах стандарта ISO 15926;
- поддержка множественности неймспейсов, работа с
серверами SPARQL;
- консоль онтологического программирования на языке
Python;
- распознавание онтологических паттернов;
Работа будет продолжаться в направлениях:
- разработка адапторов для различных инженерных (и не
только инженерных) применений;
- интерфейсная поддержка exploratory programming;
- развитие возможностей онтологического
программирования (подъем уровня языка работы с
онтологическими данными, разработка верификаторов,
reasoners, средств эволюции онтологий и т.д.).
Скачать с http://techinvestlab.ru/dot15926Editor/
20.09.13
9
Пилотный проект
• ABBYY Compreno
• Использование самых современных достижений в компьютерной
обработке естественного языка (синтаксис и семантика)
• Использование самых современных достижений онтологического
моделирования естественного языка
• Обучение парсера ABBYY Compreno на корпусе инженерных
текстов
• Образцы текстов профессионального подмножества естественного
языка
• Моделирование отдельных инженерных текстов
• Извлечение инженерной онтологии объектов и отношений
• .15926 Editor
• Отображение инженерной онтологии объектов и отношений на
онтологию ISO 15926-2
• Формальное преобразование моделей в модели ISO 15926 и их
верификация
• Публикация в семантическом формате справочных данных ISO
15926-8
Извлечение онтологической информации
"Эта система состоит из двух объемов: сухой бокс и
мокрый бокс"
(ABBYY Compreno).
20.09.13 10
Формирование справочных данных
на основе онтологического разбора (.15926 Editor)
20.09.13 11
Извлечение онтологической информации
"Внутренние поверхности должны быть гладкими для
уменьшения отложения продуктов коррозии и упрощения
дезактивации" (ABBYY Compreno).
20.09.13 12
Формирование справочных данных
на основе онтологического разбора (.15926 Editor)
20.09.13 13
Создание системы накопления
справочных данных
Начальное наполнение на базе отраслевых глоссариев, тезаурусов,
материалов отдельных исследований по стандартизации – обработка
словарных определений.
Открытое предоставление специалистам отрасли и широкой публике
(проектные, исследовательские, эксплуатационные, надзорные
организации, органы стандартизации и т.д.) онтологической
информации (интернет-портал).
Публичное обсуждение терминов и коллаборативное пополнение
библиотеки заинтересованными лицами через wiki - инструменты.
Расширение библиотеки справочных данных путём обработки корпуса
инженерных текстов на естественных языках специализированными
инструментами извлечения и преобразования онтологий.
Использование словарей и тезаурусов для автоматизации переводов на
иностранные языки, каталогизации (рубрикации, индексирования) в
отраслевых и корпоративных электронных библиотеках и иных
форматах электронного сбора и хранения знаний.
Использование библиотеки справочных данных для стандартизации
терминологии проектной информации в системах CAD/PLM и каталогах
и для автоматизированного обмена такой информацией в обменных
форматах стандарта ISO 15926.
Sep 20, 2013 22
TechInvestLab.ru
Левенчук Анатолий Игоревич
Блог: http://ailev.ru
Почта: ailev@asmp.msk.su
Агроскин Виктор Владимирович
Почта: vic5784@gmail.com

Извлечение справочных данных из технических текстов на естественных языках

  • 1.
  • 2.
    2 Первые попытки: Моделирование требований ПроектОАО Росэнергоатом, июль 2011 – Методология ручной обработки технических заданий – Специальный софт для преобразования в модель данных ISO 15926 – Обработка типового ТЗ на АЭС: • Размер выборки: 12 абзацев текста • Идентификация содержания: 16 требований, 3 классификатора • Модель: 96 объектов, 35 отношений
  • 3.
    3 Семантическое моделирование технических документов МетодологияTabLan, март 2012 – Методология ручной обработки технической документации (English) – Используя подмножество языка Gellish http://sourceforge.net/apps/trac/gellish/ – Отображение на расширенный набор шаблонов ISO 15926-7 – Использует открытое расширение.15926 Editor для трансформации в модель данных ISO 15926 Можно скачать с http://techinvestlab.ru/TabLan/
  • 4.
    4 Уроки моделирования документов • Перспективы: –Верификация требований – Автоматизированная настройка IT систем (классификаторы и справочники для CAD/CAM/PLM/ERP/и т.п.) – Поддержка интеграции данных (генерация библиотек справочных данных) – Трассировка требований к проектным решениям – Верификация проектных решений • Проблемы: – Затраты ручного труда на моделирование – Большой объём «тупой» подготовительной работы – Необходимость участия специалистов инженерных областях в работе на новом формальном языке – Фрагментированная IT архитектура в проектных организациях – препятствие для повторного использования моделей
  • 5.
    5 Необходимые условия для автоматизациимоделирования технических документов • Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика) • Использование самых современных достижений онтологического моделирования естественного языка • Обучение на образцах из специального корпуса естественного языка • Контролируемый инженерный язык (по образцу Gellish) как промежуточная модель • Формальное преобразование моделей в модели ISO 15926 и их верификация
  • 6.
    Эксперименты с ABBYY Compreno TechnologyThat Translates from Human into Computer Language http://www.abbyy.ru/science/techno logies/business/compreno
  • 7.
    Compreno AABBYY Syntactic andSemantic Parser выполняет точный и подробный анализ текстов на русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне. JОбласть применения ●- Интеллектуальный корпоративный поиск ●- Автоматическое реферировании документов ●- Извлечение фактов из больших объемов информации ●- Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений ●- Другие приложения, включающие анализ текстов
  • 8.
    .15926 Editor: инструментарийISO 15926 8 Система онтологического программирования: - просмотр, создание, поиск и преобразование данных в форматах стандарта ISO 15926; - поддержка множественности неймспейсов, работа с серверами SPARQL; - консоль онтологического программирования на языке Python; - распознавание онтологических паттернов; Работа будет продолжаться в направлениях: - разработка адапторов для различных инженерных (и не только инженерных) применений; - интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.). Скачать с http://techinvestlab.ru/dot15926Editor/ 20.09.13
  • 9.
    9 Пилотный проект • ABBYYCompreno • Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика) • Использование самых современных достижений онтологического моделирования естественного языка • Обучение парсера ABBYY Compreno на корпусе инженерных текстов • Образцы текстов профессионального подмножества естественного языка • Моделирование отдельных инженерных текстов • Извлечение инженерной онтологии объектов и отношений • .15926 Editor • Отображение инженерной онтологии объектов и отношений на онтологию ISO 15926-2 • Формальное преобразование моделей в модели ISO 15926 и их верификация • Публикация в семантическом формате справочных данных ISO 15926-8
  • 10.
    Извлечение онтологической информации "Этасистема состоит из двух объемов: сухой бокс и мокрый бокс" (ABBYY Compreno). 20.09.13 10
  • 11.
    Формирование справочных данных наоснове онтологического разбора (.15926 Editor) 20.09.13 11
  • 12.
    Извлечение онтологической информации "Внутренниеповерхности должны быть гладкими для уменьшения отложения продуктов коррозии и упрощения дезактивации" (ABBYY Compreno). 20.09.13 12
  • 13.
    Формирование справочных данных наоснове онтологического разбора (.15926 Editor) 20.09.13 13
  • 21.
    Создание системы накопления справочныхданных Начальное наполнение на базе отраслевых глоссариев, тезаурусов, материалов отдельных исследований по стандартизации – обработка словарных определений. Открытое предоставление специалистам отрасли и широкой публике (проектные, исследовательские, эксплуатационные, надзорные организации, органы стандартизации и т.д.) онтологической информации (интернет-портал). Публичное обсуждение терминов и коллаборативное пополнение библиотеки заинтересованными лицами через wiki - инструменты. Расширение библиотеки справочных данных путём обработки корпуса инженерных текстов на естественных языках специализированными инструментами извлечения и преобразования онтологий. Использование словарей и тезаурусов для автоматизации переводов на иностранные языки, каталогизации (рубрикации, индексирования) в отраслевых и корпоративных электронных библиотеках и иных форматах электронного сбора и хранения знаний. Использование библиотеки справочных данных для стандартизации терминологии проектной информации в системах CAD/PLM и каталогах и для автоматизированного обмена такой информацией в обменных форматах стандарта ISO 15926.
  • 22.
    Sep 20, 201322 TechInvestLab.ru Левенчук Анатолий Игоревич Блог: http://ailev.ru Почта: ailev@asmp.msk.su Агроскин Виктор Владимирович Почта: vic5784@gmail.com