Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области
1. ДИПЛОМНАЯ РАБОТА
Автоматическое построение
лексико-синтаксических шаблонов
по текстам предметной области
Исполнитель: Тарасенко Ю.В., группа 524
Научные руководители: Ефремова Н.Э., Большакова Е.И.
2. Шаблоны в компьютерной
лингвистике
Извлечение информации из текстов:
1. Распознавание сущностей:
имён людей, названий организаций, дат и т.д.
2. Выявление связей между сущностями:
«Род-Вид», «Часть-Целое» и т.д.
3. Выделение фактов:
о проведении сделок, деловых визитов и т.д.
3. Определение шаблона
Шаблон - формальная запись языковой конструкции, включающая:
фиксированные лексемы
заполняемые места (слоты)
синтаксические ограничения
Пример:
N1 V<СОСТОЯТЬ> Pr<ИЗ> N2
N – существительное Каждая хромосома состоит из
хроматина - сложного комплекса из
V – глагол ДНК , белков и некоторых других
Pr – предлог компонентов (в частности, РНК).
4. Актуальность
Как правило, для русскоязычных текстов шаблоны
строятся вручную:
трудоемкий процесс
множество построенных шаблонов – неполное
возможны ошибки
Поэтому задача автоматического построения
шаблонов для русскоязычных текстов является
актуальной.
5. Постановка задачи
Требуется разработать программный комплекс для
автоматического построения лексико-синтаксических
шаблонов по русскоязычным текстам предметной области.
Подзадачи:
1. Составить обзор существующих методов автоматического
построения шаблонов.
2. По результатам обзора выбрать метод и адаптировать его для
применения к русскоязычным текстам.
3. Реализовать программный комплекс автоматического
построения шаблонов.
4. Провести тестирование функциональности программного
комплекса.
6. Методы автоматического
построения шаблонов
1. AutoSlog
Работает с размеченной коллекцией текстов. Для составления
шаблонов используются эвристические правила.
2. AutoSlog-Ts
Вместо размеченной коллекции используются тексты, помеченные
как содержащие или не содержащие извлекаемое событие.
3. DIPRE
Для составления шаблонов применяется кластеризация. Шаблоны
представляются в виде строк со слотами.
4. Snowball
Основан на методе DIPRE. Шаблоны представляются в виде
векторов контекстов.
7. Алгоритм построения шаблонов
Вход: исследуемое отношение + пары терминов
1. В тексте ищутся предложения, содержащие пары
терминов, их окружение (контекст) фиксируется.
2. Найденные контексты анализируются и формируются
новые шаблоны.
3. Новые шаблоны проверяются.
4. С помощью шаблонов строятся новые пары терминов.
Выход: новые пары терминов + новые шаблоны
8. Адаптация метода
1. Используется коллекция научно-
технических текстов на русском языке.
2. Коллекция размечается автоматически с
помощью библиотеки Alchemy.
3. В качестве языка записи шаблонов
используется LSPL (Lexico-Syntactic Pattern
Language).
9. Схема алгоритма
Шаг 2: Анализ Новые шаблоны
Контексты
контекстов и
построение шаблонов
Шаг 1: Шаг 3:
Получение Проверка
контекстов новых Релевантные
Пары шаблонов шаблоны
терминов
Шаг 4:
Получение новых пар
Пары терминов Новые шаблоны
терминов
10. Пример
Вход: отношение «Часть-Целое» + пара терминов <тело
человека, вода>
Контекст для шаблона
Текст:
«Тело человека примерно на 60 процентов состоит из воды,
некоторые же ткани такие, как серое вещество
мозга, состоят на 85 процентов из воды.»
Новый шаблон:
NG1 Av<ПРИМЕРНО> Pr<НА> UPercent V<СОСТОЯТЬ> Pr<ИЗ> NG2
11. Реализация
Языки программирования: С++, PHP
Библиотеки: LSPL, AOT, boost
Платформа: Drupal CMS
Основные компоненты проргаммного комплекса:
• Компонент автоматического построения шаблонов.
• Компонент наложения шаблонов (на базе библиотеки
LSPL).
• Компонент выделения терминов и ключевых слов (на базе
библиотеки Alchemy).
12. Архитектура программного
комплекса
Компонент наложения
шаблонов
Тексты
Словари
Компонент
автоматического Шаблоны
построения шаблонов
LSPL Словари
Компонент выделения
терминов и ключевых
Alchemy слов
14. Тестирование
На научно-технических текстах по биологии
(анатомия человека, генетика и др.) объёмом
более 1Мб для отношения «Часть-Целое».
Построено шаблонов: 50
Выделено корректных пар терминов: 452
Точность выделения пар: 87%
15. Результаты работы
1. Составлен обзор существующих методов
автоматического построения шаблонов.
2. Выбран метод автоматического построения
шаблонов Snowball и адаптирован для
применения к русскоязычным текстам.
3. Реализован программный комплекс
автоматического построения шаблонов с веб-
интерфейсом.
4. Проведено тестирование функциональности
программного комплекса.