SlideShare a Scribd company logo
1 of 16
Download to read offline
ДИПЛОМНАЯ РАБОТА
   Автоматическое построение
лексико-синтаксических шаблонов
 по текстам предметной области

                   Исполнитель: Тарасенко Ю.В., группа 524
      Научные руководители: Ефремова Н.Э., Большакова Е.И.
Шаблоны в компьютерной
          лингвистике
Извлечение информации из текстов:

1. Распознавание сущностей:
   имён людей, названий организаций, дат и т.д.
2. Выявление связей между сущностями:
   «Род-Вид», «Часть-Целое» и т.д.
3. Выделение фактов:
   о проведении сделок, деловых визитов и т.д.
Определение шаблона
Шаблон - формальная запись языковой конструкции, включающая:
    фиксированные лексемы
    заполняемые места (слоты)
    синтаксические ограничения

Пример:
N1 V<СОСТОЯТЬ> Pr<ИЗ> N2
N – существительное            Каждая хромосома состоит из
                               хроматина - сложного комплекса из
V – глагол                     ДНК , белков и некоторых других
Pr – предлог                   компонентов (в частности, РНК).
Актуальность
Как правило, для русскоязычных текстов шаблоны
строятся вручную:
 трудоемкий процесс
 множество построенных шаблонов – неполное
 возможны ошибки

Поэтому задача автоматического построения
шаблонов для русскоязычных текстов является
актуальной.
Постановка задачи
Требуется разработать программный комплекс для
автоматического построения лексико-синтаксических
шаблонов по русскоязычным текстам предметной области.

Подзадачи:
  1.   Составить обзор существующих методов автоматического
       построения шаблонов.
  2.   По результатам обзора выбрать метод и адаптировать его для
       применения к русскоязычным текстам.
  3.   Реализовать программный комплекс автоматического
       построения шаблонов.
  4.   Провести тестирование функциональности программного
       комплекса.
Методы автоматического
             построения шаблонов
1.   AutoSlog
     Работает с размеченной коллекцией текстов. Для составления
     шаблонов используются эвристические правила.
2.   AutoSlog-Ts
     Вместо размеченной коллекции используются тексты, помеченные
     как содержащие или не содержащие извлекаемое событие.
3.   DIPRE
     Для составления шаблонов применяется кластеризация. Шаблоны
     представляются в виде строк со слотами.
4.   Snowball
     Основан на методе DIPRE. Шаблоны представляются в виде
     векторов контекстов.
Алгоритм построения шаблонов

Вход: исследуемое отношение + пары терминов

1. В тексте ищутся предложения, содержащие пары
   терминов, их окружение (контекст) фиксируется.
2. Найденные контексты анализируются и формируются
   новые шаблоны.
3. Новые шаблоны проверяются.
4. С помощью шаблонов строятся новые пары терминов.

Выход: новые пары терминов + новые шаблоны
Адаптация метода

1. Используется коллекция научно-
   технических текстов на русском языке.
2. Коллекция размечается автоматически с
   помощью библиотеки Alchemy.
3. В качестве языка записи шаблонов
   используется LSPL (Lexico-Syntactic Pattern
   Language).
Схема алгоритма

                              Шаг 2: Анализ         Новые шаблоны
                  Контексты
                              контекстов и
                              построение шаблонов



           Шаг 1:                                          Шаг 3:
           Получение                                       Проверка
           контекстов                                      новых      Релевантные
Пары                                                       шаблонов   шаблоны
терминов

                              Шаг 4:
                              Получение новых пар
                  Пары        терминов              Новые шаблоны
                  терминов
Пример
Вход: отношение «Часть-Целое» + пара терминов <тело
человека, вода>

                         Контекст для шаблона
Текст:
«Тело человека примерно на 60 процентов состоит из воды,
некоторые же ткани такие, как серое вещество
мозга, состоят на 85 процентов из воды.»

Новый шаблон:
NG1 Av<ПРИМЕРНО> Pr<НА> UPercent V<СОСТОЯТЬ> Pr<ИЗ> NG2
Реализация
Языки программирования: С++, PHP
Библиотеки: LSPL, AOT, boost
Платформа: Drupal CMS
Основные компоненты проргаммного комплекса:
• Компонент автоматического построения шаблонов.
• Компонент наложения шаблонов (на базе библиотеки
  LSPL).
• Компонент выделения терминов и ключевых слов (на базе
  библиотеки Alchemy).
Архитектура программного
          комплекса

          Компонент наложения
               шаблонов
 Тексты


Словари
               Компонент
            автоматического     Шаблоны
          построения шаблонов

 LSPL                           Словари
          Компонент выделения
          терминов и ключевых
Alchemy          слов
Пользовательский интерфейс
Тестирование
На научно-технических текстах по биологии
(анатомия человека, генетика и др.) объёмом
более 1Мб для отношения «Часть-Целое».

Построено шаблонов: 50
Выделено корректных пар терминов: 452
Точность выделения пар: 87%
Результаты работы
1. Составлен обзор существующих методов
   автоматического построения шаблонов.
2. Выбран метод автоматического построения
   шаблонов Snowball и адаптирован для
   применения к русскоязычным текстам.
3. Реализован программный комплекс
   автоматического построения шаблонов с веб-
   интерфейсом.
4. Проведено тестирование функциональности
   программного комплекса.
Спасибо за внимание!

More Related Content

Similar to Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчanna_vereshchagina
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Получаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетПолучаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетPyNSK
 
C# Desktop. Занятие 01.
C# Desktop. Занятие 01.C# Desktop. Занятие 01.
C# Desktop. Занятие 01.Igor Shkulipa
 
Ai lab
Ai labAi lab
Ai labaaa
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 

Similar to Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области (20)

Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 
Получаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетПолучаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работает
 
Авиком
АвикомАвиком
Авиком
 
доклад
докладдоклад
доклад
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
C# programming
C# programmingC# programming
C# programming
 
C# Desktop. Занятие 01.
C# Desktop. Занятие 01.C# Desktop. Занятие 01.
C# Desktop. Занятие 01.
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Реклама направления 270404
Реклама направления 270404Реклама направления 270404
Реклама направления 270404
 
Ai lab
Ai labAi lab
Ai lab
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 

Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

  • 1. ДИПЛОМНАЯ РАБОТА Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области Исполнитель: Тарасенко Ю.В., группа 524 Научные руководители: Ефремова Н.Э., Большакова Е.И.
  • 2. Шаблоны в компьютерной лингвистике Извлечение информации из текстов: 1. Распознавание сущностей: имён людей, названий организаций, дат и т.д. 2. Выявление связей между сущностями: «Род-Вид», «Часть-Целое» и т.д. 3. Выделение фактов: о проведении сделок, деловых визитов и т.д.
  • 3. Определение шаблона Шаблон - формальная запись языковой конструкции, включающая:  фиксированные лексемы  заполняемые места (слоты)  синтаксические ограничения Пример: N1 V<СОСТОЯТЬ> Pr<ИЗ> N2 N – существительное Каждая хромосома состоит из хроматина - сложного комплекса из V – глагол ДНК , белков и некоторых других Pr – предлог компонентов (в частности, РНК).
  • 4. Актуальность Как правило, для русскоязычных текстов шаблоны строятся вручную:  трудоемкий процесс  множество построенных шаблонов – неполное  возможны ошибки Поэтому задача автоматического построения шаблонов для русскоязычных текстов является актуальной.
  • 5. Постановка задачи Требуется разработать программный комплекс для автоматического построения лексико-синтаксических шаблонов по русскоязычным текстам предметной области. Подзадачи: 1. Составить обзор существующих методов автоматического построения шаблонов. 2. По результатам обзора выбрать метод и адаптировать его для применения к русскоязычным текстам. 3. Реализовать программный комплекс автоматического построения шаблонов. 4. Провести тестирование функциональности программного комплекса.
  • 6. Методы автоматического построения шаблонов 1. AutoSlog Работает с размеченной коллекцией текстов. Для составления шаблонов используются эвристические правила. 2. AutoSlog-Ts Вместо размеченной коллекции используются тексты, помеченные как содержащие или не содержащие извлекаемое событие. 3. DIPRE Для составления шаблонов применяется кластеризация. Шаблоны представляются в виде строк со слотами. 4. Snowball Основан на методе DIPRE. Шаблоны представляются в виде векторов контекстов.
  • 7. Алгоритм построения шаблонов Вход: исследуемое отношение + пары терминов 1. В тексте ищутся предложения, содержащие пары терминов, их окружение (контекст) фиксируется. 2. Найденные контексты анализируются и формируются новые шаблоны. 3. Новые шаблоны проверяются. 4. С помощью шаблонов строятся новые пары терминов. Выход: новые пары терминов + новые шаблоны
  • 8. Адаптация метода 1. Используется коллекция научно- технических текстов на русском языке. 2. Коллекция размечается автоматически с помощью библиотеки Alchemy. 3. В качестве языка записи шаблонов используется LSPL (Lexico-Syntactic Pattern Language).
  • 9. Схема алгоритма Шаг 2: Анализ Новые шаблоны Контексты контекстов и построение шаблонов Шаг 1: Шаг 3: Получение Проверка контекстов новых Релевантные Пары шаблонов шаблоны терминов Шаг 4: Получение новых пар Пары терминов Новые шаблоны терминов
  • 10. Пример Вход: отношение «Часть-Целое» + пара терминов <тело человека, вода> Контекст для шаблона Текст: «Тело человека примерно на 60 процентов состоит из воды, некоторые же ткани такие, как серое вещество мозга, состоят на 85 процентов из воды.» Новый шаблон: NG1 Av<ПРИМЕРНО> Pr<НА> UPercent V<СОСТОЯТЬ> Pr<ИЗ> NG2
  • 11. Реализация Языки программирования: С++, PHP Библиотеки: LSPL, AOT, boost Платформа: Drupal CMS Основные компоненты проргаммного комплекса: • Компонент автоматического построения шаблонов. • Компонент наложения шаблонов (на базе библиотеки LSPL). • Компонент выделения терминов и ключевых слов (на базе библиотеки Alchemy).
  • 12. Архитектура программного комплекса Компонент наложения шаблонов Тексты Словари Компонент автоматического Шаблоны построения шаблонов LSPL Словари Компонент выделения терминов и ключевых Alchemy слов
  • 14. Тестирование На научно-технических текстах по биологии (анатомия человека, генетика и др.) объёмом более 1Мб для отношения «Часть-Целое». Построено шаблонов: 50 Выделено корректных пар терминов: 452 Точность выделения пар: 87%
  • 15. Результаты работы 1. Составлен обзор существующих методов автоматического построения шаблонов. 2. Выбран метод автоматического построения шаблонов Snowball и адаптирован для применения к русскоязычным текстам. 3. Реализован программный комплекс автоматического построения шаблонов с веб- интерфейсом. 4. Проведено тестирование функциональности программного комплекса.