SlideShare a Scribd company logo
1 of 20
Построение правил для автоматического извлечения словосочетаний из текста   Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова
Основная цель ,[object Object],[object Object]
Постановка задачи ,[object Object],[object Object],[object Object],[object Object],[object Object]
Структура словосочетания ,[object Object],[object Object],[object Object],[object Object]
Структура словосочетания ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Структура словосочетания ,[object Object],[object Object],[object Object]
Таблица согласований ,[object Object],с яркий (0) свет (1) Таблица согласований 1. род, число, падеж 2. Число – ед, падеж – рд 3. Число – мн, падеж – тв 4. …………… 5. …………… …… 1- >0 Согл. №1 Корень (1) Яркий свет Словосочетание :  ЯРКИЙ СВЕТ
Согласование ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Особенности построения связей между элементами словосочетания  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Структура  правил ,[object Object],[object Object],[object Object],[object Object],[object Object],Прил (Кач.) Сущ(мж.р неод.) Сущ(ж.р неод.) ед-ч, падеж - род род, число, падеж
Алгоритм извлечения словосочетаний из текста 0 шаг :   (1 обход текста) Составляется словарь терминов. 1 шаг :  ( 2   обход текста )  Для каждого слова текста ищем все правила,  с таким же морфологическим классом корневого элемента. Запоминаем позиции данных правил и сами правила, составляем из них список гипотез. Примерно под таким девизом в 1977 году начиналась наша  лаборатория в Институте естественных наук Бурятского филиала СО  АН СССР. Лаборатория создавалась для исследований по технологии  вольфрама и молибдена; по академической программе — для  претворения в практику физико-химического анализа и результатов Институт – Сущ Правило : Сущ +Прил+Сущ Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3
2 шаг :  ( 3   обход текста )  Для каждой гипотезы в соответствии с текущей  позицией в тексте проверяем соответствие морфологического класса элемента правила и слова в тексте. Если соответствие отсутствует –  удаляем гипотезу из списка. 3 шаг :   Для каждой гипотезы проверяем согласование  заданное в правилах. Если согласование не выполнено –  удаляем гипотезу из списка. 4 шаг :   На основе оставшихся гипотез формируем новое словосочетание Примерно под таким девизом в 1977 году начиналась наша  лаборатория в Институте естественных наук Бурятского филиала СО  АН СССР. Лаборатория создавалась для исследований по технологии Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3 Институт естественных наук Сущ +Прил+Сущ = ?
Извлечение словосочетаний  ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ  ТЕРМИНОВ
Словарь словосочетаний  Таблица правил
Редактор словосочетаний
Редактор правил
Согласование морфологических признаков .
Результаты обработки текстов Было  обработано 3 текста  из  разных предметных областей . Таблица правил содержала  5 основных правил
Результаты обработки текстов Название текста Слов в тексте Гипотезы, прошедшие согласование С+Срд С+Ств С+П П+С С+Прил+Срд Отрывок из учебного пособия по гетерогенному катализу. №1 9 000 37% 539 42 12 357 69 Отрывок из учебного пособия по гетерогенному катализу. №2 19 000 38% 1167 99 39 660 84 Михаил Шолохов  "Судьба человека" 7 000 40% 171 58 11 320 13
Перспективы развития ,[object Object],[object Object],[object Object]

More Related Content

Similar to построение правил для автоматического извлечения словосочетаний из текста

collocations in search
collocations in searchcollocations in search
collocations in searchNLPseminar
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...ITMO University
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯITMO University
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поискеЕвгений Летов
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 

Similar to построение правил для автоматического извлечения словосочетаний из текста (20)

Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
clasification
clasificationclasification
clasification
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
силина2010
силина2010силина2010
силина2010
 
collocations in search
collocations in searchcollocations in search
collocations in search
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
 
Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
 
RussNet
RussNetRussNet
RussNet
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 

More from Yury Katkov

Developing standards of professional activity with Semantic MediaWiki
Developing standards of professional activity with Semantic MediaWikiDeveloping standards of professional activity with Semantic MediaWiki
Developing standards of professional activity with Semantic MediaWikiYury Katkov
 
Agile and semat v0.91
Agile and semat v0.91Agile and semat v0.91
Agile and semat v0.91Yury Katkov
 
Система для создания профстандартов. Руководство пользователя
Система для создания профстандартов. Руководство пользователяСистема для создания профстандартов. Руководство пользователя
Система для создания профстандартов. Руководство пользователяYury Katkov
 
Linked data, semantic web и семантические вики
Linked data, semantic web и семантические викиLinked data, semantic web и семантические вики
Linked data, semantic web и семантические викиYury Katkov
 
Управление знаниями в семантической вики
Управление знаниями в семантической викиУправление знаниями в семантической вики
Управление знаниями в семантической викиYury Katkov
 
WikiVote platform.
WikiVote platform. WikiVote platform.
WikiVote platform. Yury Katkov
 
прагматическое введение в Linked data. DBpedia и SPARQL
прагматическое введение в Linked data. DBpedia и SPARQLпрагматическое введение в Linked data. DBpedia и SPARQL
прагматическое введение в Linked data. DBpedia и SPARQLYury Katkov
 
Прагматическое введение в Linked data - применения. Поиск данных
Прагматическое введение в Linked data - применения. Поиск данныхПрагматическое введение в Linked data - применения. Поиск данных
Прагматическое введение в Linked data - применения. Поиск данныхYury Katkov
 
Прагматическое введение в Linked Data. Стандарты.
Прагматическое введение в Linked Data. Стандарты.Прагматическое введение в Linked Data. Стандарты.
Прагматическое введение в Linked Data. Стандарты.Yury Katkov
 
Semantic social profile_a_semantic_boost_for
Semantic social profile_a_semantic_boost_forSemantic social profile_a_semantic_boost_for
Semantic social profile_a_semantic_boost_forYury Katkov
 
разработка онтологии для семантического управления доступом
разработка онтологии для семантического  управления доступомразработка онтологии для семантического  управления доступом
разработка онтологии для семантического управления доступомYury Katkov
 
формализация смысла комических текстов через концепцию инвективных имен
формализация смысла комических текстов через концепцию инвективных именформализация смысла комических текстов через концепцию инвективных имен
формализация смысла комических текстов через концепцию инвективных именYury Katkov
 
структура системы управления знаниями
структура системы управления знаниямиструктура системы управления знаниями
структура системы управления знаниямиYury Katkov
 
романова дина иерархическая система тегирования
романова дина иерархическая система тегированияроманова дина иерархическая система тегирования
романова дина иерархическая система тегированияYury Katkov
 
ресурсно целевые графы в моделировании взаимодействий искусственных агентов
ресурсно целевые графы в моделировании взаимодействий искусственных агентовресурсно целевые графы в моделировании взаимодействий искусственных агентов
ресурсно целевые графы в моделировании взаимодействий искусственных агентовYury Katkov
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 
проектирование компетентностных моделей с использованием технологий семантиче...
проектирование компетентностных моделей с использованием технологий семантиче...проектирование компетентностных моделей с использованием технологий семантиче...
проектирование компетентностных моделей с использованием технологий семантиче...Yury Katkov
 
проблемы построения интеллектуальных агентов реального времени
проблемы построения интеллектуальных агентов реального времени проблемы построения интеллектуальных агентов реального времени
проблемы построения интеллектуальных агентов реального времени Yury Katkov
 
построение хранилищ
построение хранилищпостроение хранилищ
построение хранилищYury Katkov
 
онтология учебного плана
онтология учебного планаонтология учебного плана
онтология учебного планаYury Katkov
 

More from Yury Katkov (20)

Developing standards of professional activity with Semantic MediaWiki
Developing standards of professional activity with Semantic MediaWikiDeveloping standards of professional activity with Semantic MediaWiki
Developing standards of professional activity with Semantic MediaWiki
 
Agile and semat v0.91
Agile and semat v0.91Agile and semat v0.91
Agile and semat v0.91
 
Система для создания профстандартов. Руководство пользователя
Система для создания профстандартов. Руководство пользователяСистема для создания профстандартов. Руководство пользователя
Система для создания профстандартов. Руководство пользователя
 
Linked data, semantic web и семантические вики
Linked data, semantic web и семантические викиLinked data, semantic web и семантические вики
Linked data, semantic web и семантические вики
 
Управление знаниями в семантической вики
Управление знаниями в семантической викиУправление знаниями в семантической вики
Управление знаниями в семантической вики
 
WikiVote platform.
WikiVote platform. WikiVote platform.
WikiVote platform.
 
прагматическое введение в Linked data. DBpedia и SPARQL
прагматическое введение в Linked data. DBpedia и SPARQLпрагматическое введение в Linked data. DBpedia и SPARQL
прагматическое введение в Linked data. DBpedia и SPARQL
 
Прагматическое введение в Linked data - применения. Поиск данных
Прагматическое введение в Linked data - применения. Поиск данныхПрагматическое введение в Linked data - применения. Поиск данных
Прагматическое введение в Linked data - применения. Поиск данных
 
Прагматическое введение в Linked Data. Стандарты.
Прагматическое введение в Linked Data. Стандарты.Прагматическое введение в Linked Data. Стандарты.
Прагматическое введение в Linked Data. Стандарты.
 
Semantic social profile_a_semantic_boost_for
Semantic social profile_a_semantic_boost_forSemantic social profile_a_semantic_boost_for
Semantic social profile_a_semantic_boost_for
 
разработка онтологии для семантического управления доступом
разработка онтологии для семантического  управления доступомразработка онтологии для семантического  управления доступом
разработка онтологии для семантического управления доступом
 
формализация смысла комических текстов через концепцию инвективных имен
формализация смысла комических текстов через концепцию инвективных именформализация смысла комических текстов через концепцию инвективных имен
формализация смысла комических текстов через концепцию инвективных имен
 
структура системы управления знаниями
структура системы управления знаниямиструктура системы управления знаниями
структура системы управления знаниями
 
романова дина иерархическая система тегирования
романова дина иерархическая система тегированияроманова дина иерархическая система тегирования
романова дина иерархическая система тегирования
 
ресурсно целевые графы в моделировании взаимодействий искусственных агентов
ресурсно целевые графы в моделировании взаимодействий искусственных агентовресурсно целевые графы в моделировании взаимодействий искусственных агентов
ресурсно целевые графы в моделировании взаимодействий искусственных агентов
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 
проектирование компетентностных моделей с использованием технологий семантиче...
проектирование компетентностных моделей с использованием технологий семантиче...проектирование компетентностных моделей с использованием технологий семантиче...
проектирование компетентностных моделей с использованием технологий семантиче...
 
проблемы построения интеллектуальных агентов реального времени
проблемы построения интеллектуальных агентов реального времени проблемы построения интеллектуальных агентов реального времени
проблемы построения интеллектуальных агентов реального времени
 
построение хранилищ
построение хранилищпостроение хранилищ
построение хранилищ
 
онтология учебного плана
онтология учебного планаонтология учебного плана
онтология учебного плана
 

построение правил для автоматического извлечения словосочетаний из текста

  • 1. Построение правил для автоматического извлечения словосочетаний из текста   Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11. Алгоритм извлечения словосочетаний из текста 0 шаг : (1 обход текста) Составляется словарь терминов. 1 шаг : ( 2 обход текста ) Для каждого слова текста ищем все правила, с таким же морфологическим классом корневого элемента. Запоминаем позиции данных правил и сами правила, составляем из них список гипотез. Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии вольфрама и молибдена; по академической программе — для претворения в практику физико-химического анализа и результатов Институт – Сущ Правило : Сущ +Прил+Сущ Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3
  • 12. 2 шаг : ( 3 обход текста ) Для каждой гипотезы в соответствии с текущей позицией в тексте проверяем соответствие морфологического класса элемента правила и слова в тексте. Если соответствие отсутствует – удаляем гипотезу из списка. 3 шаг : Для каждой гипотезы проверяем согласование заданное в правилах. Если согласование не выполнено – удаляем гипотезу из списка. 4 шаг : На основе оставшихся гипотез формируем новое словосочетание Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3 Институт естественных наук Сущ +Прил+Сущ = ?
  • 13. Извлечение словосочетаний ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ ТЕРМИНОВ
  • 14. Словарь словосочетаний Таблица правил
  • 18. Результаты обработки текстов Было обработано 3 текста из разных предметных областей . Таблица правил содержала 5 основных правил
  • 19. Результаты обработки текстов Название текста Слов в тексте Гипотезы, прошедшие согласование С+Срд С+Ств С+П П+С С+Прил+Срд Отрывок из учебного пособия по гетерогенному катализу. №1 9 000 37% 539 42 12 357 69 Отрывок из учебного пособия по гетерогенному катализу. №2 19 000 38% 1167 99 39 660 84 Михаил Шолохов "Судьба человека" 7 000 40% 171 58 11 320 13
  • 20.