SlideShare a Scribd company logo
Витвицкий С.В. Автоматическое извлечение синтаксических контекстов из текстовой коллекции.
План ,[object Object],[object Object],[object Object],[object Object]
Основные понятия ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Применение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Пример ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Извлечение контекстов Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ
Извлечение контекстов Пример: ,[object Object],[object Object],[object Object]
Синтаксические отношения Пример: Фильтр по отношениям ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Лемматизация Пример: Взятие нормальных форм слов.  Проблема неоднозначных слов. Нужны морфологические данные.
Извлечение контекстов ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Извлечение контекстов ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],где  |W,r,w| -  сумма значений  c   по вхождениям  <r,w,W>  или  <r,W,w>
Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ
Меры подобия слов
Меры подобия слов Пример: ВРЕМЕННО Cosine 0,288 ЗНАЧИТ 0,577 ОСКОРБИТЬ 0,707 ПРЕТИТЬ 1 КРАСИВО Dice 0,5 ОСКОРБИТЬ 0,666 ПРЕТИТЬ 1 КРАСИВО … Из-за неоднозначности могут появляться «странные группы» СВЕРДЛОВСКИЙ Cosine 0,273   ВОЛОГОДСКИЙ 0,387   САРАТОВСКИЙ Dice 0,230   ТЮМЕНСКИЙ 0,260   ВОЛОГОДСКИЙ 0,315   САРАТОВСКИЙ Jacard 0,187 САРАТОВСКИЙ … ИЮЛЬ Cosine 0,251   ЯНВАРЬ 0,269   МАЙ 0,272   АВГУСТ 0,301   ИЮНЬ 0,402   АПРЕЛЬ Dice 0,235   ЯНВАРЬ 0,25 МАЙ 0,272   АВГУСТ 0,3 ИЮНЬ 0,4 АПРЕЛЬ …
Кластеризация похожих слов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Кластеризация похожих слов Пример:
Кластеризация похожих слов Пример:
Проблемы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Легкий анализатор ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Легкий анализатор Схема 1. Предобработка На этом шаге производятся косметические мероприятия вроде выделения ФИО, удаления переносов и англоязычных слов 2. Сегментация Выделение из текста сегментов, в рамках которых будет производиться поиск пар синтаксических отношений 3. Морфологический анализ Получение морфологической информации и последующая обработка 4. Поиск пар Применение ряда правил, обнаруживающих синтаксические отношения, выделение этих пар в удобную для работы структуру
Сегментация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Морфологический анализ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Морфологический анализ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
ДЛИННАЯ ЛЮБИМАЯ ДОРОГА (ДЛИННЫЙ, П,  («но, од, жр, им, еж»))  (ДОРОГА, С,  («жр, им,ед»)) (ЛЮБИМАЯ, С, («жр, им,ед»)) (ЛЮБИТЬ, ПРИЧАСТИЕ, («стр, но,од,нст,жр,им,ед»))  (ЛЮБИМЫЙ, П,  («но,од,жр,им,ед»)) (ДОРОГА, КР_ПРИЛ, («но,од,жр,ед»))
ДЛИННАЯ ЛЮБИМАЯ ДОРОГА После применения ряда подобных правил приступаем к поиску на  обработанном сегменте пар  синтаксических отношений (ДЛИННЫЙ, П,  («но, од, жр, им, еж»))  (ДОРОГА, С,  («жр, им,ед»)) (ЛЮБИМЫЙ, П,  («но,од,жр,им,ед»))
Поиск пар Порядок выполнения правил важен, пусть и в самой минимальной степени ПРИЛ_СУЩ ГЕНИТ_ИГ ПРЯМ_ДОП ПРОБРОС ГЛАГ_ИНФ ПОДЛ
ПРИЛ_СУЩ ДЛИННАЯ ЛЮБИМАЯ ДОРОГА Рассмотренный пример даёт: ПРИЛ_СУЩ ( ДЛИННАЯ ДОРОГА ) ПРИЛ_СУЩ ( ЛЮБИМАЯ ДОРОГА ) СУЩЕСТВИТЕЛЬНОЕ согласованные  с существительным ПРИЛАГАТЕЛЬНЫЕ
ГЕНИТ_ИГ Обозначим ИГ (именная группа) - существительное с впереди стоящими согласованными прилагательными.  ГЛАГОЛ ИГ винительный падеж ИГ родительный падеж ИГ родительный падеж ИГ родительный падеж ИГ первая с начала ИГ именительный падеж
ГЛАГ_ИНФ между глаголом и инфинитивом нет ничего ПРЯМ_ДОП между глаголом и существительным прилагательные и наречия ГЛАГОЛ ИНФИНИТИВ ГЛАГОЛ невозвратный СУЩЕСТВИТЕЛЬНОЕ Винительный падеж
ПОДЛ До ИГ нет предлога, между ИГ и глаголом нет союза «и», глагол и существительное согласованы и для глагола нет других «кандидатов» - в ИГ самое левое согласованное существительное согласование, нет «и» ГЛАГОЛ ИГ именительныйпадеж ГЛАГОЛ возвратный ИГ именительныйпадеж
Проброс ,[object Object],[object Object],[object Object],[object Object],даст  ПОДЛ ( ВВП БЫТЬ),  ГЛАГ_ИНФ  ( БЫТЬ УВЕЛИЧИВАТЬСЯ ) откуда мы получаем  ПОДЛ  ( ВВП УВЕЛИЧИВАТЬСЯ )
Формат результата Это конечный автомат БЕРЕТ СУЩЕСТВИТЕЛЬНОЕ 123 БРАТЬ ГЛАГОЛ 566 КРАСИВЫЙ ПРИЛАГАТЕЛЬНОЕ 1235 ПЛАТОК СУЩЕСТВИТЕЛЬНОЕ 435 ПРИЛ_СУЩ   254 ПРЯМ_ДОП  57 ПРЯМ_ДОМ   24 … … …
Статистика ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Виды многозначности ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Учёт части речи Пример: brief (noun):  affidavit 0.13, petition 0.05, memorandum  0.05, motion 0.05, lawsuit 0.05, deposition   0.05, slight 0.05, prospectus 0.04, document   0.04 paper 0.04, ... brief (verb):  tell 0.09, urge 0.07, ask 0.07, meet   0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective):  lengthy 0.13, short 0.12, recent   0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...
Кластеризация комитетами список похожих слов для слова  suit  и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim,   business suit,  … ( suit Nq34 0.39 (blouse, slack, legging,   sweater) Nq137 0.20 (lawsuit, allegation, case,   charge) )
Кластеризация комитетами Алгоритм кластеризации  CBC (Clustering By Committee)  предложен  Dekang Lin , 2003  ,[object Object],[object Object],[object Object]
Формирование комитетов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Приписывание кластеров ,[object Object],[object Object],[object Object],[object Object],[object Object]
Литература ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

What's hot

лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1Noobie312
 
Формы мышления, алгебра высказываний
Формы мышления, алгебра высказыванийФормы мышления, алгебра высказываний
Формы мышления, алгебра высказыванийserge_luch
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
Irene Pochinok
 
Работа с текстом на уроках математики
Работа с текстом на уроках математикиРабота с текстом на уроках математики
Работа с текстом на уроках математики
Kirrrr123
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
aleksashka3
 
Понятие предиката. Логические операции над предикатами
Понятие предиката. Логические операции над предикатамиПонятие предиката. Логические операции над предикатами
Понятие предиката. Логические операции над предикатами
aleksashka3
 
Автоматическое разрешение референции в новостных текстах
Автоматическое разрешение референции в новостных текстахАвтоматическое разрешение референции в новостных текстах
Автоматическое разрешение референции в новостных текстах
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Предикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиПредикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатами
Ильдус Ситдиков
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1Dmitry Kan
 
Экспертные системы: лекция №5
Экспертные системы: лекция №5Экспертные системы: лекция №5
Экспертные системы: лекция №5
Laboratory of Information Science and Semantic Technologies
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1Noobie312
 
Фреге и брадобрей
Фреге и брадобрейФреге и брадобрей
Фреге и брадобрейVictor Gorbatov
 
расчетная работа яруллина г.с.афбнк
расчетная работа яруллина г.с.афбнкрасчетная работа яруллина г.с.афбнк
расчетная работа яруллина г.с.афбнк
Александр Мельников
 
09 12
09 1209 12
07 определение
07 определение07 определение
07 определениеJulia Gorbatova
 
основы логики
основы логикиосновы логики
основы логикиRushitech
 
Логика высказываний
Логика высказыванийЛогика высказываний
Логика высказываний
Khayot Mirzaev
 

What's hot (20)

лекция 7 тема 1
лекция 7 тема 1лекция 7 тема 1
лекция 7 тема 1
 
Формы мышления, алгебра высказываний
Формы мышления, алгебра высказыванийФормы мышления, алгебра высказываний
Формы мышления, алгебра высказываний
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
Работа с текстом на уроках математики
Работа с текстом на уроках математикиРабота с текстом на уроках математики
Работа с текстом на уроках математики
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
Кванторы. Квантор всеобщности. Квантор существования.Равносильные формулы лог...
 
Понятие предиката. Логические операции над предикатами
Понятие предиката. Логические операции над предикатамиПонятие предиката. Логические операции над предикатами
Понятие предиката. Логические операции над предикатами
 
Определение
ОпределениеОпределение
Определение
 
Автоматическое разрешение референции в новостных текстах
Автоматическое разрешение референции в новостных текстахАвтоматическое разрешение референции в новостных текстах
Автоматическое разрешение референции в новостных текстах
 
Предикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатамиПредикаты. Основные понятия, связанные с предикатами
Предикаты. Основные понятия, связанные с предикатами
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1
 
Экспертные системы: лекция №5
Экспертные системы: лекция №5Экспертные системы: лекция №5
Экспертные системы: лекция №5
 
лекция 6 тема 1
лекция 6 тема 1лекция 6 тема 1
лекция 6 тема 1
 
Фреге и брадобрей
Фреге и брадобрейФреге и брадобрей
Фреге и брадобрей
 
расчетная работа яруллина г.с.афбнк
расчетная работа яруллина г.с.афбнкрасчетная работа яруллина г.с.афбнк
расчетная работа яруллина г.с.афбнк
 
09 12
09 1209 12
09 12
 
07 определение
07 определение07 определение
07 определение
 
основы логики
основы логикиосновы логики
основы логики
 
Логика высказываний
Логика высказыванийЛогика высказываний
Логика высказываний
 

Viewers also liked

Armando observacion
Armando observacionArmando observacion
Armando observacion
Diego Robles F
 
Events
EventsEvents
Events
NLPseminar
 
инструменты параллельного программирования
инструменты параллельного программированияинструменты параллельного программирования
инструменты параллельного программированияAlexander Petrov
 
05 анализ тональности сообщений
05 анализ тональности сообщений05 анализ тональности сообщений
05 анализ тональности сообщений
Lidia Pivovarova
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
Lidia Pivovarova
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
NLPseminar
 
Открытый код Томита-парсера. Виктор Бочаров
 Открытый код Томита-парсера. Виктор Бочаров Открытый код Томита-парсера. Виктор Бочаров
Открытый код Томита-парсера. Виктор Бочаров
Yandex
 
Neo4j Graph Database: Introduction and Simple Example
Neo4j Graph Database: Introduction and Simple ExampleNeo4j Graph Database: Introduction and Simple Example
Neo4j Graph Database: Introduction and Simple Example
Yaroslav Lukyanov
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Ontico
 
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
NLPseminar
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014
М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014
М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014it-people
 
Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014
Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014
Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014it-people
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Word2vec для поискового движка II
Word2vec для поискового движка IIWord2vec для поискового движка II
Word2vec для поискового движка II
Сергей Пономарев
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Linked data, semantic web и семантические вики
Linked data, semantic web и семантические викиLinked data, semantic web и семантические вики
Linked data, semantic web и семантические викиYury Katkov
 
Intro to NLP (RU)
Intro to NLP (RU)Intro to NLP (RU)
Intro to NLP (RU)
Ekaterina Chernyak
 

Viewers also liked (20)

Armando observacion
Armando observacionArmando observacion
Armando observacion
 
Events
EventsEvents
Events
 
инструменты параллельного программирования
инструменты параллельного программированияинструменты параллельного программирования
инструменты параллельного программирования
 
05 анализ тональности сообщений
05 анализ тональности сообщений05 анализ тональности сообщений
05 анализ тональности сообщений
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
Открытый код Томита-парсера. Виктор Бочаров
 Открытый код Томита-парсера. Виктор Бочаров Открытый код Томита-парсера. Виктор Бочаров
Открытый код Томита-парсера. Виктор Бочаров
 
Yablomsky
YablomskyYablomsky
Yablomsky
 
Neo4j Graph Database: Introduction and Simple Example
Neo4j Graph Database: Introduction and Simple ExampleNeo4j Graph Database: Introduction and Simple Example
Neo4j Graph Database: Introduction and Simple Example
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
 
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014
М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014
М. Коробов "Машинное обучение на фронте и в тылу", DUMP-2014
 
Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014
Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014
Извлечение информации из веб-страниц - Михаил Коробов, PyCon RU 2014
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Word2vec для поискового движка II
Word2vec для поискового движка IIWord2vec для поискового движка II
Word2vec для поискового движка II
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Linked data, semantic web и семантические вики
Linked data, semantic web и семантические викиLinked data, semantic web и семантические вики
Linked data, semantic web и семантические вики
 
Intro to NLP (RU)
Intro to NLP (RU)Intro to NLP (RU)
Intro to NLP (RU)
 

Similar to Автоматическое извлечение синтаксических контекстов из текстовой коллекции

построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
Lidia Pivovarova
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
Евгений Летов
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
Сергей Пономарев
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ITMO University
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
Java. Строки. Класс String.
Java. Строки. Класс String.Java. Строки. Класс String.
Java. Строки. Класс String.
Unguryan Vitaliy
 
Регулярные выражения C++
Регулярные выражения C++Регулярные выражения C++
Регулярные выражения C++
Dmitry Bulgakov
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 

Similar to Автоматическое извлечение синтаксических контекстов из текстовой коллекции (20)

построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
Masa
MasaMasa
Masa
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
RussNet
RussNetRussNet
RussNet
 
clasification
clasificationclasification
clasification
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Java. Строки. Класс String.
Java. Строки. Класс String.Java. Строки. Класс String.
Java. Строки. Класс String.
 
Регулярные выражения C++
Регулярные выражения C++Регулярные выражения C++
Регулярные выражения C++
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
 
Query expansion
Query expansionQuery expansion
Query expansion
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Автоматическое извлечение синтаксических контекстов из текстовой коллекции

  • 1. Витвицкий С.В. Автоматическое извлечение синтаксических контекстов из текстовой коллекции.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. Извлечение контекстов Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ
  • 7.
  • 8.
  • 9. Лемматизация Пример: Взятие нормальных форм слов. Проблема неоднозначных слов. Нужны морфологические данные.
  • 10.
  • 11.
  • 12. Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ
  • 14. Меры подобия слов Пример: ВРЕМЕННО Cosine 0,288 ЗНАЧИТ 0,577 ОСКОРБИТЬ 0,707 ПРЕТИТЬ 1 КРАСИВО Dice 0,5 ОСКОРБИТЬ 0,666 ПРЕТИТЬ 1 КРАСИВО … Из-за неоднозначности могут появляться «странные группы» СВЕРДЛОВСКИЙ Cosine 0,273 ВОЛОГОДСКИЙ 0,387 САРАТОВСКИЙ Dice 0,230 ТЮМЕНСКИЙ 0,260 ВОЛОГОДСКИЙ 0,315 САРАТОВСКИЙ Jacard 0,187 САРАТОВСКИЙ … ИЮЛЬ Cosine 0,251 ЯНВАРЬ 0,269 МАЙ 0,272 АВГУСТ 0,301 ИЮНЬ 0,402 АПРЕЛЬ Dice 0,235 ЯНВАРЬ 0,25 МАЙ 0,272 АВГУСТ 0,3 ИЮНЬ 0,4 АПРЕЛЬ …
  • 15.
  • 18.
  • 19.
  • 20. Легкий анализатор Схема 1. Предобработка На этом шаге производятся косметические мероприятия вроде выделения ФИО, удаления переносов и англоязычных слов 2. Сегментация Выделение из текста сегментов, в рамках которых будет производиться поиск пар синтаксических отношений 3. Морфологический анализ Получение морфологической информации и последующая обработка 4. Поиск пар Применение ряда правил, обнаруживающих синтаксические отношения, выделение этих пар в удобную для работы структуру
  • 21.
  • 22.
  • 23.
  • 24. ДЛИННАЯ ЛЮБИМАЯ ДОРОГА (ДЛИННЫЙ, П, («но, од, жр, им, еж»)) (ДОРОГА, С, («жр, им,ед»)) (ЛЮБИМАЯ, С, («жр, им,ед»)) (ЛЮБИТЬ, ПРИЧАСТИЕ, («стр, но,од,нст,жр,им,ед»)) (ЛЮБИМЫЙ, П, («но,од,жр,им,ед»)) (ДОРОГА, КР_ПРИЛ, («но,од,жр,ед»))
  • 25. ДЛИННАЯ ЛЮБИМАЯ ДОРОГА После применения ряда подобных правил приступаем к поиску на обработанном сегменте пар синтаксических отношений (ДЛИННЫЙ, П, («но, од, жр, им, еж»)) (ДОРОГА, С, («жр, им,ед»)) (ЛЮБИМЫЙ, П, («но,од,жр,им,ед»))
  • 26. Поиск пар Порядок выполнения правил важен, пусть и в самой минимальной степени ПРИЛ_СУЩ ГЕНИТ_ИГ ПРЯМ_ДОП ПРОБРОС ГЛАГ_ИНФ ПОДЛ
  • 27. ПРИЛ_СУЩ ДЛИННАЯ ЛЮБИМАЯ ДОРОГА Рассмотренный пример даёт: ПРИЛ_СУЩ ( ДЛИННАЯ ДОРОГА ) ПРИЛ_СУЩ ( ЛЮБИМАЯ ДОРОГА ) СУЩЕСТВИТЕЛЬНОЕ согласованные с существительным ПРИЛАГАТЕЛЬНЫЕ
  • 28. ГЕНИТ_ИГ Обозначим ИГ (именная группа) - существительное с впереди стоящими согласованными прилагательными. ГЛАГОЛ ИГ винительный падеж ИГ родительный падеж ИГ родительный падеж ИГ родительный падеж ИГ первая с начала ИГ именительный падеж
  • 29. ГЛАГ_ИНФ между глаголом и инфинитивом нет ничего ПРЯМ_ДОП между глаголом и существительным прилагательные и наречия ГЛАГОЛ ИНФИНИТИВ ГЛАГОЛ невозвратный СУЩЕСТВИТЕЛЬНОЕ Винительный падеж
  • 30. ПОДЛ До ИГ нет предлога, между ИГ и глаголом нет союза «и», глагол и существительное согласованы и для глагола нет других «кандидатов» - в ИГ самое левое согласованное существительное согласование, нет «и» ГЛАГОЛ ИГ именительныйпадеж ГЛАГОЛ возвратный ИГ именительныйпадеж
  • 31.
  • 32. Формат результата Это конечный автомат БЕРЕТ СУЩЕСТВИТЕЛЬНОЕ 123 БРАТЬ ГЛАГОЛ 566 КРАСИВЫЙ ПРИЛАГАТЕЛЬНОЕ 1235 ПЛАТОК СУЩЕСТВИТЕЛЬНОЕ 435 ПРИЛ_СУЩ 254 ПРЯМ_ДОП 57 ПРЯМ_ДОМ 24 … … …
  • 33.
  • 34.
  • 35. Учёт части речи Пример: brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04, ... brief (verb): tell 0.09, urge 0.07, ask 0.07, meet 0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective): lengthy 0.13, short 0.12, recent 0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...
  • 36. Кластеризация комитетами список похожих слов для слова suit и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim, business suit, … ( suit Nq34 0.39 (blouse, slack, legging, sweater) Nq137 0.20 (lawsuit, allegation, case, charge) )
  • 37.
  • 38.
  • 39.
  • 40.