SlideShare a Scribd company logo
1 of 20
Павел Гращенков [email_address] Институт востоковедения РАН ЭПАМ-Системз
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Название Функция Text   parser Убирает лишние абзацы и т.д., помещает текст в  “ хранилище ” Break   detector Объединяет цепочки символов в слова, цепочки слов – в предложения RegExp Обрабатывает даты, электронные адреса, опечатки, сленг,… Morphology Словарь с морфологическими атрибутами Gazetteer Списки, классифицирующие слова по некоторым атрибутам Unknown word Распознает неизвестные слова, основываясь на их морфологии CAPE Выделяет специальные и именованные сущности POS tagger Снимает грамматическую омонимию NE recognizer Специальный модуль для выделения именованных сущностей Chunker Выделяет простые синтаксические группы Syntax Строит полное дерево синтаксического разбора Post syntax Разбивает сложные предложения на простые, уточняет сферу действия отрицания,… Precise Extraction Выделяет факты
Название Язык правил, примеры Text   parser Конфигурируется строчкой регулярных выражений Break   detector Регулярные выражения и макросы,  пример :  $Digit+ ( [] $Digit+ )+ RegExp Регулярные выражения + правила сопоставления + добавление стандартных атрибутов,  пример : /(з[ао]ч)о([дт])(ная)/i RSYN $1е$2$3 Morphology палит   {PosTag="V;Prs;Ipf;Itr;Sg;Third",   SyntType   =   "Rdat;Riz;Rins;Rva;Racc"} {PosTag="V;Prs;Ipf;Tr;Sg;Third",   SyntType = "Rdat;Riz;Rins;Rva;Racc"}  Gazetteer убыточный   MSYN {SpeechPart = "A" @match, Sentiment = "-1"} Unknown word Словари аффиксов,  пример : ибельн   SYN  ибельн  { SpeechPart="A" }  //  лечибельный CAPE Контекстно-зависимый язык, оперирующий со словами и их атрибутами POS tagger { Модель, основанная на Байесовском классификаторе } NE recognizer { Модель, основанная на Байесовском классификаторе } Chunker Контекстно-зависимый язык, оперирующий со словами и их атрибутами Syntax Контекстно-свободный язык, оперирующий словами, фразами и атрибутами Post syntax Алгоритмический язык, синтаксис близок к языкам программирования Precise Extraction ~ Язык логики предикатов
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object]

More Related Content

What's hot

Анализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в WitologyАнализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в WitologyWitology
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ITMO University
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Ruby: работа с массивами
Ruby: работа с массивамиRuby: работа с массивами
Ruby: работа с массивамиEvgeny Smirnov
 
Web-01-Basic PHP
Web-01-Basic PHPWeb-01-Basic PHP
Web-01-Basic PHPNoveo
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программированияEvgeny Smirnov
 
Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияEvgeny Smirnov
 

What's hot (19)

Анализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в WitologyАнализ формальных понятий: Применение в Witology
Анализ формальных понятий: Применение в Witology
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Tomita
TomitaTomita
Tomita
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
переменные в Python
переменные в Pythonпеременные в Python
переменные в Python
 
переменные в Python
переменные в Pythonпеременные в Python
переменные в Python
 
Ruby: работа с массивами
Ruby: работа с массивамиRuby: работа с массивами
Ruby: работа с массивами
 
Web-01-Basic PHP
Web-01-Basic PHPWeb-01-Basic PHP
Web-01-Basic PHP
 
Rgsu04
Rgsu04Rgsu04
Rgsu04
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Ruby строки
Ruby строкиRuby строки
Ruby строки
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программирования
 
clasification
clasificationclasification
clasification
 
Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсия
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 

Similar to Rule b platf

Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
C++ Базовый. Занятие 12.
C++ Базовый. Занятие 12.C++ Базовый. Занятие 12.
C++ Базовый. Занятие 12.Igor Shkulipa
 
Coding Standards
Coding StandardsCoding Standards
Coding Standardsroadhump
 
JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)
JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)
JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)Ontico
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Уровни проектирования информационной системы (обзор материалов портала wiki....
Уровни проектирования информационной системы  (обзор материалов портала wiki....Уровни проектирования информационной системы  (обзор материалов портала wiki....
Уровни проектирования информационной системы (обзор материалов портала wiki....Media Gorod
 
Regexp
RegexpRegexp
Regexpkumup
 
Спецкурс 2014, занятие 3. Абстракции, именование, документирование
Спецкурс 2014, занятие 3. Абстракции, именование, документированиеСпецкурс 2014, занятие 3. Абстракции, именование, документирование
Спецкурс 2014, занятие 3. Абстракции, именование, документирование7bits
 
Тимофей Перевезенцев. Кухня современных python шаблонизаторов
Тимофей Перевезенцев. Кухня современных python шаблонизаторовТимофей Перевезенцев. Кухня современных python шаблонизаторов
Тимофей Перевезенцев. Кухня современных python шаблонизаторовotkds
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поискеЕвгений Летов
 

Similar to Rule b platf (20)

Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Авиком
АвикомАвиком
Авиком
 
C++ Базовый. Занятие 12.
C++ Базовый. Занятие 12.C++ Базовый. Занятие 12.
C++ Базовый. Занятие 12.
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 
Coding Standards
Coding StandardsCoding Standards
Coding Standards
 
Rgsu04
Rgsu04Rgsu04
Rgsu04
 
RussNet
RussNetRussNet
RussNet
 
JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)
JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)
JavaScript на сервере, 1ms на трансформацию (Андрей Сумин)
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Module 5 1
Module 5 1Module 5 1
Module 5 1
 
Уровни проектирования информационной системы (обзор материалов портала wiki....
Уровни проектирования информационной системы  (обзор материалов портала wiki....Уровни проектирования информационной системы  (обзор материалов портала wiki....
Уровни проектирования информационной системы (обзор материалов портала wiki....
 
Regexp
RegexpRegexp
Regexp
 
Transpile it.pdf
Transpile it.pdfTranspile it.pdf
Transpile it.pdf
 
Спецкурс 2014, занятие 3. Абстракции, именование, документирование
Спецкурс 2014, занятие 3. Абстракции, именование, документированиеСпецкурс 2014, занятие 3. Абстракции, именование, документирование
Спецкурс 2014, занятие 3. Абстракции, именование, документирование
 
Klimenko
KlimenkoKlimenko
Klimenko
 
Тимофей Перевезенцев. Кухня современных python шаблонизаторов
Тимофей Перевезенцев. Кухня современных python шаблонизаторовТимофей Перевезенцев. Кухня современных python шаблонизаторов
Тимофей Перевезенцев. Кухня современных python шаблонизаторов
 
Rspec
RspecRspec
Rspec
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 

More from Natalia Ostapuk

More from Natalia Ostapuk (20)

Gromov
GromovGromov
Gromov
 
Aist academic writing
Aist academic writingAist academic writing
Aist academic writing
 
Aist academic writing
Aist academic writingAist academic writing
Aist academic writing
 
Ponomareva
PonomarevaPonomareva
Ponomareva
 
Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013Nlp seminar.kolomiyets.dec.2013
Nlp seminar.kolomiyets.dec.2013
 
Tomita одесса
Tomita одессаTomita одесса
Tomita одесса
 
Mt engine on nlp semniar
Mt engine on nlp semniarMt engine on nlp semniar
Mt engine on nlp semniar
 
Tomita 4марта
Tomita 4мартаTomita 4марта
Tomita 4марта
 
Konyushkova
KonyushkovaKonyushkova
Konyushkova
 
Braslavsky 13.12.12
Braslavsky 13.12.12Braslavsky 13.12.12
Braslavsky 13.12.12
 
Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12
 
Zizka synasc 2012
Zizka synasc 2012Zizka synasc 2012
Zizka synasc 2012
 
Zizka immm 2012
Zizka immm 2012Zizka immm 2012
Zizka immm 2012
 
Zizka aimsa 2012
Zizka aimsa 2012Zizka aimsa 2012
Zizka aimsa 2012
 
Analysis by-variants
Analysis by-variantsAnalysis by-variants
Analysis by-variants
 
место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1
 
Text mining
Text miningText mining
Text mining
 
Additional2
Additional2Additional2
Additional2
 
Additional1
Additional1Additional1
Additional1
 
Seminar1
Seminar1Seminar1
Seminar1
 

Rule b platf

  • 1. Павел Гращенков [email_address] Институт востоковедения РАН ЭПАМ-Системз
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. Название Функция Text parser Убирает лишние абзацы и т.д., помещает текст в “ хранилище ” Break detector Объединяет цепочки символов в слова, цепочки слов – в предложения RegExp Обрабатывает даты, электронные адреса, опечатки, сленг,… Morphology Словарь с морфологическими атрибутами Gazetteer Списки, классифицирующие слова по некоторым атрибутам Unknown word Распознает неизвестные слова, основываясь на их морфологии CAPE Выделяет специальные и именованные сущности POS tagger Снимает грамматическую омонимию NE recognizer Специальный модуль для выделения именованных сущностей Chunker Выделяет простые синтаксические группы Syntax Строит полное дерево синтаксического разбора Post syntax Разбивает сложные предложения на простые, уточняет сферу действия отрицания,… Precise Extraction Выделяет факты
  • 7. Название Язык правил, примеры Text parser Конфигурируется строчкой регулярных выражений Break detector Регулярные выражения и макросы, пример : $Digit+ ( [] $Digit+ )+ RegExp Регулярные выражения + правила сопоставления + добавление стандартных атрибутов, пример : /(з[ао]ч)о([дт])(ная)/i RSYN $1е$2$3 Morphology палит {PosTag="V;Prs;Ipf;Itr;Sg;Third", SyntType = "Rdat;Riz;Rins;Rva;Racc"} {PosTag="V;Prs;Ipf;Tr;Sg;Third", SyntType = "Rdat;Riz;Rins;Rva;Racc"} Gazetteer убыточный MSYN {SpeechPart = "A" @match, Sentiment = "-1"} Unknown word Словари аффиксов, пример : ибельн SYN ибельн { SpeechPart="A" } // лечибельный CAPE Контекстно-зависимый язык, оперирующий со словами и их атрибутами POS tagger { Модель, основанная на Байесовском классификаторе } NE recognizer { Модель, основанная на Байесовском классификаторе } Chunker Контекстно-зависимый язык, оперирующий со словами и их атрибутами Syntax Контекстно-свободный язык, оперирующий словами, фразами и атрибутами Post syntax Алгоритмический язык, синтаксис близок к языкам программирования Precise Extraction ~ Язык логики предикатов
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.

Editor's Notes

  1. По 5. – я не буду говорить, чем плохи статистические системы. Я расскажу о плюсах системы на правилах. О том, что такие системы не устарели говорят два факта: 1) Приводимый в данном докладе пример, будучи реализован в различных конкретных платформах, успешно работает на рынках как у нас, так и на Западе 2)
  2. Finite state machine,
  3. Generalized Left-to-right Rightmost derivation parser Оптимально бинарное ветвление
  4. {Phrase: !PP, Case == "Nom"} – в солдаты
  5. Невозожно в контекстно-зависимой грамматике из-за синтаксической омонимии (Петя увидел столб и он упал ) Даже если падежи при сочинении не совпадают и правилами можно было бы ограничить их тождественность. жестко ограничивать падеж нельзя, т.к. в русском языке могут сочиняться ИГ в разных падежах
  6. Тип предложения – иллокутивная сила (повествовательное, вопросительное, восклицательное) Сложное предложение проще всего было бы разбивать, учитавая подлежащие { condition: {Semantic =^ "COOR", Type == "VP"}, actions { // Enum all children VPs in coordinated phrase iterate-children (i, {Phrase: Type == "VP", !@Head}) { // Use Ancestor link from the current child 'i' modify(#i^Ancestor[-1], Annotation) { // Inherite Negation from the head of coordinated phrase #current^Ancestor[-1].Negation } } } }
  7. Во-первых – нет необходимости менять значение Sentiment на слове ТЕПЛЫЙ. Частота встречаемости “ теплого пива ” или “ холодного чая ” может быть недостаточной, чтобы изменить базовую эмоциональную окраску “ теплый ” (положительное) и “ холодный ” (скорее наоборот ). Такие термины могут зависеть от предметной области (=нужд заказчика) – мягкая мебель vs мягк ая подушка и тп. (см. слайд №) 2) Также могут «не видны» из-за невысокой частотности таких коллокаций, но чрезвычайно полезны из-за того, что эмоционально окрашены При обработки корпуса подобные словосочетания могут «прятаться» за явно сентиментными словами и становится т.о. «невидимыми» для модели, например, « длинная цепочка людей уныло тянулась от самых дверей » - “ уныло ” и “ тянулась ” могут регулярно встречаться и в других негативных предложениях и в данном случае «взять на себя ответственность» за отрицательный сентимент. 3) новый заказчик – новые сущности, новые факты, особые правила для Sentiment Analysis и т.д. Вместо того, чтобы тренировать модель (данные? Объем? ) – просто напиши несколько новых правил, зная его ПО ii. Ограничено только перформансом, но те же ограничения есть и на статистические системы Основное преимущество правил – в том, что они обладают “ порождающей ” силой – они могут ммоделировать такие контексты к оторые не встречались в обучающей выборке