Пономарёв С.В. 
Номинация “Великий и могучий”, 
“Приложения для России – Apps4Russia.ru”
Перефразировщик должен: 
1.Обнаружить потенциально сложное место в тексте: 
1. Обилие канцелярита; 
2. Громоздкие синтаксические конструкции; 
3. Обороты-паразиты; 
4. Неочевидные для восприятия конструкции. 
2.Предложить варианты переформулировки 
неудачного места текста. 
3.Улучшать свою работу: 
1. Автоматически, выстраивая базу знаний по 
открытым источникам; 
2. При обучении с учителем, запоминая и применяя 
верифицированные человеком переформулировки.
1. Оценщик понятности текста: 
1. Синтаксический анализатор и детектор 
синтаксических конструкций (pattern-matching 
для синтаксиса); 
2. Детектор неочевидных утверждений (проверка 
ассоциативных связей); 
3. Детектор тяжёлых конструкций – канцелярита, 
оборотов-паразитов. 
2. Модуль обучения: 
1. Статистический парсер; 
2. Парсер статистической онтологии; 
3. Обучение на примерах (с учителем). 
3. Модуль перефразировки: 
1. Генератор текста по аналогии.
Это граф, где вершинами являются слова и 
понятия, а рёбрами – именованные связи между 
ними. То есть – триплеты “понятие_1 - тип 
связи - понятие_2”. 
Отличием является наличие в онтологии большого 
числа статистически накопленных связей по 
нескольких независимым источникам – 
словарям, тезаурусам, wiki. Каждому триплету в 
статистической онтологии присвоен свой вес, и 
таких триплетов – миллионы. 
Текущая база содержит более миллиарда связей 
между 1.3 миллионами узлов.
Факторы оценки понятности: 
1. Слишком сложное дерево синтаксического 
разбора; 
2. Нетипичное использование слов и понятий; 
3. Нетипичные ассоциации между словами; 
4. Несоответствие роли слов и понятий их связям 
в статистической онтологии.
Парсинг открытых источников для формирования 
базы статистической онтологии: 
1.ru.wiktionary.org; 
2.DBPedia; 
3.FreeBase; 
4.Сборники словарей; 
5.Библиотеки художественной литературы и 
новостные ленты. 
Генерация на основе заданных учителем пар 
«исходное выражение» - «перефразированное 
выражение» правил автоматического вывода.
1. Определение подходящего правила 
перефразирования (комбинированный 
синтаксический и семантический паттерн 
матчинг); 
2. Вывод слов результирующей фразы по 
аналогии по связям статистической онтологии; 
3. Согласование результирующей фразы по 
грамматическим аттрибутам.
• Построение синтаксических деревьев “SDK 
грамматического словаря” solarix.ru 
• Статистическая обработка текста “Word2Vec” 
code.google.com/p/word2vec 
• Паттерн-матчинг фраз по синтаксическому 
строю и семантическому содержанию, 
обучение с учителем и вывод по аналогии 
(собственная разработка) 
servponomarev.livejournal.com/3175.html 
• Разрешение анафор и выделение 
кореферентных связей (собственная 
разработка) servponomarev.livejournal.com/3720.html
• Модуль перефразировки (фаза рабочий прототип): 
• Степень готовности 80%, демонстратор технологии 
передан в общественное достояние 
servponomarev.livejournal.com/6059.html 
• Модуль обучения (фаза рабочий прототип, активно 
дорабатывается): 
• Степень готовности основной онтологической базы 100%; 
• Планируется интеграция FreeBase и DBPedia с 
онтологической базой; 
• Генератор правил и вывод по аналогии представлены в 
демонстраторе технологий 
servponomarev.livejournal.com/6059.html 
• Модуль оценки понятности текста (в работе): 
• Отработаны технологии паттерн матчинга: 
• по синтаксическим деревьям; 
• по степени подобия слов в одинаковых позициях; 
• по метрике Левенштейна и Word2Vec. 
• Планируются публикации по результатам исследований.
• Статья по машинной лингвистике на Хабре с 
описанием статистической онтологии и 
методов автоматического вывода по аналогии 
habrahabr.ru/post/229403/ 
• Предложения по использованию технологий 
для улучшения качества работы поисковых 
движков “Концепция поисковых расширений” 
www.slideshare.net/ServPonomarev/ss-38861373 
• Предложения по созданию “Автоматической 
голосовой службы поддержки” 
www.slideshare.net/ServPonomarev/ss-36013738 
• Демонстратор технологий в исходных кодах 
servponomarev.livejournal.com/6059.html
Пономарёв С.В. 
serv@newmail.ru
Question: Какой глубины лужа? 
Correct Answer: Лужа - мелкая. 
Generated Answer: Глубина. 
New Rule Added. 
Question: Какой глубины море? 
Correct Answer: Море - глубокое. 
Generated Answer: Море - мелкое. 
Adding 1 New Paths. 
Correct Answer Found. 
Question: Какой глубины океан? 
Correct Answer: Океан - глубокий. 
Generated Answer: Океан - глубокий. 
Correct Answer Found. 
Question: Какой глубины лужа? 
Correct Answer: Лужа маленькой глубины. 
Generated Answer: Лужа - мелкая. 
Generated Answer: Глубина. 
New Rule Added. 
Question: Какой глубины море? 
Correct Answer: Море большой глубины. 
Generated Answer: Море огромной глубины. 
Adding 1 New Paths. 
Correct Answer Found. 
цвета. 
Generated Answer: Апельсин оранжевого цвета. 
Generated Answer: Апельсин - красный. 
Generated Answer: Цвет. 
New Rule Added. 
Question: Какого цвета море? 
Correct Answer: Море синего цвета. 
Generated Answer: Море море синего цвета. 
Generated Answer: Море синего цвета. 
Correct Answer Found. 
Question: Какого цвета помидор? 
Correct Answer: Помидор красного цвета. 
Generated Answer: Помидор красного цвета. 
Correct Answer Found. 
Question: Какого цвета трава? 
Correct Answer: Трава зеленого цвета. 
Generated Answer: Трава зеленого цвета. 
Correct Answer Found. 
Question: Какой глубины океан? 
Correct Answer: Океан большой глубины. 
Generated Answer: Океан большой глубины. 
Correct Answer Found. 
Question: Какого цвета огурец? 
Correct Answer: Огурец зеленого цвета. 
Generated Answer: Огурец зеленого цвета. 
Correct Answer Found. 
Question: Какого цвета апельсин? 
Correct Answer: Апельсин оранжевого цвета. 
Generated Answer: Апельсин яркого цвета. 
Adding 1 New Paths. 
Correct Answer Found. 
Question: Цвет апельсина какой? 
Correct Answer: Апельсин оранжевого цвета. 
Generated Answer: Апельсин оранжевого цвета. 
Correct Answer Found. 
Question: Апельсин какого цвета? 
Correct Answer: Апельсин оранжевого цвета. 
Generated Answer: Апельсин оранжевого цвета. 
Correct Answer Found. 
Question: Какого цвета спелый апельсин? 
Correct Answer: Спелый апельсин оранжевого цвета. 
Generated Answer: Апельсин оранжевого цвета. 
Generated Answer: Апельсин - красный. 
Generated Answer: Цвет. 
New Rule Added. 
Question: Какого цвета море? 
Correct Answer: Море синего цвета. 
Generated Answer: Море море синего цвета. 
Generated Answer: Море синего цвета. 
Correct Answer Found. 
Question: Какого цвета помидор? 
Correct Answer: Помидор красного цвета. 
Generated Answer: Помидор красного цвета. 
Correct Answer Found. 
Question: Какого цвета трава? 
Correct Answer: Трава зеленого цвета. 
Generated Answer: Трава зеленого цвета. 
Correct Answer Found.

Перефразировщик текста

  • 1.
    Пономарёв С.В. Номинация“Великий и могучий”, “Приложения для России – Apps4Russia.ru”
  • 2.
    Перефразировщик должен: 1.Обнаружитьпотенциально сложное место в тексте: 1. Обилие канцелярита; 2. Громоздкие синтаксические конструкции; 3. Обороты-паразиты; 4. Неочевидные для восприятия конструкции. 2.Предложить варианты переформулировки неудачного места текста. 3.Улучшать свою работу: 1. Автоматически, выстраивая базу знаний по открытым источникам; 2. При обучении с учителем, запоминая и применяя верифицированные человеком переформулировки.
  • 3.
    1. Оценщик понятноститекста: 1. Синтаксический анализатор и детектор синтаксических конструкций (pattern-matching для синтаксиса); 2. Детектор неочевидных утверждений (проверка ассоциативных связей); 3. Детектор тяжёлых конструкций – канцелярита, оборотов-паразитов. 2. Модуль обучения: 1. Статистический парсер; 2. Парсер статистической онтологии; 3. Обучение на примерах (с учителем). 3. Модуль перефразировки: 1. Генератор текста по аналогии.
  • 4.
    Это граф, гдевершинами являются слова и понятия, а рёбрами – именованные связи между ними. То есть – триплеты “понятие_1 - тип связи - понятие_2”. Отличием является наличие в онтологии большого числа статистически накопленных связей по нескольких независимым источникам – словарям, тезаурусам, wiki. Каждому триплету в статистической онтологии присвоен свой вес, и таких триплетов – миллионы. Текущая база содержит более миллиарда связей между 1.3 миллионами узлов.
  • 5.
    Факторы оценки понятности: 1. Слишком сложное дерево синтаксического разбора; 2. Нетипичное использование слов и понятий; 3. Нетипичные ассоциации между словами; 4. Несоответствие роли слов и понятий их связям в статистической онтологии.
  • 6.
    Парсинг открытых источниковдля формирования базы статистической онтологии: 1.ru.wiktionary.org; 2.DBPedia; 3.FreeBase; 4.Сборники словарей; 5.Библиотеки художественной литературы и новостные ленты. Генерация на основе заданных учителем пар «исходное выражение» - «перефразированное выражение» правил автоматического вывода.
  • 7.
    1. Определение подходящегоправила перефразирования (комбинированный синтаксический и семантический паттерн матчинг); 2. Вывод слов результирующей фразы по аналогии по связям статистической онтологии; 3. Согласование результирующей фразы по грамматическим аттрибутам.
  • 8.
    • Построение синтаксическихдеревьев “SDK грамматического словаря” solarix.ru • Статистическая обработка текста “Word2Vec” code.google.com/p/word2vec • Паттерн-матчинг фраз по синтаксическому строю и семантическому содержанию, обучение с учителем и вывод по аналогии (собственная разработка) servponomarev.livejournal.com/3175.html • Разрешение анафор и выделение кореферентных связей (собственная разработка) servponomarev.livejournal.com/3720.html
  • 9.
    • Модуль перефразировки(фаза рабочий прототип): • Степень готовности 80%, демонстратор технологии передан в общественное достояние servponomarev.livejournal.com/6059.html • Модуль обучения (фаза рабочий прототип, активно дорабатывается): • Степень готовности основной онтологической базы 100%; • Планируется интеграция FreeBase и DBPedia с онтологической базой; • Генератор правил и вывод по аналогии представлены в демонстраторе технологий servponomarev.livejournal.com/6059.html • Модуль оценки понятности текста (в работе): • Отработаны технологии паттерн матчинга: • по синтаксическим деревьям; • по степени подобия слов в одинаковых позициях; • по метрике Левенштейна и Word2Vec. • Планируются публикации по результатам исследований.
  • 10.
    • Статья помашинной лингвистике на Хабре с описанием статистической онтологии и методов автоматического вывода по аналогии habrahabr.ru/post/229403/ • Предложения по использованию технологий для улучшения качества работы поисковых движков “Концепция поисковых расширений” www.slideshare.net/ServPonomarev/ss-38861373 • Предложения по созданию “Автоматической голосовой службы поддержки” www.slideshare.net/ServPonomarev/ss-36013738 • Демонстратор технологий в исходных кодах servponomarev.livejournal.com/6059.html
  • 11.
  • 12.
    Question: Какой глубинылужа? Correct Answer: Лужа - мелкая. Generated Answer: Глубина. New Rule Added. Question: Какой глубины море? Correct Answer: Море - глубокое. Generated Answer: Море - мелкое. Adding 1 New Paths. Correct Answer Found. Question: Какой глубины океан? Correct Answer: Океан - глубокий. Generated Answer: Океан - глубокий. Correct Answer Found. Question: Какой глубины лужа? Correct Answer: Лужа маленькой глубины. Generated Answer: Лужа - мелкая. Generated Answer: Глубина. New Rule Added. Question: Какой глубины море? Correct Answer: Море большой глубины. Generated Answer: Море огромной глубины. Adding 1 New Paths. Correct Answer Found. цвета. Generated Answer: Апельсин оранжевого цвета. Generated Answer: Апельсин - красный. Generated Answer: Цвет. New Rule Added. Question: Какого цвета море? Correct Answer: Море синего цвета. Generated Answer: Море море синего цвета. Generated Answer: Море синего цвета. Correct Answer Found. Question: Какого цвета помидор? Correct Answer: Помидор красного цвета. Generated Answer: Помидор красного цвета. Correct Answer Found. Question: Какого цвета трава? Correct Answer: Трава зеленого цвета. Generated Answer: Трава зеленого цвета. Correct Answer Found. Question: Какой глубины океан? Correct Answer: Океан большой глубины. Generated Answer: Океан большой глубины. Correct Answer Found. Question: Какого цвета огурец? Correct Answer: Огурец зеленого цвета. Generated Answer: Огурец зеленого цвета. Correct Answer Found. Question: Какого цвета апельсин? Correct Answer: Апельсин оранжевого цвета. Generated Answer: Апельсин яркого цвета. Adding 1 New Paths. Correct Answer Found. Question: Цвет апельсина какой? Correct Answer: Апельсин оранжевого цвета. Generated Answer: Апельсин оранжевого цвета. Correct Answer Found. Question: Апельсин какого цвета? Correct Answer: Апельсин оранжевого цвета. Generated Answer: Апельсин оранжевого цвета. Correct Answer Found. Question: Какого цвета спелый апельсин? Correct Answer: Спелый апельсин оранжевого цвета. Generated Answer: Апельсин оранжевого цвета. Generated Answer: Апельсин - красный. Generated Answer: Цвет. New Rule Added. Question: Какого цвета море? Correct Answer: Море синего цвета. Generated Answer: Море море синего цвета. Generated Answer: Море синего цвета. Correct Answer Found. Question: Какого цвета помидор? Correct Answer: Помидор красного цвета. Generated Answer: Помидор красного цвета. Correct Answer Found. Question: Какого цвета трава? Correct Answer: Трава зеленого цвета. Generated Answer: Трава зеленого цвета. Correct Answer Found.