SlideShare a Scribd company logo
1 of 12
Построение отношений в
гибридной онтологической
сети
Пономарёв С. В.
ponomarev@corp.sputnik.ru
«Спутник»
Гибридная онтологическая сеть
Объединим в одной сети:
• частотные источники информации (достоверность < 1):
• согласованные биграммы;
• несогласованные биграммы;
• онтологическую информацию (достоверность = 1):
• Викисловарь;
• словари синонимов/ассоциаций/толковые.
В результате получим сеть из 1.4 млн. узлов (слов и
словосочетаний) с 0.6 млрд. связей между ними 64-х типов.
Пример кодирования отношений
4+4связей 6+6 связей
Итого: (4+4)*(6+6) = 96 пути от апельсина к цвету через оранжевый
Апельсин
исходящих: 4508
входящих: 6369
типов: 31
Оранжевый
исходящих: 11305
входящих: 10288
типов: 22
Цвет
исходящих: 38078
входящих: 46791
типов: 39
Отношение подобия
Поканально сравним связи двух слов:
Отношение подобия характеризуется количеством совпадающих связей у двух
узлов, сравниваемых поканально. Всего 64 канала – 64 параметра для
настройки.
Отношение подобия (взаимозаменяемость, синонимичность) – полезная
метрика, реализуемая низкими вычислительными затратами.
Обучение отношениям
«Апельсин»:
• связан с 6701 узлов;
«Помидор»:
• связан с 6671 узлов;
Узлов, с которыми имеют связи и «Апельсин» и «Помидор» 5692;
Всего возможных путей между двумя произвольными узлами сети 64*64 = 4096,
из них – между «Апельсин» и «Помидор» реализуются 26*22=572 путей.
При задании обучающей выборки в виде пары слов, имеющих заданный тип
семантических отношений, настройка весовых коэффициентов каждого из
возможных весов между узлами позволяет обучаться реализовать
заданный тип отношений.
По обучающей выборке от Организаторов обучены отношения: «синоним»,
«гиперним» и «гипоним».
Классификатор семантической
близости
Логистическая регрессия из:
Классификатор ассоциативных связей
Деревья решений по группам факторов:
• Факторы совместности (слова встречаются вместе):
• в онтологической сети (т.е. – названиях словарных статей);
• в названиях статей Википедии;
• в логах поисковых запросов;
• Частотные факторы:
• Word2Vec в режиме Skip_Grams;
• Word2Vec в режиме Bag_of_Words;
• отношения семантической близости;
• Грамматические факторы:
• несовпадение пола;
• несовпадение числа;
• несовпадение падежа.
Тестирование на корреляцию с
человеческими оценками
Результат 0.6641, 6-е место.
К сожалению, сильная ограниченность обучающей выборки по данной
дорожке (65 позиций всего), не позволила использовать методы
машинного обучения, а логистическая регрессия не показала
приемлемых результатов. Другим фактором, снизившим результаты
тестирования, является принцип построения системы только на
связях между словами, без разбора внутренней структуры слова. В
тестовой выборке присутствовали синтетические слова, например
«киновидеотеатр», которые, как показали исследования, ни разу не
встречались даже при статистической обработке больших
текстовых корпусов.
Тестирование на степень
семантической близости
Результат 0.9209, 3-е место.
Относительно высокие результаты в тестировании получены
благодаря комбинации двух методик — оценки синонимичности
слов по онтологической сети — что имеет эффект на давно
известных и распространённых словах и использования Word2Vec,
который, будучи обученным за месяц до конкурса, содержал в себе
новые слова и отношения между ними. Негативный эффект от
отсутствия в системе разбора состава слова сохранился, поскольку
для Word2Vec такие слова как «адыгеец» и «адыгейка» являются
совершенно разными, а частота их появления в поисковых запросах
— близка к нулю, что не даёт возможности установить между
словами связь.
Тестирование ассоциаций (Русский
Ассоциативный Тезаурус)
Результат 0.9277, 3-е место.
При анализе обучающей выборки, представленной Организаторами, стало
заметно, что многие ассоциации представлены в виде нескольких слов.
Типичная ассоциация из нескольких слов — это продолжение поговорки
(«слово не воробей») или широко известного названия художественного
произведения («белое солнце пустыни»). Таким образом, для предсказания
ассоциаций необходимо иметь достаточно подробный перечень поговорок,
афоризмов, названий и прочих культурных артефактов. Для этой цели
использовались названия статей Википедии и логи поисковых запросов. В
обоих источниках информации проверялось, существует или нет
словосочетание, составленное из исследуемых слов/словосочетаний и если
существует — вычислялась его удельная доля среди всех словосочетаний.
Данный подход хорошо работает на названиях фильмов и книг, поскольку
такие названия широко представлены в Википедии и логах поисковых
запросов, но указанные источники бедны поговорками и афоризмами, что и
привело к относительно невысоким результатам тестирования.
Тестирование ассоциаций
(Sociation.org)
Результат 0.9849, 1-е место.
Структура тестовых данных из Sociation.org такова, что комбинация
применявшихся подходов и источников информации оказалась
эффективной. Метод вычисления подобия, описанный ранее, по
сути своей вычисляет степень ассоциированности пары слов,
учитывая подобие структуры связей этих слов в онтологической
сети. Word2Vec также вычисляет степень ассоциированности
слов по их контекстам в поисковых запросах. При этом,
Word2Vec обеспечил отработку новых слов, появившихся
недавно, например «аватар» и «эйва».
Спасибо за внимание
Пономарёв С. В.
ponomarev@corp.sputnik.ru
«Спутник»

More Related Content

Viewers also liked

Viewers also liked (6)

Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросов
 
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORKLEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
 
Конкурс Родная речь 2014
Конкурс Родная речь 2014Конкурс Родная речь 2014
Конкурс Родная речь 2014
 
Автоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиАвтоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержки
 
Word2vec для поискового движка II
Word2vec для поискового движка IIWord2vec для поискового движка II
Word2vec для поискового движка II
 
Learning by Analogy
Learning by AnalogyLearning by Analogy
Learning by Analogy
 

Similar to Semantic evaluation on Dialog 2015

Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациямLidia Pivovarova
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
бурдаев Ontology 2010
бурдаев Ontology 2010бурдаев Ontology 2010
бурдаев Ontology 2010Vladimir Burdaev
 
collocations in search
collocations in searchcollocations in search
collocations in searchNLPseminar
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 

Similar to Semantic evaluation on Dialog 2015 (20)

Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
 
I M S Rubashkin
I M S RubashkinI M S Rubashkin
I M S Rubashkin
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
бурдаев Ontology 2010
бурдаев Ontology 2010бурдаев Ontology 2010
бурдаев Ontology 2010
 
collocations in search
collocations in searchcollocations in search
collocations in search
 
Методы интеграции разнородных онтологий
Методы интеграции разнородных онтологийМетоды интеграции разнородных онтологий
Методы интеграции разнородных онтологий
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Masa
MasaMasa
Masa
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 

Semantic evaluation on Dialog 2015

  • 1. Построение отношений в гибридной онтологической сети Пономарёв С. В. ponomarev@corp.sputnik.ru «Спутник»
  • 2. Гибридная онтологическая сеть Объединим в одной сети: • частотные источники информации (достоверность < 1): • согласованные биграммы; • несогласованные биграммы; • онтологическую информацию (достоверность = 1): • Викисловарь; • словари синонимов/ассоциаций/толковые. В результате получим сеть из 1.4 млн. узлов (слов и словосочетаний) с 0.6 млрд. связей между ними 64-х типов.
  • 3. Пример кодирования отношений 4+4связей 6+6 связей Итого: (4+4)*(6+6) = 96 пути от апельсина к цвету через оранжевый Апельсин исходящих: 4508 входящих: 6369 типов: 31 Оранжевый исходящих: 11305 входящих: 10288 типов: 22 Цвет исходящих: 38078 входящих: 46791 типов: 39
  • 4. Отношение подобия Поканально сравним связи двух слов: Отношение подобия характеризуется количеством совпадающих связей у двух узлов, сравниваемых поканально. Всего 64 канала – 64 параметра для настройки. Отношение подобия (взаимозаменяемость, синонимичность) – полезная метрика, реализуемая низкими вычислительными затратами.
  • 5. Обучение отношениям «Апельсин»: • связан с 6701 узлов; «Помидор»: • связан с 6671 узлов; Узлов, с которыми имеют связи и «Апельсин» и «Помидор» 5692; Всего возможных путей между двумя произвольными узлами сети 64*64 = 4096, из них – между «Апельсин» и «Помидор» реализуются 26*22=572 путей. При задании обучающей выборки в виде пары слов, имеющих заданный тип семантических отношений, настройка весовых коэффициентов каждого из возможных весов между узлами позволяет обучаться реализовать заданный тип отношений. По обучающей выборке от Организаторов обучены отношения: «синоним», «гиперним» и «гипоним».
  • 7. Классификатор ассоциативных связей Деревья решений по группам факторов: • Факторы совместности (слова встречаются вместе): • в онтологической сети (т.е. – названиях словарных статей); • в названиях статей Википедии; • в логах поисковых запросов; • Частотные факторы: • Word2Vec в режиме Skip_Grams; • Word2Vec в режиме Bag_of_Words; • отношения семантической близости; • Грамматические факторы: • несовпадение пола; • несовпадение числа; • несовпадение падежа.
  • 8. Тестирование на корреляцию с человеческими оценками Результат 0.6641, 6-е место. К сожалению, сильная ограниченность обучающей выборки по данной дорожке (65 позиций всего), не позволила использовать методы машинного обучения, а логистическая регрессия не показала приемлемых результатов. Другим фактором, снизившим результаты тестирования, является принцип построения системы только на связях между словами, без разбора внутренней структуры слова. В тестовой выборке присутствовали синтетические слова, например «киновидеотеатр», которые, как показали исследования, ни разу не встречались даже при статистической обработке больших текстовых корпусов.
  • 9. Тестирование на степень семантической близости Результат 0.9209, 3-е место. Относительно высокие результаты в тестировании получены благодаря комбинации двух методик — оценки синонимичности слов по онтологической сети — что имеет эффект на давно известных и распространённых словах и использования Word2Vec, который, будучи обученным за месяц до конкурса, содержал в себе новые слова и отношения между ними. Негативный эффект от отсутствия в системе разбора состава слова сохранился, поскольку для Word2Vec такие слова как «адыгеец» и «адыгейка» являются совершенно разными, а частота их появления в поисковых запросах — близка к нулю, что не даёт возможности установить между словами связь.
  • 10. Тестирование ассоциаций (Русский Ассоциативный Тезаурус) Результат 0.9277, 3-е место. При анализе обучающей выборки, представленной Организаторами, стало заметно, что многие ассоциации представлены в виде нескольких слов. Типичная ассоциация из нескольких слов — это продолжение поговорки («слово не воробей») или широко известного названия художественного произведения («белое солнце пустыни»). Таким образом, для предсказания ассоциаций необходимо иметь достаточно подробный перечень поговорок, афоризмов, названий и прочих культурных артефактов. Для этой цели использовались названия статей Википедии и логи поисковых запросов. В обоих источниках информации проверялось, существует или нет словосочетание, составленное из исследуемых слов/словосочетаний и если существует — вычислялась его удельная доля среди всех словосочетаний. Данный подход хорошо работает на названиях фильмов и книг, поскольку такие названия широко представлены в Википедии и логах поисковых запросов, но указанные источники бедны поговорками и афоризмами, что и привело к относительно невысоким результатам тестирования.
  • 11. Тестирование ассоциаций (Sociation.org) Результат 0.9849, 1-е место. Структура тестовых данных из Sociation.org такова, что комбинация применявшихся подходов и источников информации оказалась эффективной. Метод вычисления подобия, описанный ранее, по сути своей вычисляет степень ассоциированности пары слов, учитывая подобие структуры связей этих слов в онтологической сети. Word2Vec также вычисляет степень ассоциированности слов по их контекстам в поисковых запросах. При этом, Word2Vec обеспечил отработку новых слов, появившихся недавно, например «аватар» и «эйва».
  • 12. Спасибо за внимание Пономарёв С. В. ponomarev@corp.sputnik.ru «Спутник»