Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычислительная лексическая
семантика: метрики семантической
бл...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик сем...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик сем...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Введение
О себе
1

PhD (Natural Language Processing)
co-tutell...
Лексическая семантика

Обзор метрик

PatternSim

Вычислительная лексическая семантика

* рисунок адаптирован из курса Comp...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Введение в область лексической семантики
Jurafsky D. and Marti...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические отношения

Рис. : Семантический ресурс из 29 отн...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические отношения: типы

Рис. : Семантический ресурс с (...
Лексическая семантика

Обзор метрик

PatternSim

Семантические отношения: типы

Александр Панченко

9/108

HybridSim

Прил...
Лексическая семантика

Обзор метрик

PatternSim

Семантические отношения: типы

Александр Панченко

10/108

HybridSim

При...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические отношения: выразительность

Рис. : Выразительнос...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: таксонония

Рис. : A part of the taxono...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: тезаурус

Рис. : The Eurovoc thesaurus:...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: лексическая база данных

Рис. : Lexical...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: онтология

Рис. : SUMO upper ontology: ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Извлечение семантических отношений из текста

Александр Панчен...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости
Мотивация исследования
1

Метри...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости
Определение
Метрика семантическ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости: распределение
Малое количество...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости: распределение

Рис. : Number o...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Системы измерения семантической близости
Terms

Text-Based Dat...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Оценка качества метрики семантической близости
1

Корреляция с...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Критерии, основанные на суждениях субъектов о
семантиче...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии, основанные на суждениях субъектов о
семантической бл...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии, основанные на суждениях субъектов о
семантической бл...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии точности извлечения отношений
слово, ci
judge
judge
j...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии точности извлечения отношений
Основаны на количестве ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Пример: оценка точности извлечения отношений
Точность P(k = 50...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик сем...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Обзор метрик семантической близости

Публикации
Panchenko A., ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Обзор метрик семантической близости

Публикации (анализ 37 баз...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети
Данные: семантическа...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Lowest common subsumer (LCS)

Рис. : Ближайшие общие предки в ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети
Инвертированная длин...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети

Lin:
sij =

2 log(P...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети
Инструменты:
WordNet...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на Веб корпусе текстов
Данные: количество ...
Лексическая семантика

Обзор метрик

PatternSim

Веб-метрики: пример

Александр Панченко

38/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на Веб корпусе текстов

Normalized Google ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Дистрибутивные метрики
Данные: корпус, такой как Википедия или...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Дистрибутивные метрики
Переменные:
fi – вектор признаков предс...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Другие метрики, основанные на корпусе текстов

Данные: корпус,...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Латентно-семантический анализ
Latent Semantic Analysis (LSA) (...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Латентно-семантический анализ
U is an M × M matrix which colum...
Лексическая семантика

Обзор метрик

PatternSim

Латентно-семантический анализ

Источник: Tim Van de Cruys, Mining for Mea...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на определениях
Данные: определения из Wor...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на определениях: Extended Lesk

relies on ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на определениях: GlossVectors
a cosine bet...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение базовых метрик семантической близости

Александр Пан...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение базовых метрик семантической близости

Александр Пан...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение: лучшие базовые метрики

Каждая метрика излекает мно...
Лексическая семантика

Обзор метрик

PatternSim

Резюме
Основные ресурсы для построения метрик:
семантические сети и тезау...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Программное обеспечение
Semantic Vectors:
https://code.google....
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик сем...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Публикации
Hearst, M. A. Automatic acquisition of hyponyms fro...
Лексическая семантика

Обзор метрик

PatternSim

Демо
http://serelex.cental.be/

Александр Панченко

56/108

HybridSim

Пр...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Лексико-синтаксические паттерны

18 паттернов извлекающих гипе...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Основной каскад преобразователей
Каскад конечных автоматов (FS...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Пример реализации паттерна в виде автомата

Паттерны, основанн...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

PatternSim: основные этапы

Паттерны извлекают конкордансы
suc...
Лексическая семантика

Обзор метрик

PatternSim

PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов

Ко...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрика семантической близости PatternSim

Александр Панченко
...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычисление подобия: rerank
Efreq: мера подобия равна количеств...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычисление подобия:
Efreq-Rnum-Cfreq-Pnum:
sij =
P(ci , cj ) =...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Ранжирование семантических отношений
Точность сравнима или луч...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Извлечение семантических отношений
Точность@1 ≈ 0.80;
“Хорошее...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение результатов базовых метрик и PatternSim

Александр П...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик сем...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Публикациии

Panchenko A., Morozova O. A Study of Hybrid Simil...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Отдельные и гибридные метрики
(a) Terms, C

Si
knn
Relations, ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

16 признаков = 16 отдельных метрик
5 метрик основанных на сема...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования без учителя
k
sij ∈ [0; 1] – попарное се...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования без учителя
Mean-Zscore
Среднее между но...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования без учителя
Max
Максимум между K попарны...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования метрик подобия
RelationFusion
Объединени...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Бин...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Log...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Модель комбинирования метрик

Рис. : Weights of the similarity...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Методы комбинирования с учителем
Машина Опорных Векторо...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Машина Опорных Векторов (SVM), линейное ядро
Geometrica...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Какие из отдельных метрик следует комбинировать?

Количество в...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Результаты: базовые метрики, корреляция с суждениями
су...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: базовые метрики, ранжирование отношний

Александр ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: базовые метрики, ранжирование отношний

Рис. : Гра...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: отдельные и комбинированные метрики

Рис. : Характ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: методы комбинирования с учителем

График Точность-...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Результаты: метод комбинирования с учителем Logit-E15

...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: методы комбинирования с учителем

Александр Панчен...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: методы комбинирования с учителем
(продолжение)

Ри...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик сем...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

План
1 Вычис...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Серелекс: ре...
Лексическая семантика

Обзор метрик

PatternSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в ...
Лексическая семантика

Обзор метрик

PatternSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в ...
Лексическая семантика

Обзор метрик

PatternSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в ...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Серелекс: ре...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Оценка качес...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Оценка качес...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

План
1 Вычислительная лексичес...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

iCop: классификация имен файло...
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

iCop: пример Vocabulary Projection

Алекс...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

Качество классификации

Обучаю...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

Качество классификации

Рис. :...
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

104/10...
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

105/10...
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

106/10...
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

107/10...
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

Спасибо за внимание!
Вопросы?
...
Upcoming SlideShare
Loading in …5
×

Вычислительная лексическая семантика: метрики семантической близости и их приложения

1,696 views

Published on

Вычислительная лексическая семантика: метрики семантической близости и их приложения

Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород)

Published in: Technology

Вычислительная лексическая семантика: метрики семантической близости и их приложения

  1. 1. Лексическая семантика Обзор метрик PatternSim HybridSim Вычислительная лексическая семантика: метрики семантической близости и их приложения Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород) Александр Панченко Digital Society Laboratory & Universit´ catholique de Louvain e alexander.panchenko@uclouvain.be 4 декабря 2013 г. Александр Панченко 1/108 Прило
  2. 2. Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 2/108 Прило
  3. 3. Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 3/108 Прило
  4. 4. Лексическая семантика Обзор метрик PatternSim HybridSim Введение О себе 1 PhD (Natural Language Processing) co-tutelle Universit´ catholique de Louvain и МГТУ им. e Н.Э.Баумана; http://cental.fltr.ucl.ac.be/team/~panchenko/ alexander.panchenko@uclouvain.be 2 Старший исследователь в Digital Society Laboratory. 3 Ассоциированный исследователь в Universit´ catholique e de Louvain. 4 Область научных интересов – Natural Language Processing: Вычислительная лексическая семантика. Классификация (коротких) текстов. АОТ для анализа социальных сетей. Александр Панченко 4/108 Прило
  5. 5. Лексическая семантика Обзор метрик PatternSim Вычислительная лексическая семантика * рисунок адаптирован из курса Computational Linguistics LINGI2263 http://www.uclouvain.be/en-cours-2013-LINGI2263.html Александр Панченко 5/108 HybridSim Прило
  6. 6. Лексическая семантика Обзор метрик PatternSim HybridSim Введение в область лексической семантики Jurafsky D. and Martin J.H. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2009), chapters 19,20, 22. Cruys T. Mining for meaning: the extraction of lexico-semantic knowledge from text (2010). PhD thesis. http://dissertations.ub.rug.nl/faculties/arts/ 2010/t.van.de.cruys/ Panchenko A. Similarity Measures for Semantic Relation Extraction (2013) http: //cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf Введение в обработку текста. ИСП РАН, ВМК МГУ, Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/ uploads/2011/10/lecture6-2013.pdf Александр Панченко 6/108 Прило
  7. 7. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические отношения Рис. : Семантический ресурс из 29 отношений. Александр Панченко 7/108 Прило
  8. 8. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические отношения: типы Рис. : Семантический ресурс с (a) типизированными и (b) нетипизированными отношениями. Александр Панченко 8/108 Прило
  9. 9. Лексическая семантика Обзор метрик PatternSim Семантические отношения: типы Александр Панченко 9/108 HybridSim Прило
  10. 10. Лексическая семантика Обзор метрик PatternSim Семантические отношения: типы Александр Панченко 10/108 HybridSim Прило
  11. 11. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические отношения: выразительность Рис. : Выразительность различных моделей представления семантичеких ресурсов. Александр Панченко 11/108 Прило
  12. 12. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: таксонония Рис. : A part of the taxonomy of economical activities NACE. Александр Панченко 12/108 Прило
  13. 13. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: тезаурус Рис. : The Eurovoc thesaurus: the term “energy industry” and its semantic relations. Here, hypernyms are denoted with arrows and associations are denoted with dashed lines. Александр Панченко 13/108 Прило
  14. 14. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: лексическая база данных Рис. : Lexical database WordNet: synset engineer and its semantic relations. Александр Панченко 14/108 Прило
  15. 15. Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: онтология Рис. : SUMO upper ontology: a part of the class hierarchy. Александр Панченко 15/108 Прило
  16. 16. Лексическая семантика Обзор метрик PatternSim HybridSim Извлечение семантических отношений из текста Александр Панченко 16/108 Прило
  17. 17. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости Мотивация исследования 1 Метрики семантической близости полезны для: ˇ систем обработки коротких текстов (Saric et al., 2012; Panchenko at., 2012); расширешия поисковых запросов (Hsu et al., 2006); вопросно-ответных систем (Sun et al., 2005); разрешения омонимии (Patwardhan et al., 2003); ... Лексико-семантическое знание о языке. Вычислительная лексическая семантика. Computational Lexical Semantics. Александр Панченко 17/108 Прило
  18. 18. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости Определение Метрика семантической близости численно выражает семантическую связность слов ci и cj : sij = sim(ci , cj ): sij = велико 0 если ci , cj – пара syn, hyper , cohypo иначе Свойства Неотрицательность: 0 ≤ sij ≤ 1; Рефлективность: sij = 1 ⇔ ci = cj ; Симметричность: sij = sji ; sij ≤ sik + skj Александр Панченко 18/108 Прило
  19. 19. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости: распределение Малое количество подобных пар: sij ∼ exp(λ). Распределение сем. близости слова “doctor”: Александр Панченко 19/108 Прило
  20. 20. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости: распределение Рис. : Number of relations (synonyms and hyponyms) per term in the dictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and a union of these three resources. Александр Панченко 20/108 Прило
  21. 21. Лексическая семантика Обзор метрик PatternSim HybridSim Системы измерения семантической близости Terms Text-Based Data C Feature Extractor F Similarity Measure Semantic Similarity Measure Semantic Relation Extractor S Normalizer S kNN Procedure R Semantic Relations Как построить систему с высокой точностью и лексическим покрытием? Александр Панченко 21/108 Прило
  22. 22. Лексическая семантика Обзор метрик PatternSim HybridSim Оценка качества метрики семантической близости 1 Корреляция с суждениями человека о сем. близости: Статистики: корреляция Пирсона (ρ) и Спирмена (r ). Проверочные данные: MC, RG, WordSim. 2 Ранжирование семантических отношений: Точность, Полнота, F-мера. Проверочные данные: BLESS, SN. 3 Точность извлечения семантических отношений: Статистики: Точность@k. Проверочные данные: аннотирование и/или тезаурусы. 4 Использование метрики в системе АОТ: в системе классификации имен файлов (iCOP); с системе поиска семантически связанных слов (Serelex). Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013, (Chapter 1). Александр Панченко 22/108 Прило
  23. 23. Лексическая семантика Обзор метрик PatternSim HybridSim Прило Критерии, основанные на суждениях субъектов о семантической близости слово, ci tiger book computer ... possibility sugar слово, cj cat paper keyboard ... girl approach субъект, s 7.35 7.46 7.62 ... 1.94 0.88 sim, s 0.85 0.95 0.81 ... 0.25 0.05 субъект (ранг), r 1 2 3 ... 64 65 Данные: WordSim353 – 353 пар слов (Finkelstein, 2002) MC – 30 пар слов (Miller Charles, 1991) RG – 65 пар слов (Rubenstein Goodenough, 1965) Коэффициент корреляции Пирсона: ρ = Коэффициент корреляции Спирмена:: r Александр Панченко 23/108 cov (s,ˆ) s σ(s)σ(ˆ) s cov (r,ˆ) r = σ(r)σ(ˆ) r sim (ранг), ˆ r 3 2 1 ... 65 23
  24. 24. Лексическая семантика Обзор метрик PatternSim HybridSim Критерии, основанные на суждениях субъектов о семантической близости Александр Панченко 24/108 Прило
  25. 25. Лексическая семантика Обзор метрик PatternSim HybridSim Критерии, основанные на суждениях субъектов о семантической близости Рис. : Ранговая корреляция Спирмена на наборе данных Miller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляция случайных данных -0.173 (p=0.360). Александр Панченко 25/108 Прило
  26. 26. Лексическая семантика Обзор метрик PatternSim HybridSim Критерии точности извлечения отношений слово, ci judge judge judge judge judge judge ... judge judge judge слово, cj adjudicate arbitrate asessor chancellor gendarmerie sheriff ... pc fare lemon тип отношения, t syn syn syn syn syn syn ... random random random Данные: BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper, coord, mero, event, attri, random) SN (Panchenko, 2012) – 14682 отношений (syn, random) Александр Панченко 26/108 Прило
  27. 27. Лексическая семантика Обзор метрик PatternSim HybridSim Критерии точности извлечения отношений Основаны на количестве правильно отранжированных отношений. R – все семантические отношения, не являющиеся случайными ( animal , random, bishop и т.п.) ˆ R(k) множество извлеченных отношений при количестве ближайших соседей k Критерии ˆ Точность: P(k) = |R∩R(k)| , ˆ |R(k)| ˆ Полнота: R(k) = |R∩R(k)| , |R| F1-мера: F (k) = 2 · P(k)·R(k) P(k)+R(k) , Мы используем P(10), P(20), P(50), R(50). Александр Панченко 27/108 Прило
  28. 28. Лексическая семантика Обзор метрик PatternSim HybridSim Пример: оценка точности извлечения отношений Точность P(k = 50) = слово, ci aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado 1 7 ≈ 0.86 слово, cj enthusiast fan admirer addict devotee foundling fanatic adherent capital statute blot meddler enlargement bawdyhouse Александр Панченко тип отношения syn syn syn syn syn random syn syn random random random random random random 28/108 sij 0.07197 0.05195 0.01964 0.01326 0.01163 0.00777 0.00414 0.00353 0.00232 0.00029 0.00025 0.00005 0.00003 0.00000 Прило
  29. 29. Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 29/108 Прило
  30. 30. Лексическая семантика Обзор метрик PatternSim HybridSim Обзор метрик семантической близости Публикации Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013: Chapters 2.1, 3.1. Panchenko A. A Study of Heterogeneous Similarity Measures for Semantic Relation Extraction. // In JEP-TALN-RECITAL 2012 — Grenoble (France), 2012. ACL Anthology / Google Scholar: “semantic similarity measure”, “semantic similarity”. Александр Панченко 30/108 Прило
  31. 31. Лексическая семантика Обзор метрик PatternSim HybridSim Обзор метрик семантической близости Публикации (анализ 37 базовых метрик): Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013, (Chapter 3). Panchenko A. A Study of Heterogeneous Similarity Measures for Semantic Relation Extraction. // In JEP-TALN-RECITAL 2012 — Grenoble (France), 2012. Александр Панченко 31/108 Прило
  32. 32. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Данные: семантическая сеть WordNet 3.0, корпус SemCor. Переменные: len(ci , cj ) – длина кратчайшего пути между ci и cj len(ci , lcs(ci , cj )) – длина кратчайшего пути от ci до ближайшего общего предка (БОП) слов ci и cj Ближайший Общий Предок (БОП) – Lowest Common Subsumers (LCS) len(croot , lcs(ci , cj )) – длина кратчайшего пути от корня croot до БОП слов ci и cj (глубина БОП) P(c) – вероятность слова c, оцененная из корпуса P(lcs(ci , cj )) – вероятность БОП слов ci и cj Метрики: Инвертированная длина пути, Leacock-Chodorow, Wu-Palmer, Resnik, Jiang-Conrath, Lin. Александр Панченко 32/108 Прило
  33. 33. Лексическая семантика Обзор метрик PatternSim HybridSim Lowest common subsumer (LCS) Рис. : Ближайшие общие предки в семантической сети. (car , food ) → object (beef , pork) → meat (pork, coupe) → object (vegetable, pork) → food Александр Панченко 33/108 Прило
  34. 34. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Инвертированная длина пути: sij = len(ci , cj )−1 . LeacockChodorow: sij = − log len(ci , cj ) . 2h Resnik: sij = − log P(cij ). JiangConrath: dij = 2 log P(cij ) − (log P(ci ) + log P(cj )). Александр Панченко 34/108 Прило
  35. 35. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Lin: sij = 2 log(P(cij )) log(P(ci ) + log(P(cj )) WuPalmer: sij = 2len(cr , cij ) len(ci , cij ) + len(cj , cij ) + 2 · len(cr , cij ) Александр Панченко 35/108 Прило
  36. 36. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Инструменты: WordNet::Similarity tool (Perl, command-line): http://wn-similarity.sourceforge.net/ NTLK (Python): http://nltk.org Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html Александр Панченко 36/108 Прило
  37. 37. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на Веб корпусе текстов Данные: количество документов возвращенных ИПС: Google, Yahoo, AltaVista, Bing, и т.п. Переменные: hi – количество документов возвращенных по запросу слова ”ci ” hij – количество документов возвращенных по запросу ”ci AND cj ” Метрики: Normalized Google Distance (NGD) (Cilibrasi and Vitanyi, 2007) Pointwise Mutual Information - Information Retrieval (PMI-IR) (Turney, 2001) Александр Панченко 37/108 Прило
  38. 38. Лексическая семантика Обзор метрик PatternSim Веб-метрики: пример Александр Панченко 38/108 HybridSim Прило
  39. 39. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на Веб корпусе текстов Normalized Google Distance (NGD): sij = max(log (hi ), log (hj )) − log (hij ) log (M) − min(log (hi ), log (hj )) Pointwise Mutual Information Information Retrieval (PMIIR): P(ci , cj ) sij = log = log P(ci )P(cj ) hij i ,j Александр Панченко 39/108 ≈ log hj hi i ,j hij hij i ,j hij hij . hi hj Прило
  40. 40. Лексическая семантика Обзор метрик PatternSim HybridSim Дистрибутивные метрики Данные: корпус, такой как Википедия или ukWaC Метрики: Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006) Syntactic Distributional Analysis (SDA) (Curran, 2003) Александр Панченко 40/108 Прило
  41. 41. Лексическая семантика Обзор метрик PatternSim HybridSim Дистрибутивные метрики Переменные: fi – вектор признаков представляющий слово ci , основанный на контекстном окне fis – вектор признаков представляющий слово ci , основанный на синтаксическом контекстном окне Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010) Александр Панченко 41/108 Прило
  42. 42. Лексическая семантика Обзор метрик PatternSim HybridSim Другие метрики, основанные на корпусе текстов Данные: корпус, такой как Википедия или ukWaC Метрики: Латентно-cемантический анализ (LSA) (Landauer and Dumais, 1997) Вероятностные модели (pLSA, LDA и др.) (Griffiths et al., 2007) NGD и PMI-IR (Veksler et al., 2008) ... Александр Панченко 42/108 Прило
  43. 43. Лексическая семантика Обзор метрик PatternSim HybridSim Латентно-семантический анализ Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997): 1 Representing the corpus D as an N × M term-document matrix F. 2 Normalization of the matrix F with TF-IDF: fij |D| fij = , · log |d ∈ D : wi ∈ d | i fij 3 4 5 Singular value decomposition of D: D = UΣVT . Low-rank approximation of the matrix U with a reduced M × k matrix Uk by retaining only the first k column of the U. Calculation of similarities between terms ci and cj as a cosine between respective columns of Uk (uk and uk ): i i sij = Александр Панченко uk · uk i j ||uk ||||uk || i j 43/108 . Прило
  44. 44. Лексическая семантика Обзор метрик PatternSim HybridSim Латентно-семантический анализ U is an M × M matrix which columns are the orthogonal eigenvectors of DDT VT is an N × N matrix which columns are the orthogonal eigenvectors of DT D Σ is an M × N diagonal matrix:   σ11 . . . 0  . . . .. .  Σ= . . . . 0 · · · σnn √ The i-th element on the diagonal σii = λi , where λi is an eigenvalue of DDT . The eigenvalues are ordered, such that λi ≥ λi+1 . Источник: Manning et al. Introduction to information retrieval (2008), p.374. Александр Панченко 44/108 Прило
  45. 45. Лексическая семантика Обзор метрик PatternSim Латентно-семантический анализ Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010) Александр Панченко 45/108 HybridSim Прило
  46. 46. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на определениях Данные: определения из WordNet, Википедии, Викисловаря или любого другого словаря. Переменные: gloss(ci ) – определение слова ci ; fi вектор признаков, построенный из gloss(ci ); fi – вектор признаков ci , вычисленный на корпусе из всех определений методом контекстного окна; exist(ci , cj ) – наличие связи между ci и cj в словаре. Метрики: ExtendedLesk (Banerjee and Pedersen, 2003) GlossVectors (Patwardhan and Pedersen, 2006) DefVectors (Panchenko et al., 2012) Александр Панченко 46/108 Прило
  47. 47. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на определениях: Extended Lesk relies on the gloss similarity of terms ci and cj relies on gloss similarity of all terms related to ci and cj sij = simg (ci , cj ), ci ∈Ci cj ∈Cj simg is a gloss-based similarity measure and set Ci includes concept ci and all concepts directly related to it. Александр Панченко 47/108 Прило
  48. 48. Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на определениях: GlossVectors a cosine between vectors vi and vj representing concepts ci and cj a vector vi is a sum of context vectors representing all words from the definition of ci and the definitions of terms related to ci : sij = vi · vj where vi = ||vi ||||vj || fj . ∀j:cj ∈Gi fj is a context vector, derived from the corpus of all glosses Gi is concatenation of glosses of the concept ci and all concepts which are directly related to it. Александр Панченко 48/108 Прило
  49. 49. Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение базовых метрик семантической близости Александр Панченко 49/108 Прило
  50. 50. Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение базовых метрик семантической близости Александр Панченко 50/108 Прило
  51. 51. Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение: лучшие базовые метрики Каждая метрика излекает много ко-гипонимов: Canon, Nikon , Lamborghini, Ferrari , Obama, Romney . Александр Панченко 51/108 Прило
  52. 52. Лексическая семантика Обзор метрик PatternSim Резюме Основные ресурсы для построения метрик: семантические сети и тезаурусы; корпуса текстов; Веб корпус текстов; определения из словарей и энциклопедий. Метрики дополняют друг друга в терминах: лексического покрытия; точности; типов извлекаемых отношений. Александр Панченко 52/108 HybridSim Прило
  53. 53. Лексическая семантика Обзор метрик PatternSim HybridSim Программное обеспечение Semantic Vectors: https://code.google.com/p/semanticvectors/ S-Space Package: https://code.google.com/p/airhead-research/ WordNet::Similarity: http://wn-similarity.sourceforge.net NLTK: http://nltk.googlecode.com/svn/trunk/doc/ howto/wordnet.html WikiRelate! PatternSim / Serelex: http://serelex.cental.be Метрики, основанные на Веб корпусе: http://cwl-projects.cogsci.rpi.edu/msr LSA: http://lsa.colorado.edu DefVectors: http://github.com/jgc128/defvectors Александр Панченко 53/108 Прило
  54. 54. Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 54/108 Прило
  55. 55. Лексическая семантика Обзор метрик PatternSim HybridSim Публикации Hearst, M. A. Automatic acquisition of hyponyms from large text corpora. In ACL, pages 539–545, 1992. Panchenko A., Morozova O., Naets H. A Semantic Similarity Measure Based on Lexico-Syntactic Patterns. In Proceedings of KONVENS 2012, pp.174–178, 2012 Panchenko A., Romanov P., Morozova O., Naets H., Philippovich A., Fairon C. Serelex: Search and Visualization of Semantically Related Words. In Proceedings of the 35th European Conference on Information Retrieval (ECIR 2013). Панченко А., Романов П., Романов А., Филиппович А., Филиппович Ю., Морозова О. Серелекс: поиск и визуализация семантически связанных слов. Анализ Изображений, Сетей и Текстов (АИСТ), Интуит, 2013 Александр Панченко 55/108 Прило
  56. 56. Лексическая семантика Обзор метрик PatternSim Демо http://serelex.cental.be/ Александр Панченко 56/108 HybridSim Прило
  57. 57. Лексическая семантика Обзор метрик PatternSim HybridSim Лексико-синтаксические паттерны 18 паттернов извлекающих гиперонимы, ко-гипонимы и синонимы Александр Панченко 57/108 Прило
  58. 58. Лексическая семантика Обзор метрик PatternSim HybridSim Основной каскад преобразователей Каскад конечных автоматов (FST) В формате Unitex: http://igm.univ-mlv.fr/~unitex/ Александр Панченко 58/108 Прило
  59. 59. Лексическая семантика Обзор метрик PatternSim HybridSim Пример реализации паттерна в виде автомата Паттерны, основанные на автоматах позволяют учесть лингвистическую вариацию, сохранив точность В отличие от паттернов основанных на строках (Bollegala et al., 2007) Александр Панченко 59/108 Прило
  60. 60. Лексическая семантика Обзор метрик PatternSim HybridSim PatternSim: основные этапы Паттерны извлекают конкордансы such diverse {[occupations]} as {[doctors]}, {[engineers]} and {[scientists]}[PATTERN=1] such {non-alcoholic [sodas]} as {[root beer]} and {[cream soda]}[PATTERN=1] {traditional[food]}, such as {[sandwich]},{[burger]}, and {[fry]}[PATTERN=2] Александр Панченко 60/108 Прило
  61. 61. Лексическая семантика Обзор метрик PatternSim PatternSim: основные этапы Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов Количество извлечений Wikipedia – 1.196.468 ukWaC – 2.227.025 WaCypedia+ukWaC – 3.423.493 Александр Панченко 61/108 HybridSim Прило
  62. 62. Лексическая семантика Обзор метрик PatternSim HybridSim Метрика семантической близости PatternSim Александр Панченко 62/108 Прило
  63. 63. Лексическая семантика Обзор метрик PatternSim HybridSim Вычисление подобия: rerank Efreq: мера подобия равна количеству извлеченных отношений sij = sij Efreq-Cfreq: нормализация по частоте слов sij = eij P(ci , cj ) = ij eij P(ci , cj ) P(ci )P(cj ) – вероятность извлечения отношения ci , cj , где eij – частота взаимной встречаемости слов ci и cj во множестве конкордансов P(ci ) = fi fi – вероятность слова ci , где fi – частота ci i Александр Панченко 63/108 Прило
  64. 64. Лексическая семантика Обзор метрик PatternSim HybridSim Вычисление подобия: Efreq-Rnum-Cfreq-Pnum: sij = P(ci , cj ) = √ eij ij eij pij · P(ci , cj ) 2 · µb · . bi∗ + b∗j P(ci )P(cj ) – вероятность извлечения отношения ci , cj , где eij – частота взаимной встречаемости слов ci и cj во множестве конкордансов P(ci ) = fi fi – вероятность слова ci , где fi – частота ci i bi∗ = j:eij ≥β 1 – количество извлечений слова ci с |C | 1 частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество извлечений для отдельного слова pij ∈ [1; 18] – количество отдельных паттернов которые извлекли отношение ci , cj Александр Панченко 64/108 Прило
  65. 65. Лексическая семантика Обзор метрик PatternSim HybridSim Ранжирование семантических отношений Точность сравнима или лучше чем у аналогов; Полнота меньше чем у аналогов. Рис. : График точность-полнота (коллекция BLESS). Александр Панченко 65/108 Прило
  66. 66. Лексическая семантика Обзор метрик PatternSim HybridSim Извлечение семантических отношений Точность@1 ≈ 0.80; “Хорошее” лексическое покрытие: Александр Панченко 66/108 Прило
  67. 67. Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение результатов базовых метрик и PatternSim Александр Панченко 67/108 Прило
  68. 68. Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 68/108 Прило
  69. 69. Лексическая семантика Обзор метрик PatternSim HybridSim Публикациии Panchenko A., Morozova O. A Study of Hybrid Similarity Measures for Semantic Relation Extraction. // Innovative Hybrid Approaches to the Processing of Textual Data Workshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18 Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013, (Chapter 4). Panchenko A. A Study of Heterogeneous Similarity Measures for Semantic Relation Extraction. // In JEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp. 29–42. Александр Панченко 69/108 Прило
  70. 70. Лексическая семантика Обзор метрик PatternSim HybridSim Отдельные и гибридные метрики (a) Terms, C Si knn Relations, R Terms, C sim1 ... simN ... norm S1 norm SN S1 SN combination method Scmb norm Hybrid Similarity Measure Features Si norm Single Similarity Measure simi (b) Scmb knn Relations, R Рис. : Система извлечения семантических отношений основанная на: (a) отдельной метрике; (b) гибридной метрике. Александр Панченко 70/108 Прило
  71. 71. Лексическая семантика Обзор метрик PatternSim HybridSim 16 признаков = 16 отдельных метрик 5 метрик основанных на семантических сетях: 1 2 3 4 5 WuPalmer; Leacock and Chodorow; Resnik; Jiang and Conrath; Lin. 3 метрики, основанные на Веб корпусе (NGD-Yahoo/Bing/Google); 5 метрики, основанные на корпусе текстов: 2 дистрибутивных (BDA, SDA) 1 лексико-синтаксические шаблоны (PatternSim) 2 другие (LSA, NGD-Factiva) 3 метрики, основанные на определениях 1 2 3 ExtendedLesk; GlossVectors; DefVectors-WktWiki. Александр Панченко 71/108 Прило
  72. 72. Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования без учителя k sij ∈ [0; 1] – попарное семантическое подобие слов wi и wj , вычисленное с помощью k-й метрики Sk . Mean Среднее между K попарными подобиями слов: cmb sij = 1 K k sij ; k=1,K Mean-Nnz Среднее между K попарными подобиями слов больше нуля: cmb sij = |k : k sij 1 k sij ; > 0, k = 1, K | k=1,K Александр Панченко 72/108 Прило
  73. 73. Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования без учителя Mean-Zscore Среднее между нормированными попарными подобиями слов (Z-score): Scmb = 1 K K k=1 Sk − µk ; σk где µk и σk среднее и стандартное отклонение значений k-й метрики (Sk ). Median Медиана между K попарными подобиями слов: cmb 1 K sij = median(sij , . . . , sij ). Александр Панченко 73/108 Прило
  74. 74. Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования без учителя Max Максимум между K попарными подобиями слов: K 1 cmb sij = max(sij , . . . , sij ); RankFusion Среднее между рангами слов: cmb sij = 1 K k rij . k=1,K k где rij – ранк, соответствующий значению попарного подобия k sij . Александр Панченко 74/108 Прило
  75. 75. Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования метрик подобия RelationFusion Объединение отношений, извлеченных каждым методом. Отношения, извлеченные несколькими метриками, надежнее. 1 2 3 4 5 Input: Матрицы подобия, сгенерированные K метриками {S1 , . . . , SK }, количество ближайших соседей k Output: Комбинированная матрица подобия, Scmb for i=1,N do Ri ← knn(Si , k) ; Ri ← relation_matrix(Ri ) 1 Scmb ← N N Ri ; i=1 return Scmb ; relation_matrix : rij = Александр Панченко 1 0 75/108 if ci , cj ∈ Rk else Прило
  76. 76. Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования с учителем Logit, Logit-L1, Logit-L2 Бинарная логистическая регрессия; Положительные обучающие примеры – синонимы, гиперонимы, ко-гипонимы из BLESS/SN; Отрицательные обучающие примеры – случайные пары семантически несвязных слов из BLESS/SN; Отношение ci , t, cj ∈ R представлено с помощью 1 N вектора попарных близостей: x = (sij , . . . , sij ), N = 2, 16; Категория yij : yij = 0 1 если ci , t, cj случайное отношение иначе Александр Панченко 76/108 Прило
  77. 77. Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования с учителем Logit, Logit-L1, Logit-L2 Logit максимизирует следующую функционал: N N cmb ln sij + L(w) = max w i=1 cmb ln(1 − sij ) i=1 Использование модели (w1 , . . . , wK ) для комбинирования: cmb 1 K sij = P(rij = 1|sij , . . . , sij ) = 1 , где 1 + e −z K k wk sij + w0 . z= k=1 Александр Панченко 77/108 Прило
  78. 78. Лексическая семантика Обзор метрик PatternSim HybridSim Модель комбинирования метрик Рис. : Weights of the similarity measures used by the hybrid measure Logit-E15. The weights were learnt on the BLESS dataset with 10-fold cross validation repeated 10 times. Александр Панченко 78/108 Прило
  79. 79. Лексическая семантика Обзор метрик PatternSim HybridSim Прило Методы комбинирования с учителем Машина Опорных Векторов (SVM), линейное ядро Веса w и опорные вектора SV : αi yi xi . w= xi ∈SV Использование модели K cmb sij T k wi sij +b. = w x+b = k=1 Александр Панченко 79/108
  80. 80. Лексическая семантика Обзор метрик PatternSim HybridSim Прило Машина Опорных Векторов (SVM), линейное ядро Geometrical margin is the distance to the closest data point: ρ= wT x − b . ||w|| T x−b 1 SVM maximizes the margin : ρ = w||w|| = ||w|| . Result – a set of support vectors: SV = {x1 , . . . , xm }, where yi ∈ {+1, −1} is the label. Weight vector: w = xi ∈SV αi yi xi . C -SVM optimizes the following function: min w,ξ,b 1 2 2 ||w|| +C n i=1 ξi subject to yi (wT φ(xi )) ≥ 1 − ξi , ξi ≥ 0. The function φ(x, x ) is called kernel. Александр Панченко 80/108 (1)
  81. 81. Лексическая семантика Обзор метрик PatternSim HybridSim Какие из отдельных метрик следует комбинировать? Количество возможных комбинаций 34: 16: 34 m m=2 C34 16 m m=2 C16 = = 34 34! m=2 m!(34−m)! 16 16! m=2 m!(16−m)! = 234 = 1.718 · 1010 = 65536 Экспертный выбор: 5, 9 и 15 метрик из 16 Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16 Анализ коэффициентов логистической регрессии: 12 из 16 Александр Панченко 81/108 Прило
  82. 82. Лексическая семантика Обзор метрик PatternSim HybridSim Прило Результаты: базовые метрики, корреляция с суждениями субъектов Рис. : Pearson – корреляция Пирсона, Spearman – корреляция Спирмена. Александр Панченко 82/108
  83. 83. Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: базовые метрики, ранжирование отношний Александр Панченко 83/108 Прило
  84. 84. Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: базовые метрики, ранжирование отношний Рис. : Графики Точность-Полнота (слева) 4х лучших метрик основанных на корпусе, семантических сетях, определениях и метрика, основанная на среднем значении 14 метрик; (слева) метрики основанных на определениях Викисловаря и Википедии. Александр Панченко 84/108 Прило
  85. 85. Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: отдельные и комбинированные метрики Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC, RG, WordSim353 – корреляция с суждениями человека. BLESS, SN – точность извлечения семантических отношений. Наилучшие значения в группе (отдельные/комбинированные) обозначены полужирным шрифтом; наилучшие значения обозначены серым цветом. Александр Панченко 85/108 Прило
  86. 86. Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: методы комбинирования с учителем График Точность-Полнота вычисленный на коллекции BLESS: (a) 16 отдельных метрик и гибридная метрика Logit-E15; (b) 8 гибридных метрик. Александр Панченко 86/108 Прило
  87. 87. Лексическая семантика Обзор метрик PatternSim HybridSim Прило Результаты: метод комбинирования с учителем Logit-E15 Рис. : Значение подобия между 74 словами связанными со словом “acacia”. Александр Панченко 87/108
  88. 88. Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: методы комбинирования с учителем Александр Панченко 88/108 Прило
  89. 89. Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: методы комбинирования с учителем (продолжение) Рис. : Оптимизация мета-параметров метрики C-SVM-radial-E15. Александр Панченко 89/108 Прило
  90. 90. Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 90/108 Прило
  91. 91. Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 91/108 Прило
  92. 92. Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде списка и графа слов http://serelex.cental.be/ Александр Панченко 92/108 Прило
  93. 93. Лексическая семантика Обзор метрик PatternSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде графа слов Александр Панченко 93/108 HybridSim Прило
  94. 94. Лексическая семантика Обзор метрик PatternSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде графа слов Александр Панченко 94/108 HybridSim Прило
  95. 95. Лексическая семантика Обзор метрик PatternSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде графа слов Александр Панченко 95/108 HybridSim Прило
  96. 96. Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде множества изображений Александр Панченко 96/108 Прило
  97. 97. Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Оценка качества работы системы Серелекс Рис. : Удовлетворенность пользователей первыми 20 результатами поиска для 594 запроса (23 ассесора и 109 пользователей). Александр Панченко 97/108 Прило
  98. 98. Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Оценка качества работы системы Серелекс Александр Панченко 98/108 Прило
  99. 99. Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 99/108 Прило
  100. 100. Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов iCop: классификация имен файлов Рис. : Структура системы. Использование семантических отношений для расширения имени файла (Vocabulary Projection). Александр Панченко 100/108 Прило
  101. 101. Лексическая семантика Обзор метрик PatternSim Классификация коротких текстов iCop: пример Vocabulary Projection Александр Панченко 101/108 HybridSim Прило
  102. 102. Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов Качество классификации Обучающая выборка Gallery (train) PirateBay Title+Desc+Tags PirateBay Title+Tags Gallery Gallery PirateBay Title+Desc+Tags PirateBay Title+Tags Тестовая выборка Gallery PirateBay Title+Desc+Tags PirateBay Title+Tags PirateBay Title+Desc+Tags PirateBay Title+Tags Gallery Gallery Accuracy 96.41 98.92 97.73 90.57 84.23 88.83 91.16 Accuracy (voc. projection) 96.83 (+0.42) 98.86 (–0.06) 97.63 (–0.10) 91.48 (+0.91) 88.89 (+4.66) 89.04 (+0.21) 91.30 (+0.14) Таблица : Качество классификации с использованием C-SVM-linear c учетом кросс-валидации. Александр Панченко 102/108 Прило
  103. 103. Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов Качество классификации Рис. : C -SVM-linear trained on the Gallery dataset and tested on the PirateBay dataset. Александр Панченко 103/108 Прило
  104. 104. Лексическая семантика Обзор метрик PatternSim Классификация коротких текстов Анализ работы Александр Панченко 104/108 HybridSim Прило
  105. 105. Лексическая семантика Обзор метрик PatternSim Классификация коротких текстов Анализ работы Александр Панченко 105/108 HybridSim Прило
  106. 106. Лексическая семантика Обзор метрик PatternSim Классификация коротких текстов Анализ работы Александр Панченко 106/108 HybridSim Прило
  107. 107. Лексическая семантика Обзор метрик PatternSim Классификация коротких текстов Анализ работы Александр Панченко 107/108 HybridSim Прило
  108. 108. Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов Спасибо за внимание! Вопросы? Александр Панченко 108/108 Прило

×