Вычислительная лексическая семантика: метрики семантической близости и их приложения
Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород)
A sentiment index measures the average emotional level in a corpus. We introduce four such indexes and use them to gauge average “positiveness” of a population during some period based on posts in a social network. This article for the first time presents a text-, rather than word-based sentiment index. Furthermore, this study presents the first large-scale study of the sentiment index of the Russian-speaking Facebook. Our results are consistent with the prior experiments for English language.
Detecting Gender by Full Name: Experiments with the Russian LanguageAlexander Panchenko
This paper describes a method that detects gender of a person by his/her full name. While some approaches were proposed for English language, little has been done so far for Russian. We fill this gap and present a large-scale experiment on a dataset of 100,000 Russian full names from Facebook. Our method is based on three types of features (word endings, character $n$-grams and dictionary of names) combined within a linear supervised model. Experiments show that the proposed simple and computationally efficient approach yields excellent results achieving accuracy up to 96\%.
Semantic relations, such as synonyms, hypernyms and co-hyponyms proved to be useful for text processing applications, including text similarity, query expansion, question answering and word sense disambiguation. Such relations are practical because of the gap between lexical surface of the text and its meaning. Indeed, the same concept is often represented by different terms. However, existing resources often do not cover a vocabulary required by a given system. Manual resource construction is prohibitively expensive for many projects.
On the other hand, precision of the existing extractors still do not meet quality of the handcrafted resources. All these factors motivate the development of novel extraction methods. In this work we developed several similarity measures for semantic relation extraction. The main research question we address, is how to improve precision and coverage of such measures. First, we perform a large-scale study the baseline techniques. Second, we propose four novel measures. One of them significantly outperforms the baselines, the others perform comparably to the state-of-the-art techniques. Finally, we successfully apply one of the novel measures in two text processing systems.
A sentiment index measures the average emotional level in a corpus. We introduce four such indexes and use them to gauge average “positiveness” of a population during some period based on posts in a social network. This article for the first time presents a text-, rather than word-based sentiment index. Furthermore, this study presents the first large-scale study of the sentiment index of the Russian-speaking Facebook. Our results are consistent with the prior experiments for English language.
Detecting Gender by Full Name: Experiments with the Russian LanguageAlexander Panchenko
This paper describes a method that detects gender of a person by his/her full name. While some approaches were proposed for English language, little has been done so far for Russian. We fill this gap and present a large-scale experiment on a dataset of 100,000 Russian full names from Facebook. Our method is based on three types of features (word endings, character $n$-grams and dictionary of names) combined within a linear supervised model. Experiments show that the proposed simple and computationally efficient approach yields excellent results achieving accuracy up to 96\%.
Semantic relations, such as synonyms, hypernyms and co-hyponyms proved to be useful for text processing applications, including text similarity, query expansion, question answering and word sense disambiguation. Such relations are practical because of the gap between lexical surface of the text and its meaning. Indeed, the same concept is often represented by different terms. However, existing resources often do not cover a vocabulary required by a given system. Manual resource construction is prohibitively expensive for many projects.
On the other hand, precision of the existing extractors still do not meet quality of the handcrafted resources. All these factors motivate the development of novel extraction methods. In this work we developed several similarity measures for semantic relation extraction. The main research question we address, is how to improve precision and coverage of such measures. First, we perform a large-scale study the baseline techniques. Second, we propose four novel measures. One of them significantly outperforms the baselines, the others perform comparably to the state-of-the-art techniques. Finally, we successfully apply one of the novel measures in two text processing systems.
Метрики семантической близости слов успешно применяются при решении многих задач Автоматической Обработки Текста (АОТ), таких как извлечение отношений, расширение поисковых запросов, разрешение омонимии и поиск семантически подобных текстов. Данная лекция начинается с обзора классических подходов к семантической близости основанных на семантических сетях, словарях и корпусах текстов. Далее мы представим две новые метрики близости. Первая основана на лексико-синтаксических шаблонах и корпусе текстов. Она обладает точностью сопоставимой с метриками основанными на WordNet. Вторая объединяет 16 разнородных метрик и обучена на множестве семантических отношений из словаря. Эксперименты показывают что данная метрика значительно превосходит по точности и полноте большинство существующих подходов. Лекция завершается обзором двух систем АОТ в которых применяются разработанные метрики.
Страница проекта - serelex.it-claim.ru
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...ITMO University
Описывается подход, который может быть использован в качестве альтернативы автоматическому реферированию текста. Суть подхода заключается в формировании представлений исходного текста и возможности перемещаться по его содержанию с помощью этих представлений – от общего представления к более конкретному представлению и обратно. Представления формируются на основании методов автоматической обработки текста – статистических методов и поверхностного лингвистического анализа. В работе дано формализованное описание подхода, а также рассмотрена реализация на основе реляционной базы данных.
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
Настоящая статья описывает метод построения отношений вида «синоним», «гиперним» и «гипоним» в смешанной онтологической сети. Построенные отношения использовались для решения задач определения семантической близости и ассоциаций между словами в рамках тестирования на полях форума «Диалог-2015».
Метрики семантической близости слов успешно применяются при решении многих задач Автоматической Обработки Текста (АОТ), таких как извлечение отношений, расширение поисковых запросов, разрешение омонимии и поиск семантически подобных текстов. Данная лекция начинается с обзора классических подходов к семантической близости основанных на семантических сетях, словарях и корпусах текстов. Далее мы представим две новые метрики близости. Первая основана на лексико-синтаксических шаблонах и корпусе текстов. Она обладает точностью сопоставимой с метриками основанными на WordNet. Вторая объединяет 16 разнородных метрик и обучена на множестве семантических отношений из словаря. Эксперименты показывают что данная метрика значительно превосходит по точности и полноте большинство существующих подходов. Лекция завершается обзором двух систем АОТ в которых применяются разработанные метрики.
Страница проекта - serelex.it-claim.ru
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...ITMO University
Описывается подход, который может быть использован в качестве альтернативы автоматическому реферированию текста. Суть подхода заключается в формировании представлений исходного текста и возможности перемещаться по его содержанию с помощью этих представлений – от общего представления к более конкретному представлению и обратно. Представления формируются на основании методов автоматической обработки текста – статистических методов и поверхностного лингвистического анализа. В работе дано формализованное описание подхода, а также рассмотрена реализация на основе реляционной базы данных.
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
Настоящая статья описывает метод построения отношений вида «синоним», «гиперним» и «гипоним» в смешанной онтологической сети. Построенные отношения использовались для решения задач определения семантической близости и ассоциаций между словами в рамках тестирования на полях форума «Диалог-2015».
Рассмотрены проблемы пополнения компьютерного семантического словаря новыми словами, встреченными в тексте при его анализе. Предлагаемая для этого система работает в полуавтоматическом диалоговом режиме. На первом этапе определяются морфологические характеристики нового слова, на втором – его синтактико-семантические параметры по аналогам, имеющимся в существующем словаре. Предлагаемые подходы обеспечивают высокий уровень точности. Впервые появилась возможность указания точной семантики новых слов с учетом не только семантических классов, но и аргументов, обеспечивающих связь с подсоединяемыми словами.
Graph's not dead: from unsupervised induction of linguistic structures from t...Alexander Panchenko
In this invited talk, presented at the Dialogue'2018 conference, I argue for the usefulness of graph representations for NLP in the deep learning era. In the lecture, it is described how to extract symbolic linguistic structures, such as word senses and semantic frames in an unsupervised way from text corpora using graph-based algorithms and distributional semantics.
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlAlexander Panchenko
We present DepCC, the largest-to-date linguistically analyzed corpus in English including 365 million documents, composed of 252 billion tokens and 7.5 billion of named entity occurrences in 14.3 billion sentences from a web-scale crawl of the Common Crawl project. The sentences are processed with a dependency parser and with a named entity tagger and contain provenance information, enabling various applications ranging from training syntax-based word embeddings to open information extraction and question answering. We built an index of all sentences and their linguistic meta-data enabling quick search across the corpus. We demonstrate the utility of this corpus on the verb similarity task by showing that a distributional model trained on our corpus yields better results than models trained on smaller corpora, like Wikipedia. This distributional model outperforms the state of art models of verb similarity trained on smaller corpora on the SimVerb3500 dataset.
http://www.lrec-conf.org/proceedings/lrec2018/summaries/215.html
Improving Hypernymy Extraction with Distributional Semantic ClassesAlexander Panchenko
http://www.lrec-conf.org/proceedings/lrec2018/pdf/234.pdf
In this paper, we show how distributionally-induced semantic classes can be helpful for extracting hypernyms. We present methods for inducing sense-aware semantic classes using distributional semantics and using these induced semantic classes for filtering noisy hypernymy relations. Denoising of hypernyms is performed by labeling each semantic class with its hypernyms. On the one hand, this allows us to filter out wrong extractions using the global structure of distributionally similar senses. On the other hand, we infer missing hypernyms via label propagation to cluster terms. We conduct a large-scale crowdsourcing study showing that processing of automatically extracted hypernyms using our approach improves the quality of the hypernymy extraction in terms of both precision and recall. Furthermore, we show the utility of our method in the domain taxonomy induction task, achieving the state-of-the-art results on a SemEval'16 task on taxonomy induction.
The paper was presented at the LREC'2018 conference in Miyazaki, Japan.
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesAlexander Panchenko
In this talk, we will discuss induction of sparse and dense
word sense representations using graph-based approaches and
distributional models. Induced senses are represented by a vector, but
also a set of hypernyms, images, and usage examples, derived in an
unsupervised and knowledge-free manner, which ensure interpretability
of the discovered senses by humans. We showcase the usage of the
induced representations for the tasks of word sense disambiguation and
enrichment of lexical resources, such as WordNet.
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Alexander Panchenko
Presentation at the AIST'17 conference by Dmitry Ustalov. Authors of the original paper: Dmitry Ustalov, Mikhail Chernoskutov, Chris Biemann, Alexander Panchenko.
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationAlexander Panchenko
We introduce a new method for unsupervised knowledge-based word sense disambiguation (WSD) based on a resource that links two types of sense-aware lexical networks: one is induced from a corpus using distributional semantics, the other is manually constructed. The combination of two networks reduces the sparsity of sense representations used for WSD. We evaluate these enriched representations within two lexical sample sense disambiguation benchmarks. Our results indicate that (1) features extracted from the corpus-based resource help to significantly outperform a model based solely on the lexical resource; (2) our method achieves results comparable or better to four state-of-the-art unsupervised knowledge-based WSD systems including three hybrid systems that also rely on text corpora. In contrast to these hybrid methods, our approach does not require access to web search engines, texts mapped to a sense inventory, or machine translation systems.
See the full paper at: http://www.aclweb.org/anthology/W/W17/W17-1909.pdf
Panchenko A., Faralli S., Ponzetto S. P., and Biemann C. (2017): Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation. In Proceedings of the Workshop on Sense, Concept and Entity Representations and their Applications (SENSE) co-located with the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL'2017). Valencia, Spain. Association for Computational Linguistics
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Alexander Panchenko
The current trend in NLP is the use of highly opaque models, e.g. neural networks and word embeddings. While these models yield state-of-the-art results on a range of tasks, their drawback is
poor interpretability. On the example of word sense induction and disambiguation (WSID), we show that it is possible to develop an interpretable model that matches the state-of-the-art models in accuracy. Namely, we present an unsupervised, knowledge-free WSID approach, which is interpretable at three levels: word sense inventory, sense feature representations, and disambiguation procedure. Experiments show that our model performs on par with state-of-the-art word sense embeddings and other unsupervised systems while offering the possibility to justify
its decisions in human-readable form.
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Alexander Panchenko
We introduce an approach to word sense
induction and disambiguation. The method
is unsupervised and knowledge-free: sense
representations are learned from distributional
evidence and subsequently used to
disambiguate word instances in context.
These sense representations are obtained
by clustering dependency-based secondorder
similarity networks. We then add
features for disambiguation from heterogeneous
sources such as window-based and
sentence-wide co-occurrences, and explore
various schemes to combine these context
clues. Our method reaches a performance
comparable to the state-of-the-art unsupervised
word sense disambiguation systems
including top participants of the SemEval
2013 word sense induction task and two
more recent state-of-the-art neural word
sense induction systems
Full paper:
https://www.lt.informatik.tu-darmstadt.de/fileadmin/user_upload/Group_LangTech/publications/konvens2016panchenko.pdf
Ayush Kumar, Sarah Kohail, Amit Kumar, Asif Ekbal, Chris Biemann
IIT Patna, India
TU Darmstadt, Germany
Presented by: Alexander Panchenko, TU Darmstadt, Germany
Вычислительная лексическая семантика: метрики семантической близости и их приложения
1. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Вычислительная лексическая
семантика: метрики семантической
близости и их приложения
Серия лекций в НИУ ВШЭ, факультет бизнес-информатики
и прикладной математики (Нижний Новгород)
Александр Панченко
Digital Society Laboratory & Universit´ catholique de Louvain
e
alexander.panchenko@uclouvain.be
4 декабря 2013 г.
Александр Панченко
1/108
Прило
2. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
2/108
Прило
3. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
3/108
Прило
4. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Введение
О себе
1
PhD (Natural Language Processing)
co-tutelle Universit´ catholique de Louvain и МГТУ им.
e
Н.Э.Баумана;
http://cental.fltr.ucl.ac.be/team/~panchenko/
alexander.panchenko@uclouvain.be
2
Старший исследователь в Digital Society Laboratory.
3
Ассоциированный исследователь в Universit´ catholique
e
de Louvain.
4
Область научных интересов – Natural Language Processing:
Вычислительная лексическая семантика.
Классификация (коротких) текстов.
АОТ для анализа социальных сетей.
Александр Панченко
4/108
Прило
5. Лексическая семантика
Обзор метрик
PatternSim
Вычислительная лексическая семантика
* рисунок адаптирован из курса Computational Linguistics LINGI2263
http://www.uclouvain.be/en-cours-2013-LINGI2263.html
Александр Панченко
5/108
HybridSim
Прило
6. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Введение в область лексической семантики
Jurafsky D. and Martin J.H. An Introduction to Natural
Language Processing, Computational Linguistics, and
Speech Recognition (2009), chapters 19,20, 22.
Cruys T. Mining for meaning: the extraction of
lexico-semantic knowledge from text (2010). PhD thesis.
http://dissertations.ub.rug.nl/faculties/arts/
2010/t.van.de.cruys/
Panchenko A. Similarity Measures for Semantic Relation
Extraction (2013) http:
//cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf
Введение в обработку текста. ИСП РАН, ВМК МГУ,
Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/
uploads/2011/10/lecture6-2013.pdf
Александр Панченко
6/108
Прило
13. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Семантические ресурсы: тезаурус
Рис. : The Eurovoc thesaurus: the term “energy industry” and its
semantic relations. Here, hypernyms are denoted with arrows and
associations are denoted with dashed lines.
Александр Панченко
13/108
Прило
17. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики семантической близости
Мотивация исследования
1
Метрики семантической близости полезны для:
ˇ
систем обработки коротких текстов (Saric et al., 2012;
Panchenko at., 2012);
расширешия поисковых запросов (Hsu et al., 2006);
вопросно-ответных систем (Sun et al., 2005);
разрешения омонимии (Patwardhan et al., 2003);
...
Лексико-семантическое знание о языке.
Вычислительная лексическая семантика.
Computational Lexical Semantics.
Александр Панченко
17/108
Прило
18. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики семантической близости
Определение
Метрика семантической близости численно выражает
семантическую связность слов ci и cj : sij = sim(ci , cj ):
sij =
велико
0
если ci , cj – пара syn, hyper , cohypo
иначе
Свойства
Неотрицательность: 0 ≤ sij ≤ 1;
Рефлективность: sij = 1 ⇔ ci = cj ;
Симметричность: sij = sji ;
sij ≤ sik + skj
Александр Панченко
18/108
Прило
20. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики семантической близости: распределение
Рис. : Number of relations (synonyms and hyponyms) per term in the
dictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and a
union of these three resources.
Александр Панченко
20/108
Прило
21. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Системы измерения семантической близости
Terms
Text-Based Data
C
Feature Extractor
F
Similarity Measure
Semantic Similarity Measure
Semantic Relation Extractor
S
Normalizer
S
kNN Procedure
R
Semantic Relations
Как построить систему с высокой точностью и лексическим
покрытием?
Александр Панченко
21/108
Прило
22. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Оценка качества метрики семантической близости
1
Корреляция с суждениями человека о сем. близости:
Статистики: корреляция Пирсона (ρ) и Спирмена (r ).
Проверочные данные: MC, RG, WordSim.
2
Ранжирование семантических отношений:
Точность, Полнота, F-мера.
Проверочные данные: BLESS, SN.
3
Точность извлечения семантических отношений:
Статистики: Точность@k.
Проверочные данные: аннотирование и/или тезаурусы.
4
Использование метрики в системе АОТ:
в системе классификации имен файлов (iCOP);
с системе поиска семантически связанных слов (Serelex).
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 1).
Александр Панченко
22/108
Прило
23. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Прило
Критерии, основанные на суждениях субъектов о
семантической близости
слово, ci
tiger
book
computer
...
possibility
sugar
слово, cj
cat
paper
keyboard
...
girl
approach
субъект, s
7.35
7.46
7.62
...
1.94
0.88
sim, s
0.85
0.95
0.81
...
0.25
0.05
субъект (ранг), r
1
2
3
...
64
65
Данные:
WordSim353 – 353 пар слов (Finkelstein, 2002)
MC – 30 пар слов (Miller Charles, 1991)
RG – 65 пар слов (Rubenstein Goodenough, 1965)
Коэффициент корреляции Пирсона: ρ =
Коэффициент корреляции Спирмена:: r
Александр Панченко
23/108
cov (s,ˆ)
s
σ(s)σ(ˆ)
s
cov (r,ˆ)
r
= σ(r)σ(ˆ)
r
sim (ранг), ˆ
r
3
2
1
...
65
23
25. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Критерии, основанные на суждениях субъектов о
семантической близости
Рис. : Ранговая корреляция Спирмена на наборе данных
Miller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляция
случайных данных -0.173 (p=0.360).
Александр Панченко
25/108
Прило
26. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Критерии точности извлечения отношений
слово, ci
judge
judge
judge
judge
judge
judge
...
judge
judge
judge
слово, cj
adjudicate
arbitrate
asessor
chancellor
gendarmerie
sheriff
...
pc
fare
lemon
тип отношения, t
syn
syn
syn
syn
syn
syn
...
random
random
random
Данные:
BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper,
coord, mero, event, attri, random)
SN (Panchenko, 2012) – 14682 отношений (syn, random)
Александр Панченко
26/108
Прило
27. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Критерии точности извлечения отношений
Основаны на количестве правильно отранжированных
отношений.
R – все семантические отношения, не являющиеся
случайными ( animal , random, bishop и т.п.)
ˆ
R(k) множество извлеченных отношений при количестве
ближайших соседей k
Критерии
ˆ
Точность: P(k) = |R∩R(k)| ,
ˆ
|R(k)|
ˆ
Полнота: R(k) = |R∩R(k)| ,
|R|
F1-мера: F (k) = 2 ·
P(k)·R(k)
P(k)+R(k) ,
Мы используем P(10), P(20), P(50), R(50).
Александр Панченко
27/108
Прило
28. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Пример: оценка точности извлечения отношений
Точность P(k = 50) =
слово, ci
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
1
7
≈ 0.86
слово, cj
enthusiast
fan
admirer
addict
devotee
foundling
fanatic
adherent
capital
statute
blot
meddler
enlargement
bawdyhouse
Александр Панченко
тип отношения
syn
syn
syn
syn
syn
random
syn
syn
random
random
random
random
random
random
28/108
sij
0.07197
0.05195
0.01964
0.01326
0.01163
0.00777
0.00414
0.00353
0.00232
0.00029
0.00025
0.00005
0.00003
0.00000
Прило
29. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
29/108
Прило
30. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Обзор метрик семантической близости
Публикации
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013: Chapters 2.1, 3.1.
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
ACL Anthology / Google Scholar: “semantic similarity
measure”, “semantic similarity”.
Александр Панченко
30/108
Прило
31. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Обзор метрик семантической близости
Публикации (анализ 37 базовых метрик):
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 3).
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
Александр Панченко
31/108
Прило
32. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на семантической сети
Данные: семантическая сеть WordNet 3.0, корпус SemCor.
Переменные:
len(ci , cj ) – длина кратчайшего пути между ci и cj
len(ci , lcs(ci , cj )) – длина кратчайшего пути от ci до
ближайшего общего предка (БОП) слов ci и cj
Ближайший Общий Предок (БОП) – Lowest Common
Subsumers (LCS)
len(croot , lcs(ci , cj )) – длина кратчайшего пути от корня
croot до БОП слов ci и cj (глубина БОП)
P(c) – вероятность слова c, оцененная из корпуса
P(lcs(ci , cj )) – вероятность БОП слов ci и cj
Метрики: Инвертированная длина пути, Leacock-Chodorow,
Wu-Palmer, Resnik, Jiang-Conrath, Lin.
Александр Панченко
32/108
Прило
36. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на семантической сети
Инструменты:
WordNet::Similarity tool (Perl, command-line):
http://wn-similarity.sourceforge.net/
NTLK (Python): http://nltk.org
Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html
Александр Панченко
36/108
Прило
37. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на Веб корпусе текстов
Данные: количество документов возвращенных ИПС: Google,
Yahoo, AltaVista, Bing, и т.п.
Переменные:
hi – количество документов возвращенных по запросу
слова ”ci ”
hij – количество документов возвращенных по запросу
”ci AND cj ”
Метрики:
Normalized Google Distance (NGD) (Cilibrasi and Vitanyi,
2007)
Pointwise Mutual Information - Information Retrieval (PMI-IR)
(Turney, 2001)
Александр Панченко
37/108
Прило
39. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на Веб корпусе текстов
Normalized Google Distance (NGD):
sij =
max(log (hi ), log (hj )) − log (hij )
log (M) − min(log (hi ), log (hj ))
Pointwise Mutual Information Information Retrieval
(PMIIR):
P(ci , cj )
sij = log
= log
P(ci )P(cj )
hij
i ,j
Александр Панченко
39/108
≈ log
hj
hi
i ,j
hij
hij
i ,j
hij
hij
.
hi hj
Прило
40. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Дистрибутивные метрики
Данные: корпус, такой как Википедия или ukWaC
Метрики:
Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006)
Syntactic Distributional Analysis (SDA) (Curran, 2003)
Александр Панченко
40/108
Прило
41. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Дистрибутивные метрики
Переменные:
fi – вектор признаков представляющий слово ci ,
основанный на контекстном окне
fis – вектор признаков представляющий слово ci ,
основанный на синтаксическом контекстном окне
Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)
Александр Панченко
41/108
Прило
42. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Другие метрики, основанные на корпусе текстов
Данные: корпус, такой как Википедия или ukWaC
Метрики:
Латентно-cемантический анализ (LSA) (Landauer and
Dumais, 1997)
Вероятностные модели (pLSA, LDA и др.) (Griffiths et al.,
2007)
NGD и PMI-IR (Veksler et al., 2008)
...
Александр Панченко
42/108
Прило
43. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Латентно-семантический анализ
Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997):
1 Representing the corpus D as an N × M term-document
matrix F.
2 Normalization of the matrix F with TF-IDF:
fij
|D|
fij =
,
· log
|d ∈ D : wi ∈ d |
i fij
3
4
5
Singular value decomposition of D: D = UΣVT .
Low-rank approximation of the matrix U with a reduced M × k
matrix Uk by retaining only the first k column of the U.
Calculation of similarities between terms ci and cj as a cosine
between respective columns of Uk (uk and uk ):
i
i
sij =
Александр Панченко
uk · uk
i
j
||uk ||||uk ||
i
j
43/108
.
Прило
44. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Латентно-семантический анализ
U is an M × M matrix which columns are the orthogonal
eigenvectors of DDT
VT is an N × N matrix which columns are the orthogonal
eigenvectors of DT D
Σ is an M × N diagonal matrix:
σ11 . . . 0
.
. .
..
.
Σ= .
.
.
.
0 · · · σnn
√
The i-th element on the diagonal σii = λi , where λi is an
eigenvalue of DDT .
The eigenvalues are ordered, such that λi ≥ λi+1 .
Источник: Manning et al. Introduction to information retrieval (2008), p.374.
Александр Панченко
44/108
Прило
46. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на определениях
Данные: определения из WordNet, Википедии, Викисловаря
или любого другого словаря.
Переменные:
gloss(ci ) – определение слова ci ;
fi вектор признаков, построенный из gloss(ci );
fi – вектор признаков ci , вычисленный на корпусе из всех
определений методом контекстного окна;
exist(ci , cj ) – наличие связи между ci и cj в словаре.
Метрики:
ExtendedLesk (Banerjee and Pedersen, 2003)
GlossVectors (Patwardhan and Pedersen, 2006)
DefVectors (Panchenko et al., 2012)
Александр Панченко
46/108
Прило
47. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на определениях: Extended Lesk
relies on the gloss similarity of terms ci and cj
relies on gloss similarity of all terms related to ci and cj
sij =
simg (ci , cj ),
ci ∈Ci cj ∈Cj
simg is a gloss-based similarity measure and set Ci includes
concept ci and all concepts directly related to it.
Александр Панченко
47/108
Прило
48. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на определениях: GlossVectors
a cosine between vectors vi and vj representing concepts ci
and cj
a vector vi is a sum of context vectors representing all words
from the definition of ci and the definitions of terms related to
ci :
sij =
vi · vj
where vi =
||vi ||||vj ||
fj .
∀j:cj ∈Gi
fj is a context vector, derived from the corpus of all glosses
Gi is concatenation of glosses of the concept ci and all
concepts which are directly related to it.
Александр Панченко
48/108
Прило
52. Лексическая семантика
Обзор метрик
PatternSim
Резюме
Основные ресурсы для построения метрик:
семантические сети и тезаурусы;
корпуса текстов;
Веб корпус текстов;
определения из словарей и энциклопедий.
Метрики дополняют друг друга в терминах:
лексического покрытия;
точности;
типов извлекаемых отношений.
Александр Панченко
52/108
HybridSim
Прило
54. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
54/108
Прило
55. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Публикации
Hearst, M. A. Automatic acquisition of hyponyms from large
text corpora. In ACL, pages 539–545, 1992.
Panchenko A., Morozova O., Naets H. A Semantic
Similarity Measure Based on Lexico-Syntactic Patterns.
In Proceedings of KONVENS 2012, pp.174–178, 2012
Panchenko A., Romanov P., Morozova O., Naets H.,
Philippovich A., Fairon C. Serelex: Search and Visualization
of Semantically Related Words. In Proceedings of the 35th
European Conference on Information Retrieval (ECIR 2013).
Панченко А., Романов П., Романов А., Филиппович А.,
Филиппович Ю., Морозова О. Серелекс: поиск и
визуализация семантически связанных слов. Анализ
Изображений, Сетей и Текстов (АИСТ), Интуит, 2013
Александр Панченко
55/108
Прило
59. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Пример реализации паттерна в виде автомата
Паттерны, основанные на автоматах позволяют учесть
лингвистическую вариацию, сохранив точность
В отличие от паттернов основанных на строках (Bollegala
et al., 2007)
Александр Панченко
59/108
Прило
60. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
PatternSim: основные этапы
Паттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},
{[engineers]} and {[scientists]}[PATTERN=1]
such {non-alcoholic [sodas]} as {[root beer]} and
{[cream soda]}[PATTERN=1]
{traditional[food]}, such as
{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]
Александр Панченко
60/108
Прило
61. Лексическая семантика
Обзор метрик
PatternSim
PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов
Количество извлечений
Wikipedia – 1.196.468
ukWaC – 2.227.025
WaCypedia+ukWaC – 3.423.493
Александр Панченко
61/108
HybridSim
Прило
63. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Вычисление подобия: rerank
Efreq: мера подобия равна количеству извлеченных
отношений
sij = sij
Efreq-Cfreq: нормализация по частоте слов
sij =
eij
P(ci , cj ) =
ij
eij
P(ci , cj )
P(ci )P(cj )
– вероятность извлечения отношения
ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i
Александр Панченко
63/108
Прило
64. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Вычисление подобия:
Efreq-Rnum-Cfreq-Pnum:
sij =
P(ci , cj ) =
√
eij
ij
eij
pij ·
P(ci , cj )
2 · µb
·
.
bi∗ + b∗j P(ci )P(cj )
– вероятность извлечения отношения
ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i
bi∗ = j:eij ≥β 1 – количество извлечений слова ci с
|C |
1
частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество
извлечений для отдельного слова
pij ∈ [1; 18] – количество отдельных паттернов которые
извлекли отношение ci , cj
Александр Панченко
64/108
Прило
68. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
68/108
Прило
69. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Публикациии
Panchenko A., Morozova O. A Study of Hybrid Similarity
Measures for Semantic Relation Extraction. // Innovative
Hybrid Approaches to the Processing of Textual Data
Workshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 4).
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp.
29–42.
Александр Панченко
69/108
Прило
70. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Отдельные и гибридные метрики
(a) Terms, C
Si
knn
Relations, R
Terms, C
sim1
...
simN
...
norm
S1
norm
SN
S1
SN
combination method
Scmb
norm
Hybrid Similarity Measure
Features
Si
norm
Single Similarity Measure
simi
(b)
Scmb
knn
Relations, R
Рис. : Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.
Александр Панченко
70/108
Прило
71. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:
1
2
3
4
5
WuPalmer;
Leacock and Chodorow;
Resnik;
Jiang and Conrath;
Lin.
3 метрики, основанные на Веб корпусе
(NGD-Yahoo/Bing/Google);
5 метрики, основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)
1 лексико-синтаксические шаблоны (PatternSim)
2 другие (LSA, NGD-Factiva)
3 метрики, основанные на определениях
1
2
3
ExtendedLesk;
GlossVectors;
DefVectors-WktWiki.
Александр Панченко
71/108
Прило
72. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования без учителя
k
sij ∈ [0; 1] – попарное семантическое подобие слов wi и wj ,
вычисленное с помощью k-й метрики Sk .
Mean
Среднее между K попарными подобиями слов:
cmb
sij =
1
K
k
sij ;
k=1,K
Mean-Nnz
Среднее между K попарными подобиями слов больше нуля:
cmb
sij =
|k :
k
sij
1
k
sij ;
> 0, k = 1, K | k=1,K
Александр Панченко
72/108
Прило
73. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования без учителя
Mean-Zscore
Среднее между нормированными попарными подобиями слов
(Z-score):
Scmb =
1
K
K
k=1
Sk − µk
;
σk
где µk и σk среднее и стандартное отклонение значений k-й
метрики (Sk ).
Median
Медиана между K попарными подобиями слов:
cmb
1
K
sij = median(sij , . . . , sij ).
Александр Панченко
73/108
Прило
74. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования без учителя
Max
Максимум между K попарными подобиями слов:
K
1
cmb
sij = max(sij , . . . , sij );
RankFusion
Среднее между рангами слов:
cmb
sij =
1
K
k
rij .
k=1,K
k
где rij – ранк, соответствующий значению попарного подобия
k
sij .
Александр Панченко
74/108
Прило
75. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования метрик подобия
RelationFusion
Объединение отношений, извлеченных каждым методом.
Отношения, извлеченные несколькими метриками, надежнее.
1
2
3
4
5
Input: Матрицы подобия, сгенерированные K метриками
{S1 , . . . , SK }, количество ближайших соседей k
Output: Комбинированная матрица подобия, Scmb
for i=1,N do
Ri ← knn(Si , k) ;
Ri ← relation_matrix(Ri )
1
Scmb ← N N Ri ;
i=1
return Scmb ;
relation_matrix : rij =
Александр Панченко
1
0
75/108
if ci , cj ∈ Rk
else
Прило
76. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Бинарная логистическая регрессия;
Положительные обучающие примеры – синонимы,
гиперонимы, ко-гипонимы из BLESS/SN;
Отрицательные обучающие примеры – случайные
пары семантически несвязных слов из BLESS/SN;
Отношение ci , t, cj ∈ R представлено с помощью
1
N
вектора попарных близостей: x = (sij , . . . , sij ), N = 2, 16;
Категория yij :
yij =
0
1
если ci , t, cj случайное отношение
иначе
Александр Панченко
76/108
Прило
77. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Logit максимизирует следующую функционал:
N
N
cmb
ln sij +
L(w) = max
w
i=1
cmb
ln(1 − sij )
i=1
Использование модели (w1 , . . . , wK ) для
комбинирования:
cmb
1
K
sij = P(rij = 1|sij , . . . , sij ) =
1
, где
1 + e −z
K
k
wk sij + w0 .
z=
k=1
Александр Панченко
77/108
Прило
78. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Модель комбинирования метрик
Рис. : Weights of the similarity measures used by the hybrid measure
Logit-E15. The weights were learnt on the BLESS dataset with 10-fold
cross validation repeated 10 times.
Александр Панченко
78/108
Прило
79. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Прило
Методы комбинирования с учителем
Машина Опорных Векторов (SVM), линейное ядро
Веса w и опорные вектора
SV :
αi yi xi .
w=
xi ∈SV
Использование модели
K
cmb
sij
T
k
wi sij +b.
= w x+b =
k=1
Александр Панченко
79/108
80. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Прило
Машина Опорных Векторов (SVM), линейное ядро
Geometrical margin is the distance to the closest data point:
ρ=
wT x − b
.
||w||
T
x−b
1
SVM maximizes the margin : ρ = w||w|| = ||w|| .
Result – a set of support vectors: SV = {x1 , . . . , xm }, where
yi ∈ {+1, −1} is the label.
Weight vector: w = xi ∈SV αi yi xi .
C -SVM optimizes the following function:
min
w,ξ,b
1
2
2 ||w||
+C
n
i=1 ξi
subject to yi (wT φ(xi )) ≥ 1 − ξi ,
ξi ≥ 0.
The function φ(x, x ) is called kernel.
Александр Панченко
80/108
(1)
81. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Какие из отдельных метрик следует комбинировать?
Количество возможных комбинаций
34:
16:
34
m
m=2 C34
16
m
m=2 C16
=
=
34
34!
m=2 m!(34−m)!
16
16!
m=2 m!(16−m)!
= 234 = 1.718 · 1010
= 65536
Экспертный выбор: 5, 9 и 15 метрик из 16
Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16
Анализ коэффициентов логистической регрессии: 12 из
16
Александр Панченко
81/108
Прило
84. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Результаты: базовые метрики, ранжирование отношний
Рис. : Графики Точность-Полнота (слева) 4х лучших метрик
основанных на корпусе, семантических сетях, определениях и
метрика, основанная на среднем значении 14 метрик; (слева)
метрики основанных на определениях Викисловаря и Википедии.
Александр Панченко
84/108
Прило
85. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Результаты: отдельные и комбинированные метрики
Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC,
RG, WordSim353 – корреляция с суждениями человека. BLESS, SN –
точность извлечения семантических отношений. Наилучшие значения в
группе (отдельные/комбинированные) обозначены полужирным шрифтом;
наилучшие значения обозначены серым цветом.
Александр Панченко
85/108
Прило
97. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Поиск и визуализация семантически связанных слов
Оценка качества работы системы Серелекс
Рис. : Удовлетворенность пользователей первыми 20 результатами
поиска для 594 запроса (23 ассесора и 109 пользователей).
Александр Панченко
97/108
Прило