Вычислительная лексическая семантика: метрики семантической близости и их приложения
Серия лекций в НИУ ВШЭ, факультет бизнес-информатики и прикладной математики (Нижний Новгород)
Вычислительная лексическая семантика: метрики семантической близости и их приложения
1. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Вычислительная лексическая
семантика: метрики семантической
близости и их приложения
Серия лекций в НИУ ВШЭ, факультет бизнес-информатики
и прикладной математики (Нижний Новгород)
Александр Панченко
Digital Society Laboratory & Universit´ catholique de Louvain
e
alexander.panchenko@uclouvain.be
4 декабря 2013 г.
Александр Панченко
1/108
Прило
2. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
2/108
Прило
3. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
3/108
Прило
4. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Введение
О себе
1
PhD (Natural Language Processing)
co-tutelle Universit´ catholique de Louvain и МГТУ им.
e
Н.Э.Баумана;
http://cental.fltr.ucl.ac.be/team/~panchenko/
alexander.panchenko@uclouvain.be
2
Старший исследователь в Digital Society Laboratory.
3
Ассоциированный исследователь в Universit´ catholique
e
de Louvain.
4
Область научных интересов – Natural Language Processing:
Вычислительная лексическая семантика.
Классификация (коротких) текстов.
АОТ для анализа социальных сетей.
Александр Панченко
4/108
Прило
5. Лексическая семантика
Обзор метрик
PatternSim
Вычислительная лексическая семантика
* рисунок адаптирован из курса Computational Linguistics LINGI2263
http://www.uclouvain.be/en-cours-2013-LINGI2263.html
Александр Панченко
5/108
HybridSim
Прило
6. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Введение в область лексической семантики
Jurafsky D. and Martin J.H. An Introduction to Natural
Language Processing, Computational Linguistics, and
Speech Recognition (2009), chapters 19,20, 22.
Cruys T. Mining for meaning: the extraction of
lexico-semantic knowledge from text (2010). PhD thesis.
http://dissertations.ub.rug.nl/faculties/arts/
2010/t.van.de.cruys/
Panchenko A. Similarity Measures for Semantic Relation
Extraction (2013) http:
//cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf
Введение в обработку текста. ИСП РАН, ВМК МГУ,
Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/
uploads/2011/10/lecture6-2013.pdf
Александр Панченко
6/108
Прило
13. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Семантические ресурсы: тезаурус
Рис. : The Eurovoc thesaurus: the term “energy industry” and its
semantic relations. Here, hypernyms are denoted with arrows and
associations are denoted with dashed lines.
Александр Панченко
13/108
Прило
17. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики семантической близости
Мотивация исследования
1
Метрики семантической близости полезны для:
ˇ
систем обработки коротких текстов (Saric et al., 2012;
Panchenko at., 2012);
расширешия поисковых запросов (Hsu et al., 2006);
вопросно-ответных систем (Sun et al., 2005);
разрешения омонимии (Patwardhan et al., 2003);
...
Лексико-семантическое знание о языке.
Вычислительная лексическая семантика.
Computational Lexical Semantics.
Александр Панченко
17/108
Прило
18. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики семантической близости
Определение
Метрика семантической близости численно выражает
семантическую связность слов ci и cj : sij = sim(ci , cj ):
sij =
велико
0
если ci , cj – пара syn, hyper , cohypo
иначе
Свойства
Неотрицательность: 0 ≤ sij ≤ 1;
Рефлективность: sij = 1 ⇔ ci = cj ;
Симметричность: sij = sji ;
sij ≤ sik + skj
Александр Панченко
18/108
Прило
20. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики семантической близости: распределение
Рис. : Number of relations (synonyms and hyponyms) per term in the
dictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and a
union of these three resources.
Александр Панченко
20/108
Прило
21. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Системы измерения семантической близости
Terms
Text-Based Data
C
Feature Extractor
F
Similarity Measure
Semantic Similarity Measure
Semantic Relation Extractor
S
Normalizer
S
kNN Procedure
R
Semantic Relations
Как построить систему с высокой точностью и лексическим
покрытием?
Александр Панченко
21/108
Прило
22. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Оценка качества метрики семантической близости
1
Корреляция с суждениями человека о сем. близости:
Статистики: корреляция Пирсона (ρ) и Спирмена (r ).
Проверочные данные: MC, RG, WordSim.
2
Ранжирование семантических отношений:
Точность, Полнота, F-мера.
Проверочные данные: BLESS, SN.
3
Точность извлечения семантических отношений:
Статистики: Точность@k.
Проверочные данные: аннотирование и/или тезаурусы.
4
Использование метрики в системе АОТ:
в системе классификации имен файлов (iCOP);
с системе поиска семантически связанных слов (Serelex).
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 1).
Александр Панченко
22/108
Прило
23. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Прило
Критерии, основанные на суждениях субъектов о
семантической близости
слово, ci
tiger
book
computer
...
possibility
sugar
слово, cj
cat
paper
keyboard
...
girl
approach
субъект, s
7.35
7.46
7.62
...
1.94
0.88
sim, s
0.85
0.95
0.81
...
0.25
0.05
субъект (ранг), r
1
2
3
...
64
65
Данные:
WordSim353 – 353 пар слов (Finkelstein, 2002)
MC – 30 пар слов (Miller Charles, 1991)
RG – 65 пар слов (Rubenstein Goodenough, 1965)
Коэффициент корреляции Пирсона: ρ =
Коэффициент корреляции Спирмена:: r
Александр Панченко
23/108
cov (s,ˆ)
s
σ(s)σ(ˆ)
s
cov (r,ˆ)
r
= σ(r)σ(ˆ)
r
sim (ранг), ˆ
r
3
2
1
...
65
23
25. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Критерии, основанные на суждениях субъектов о
семантической близости
Рис. : Ранговая корреляция Спирмена на наборе данных
Miller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляция
случайных данных -0.173 (p=0.360).
Александр Панченко
25/108
Прило
26. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Критерии точности извлечения отношений
слово, ci
judge
judge
judge
judge
judge
judge
...
judge
judge
judge
слово, cj
adjudicate
arbitrate
asessor
chancellor
gendarmerie
sheriff
...
pc
fare
lemon
тип отношения, t
syn
syn
syn
syn
syn
syn
...
random
random
random
Данные:
BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper,
coord, mero, event, attri, random)
SN (Panchenko, 2012) – 14682 отношений (syn, random)
Александр Панченко
26/108
Прило
27. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Критерии точности извлечения отношений
Основаны на количестве правильно отранжированных
отношений.
R – все семантические отношения, не являющиеся
случайными ( animal , random, bishop и т.п.)
ˆ
R(k) множество извлеченных отношений при количестве
ближайших соседей k
Критерии
ˆ
Точность: P(k) = |R∩R(k)| ,
ˆ
|R(k)|
ˆ
Полнота: R(k) = |R∩R(k)| ,
|R|
F1-мера: F (k) = 2 ·
P(k)·R(k)
P(k)+R(k) ,
Мы используем P(10), P(20), P(50), R(50).
Александр Панченко
27/108
Прило
28. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Пример: оценка точности извлечения отношений
Точность P(k = 50) =
слово, ci
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
1
7
≈ 0.86
слово, cj
enthusiast
fan
admirer
addict
devotee
foundling
fanatic
adherent
capital
statute
blot
meddler
enlargement
bawdyhouse
Александр Панченко
тип отношения
syn
syn
syn
syn
syn
random
syn
syn
random
random
random
random
random
random
28/108
sij
0.07197
0.05195
0.01964
0.01326
0.01163
0.00777
0.00414
0.00353
0.00232
0.00029
0.00025
0.00005
0.00003
0.00000
Прило
29. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
29/108
Прило
30. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Обзор метрик семантической близости
Публикации
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013: Chapters 2.1, 3.1.
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
ACL Anthology / Google Scholar: “semantic similarity
measure”, “semantic similarity”.
Александр Панченко
30/108
Прило
31. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Обзор метрик семантической близости
Публикации (анализ 37 базовых метрик):
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 3).
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
Александр Панченко
31/108
Прило
32. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на семантической сети
Данные: семантическая сеть WordNet 3.0, корпус SemCor.
Переменные:
len(ci , cj ) – длина кратчайшего пути между ci и cj
len(ci , lcs(ci , cj )) – длина кратчайшего пути от ci до
ближайшего общего предка (БОП) слов ci и cj
Ближайший Общий Предок (БОП) – Lowest Common
Subsumers (LCS)
len(croot , lcs(ci , cj )) – длина кратчайшего пути от корня
croot до БОП слов ci и cj (глубина БОП)
P(c) – вероятность слова c, оцененная из корпуса
P(lcs(ci , cj )) – вероятность БОП слов ci и cj
Метрики: Инвертированная длина пути, Leacock-Chodorow,
Wu-Palmer, Resnik, Jiang-Conrath, Lin.
Александр Панченко
32/108
Прило
36. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на семантической сети
Инструменты:
WordNet::Similarity tool (Perl, command-line):
http://wn-similarity.sourceforge.net/
NTLK (Python): http://nltk.org
Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html
Александр Панченко
36/108
Прило
37. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на Веб корпусе текстов
Данные: количество документов возвращенных ИПС: Google,
Yahoo, AltaVista, Bing, и т.п.
Переменные:
hi – количество документов возвращенных по запросу
слова ”ci ”
hij – количество документов возвращенных по запросу
”ci AND cj ”
Метрики:
Normalized Google Distance (NGD) (Cilibrasi and Vitanyi,
2007)
Pointwise Mutual Information - Information Retrieval (PMI-IR)
(Turney, 2001)
Александр Панченко
37/108
Прило
39. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на Веб корпусе текстов
Normalized Google Distance (NGD):
sij =
max(log (hi ), log (hj )) − log (hij )
log (M) − min(log (hi ), log (hj ))
Pointwise Mutual Information Information Retrieval
(PMIIR):
P(ci , cj )
sij = log
= log
P(ci )P(cj )
hij
i ,j
Александр Панченко
39/108
≈ log
hj
hi
i ,j
hij
hij
i ,j
hij
hij
.
hi hj
Прило
40. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Дистрибутивные метрики
Данные: корпус, такой как Википедия или ukWaC
Метрики:
Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006)
Syntactic Distributional Analysis (SDA) (Curran, 2003)
Александр Панченко
40/108
Прило
41. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Дистрибутивные метрики
Переменные:
fi – вектор признаков представляющий слово ci ,
основанный на контекстном окне
fis – вектор признаков представляющий слово ci ,
основанный на синтаксическом контекстном окне
Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)
Александр Панченко
41/108
Прило
42. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Другие метрики, основанные на корпусе текстов
Данные: корпус, такой как Википедия или ukWaC
Метрики:
Латентно-cемантический анализ (LSA) (Landauer and
Dumais, 1997)
Вероятностные модели (pLSA, LDA и др.) (Griffiths et al.,
2007)
NGD и PMI-IR (Veksler et al., 2008)
...
Александр Панченко
42/108
Прило
43. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Латентно-семантический анализ
Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997):
1 Representing the corpus D as an N × M term-document
matrix F.
2 Normalization of the matrix F with TF-IDF:
fij
|D|
fij =
,
· log
|d ∈ D : wi ∈ d |
i fij
3
4
5
Singular value decomposition of D: D = UΣVT .
Low-rank approximation of the matrix U with a reduced M × k
matrix Uk by retaining only the first k column of the U.
Calculation of similarities between terms ci and cj as a cosine
between respective columns of Uk (uk and uk ):
i
i
sij =
Александр Панченко
uk · uk
i
j
||uk ||||uk ||
i
j
43/108
.
Прило
44. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Латентно-семантический анализ
U is an M × M matrix which columns are the orthogonal
eigenvectors of DDT
VT is an N × N matrix which columns are the orthogonal
eigenvectors of DT D
Σ is an M × N diagonal matrix:
σ11 . . . 0
.
. .
..
.
Σ= .
.
.
.
0 · · · σnn
√
The i-th element on the diagonal σii = λi , where λi is an
eigenvalue of DDT .
The eigenvalues are ordered, such that λi ≥ λi+1 .
Источник: Manning et al. Introduction to information retrieval (2008), p.374.
Александр Панченко
44/108
Прило
46. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на определениях
Данные: определения из WordNet, Википедии, Викисловаря
или любого другого словаря.
Переменные:
gloss(ci ) – определение слова ci ;
fi вектор признаков, построенный из gloss(ci );
fi – вектор признаков ci , вычисленный на корпусе из всех
определений методом контекстного окна;
exist(ci , cj ) – наличие связи между ci и cj в словаре.
Метрики:
ExtendedLesk (Banerjee and Pedersen, 2003)
GlossVectors (Patwardhan and Pedersen, 2006)
DefVectors (Panchenko et al., 2012)
Александр Панченко
46/108
Прило
47. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на определениях: Extended Lesk
relies on the gloss similarity of terms ci and cj
relies on gloss similarity of all terms related to ci and cj
sij =
simg (ci , cj ),
ci ∈Ci cj ∈Cj
simg is a gloss-based similarity measure and set Ci includes
concept ci and all concepts directly related to it.
Александр Панченко
47/108
Прило
48. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Метрики, основанные на определениях: GlossVectors
a cosine between vectors vi and vj representing concepts ci
and cj
a vector vi is a sum of context vectors representing all words
from the definition of ci and the definitions of terms related to
ci :
sij =
vi · vj
where vi =
||vi ||||vj ||
fj .
∀j:cj ∈Gi
fj is a context vector, derived from the corpus of all glosses
Gi is concatenation of glosses of the concept ci and all
concepts which are directly related to it.
Александр Панченко
48/108
Прило
52. Лексическая семантика
Обзор метрик
PatternSim
Резюме
Основные ресурсы для построения метрик:
семантические сети и тезаурусы;
корпуса текстов;
Веб корпус текстов;
определения из словарей и энциклопедий.
Метрики дополняют друг друга в терминах:
лексического покрытия;
точности;
типов извлекаемых отношений.
Александр Панченко
52/108
HybridSim
Прило
54. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
54/108
Прило
55. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Публикации
Hearst, M. A. Automatic acquisition of hyponyms from large
text corpora. In ACL, pages 539–545, 1992.
Panchenko A., Morozova O., Naets H. A Semantic
Similarity Measure Based on Lexico-Syntactic Patterns.
In Proceedings of KONVENS 2012, pp.174–178, 2012
Panchenko A., Romanov P., Morozova O., Naets H.,
Philippovich A., Fairon C. Serelex: Search and Visualization
of Semantically Related Words. In Proceedings of the 35th
European Conference on Information Retrieval (ECIR 2013).
Панченко А., Романов П., Романов А., Филиппович А.,
Филиппович Ю., Морозова О. Серелекс: поиск и
визуализация семантически связанных слов. Анализ
Изображений, Сетей и Текстов (АИСТ), Интуит, 2013
Александр Панченко
55/108
Прило
59. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Пример реализации паттерна в виде автомата
Паттерны, основанные на автоматах позволяют учесть
лингвистическую вариацию, сохранив точность
В отличие от паттернов основанных на строках (Bollegala
et al., 2007)
Александр Панченко
59/108
Прило
60. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
PatternSim: основные этапы
Паттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},
{[engineers]} and {[scientists]}[PATTERN=1]
such {non-alcoholic [sodas]} as {[root beer]} and
{[cream soda]}[PATTERN=1]
{traditional[food]}, such as
{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]
Александр Панченко
60/108
Прило
61. Лексическая семантика
Обзор метрик
PatternSim
PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов
Количество извлечений
Wikipedia – 1.196.468
ukWaC – 2.227.025
WaCypedia+ukWaC – 3.423.493
Александр Панченко
61/108
HybridSim
Прило
63. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Вычисление подобия: rerank
Efreq: мера подобия равна количеству извлеченных
отношений
sij = sij
Efreq-Cfreq: нормализация по частоте слов
sij =
eij
P(ci , cj ) =
ij
eij
P(ci , cj )
P(ci )P(cj )
– вероятность извлечения отношения
ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i
Александр Панченко
63/108
Прило
64. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Вычисление подобия:
Efreq-Rnum-Cfreq-Pnum:
sij =
P(ci , cj ) =
√
eij
ij
eij
pij ·
P(ci , cj )
2 · µb
·
.
bi∗ + b∗j P(ci )P(cj )
– вероятность извлечения отношения
ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i
bi∗ = j:eij ≥β 1 – количество извлечений слова ci с
|C |
1
частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество
извлечений для отдельного слова
pij ∈ [1; 18] – количество отдельных паттернов которые
извлекли отношение ci , cj
Александр Панченко
64/108
Прило
68. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Поиск и визуализация семантически связанных слов
Классификация коротких текстов
Александр Панченко
68/108
Прило
69. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Публикациии
Panchenko A., Morozova O. A Study of Hybrid Similarity
Measures for Semantic Relation Extraction. // Innovative
Hybrid Approaches to the Processing of Textual Data
Workshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 4).
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp.
29–42.
Александр Панченко
69/108
Прило
70. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Отдельные и гибридные метрики
(a) Terms, C
Si
knn
Relations, R
Terms, C
sim1
...
simN
...
norm
S1
norm
SN
S1
SN
combination method
Scmb
norm
Hybrid Similarity Measure
Features
Si
norm
Single Similarity Measure
simi
(b)
Scmb
knn
Relations, R
Рис. : Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.
Александр Панченко
70/108
Прило
71. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:
1
2
3
4
5
WuPalmer;
Leacock and Chodorow;
Resnik;
Jiang and Conrath;
Lin.
3 метрики, основанные на Веб корпусе
(NGD-Yahoo/Bing/Google);
5 метрики, основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)
1 лексико-синтаксические шаблоны (PatternSim)
2 другие (LSA, NGD-Factiva)
3 метрики, основанные на определениях
1
2
3
ExtendedLesk;
GlossVectors;
DefVectors-WktWiki.
Александр Панченко
71/108
Прило
72. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования без учителя
k
sij ∈ [0; 1] – попарное семантическое подобие слов wi и wj ,
вычисленное с помощью k-й метрики Sk .
Mean
Среднее между K попарными подобиями слов:
cmb
sij =
1
K
k
sij ;
k=1,K
Mean-Nnz
Среднее между K попарными подобиями слов больше нуля:
cmb
sij =
|k :
k
sij
1
k
sij ;
> 0, k = 1, K | k=1,K
Александр Панченко
72/108
Прило
73. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования без учителя
Mean-Zscore
Среднее между нормированными попарными подобиями слов
(Z-score):
Scmb =
1
K
K
k=1
Sk − µk
;
σk
где µk и σk среднее и стандартное отклонение значений k-й
метрики (Sk ).
Median
Медиана между K попарными подобиями слов:
cmb
1
K
sij = median(sij , . . . , sij ).
Александр Панченко
73/108
Прило
74. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования без учителя
Max
Максимум между K попарными подобиями слов:
K
1
cmb
sij = max(sij , . . . , sij );
RankFusion
Среднее между рангами слов:
cmb
sij =
1
K
k
rij .
k=1,K
k
где rij – ранк, соответствующий значению попарного подобия
k
sij .
Александр Панченко
74/108
Прило
75. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования метрик подобия
RelationFusion
Объединение отношений, извлеченных каждым методом.
Отношения, извлеченные несколькими метриками, надежнее.
1
2
3
4
5
Input: Матрицы подобия, сгенерированные K метриками
{S1 , . . . , SK }, количество ближайших соседей k
Output: Комбинированная матрица подобия, Scmb
for i=1,N do
Ri ← knn(Si , k) ;
Ri ← relation_matrix(Ri )
1
Scmb ← N N Ri ;
i=1
return Scmb ;
relation_matrix : rij =
Александр Панченко
1
0
75/108
if ci , cj ∈ Rk
else
Прило
76. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Бинарная логистическая регрессия;
Положительные обучающие примеры – синонимы,
гиперонимы, ко-гипонимы из BLESS/SN;
Отрицательные обучающие примеры – случайные
пары семантически несвязных слов из BLESS/SN;
Отношение ci , t, cj ∈ R представлено с помощью
1
N
вектора попарных близостей: x = (sij , . . . , sij ), N = 2, 16;
Категория yij :
yij =
0
1
если ci , t, cj случайное отношение
иначе
Александр Панченко
76/108
Прило
77. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Logit максимизирует следующую функционал:
N
N
cmb
ln sij +
L(w) = max
w
i=1
cmb
ln(1 − sij )
i=1
Использование модели (w1 , . . . , wK ) для
комбинирования:
cmb
1
K
sij = P(rij = 1|sij , . . . , sij ) =
1
, где
1 + e −z
K
k
wk sij + w0 .
z=
k=1
Александр Панченко
77/108
Прило
78. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Модель комбинирования метрик
Рис. : Weights of the similarity measures used by the hybrid measure
Logit-E15. The weights were learnt on the BLESS dataset with 10-fold
cross validation repeated 10 times.
Александр Панченко
78/108
Прило
79. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Прило
Методы комбинирования с учителем
Машина Опорных Векторов (SVM), линейное ядро
Веса w и опорные вектора
SV :
αi yi xi .
w=
xi ∈SV
Использование модели
K
cmb
sij
T
k
wi sij +b.
= w x+b =
k=1
Александр Панченко
79/108
80. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Прило
Машина Опорных Векторов (SVM), линейное ядро
Geometrical margin is the distance to the closest data point:
ρ=
wT x − b
.
||w||
T
x−b
1
SVM maximizes the margin : ρ = w||w|| = ||w|| .
Result – a set of support vectors: SV = {x1 , . . . , xm }, where
yi ∈ {+1, −1} is the label.
Weight vector: w = xi ∈SV αi yi xi .
C -SVM optimizes the following function:
min
w,ξ,b
1
2
2 ||w||
+C
n
i=1 ξi
subject to yi (wT φ(xi )) ≥ 1 − ξi ,
ξi ≥ 0.
The function φ(x, x ) is called kernel.
Александр Панченко
80/108
(1)
81. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Какие из отдельных метрик следует комбинировать?
Количество возможных комбинаций
34:
16:
34
m
m=2 C34
16
m
m=2 C16
=
=
34
34!
m=2 m!(34−m)!
16
16!
m=2 m!(16−m)!
= 234 = 1.718 · 1010
= 65536
Экспертный выбор: 5, 9 и 15 метрик из 16
Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16
Анализ коэффициентов логистической регрессии: 12 из
16
Александр Панченко
81/108
Прило
84. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Результаты: базовые метрики, ранжирование отношний
Рис. : Графики Точность-Полнота (слева) 4х лучших метрик
основанных на корпусе, семантических сетях, определениях и
метрика, основанная на среднем значении 14 метрик; (слева)
метрики основанных на определениях Викисловаря и Википедии.
Александр Панченко
84/108
Прило
85. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Результаты: отдельные и комбинированные метрики
Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC,
RG, WordSim353 – корреляция с суждениями человека. BLESS, SN –
точность извлечения семантических отношений. Наилучшие значения в
группе (отдельные/комбинированные) обозначены полужирным шрифтом;
наилучшие значения обозначены серым цветом.
Александр Панченко
85/108
Прило
97. Лексическая семантика
Обзор метрик
PatternSim
HybridSim
Поиск и визуализация семантически связанных слов
Оценка качества работы системы Серелекс
Рис. : Удовлетворенность пользователей первыми 20 результатами
поиска для 594 запроса (23 ассесора и 109 пользователей).
Александр Панченко
97/108
Прило