Вычислительная лексическая семантика: метрики семантической близости и их приложения

Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычислительная лексическая
семантика: метрики семантической
близости и их приложения
Серия лекций в НИУ ВШЭ, факультет бизнес-информатики
и прикладной математики (Нижний Новгород)

Александр Панченко
Digital Society Laboratory & Universit´ catholique de Louvain
e
alexander.panchenko@uclouvain.be

4 декабря 2013 г.

1/108

Прило



PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов


2/108

Прило



PatternSim

HybridSim

План



3/108

Прило



PatternSim

HybridSim

Введение
О себе
1

PhD (Natural Language Processing)
co-tutelle Universit´ catholique de Louvain и МГТУ им.
e
Н.Э.Баумана;
http://cental.fltr.ucl.ac.be/team/~panchenko/
alexander.panchenko@uclouvain.be

2

Старший исследователь в Digital Society Laboratory.

3

Ассоциированный исследователь в Universit´ catholique
e
de Louvain.

4

Область научных интересов – Natural Language Processing:
Вычислительная лексическая семантика.
Классификация (коротких) текстов.
АОТ для анализа социальных сетей.

4/108

Прило



PatternSim

Вычислительная лексическая семантика

* рисунок адаптирован из курса Computational Linguistics LINGI2263
http://www.uclouvain.be/en-cours-2013-LINGI2263.html

5/108

HybridSim

Прило



PatternSim

HybridSim

Введение в область лексической семантики
Jurafsky D. and Martin J.H. An Introduction to Natural
Language Processing, Computational Linguistics, and
Speech Recognition (2009), chapters 19,20, 22.
Cruys T. Mining for meaning: the extraction of
lexico-semantic knowledge from text (2010). PhD thesis.
http://dissertations.ub.rug.nl/faculties/arts/
2010/t.van.de.cruys/
Panchenko A. Similarity Measures for Semantic Relation
Extraction (2013) http:
//cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf
Введение в обработку текста. ИСП РАН, ВМК МГУ,
Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/
uploads/2011/10/lecture6-2013.pdf

6/108

Прило



PatternSim

HybridSim

Семантические отношения

Рис. : Семантический ресурс из 29 отношений.

7/108

Прило



PatternSim

HybridSim

Семантические отношения: типы

Рис. : Семантический ресурс с (a) типизированными и (b)
нетипизированными отношениями.

8/108

Прило



PatternSim



9/108

HybridSim

Прило



PatternSim



10/108

HybridSim

Прило



PatternSim

HybridSim

Семантические отношения: выразительность

Рис. : Выразительность различных моделей представления
семантичеких ресурсов.


11/108

Прило



PatternSim

HybridSim

Семантические ресурсы: таксонония

Рис. : A part of the taxonomy of economical activities NACE.


12/108

Прило



PatternSim

HybridSim

Семантические ресурсы: тезаурус

Рис. : The Eurovoc thesaurus: the term “energy industry” and its
semantic relations. Here, hypernyms are denoted with arrows and
associations are denoted with dashed lines.


13/108

Прило



PatternSim

HybridSim

Семантические ресурсы: лексическая база данных

Рис. : Lexical database WordNet: synset engineer and its semantic
relations.


14/108

Прило



PatternSim

HybridSim

Семантические ресурсы: онтология

Рис. : SUMO upper ontology: a part of the class hierarchy.

15/108

Прило



PatternSim

HybridSim

Извлечение семантических отношений из текста


16/108

Прило



PatternSim

HybridSim

Метрики семантической близости
Мотивация исследования
1

Метрики семантической близости полезны для:
ˇ
систем обработки коротких текстов (Saric et al., 2012;
Panchenko at., 2012);
расширешия поисковых запросов (Hsu et al., 2006);
вопросно-ответных систем (Sun et al., 2005);
разрешения омонимии (Patwardhan et al., 2003);
...

Лексико-семантическое знание о языке.
Вычислительная лексическая семантика.
Computational Lexical Semantics.

17/108

Прило



PatternSim

HybridSim

Метрики семантической близости
Определение
Метрика семантической близости численно выражает
семантическую связность слов ci и cj : sij = sim(ci , cj ):
sij =

велико
0

если ci , cj – пара syn, hyper , cohypo
иначе

Свойства
Неотрицательность: 0 ≤ sij ≤ 1;
Рефлективность: sij = 1 ⇔ ci = cj ;
Симметричность: sij = sji ;
sij ≤ sik + skj

18/108

Прило



PatternSim

HybridSim

Метрики семантической близости: распределение
Малое количество подобных пар: sij ∼ exp(λ).

Распределение сем. близости слова “doctor”:


19/108

Прило



PatternSim

HybridSim

Метрики семантической близости: распределение

Рис. : Number of relations (synonyms and hyponyms) per term in the
dictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and a
union of these three resources.

20/108

Прило



PatternSim

HybridSim

Системы измерения семантической близости
Terms

Text-Based Data

C
Feature Extractor
F
Similarity Measure

Semantic Similarity Measure
Semantic Relation Extractor

S
Normalizer
S
kNN Procedure
R

Semantic Relations

Как построить систему с высокой точностью и лексическим
покрытием?

21/108

Прило



PatternSim

HybridSim

Оценка качества метрики семантической близости
1

Корреляция с суждениями человека о сем. близости:
Статистики: корреляция Пирсона (ρ) и Спирмена (r ).
Проверочные данные: MC, RG, WordSim.

2

Ранжирование семантических отношений:
Точность, Полнота, F-мера.
Проверочные данные: BLESS, SN.

3

Точность извлечения семантических отношений:
Статистики: Точность@k.
Проверочные данные: аннотирование и/или тезаурусы.

4

Использование метрики в системе АОТ:
в системе классификации имен файлов (iCOP);
с системе поиска семантически связанных слов (Serelex).

Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 1).

22/108

Прило



PatternSim

HybridSim

Прило

Критерии, основанные на суждениях субъектов о
семантической близости
слово, ci
tiger
book
computer
...
possibility
sugar

слово, cj
cat
paper
keyboard
...
girl
approach

субъект, s
7.35
7.46
7.62
...
1.94
0.88

sim, s
0.85
0.95
0.81
...
0.25
0.05

субъект (ранг), r
1
2
3
...
64
65

Данные:
WordSim353 – 353 пар слов (Finkelstein, 2002)
MC – 30 пар слов (Miller Charles, 1991)
RG – 65 пар слов (Rubenstein Goodenough, 1965)
Коэффициент корреляции Пирсона: ρ =
Коэффициент корреляции Спирмена:: r

23/108

cov (s,ˆ)
s
σ(s)σ(ˆ)
s
cov (r,ˆ)
r
= σ(r)σ(ˆ)
r

sim (ранг), ˆ
r
3
2
1
...
65
23



PatternSim

HybridSim



24/108

Прило



PatternSim

HybridSim


Рис. : Ранговая корреляция Спирмена на наборе данных
Miller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляция
случайных данных -0.173 (p=0.360).

25/108

Прило



PatternSim

HybridSim

Критерии точности извлечения отношений
слово, ci
judge
judge
judge
judge
judge
judge
...
judge
judge
judge

слово, cj
adjudicate
arbitrate
asessor
chancellor
gendarmerie
sheriﬀ
...
pc
fare
lemon

тип отношения, t
syn
syn
syn
syn
syn
syn
...
random
random
random

Данные:
BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper,
coord, mero, event, attri, random)
SN (Panchenko, 2012) – 14682 отношений (syn, random)

26/108

Прило



PatternSim

HybridSim

Критерии точности извлечения отношений
Основаны на количестве правильно отранжированных
отношений.
R – все семантические отношения, не являющиеся
случайными ( animal , random, bishop и т.п.)
ˆ
R(k) множество извлеченных отношений при количестве
ближайших соседей k
Критерии
ˆ

Точность: P(k) = |R∩R(k)| ,
ˆ
|R(k)|
ˆ

Полнота: R(k) = |R∩R(k)| ,
|R|
F1-мера: F (k) = 2 ·

P(k)·R(k)
P(k)+R(k) ,

Мы используем P(10), P(20), P(50), R(50).

27/108

Прило



PatternSim

HybridSim

Пример: оценка точности извлечения отношений
Точность P(k = 50) =
слово, ci
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado

1
7

≈ 0.86

слово, cj
enthusiast
fan
admirer
addict
devotee
foundling
fanatic
adherent
capital
statute
blot
meddler
enlargement
bawdyhouse


тип отношения
syn
syn
syn
syn
syn
random
syn
syn
random
random
random
random
random
random
28/108

sij
0.07197
0.05195
0.01964
0.01326
0.01163
0.00777
0.00414
0.00353
0.00232
0.00029
0.00025
0.00005
0.00003
0.00000

Прило



PatternSim

HybridSim

План



29/108

Прило



PatternSim

HybridSim

Обзор метрик семантической близости

Публикации
e
pages, 2013: Chapters 2.1, 3.1.
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
ACL Anthology / Google Scholar: “semantic similarity
measure”, “semantic similarity”.


30/108

Прило



PatternSim

HybridSim

Обзор метрик семантической близости

Публикации (анализ 37 базовых метрик):
e
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.

31/108

Прило



PatternSim

HybridSim

Метрики, основанные на семантической сети
Данные: семантическая сеть WordNet 3.0, корпус SemCor.
Переменные:
len(ci , cj ) – длина кратчайшего пути между ci и cj
len(ci , lcs(ci , cj )) – длина кратчайшего пути от ci до
ближайшего общего предка (БОП) слов ci и cj
Ближайший Общий Предок (БОП) – Lowest Common
Subsumers (LCS)
len(croot , lcs(ci , cj )) – длина кратчайшего пути от корня
croot до БОП слов ci и cj (глубина БОП)
P(c) – вероятность слова c, оцененная из корпуса
P(lcs(ci , cj )) – вероятность БОП слов ci и cj
Метрики: Инвертированная длина пути, Leacock-Chodorow,
Wu-Palmer, Resnik, Jiang-Conrath, Lin.

32/108

Прило



PatternSim

HybridSim

Lowest common subsumer (LCS)

Рис. : Ближайшие общие предки в семантической сети.

(car , food ) → object
(beef , pork) → meat
(pork, coupe) → object
(vegetable, pork) → food

33/108

Прило



PatternSim

HybridSim

Инвертированная длина пути:
sij = len(ci , cj )−1 .
LeacockChodorow:
sij = − log

len(ci , cj )
.
2h

Resnik:
sij = − log P(cij ).
JiangConrath:
dij = 2 log P(cij ) − (log P(ci ) + log P(cj )).

34/108

Прило



PatternSim

HybridSim


Lin:
sij =

2 log(P(cij ))
log(P(ci ) + log(P(cj ))

WuPalmer:
sij =

2len(cr , cij )
len(ci , cij ) + len(cj , cij ) + 2 · len(cr , cij )


35/108

Прило



PatternSim

HybridSim

Инструменты:
WordNet::Similarity tool (Perl, command-line):
http://wn-similarity.sourceforge.net/
NTLK (Python): http://nltk.org

Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html

36/108

Прило



PatternSim

HybridSim

Метрики, основанные на Веб корпусе текстов
Данные: количество документов возвращенных ИПС: Google,
Yahoo, AltaVista, Bing, и т.п.
hi – количество документов возвращенных по запросу
слова ”ci ”
hij – количество документов возвращенных по запросу
”ci AND cj ”
Метрики:
Normalized Google Distance (NGD) (Cilibrasi and Vitanyi,
2007)
Pointwise Mutual Information - Information Retrieval (PMI-IR)
(Turney, 2001)

37/108

Прило



PatternSim

Веб-метрики: пример


38/108

HybridSim

Прило



PatternSim

HybridSim

Метрики, основанные на Веб корпусе текстов

Normalized Google Distance (NGD):
sij =

max(log (hi ), log (hj )) − log (hij )
log (M) − min(log (hi ), log (hj ))

Pointwise Mutual Information Information Retrieval
(PMIIR):
P(ci , cj )
sij = log
= log
P(ci )P(cj )

hij
i ,j


39/108

≈ log

hj

hi
i ,j

hij

hij

i ,j

hij

hij
.
hi hj

Прило



PatternSim

HybridSim

Дистрибутивные метрики
Данные: корпус, такой как Википедия или ukWaC

Метрики:
Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006)
Syntactic Distributional Analysis (SDA) (Curran, 2003)


40/108

Прило



PatternSim

HybridSim

Дистрибутивные метрики
fi – вектор признаков представляющий слово ci ,
основанный на контекстном окне
fis – вектор признаков представляющий слово ci ,
основанный на синтаксическом контекстном окне

Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)

41/108

Прило



PatternSim

HybridSim

Другие метрики, основанные на корпусе текстов

Данные: корпус, такой как Википедия или ukWaC
Метрики:
Латентно-cемантический анализ (LSA) (Landauer and
Dumais, 1997)
Вероятностные модели (pLSA, LDA и др.) (Griﬃths et al.,
2007)
NGD и PMI-IR (Veksler et al., 2008)
...


42/108

Прило



PatternSim

HybridSim

Латентно-семантический анализ
Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997):
1 Representing the corpus D as an N × M term-document
matrix F.
2 Normalization of the matrix F with TF-IDF:
fij
|D|
fij =
,
· log
|d ∈ D : wi ∈ d |
i fij
3
4
5

Singular value decomposition of D: D = UΣVT .
Low-rank approximation of the matrix U with a reduced M × k
matrix Uk by retaining only the ﬁrst k column of the U.
Calculation of similarities between terms ci and cj as a cosine
between respective columns of Uk (uk and uk ):
i
i
sij =

uk · uk
i
j
||uk ||||uk ||
i
j
43/108

.

Прило



PatternSim

HybridSim

U is an M × M matrix which columns are the orthogonal
eigenvectors of DDT
VT is an N × N matrix which columns are the orthogonal
eigenvectors of DT D
Σ is an M × N diagonal matrix:


σ11 . . . 0
 .
. .
..
. 
Σ= .
.
.
.
0 · · · σnn
√
The i-th element on the diagonal σii = λi , where λi is an
eigenvalue of DDT .
The eigenvalues are ordered, such that λi ≥ λi+1 .
Источник: Manning et al. Introduction to information retrieval (2008), p.374.

44/108

Прило



PatternSim


Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)


45/108

HybridSim

Прило



PatternSim

HybridSim

Метрики, основанные на определениях
Данные: определения из WordNet, Википедии, Викисловаря
или любого другого словаря.
gloss(ci ) – определение слова ci ;
fi вектор признаков, построенный из gloss(ci );
fi – вектор признаков ci , вычисленный на корпусе из всех
определений методом контекстного окна;
exist(ci , cj ) – наличие связи между ci и cj в словаре.
Метрики:
ExtendedLesk (Banerjee and Pedersen, 2003)
GlossVectors (Patwardhan and Pedersen, 2006)
DefVectors (Panchenko et al., 2012)

46/108

Прило



PatternSim

HybridSim

Метрики, основанные на определениях: Extended Lesk

relies on the gloss similarity of terms ci and cj
relies on gloss similarity of all terms related to ci and cj
sij =

simg (ci , cj ),
ci ∈Ci cj ∈Cj

simg is a gloss-based similarity measure and set Ci includes
concept ci and all concepts directly related to it.


47/108

Прило



PatternSim

HybridSim

Метрики, основанные на определениях: GlossVectors
a cosine between vectors vi and vj representing concepts ci
and cj
a vector vi is a sum of context vectors representing all words
from the deﬁnition of ci and the deﬁnitions of terms related to
ci :
sij =

vi · vj
where vi =
||vi ||||vj ||

fj .
∀j:cj ∈Gi

fj is a context vector, derived from the corpus of all glosses
Gi is concatenation of glosses of the concept ci and all
concepts which are directly related to it.


48/108

Прило



PatternSim

HybridSim

Сравнение базовых метрик семантической близости


49/108

Прило



PatternSim

HybridSim

Сравнение базовых метрик семантической близости


50/108

Прило



PatternSim

HybridSim

Сравнение: лучшие базовые метрики

Каждая метрика излекает много ко-гипонимов:
Canon, Nikon ,
Lamborghini, Ferrari ,
Obama, Romney .

51/108

Прило



PatternSim

Резюме
Основные ресурсы для построения метрик:
семантические сети и тезаурусы;
корпуса текстов;
Веб корпус текстов;
определения из словарей и энциклопедий.
Метрики дополняют друг друга в терминах:
лексического покрытия;
точности;
типов извлекаемых отношений.

52/108

HybridSim

Прило



PatternSim

HybridSim

Программное обеспечение
Semantic Vectors:
https://code.google.com/p/semanticvectors/
S-Space Package:
https://code.google.com/p/airhead-research/
WordNet::Similarity:
http://wn-similarity.sourceforge.net
NLTK: http://nltk.googlecode.com/svn/trunk/doc/
howto/wordnet.html
WikiRelate!
PatternSim / Serelex: http://serelex.cental.be
Метрики, основанные на Веб корпусе:
http://cwl-projects.cogsci.rpi.edu/msr
LSA: http://lsa.colorado.edu
DefVectors: http://github.com/jgc128/defvectors

53/108

Прило



PatternSim

HybridSim

План



54/108

Прило



PatternSim

HybridSim

Публикации
Hearst, M. A. Automatic acquisition of hyponyms from large
text corpora. In ACL, pages 539–545, 1992.
Panchenko A., Morozova O., Naets H. A Semantic
Similarity Measure Based on Lexico-Syntactic Patterns.
In Proceedings of KONVENS 2012, pp.174–178, 2012
Panchenko A., Romanov P., Morozova O., Naets H.,
Philippovich A., Fairon C. Serelex: Search and Visualization
of Semantically Related Words. In Proceedings of the 35th
European Conference on Information Retrieval (ECIR 2013).
Панченко А., Романов П., Романов А., Филиппович А.,
Филиппович Ю., Морозова О. Серелекс: поиск и
визуализация семантически связанных слов. Анализ
Изображений, Сетей и Текстов (АИСТ), Интуит, 2013

55/108

Прило



PatternSim

Демо
http://serelex.cental.be/


56/108

HybridSim

Прило



PatternSim

HybridSim

Лексико-синтаксические паттерны

18 паттернов извлекающих гиперонимы, ко-гипонимы и
синонимы


57/108

Прило



PatternSim

HybridSim

Основной каскад преобразователей
Каскад конечных автоматов (FST)
В формате Unitex: http://igm.univ-mlv.fr/~unitex/


58/108

Прило



PatternSim

HybridSim

Пример реализации паттерна в виде автомата

Паттерны, основанные на автоматах позволяют учесть
лингвистическую вариацию, сохранив точность
В отличие от паттернов основанных на строках (Bollegala
et al., 2007)

59/108

Прило



PatternSim

HybridSim

PatternSim: основные этапы

Паттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},
{[engineers]} and {[scientists]}[PATTERN=1]
such {non-alcoholic [sodas]} as {[root beer]} and
{[cream soda]}[PATTERN=1]
{traditional[food]}, such as
{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]


60/108

Прило



PatternSim

PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов

Количество извлечений
Wikipedia – 1.196.468
ukWaC – 2.227.025
WaCypedia+ukWaC – 3.423.493


61/108

HybridSim

Прило



PatternSim

HybridSim

Метрика семантической близости PatternSim


62/108

Прило



PatternSim

HybridSim

Вычисление подобия: rerank
Efreq: мера подобия равна количеству извлеченных
отношений
sij = sij
Efreq-Cfreq: нормализация по частоте слов
sij =
eij

P(ci , cj ) =

ij

eij

P(ci , cj )
P(ci )P(cj )

– вероятность извлечения отношения

ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i


63/108

Прило



PatternSim

HybridSim

Вычисление подобия:
Efreq-Rnum-Cfreq-Pnum:
sij =
P(ci , cj ) =

√

eij
ij

eij

pij ·

P(ci , cj )
2 · µb
·
.
bi∗ + b∗j P(ci )P(cj )

– вероятность извлечения отношения

ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i
bi∗ = j:eij ≥β 1 – количество извлечений слова ci с
|C |

1
частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество
извлечений для отдельного слова
pij ∈ [1; 18] – количество отдельных паттернов которые
извлекли отношение ci , cj


64/108

Прило



PatternSim

HybridSim

Ранжирование семантических отношений
Точность сравнима или лучше чем у аналогов;
Полнота меньше чем у аналогов.

Рис. : График точность-полнота (коллекция BLESS).

65/108

Прило



PatternSim

HybridSim

Извлечение семантических отношений
Точность@1 ≈ 0.80;
“Хорошее” лексическое покрытие:


66/108

Прило



PatternSim

HybridSim

Сравнение результатов базовых метрик и PatternSim


67/108

Прило



PatternSim

HybridSim

План



68/108

Прило



PatternSim

HybridSim

Публикациии

Panchenko A., Morozova O. A Study of Hybrid Similarity
Measures for Semantic Relation Extraction. // Innovative
Hybrid Approaches to the Processing of Textual Data
Workshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18
e
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp.
29–42.


69/108

Прило



PatternSim

HybridSim

Отдельные и гибридные метрики
(a) Terms, C

Si
knn
Relations, R

Terms, C
sim1

...

simN

...

norm

S1

norm

SN

S1

SN

combination method
Scmb
norm

Hybrid Similarity Measure
Features

Si
norm

Single Similarity Measure

simi

(b)

Scmb
knn
Relations, R

Рис. : Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.

70/108

Прило



PatternSim

HybridSim

16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:
1
2
3
4
5

WuPalmer;
Leacock and Chodorow;
Resnik;
Jiang and Conrath;
Lin.

3 метрики, основанные на Веб корпусе
(NGD-Yahoo/Bing/Google);
5 метрики, основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)
1 лексико-синтаксические шаблоны (PatternSim)
2 другие (LSA, NGD-Factiva)

3 метрики, основанные на определениях
1
2
3

ExtendedLesk;
GlossVectors;
DefVectors-WktWiki.

71/108

Прило



PatternSim

HybridSim

Методы комбинирования без учителя
k
sij ∈ [0; 1] – попарное семантическое подобие слов wi и wj ,
вычисленное с помощью k-й метрики Sk .

Mean
Среднее между K попарными подобиями слов:
cmb
sij =

1
K

k
sij ;
k=1,K

Mean-Nnz
Среднее между K попарными подобиями слов больше нуля:
cmb
sij =

|k :

k
sij

1
k
sij ;
> 0, k = 1, K | k=1,K


72/108

Прило



PatternSim

HybridSim

Mean-Zscore
Среднее между нормированными попарными подобиями слов
(Z-score):
Scmb =

1
K

K
k=1

Sk − µk
;
σk

где µk и σk среднее и стандартное отклонение значений k-й
метрики (Sk ).
Median
Медиана между K попарными подобиями слов:
cmb
1
K
sij = median(sij , . . . , sij ).

73/108

Прило



PatternSim

HybridSim

Max
Максимум между K попарными подобиями слов:
K
1
cmb
sij = max(sij , . . . , sij );
RankFusion
Среднее между рангами слов:
cmb
sij =

1
K

k
rij .
k=1,K

k
где rij – ранк, соответствующий значению попарного подобия
k
sij .


74/108

Прило



PatternSim

HybridSim

Методы комбинирования метрик подобия
RelationFusion
Объединение отношений, извлеченных каждым методом.
Отношения, извлеченные несколькими метриками, надежнее.

1
2
3
4
5

Input: Матрицы подобия, сгенерированные K метриками
{S1 , . . . , SK }, количество ближайших соседей k
Output: Комбинированная матрица подобия, Scmb
for i=1,N do
Ri ← knn(Si , k) ;
Ri ← relation_matrix(Ri )
1
Scmb ← N N Ri ;
i=1
return Scmb ;

relation_matrix : rij =

1
0
75/108

if ci , cj ∈ Rk
else

Прило



PatternSim

HybridSim

Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Бинарная логистическая регрессия;
Положительные обучающие примеры – синонимы,
гиперонимы, ко-гипонимы из BLESS/SN;
Отрицательные обучающие примеры – случайные
пары семантически несвязных слов из BLESS/SN;
Отношение ci , t, cj ∈ R представлено с помощью
1
N
вектора попарных близостей: x = (sij , . . . , sij ), N = 2, 16;
Категория yij :
yij =

0
1

если ci , t, cj случайное отношение
иначе


76/108

Прило



PatternSim

HybridSim

Logit, Logit-L1, Logit-L2
Logit максимизирует следующую функционал:
N

N
cmb
ln sij +

L(w) = max
w

i=1

cmb
ln(1 − sij )
i=1

Использование модели (w1 , . . . , wK ) для
комбинирования:
cmb
1
K
sij = P(rij = 1|sij , . . . , sij ) =

1
, где
1 + e −z

K
k
wk sij + w0 .

z=
k=1

77/108

Прило



PatternSim

HybridSim

Модель комбинирования метрик

Рис. : Weights of the similarity measures used by the hybrid measure
Logit-E15. The weights were learnt on the BLESS dataset with 10-fold
cross validation repeated 10 times.

78/108

Прило



PatternSim

HybridSim

Прило

Машина Опорных Векторов (SVM), линейное ядро
Веса w и опорные вектора
SV :
αi yi xi .

w=
xi ∈SV

Использование модели
K
cmb
sij

T

k
wi sij +b.

= w x+b =
k=1


79/108



PatternSim

HybridSim

Прило

Машина Опорных Векторов (SVM), линейное ядро
Geometrical margin is the distance to the closest data point:
ρ=

wT x − b
.
||w||
T

x−b
1
SVM maximizes the margin : ρ = w||w|| = ||w|| .
Result – a set of support vectors: SV = {x1 , . . . , xm }, where
yi ∈ {+1, −1} is the label.
Weight vector: w = xi ∈SV αi yi xi .
C -SVM optimizes the following function:

min

w,ξ,b

1
2
2 ||w||

+C

n
i=1 ξi

subject to yi (wT φ(xi )) ≥ 1 − ξi ,
ξi ≥ 0.
The function φ(x, x ) is called kernel.

80/108

(1)



PatternSim

HybridSim

Какие из отдельных метрик следует комбинировать?

Количество возможных комбинаций
34:
16:

34
m
m=2 C34
16
m
m=2 C16

=
=

34
34!
m=2 m!(34−m)!
16
16!
m=2 m!(16−m)!

= 234 = 1.718 · 1010
= 65536

Экспертный выбор: 5, 9 и 15 метрик из 16
Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16
Анализ коэффициентов логистической регрессии: 12 из
16


81/108

Прило



PatternSim

HybridSim

Прило

Результаты: базовые метрики, корреляция с суждениями
субъектов

Рис. : Pearson – корреляция Пирсона, Spearman – корреляция Спирмена.

82/108



PatternSim

HybridSim

Результаты: базовые метрики, ранжирование отношний


83/108

Прило



PatternSim

HybridSim

Результаты: базовые метрики, ранжирование отношний

Рис. : Графики Точность-Полнота (слева) 4х лучших метрик
основанных на корпусе, семантических сетях, определениях и
метрика, основанная на среднем значении 14 метрик; (слева)
метрики основанных на определениях Викисловаря и Википедии.

84/108

Прило



PatternSim

HybridSim

Результаты: отдельные и комбинированные метрики

Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC,
RG, WordSim353 – корреляция с суждениями человека. BLESS, SN –
точность извлечения семантических отношений. Наилучшие значения в
группе (отдельные/комбинированные) обозначены полужирным шрифтом;
наилучшие значения обозначены серым цветом.

85/108

Прило



PatternSim

HybridSim

Результаты: методы комбинирования с учителем

График Точность-Полнота вычисленный на коллекции BLESS:
(a) 16 отдельных метрик и гибридная метрика Logit-E15;
(b) 8 гибридных метрик.

86/108

Прило



PatternSim

HybridSim

Прило

Результаты: метод комбинирования с учителем Logit-E15

Рис. : Значение подобия между 74 словами связанными со словом
“acacia”.

87/108



PatternSim

HybridSim



88/108

Прило



PatternSim

HybridSim

(продолжение)

Рис. : Оптимизация мета-параметров метрики C-SVM-radial-E15.


89/108

Прило



PatternSim

HybridSim

План



90/108

Прило



PatternSim

HybridSim


План



91/108

Прило



PatternSim

HybridSim


Серелекс: результаты в виде списка и графа слов
http://serelex.cental.be/


92/108

Прило



PatternSim


Серелекс: результаты в виде графа слов


93/108

HybridSim

Прило



PatternSim




94/108

HybridSim

Прило



PatternSim




95/108

HybridSim

Прило



PatternSim

HybridSim


Серелекс: результаты в виде множества изображений


96/108

Прило



PatternSim

HybridSim


Оценка качества работы системы Серелекс

Рис. : Удовлетворенность пользователей первыми 20 результатами
поиска для 594 запроса (23 ассесора и 109 пользователей).

97/108

Прило



PatternSim

HybridSim


Оценка качества работы системы Серелекс


98/108

Прило



PatternSim

HybridSim


План



99/108

Прило



PatternSim

HybridSim


iCop: классификация имен файлов

Рис. : Структура системы.

Использование семантических отношений для расширения
имени файла (Vocabulary Projection).

100/108

Прило



PatternSim


iCop: пример Vocabulary Projection


101/108

HybridSim

Прило



PatternSim

HybridSim


Качество классификации

Обучающая выборка
Gallery (train)
PirateBay Title+Desc+Tags
PirateBay Title+Tags
Gallery
Gallery

Тестовая выборка
Gallery
Gallery
Gallery

Accuracy
96.41
98.92
97.73
90.57
84.23
88.83
91.16

Accuracy (voc. projection)
96.83 (+0.42)
98.86 (–0.06)
97.63 (–0.10)
91.48 (+0.91)
88.89 (+4.66)
89.04 (+0.21)
91.30 (+0.14)

Таблица : Качество классификации с использованием C-SVM-linear c
учетом кросс-валидации.


102/108

Прило



PatternSim

HybridSim


Качество классификации

Рис. : C -SVM-linear trained on the Gallery dataset and tested on the
PirateBay dataset.

103/108

Прило



PatternSim


Анализ работы


104/108

HybridSim

Прило



PatternSim




105/108

HybridSim

Прило



PatternSim




106/108

HybridSim

Прило



PatternSim




107/108

HybridSim

Прило



PatternSim

HybridSim


Спасибо за внимание!
Вопросы?


108/108

Прило

Вычислительная лексическая семантика: метрики семантической близости и их приложения

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (8)

Similar to Вычислительная лексическая семантика: метрики семантической близости и их приложения

Similar to Вычислительная лексическая семантика: метрики семантической близости и их приложения (17)

More from Alexander Panchenko

More from Alexander Panchenko (12)

Вычислительная лексическая семантика: метрики семантической близости и их приложения