SlideShare a Scribd company logo
1 of 108
Download to read offline
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычислительная лексическая
семантика: метрики семантической
близости и их приложения
Серия лекций в НИУ ВШЭ, факультет бизнес-информатики
и прикладной математики (Нижний Новгород)

Александр Панченко
Digital Society Laboratory & Universit´ catholique de Louvain
e
alexander.panchenko@uclouvain.be

4 декабря 2013 г.
Александр Панченко

1/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

2/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

3/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Введение
О себе
1

PhD (Natural Language Processing)
co-tutelle Universit´ catholique de Louvain и МГТУ им.
e
Н.Э.Баумана;
http://cental.fltr.ucl.ac.be/team/~panchenko/
alexander.panchenko@uclouvain.be

2

Старший исследователь в Digital Society Laboratory.

3

Ассоциированный исследователь в Universit´ catholique
e
de Louvain.

4

Область научных интересов – Natural Language Processing:
Вычислительная лексическая семантика.
Классификация (коротких) текстов.
АОТ для анализа социальных сетей.
Александр Панченко

4/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Вычислительная лексическая семантика

* рисунок адаптирован из курса Computational Linguistics LINGI2263
http://www.uclouvain.be/en-cours-2013-LINGI2263.html
Александр Панченко

5/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Введение в область лексической семантики
Jurafsky D. and Martin J.H. An Introduction to Natural
Language Processing, Computational Linguistics, and
Speech Recognition (2009), chapters 19,20, 22.
Cruys T. Mining for meaning: the extraction of
lexico-semantic knowledge from text (2010). PhD thesis.
http://dissertations.ub.rug.nl/faculties/arts/
2010/t.van.de.cruys/
Panchenko A. Similarity Measures for Semantic Relation
Extraction (2013) http:
//cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf
Введение в обработку текста. ИСП РАН, ВМК МГУ,
Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/
uploads/2011/10/lecture6-2013.pdf
Александр Панченко

6/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические отношения

Рис. : Семантический ресурс из 29 отношений.
Александр Панченко

7/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические отношения: типы

Рис. : Семантический ресурс с (a) типизированными и (b)
нетипизированными отношениями.
Александр Панченко

8/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Семантические отношения: типы

Александр Панченко

9/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

Семантические отношения: типы

Александр Панченко

10/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические отношения: выразительность

Рис. : Выразительность различных моделей представления
семантичеких ресурсов.

Александр Панченко

11/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: таксонония

Рис. : A part of the taxonomy of economical activities NACE.

Александр Панченко

12/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: тезаурус

Рис. : The Eurovoc thesaurus: the term “energy industry” and its
semantic relations. Here, hypernyms are denoted with arrows and
associations are denoted with dashed lines.

Александр Панченко

13/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: лексическая база данных

Рис. : Lexical database WordNet: synset engineer and its semantic
relations.

Александр Панченко

14/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Семантические ресурсы: онтология

Рис. : SUMO upper ontology: a part of the class hierarchy.
Александр Панченко

15/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Извлечение семантических отношений из текста

Александр Панченко

16/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости
Мотивация исследования
1

Метрики семантической близости полезны для:
ˇ
систем обработки коротких текстов (Saric et al., 2012;
Panchenko at., 2012);
расширешия поисковых запросов (Hsu et al., 2006);
вопросно-ответных систем (Sun et al., 2005);
разрешения омонимии (Patwardhan et al., 2003);
...

Лексико-семантическое знание о языке.
Вычислительная лексическая семантика.
Computational Lexical Semantics.
Александр Панченко

17/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости
Определение
Метрика семантической близости численно выражает
семантическую связность слов ci и cj : sij = sim(ci , cj ):
sij =

велико
0

если ci , cj – пара syn, hyper , cohypo
иначе

Свойства
Неотрицательность: 0 ≤ sij ≤ 1;
Рефлективность: sij = 1 ⇔ ci = cj ;
Симметричность: sij = sji ;
sij ≤ sik + skj
Александр Панченко

18/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости: распределение
Малое количество подобных пар: sij ∼ exp(λ).

Распределение сем. близости слова “doctor”:

Александр Панченко

19/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики семантической близости: распределение

Рис. : Number of relations (synonyms and hyponyms) per term in the
dictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and a
union of these three resources.
Александр Панченко

20/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Системы измерения семантической близости
Terms

Text-Based Data

C
Feature Extractor
F
Similarity Measure

Semantic Similarity Measure
Semantic Relation Extractor

S
Normalizer
S
kNN Procedure
R

Semantic Relations

Как построить систему с высокой точностью и лексическим
покрытием?
Александр Панченко

21/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Оценка качества метрики семантической близости
1

Корреляция с суждениями человека о сем. близости:
Статистики: корреляция Пирсона (ρ) и Спирмена (r ).
Проверочные данные: MC, RG, WordSim.

2

Ранжирование семантических отношений:
Точность, Полнота, F-мера.
Проверочные данные: BLESS, SN.

3

Точность извлечения семантических отношений:
Статистики: Точность@k.
Проверочные данные: аннотирование и/или тезаурусы.

4

Использование метрики в системе АОТ:
в системе классификации имен файлов (iCOP);
с системе поиска семантически связанных слов (Serelex).

Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 1).
Александр Панченко

22/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Критерии, основанные на суждениях субъектов о
семантической близости
слово, ci
tiger
book
computer
...
possibility
sugar

слово, cj
cat
paper
keyboard
...
girl
approach

субъект, s
7.35
7.46
7.62
...
1.94
0.88

sim, s
0.85
0.95
0.81
...
0.25
0.05

субъект (ранг), r
1
2
3
...
64
65

Данные:
WordSim353 – 353 пар слов (Finkelstein, 2002)
MC – 30 пар слов (Miller Charles, 1991)
RG – 65 пар слов (Rubenstein Goodenough, 1965)
Коэффициент корреляции Пирсона: ρ =
Коэффициент корреляции Спирмена:: r
Александр Панченко

23/108

cov (s,ˆ)
s
σ(s)σ(ˆ)
s
cov (r,ˆ)
r
= σ(r)σ(ˆ)
r

sim (ранг), ˆ
r
3
2
1
...
65
23
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии, основанные на суждениях субъектов о
семантической близости

Александр Панченко

24/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии, основанные на суждениях субъектов о
семантической близости

Рис. : Ранговая корреляция Спирмена на наборе данных
Miller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляция
случайных данных -0.173 (p=0.360).
Александр Панченко

25/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии точности извлечения отношений
слово, ci
judge
judge
judge
judge
judge
judge
...
judge
judge
judge

слово, cj
adjudicate
arbitrate
asessor
chancellor
gendarmerie
sheriff
...
pc
fare
lemon

тип отношения, t
syn
syn
syn
syn
syn
syn
...
random
random
random

Данные:
BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper,
coord, mero, event, attri, random)
SN (Panchenko, 2012) – 14682 отношений (syn, random)
Александр Панченко

26/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Критерии точности извлечения отношений
Основаны на количестве правильно отранжированных
отношений.
R – все семантические отношения, не являющиеся
случайными ( animal , random, bishop и т.п.)
ˆ
R(k) множество извлеченных отношений при количестве
ближайших соседей k
Критерии
ˆ

Точность: P(k) = |R∩R(k)| ,
ˆ
|R(k)|
ˆ

Полнота: R(k) = |R∩R(k)| ,
|R|
F1-мера: F (k) = 2 ·

P(k)·R(k)
P(k)+R(k) ,

Мы используем P(10), P(20), P(50), R(50).
Александр Панченко

27/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Пример: оценка точности извлечения отношений
Точность P(k = 50) =
слово, ci
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado
aficionado

1
7

≈ 0.86

слово, cj
enthusiast
fan
admirer
addict
devotee
foundling
fanatic
adherent
capital
statute
blot
meddler
enlargement
bawdyhouse

Александр Панченко

тип отношения
syn
syn
syn
syn
syn
random
syn
syn
random
random
random
random
random
random
28/108

sij
0.07197
0.05195
0.01964
0.01326
0.01163
0.00777
0.00414
0.00353
0.00232
0.00029
0.00025
0.00005
0.00003
0.00000

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

29/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Обзор метрик семантической близости

Публикации
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013: Chapters 2.1, 3.1.
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
ACL Anthology / Google Scholar: “semantic similarity
measure”, “semantic similarity”.

Александр Панченко

30/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Обзор метрик семантической близости

Публикации (анализ 37 базовых метрик):
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 3).
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012.
Александр Панченко

31/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети
Данные: семантическая сеть WordNet 3.0, корпус SemCor.
Переменные:
len(ci , cj ) – длина кратчайшего пути между ci и cj
len(ci , lcs(ci , cj )) – длина кратчайшего пути от ci до
ближайшего общего предка (БОП) слов ci и cj
Ближайший Общий Предок (БОП) – Lowest Common
Subsumers (LCS)
len(croot , lcs(ci , cj )) – длина кратчайшего пути от корня
croot до БОП слов ci и cj (глубина БОП)
P(c) – вероятность слова c, оцененная из корпуса
P(lcs(ci , cj )) – вероятность БОП слов ci и cj
Метрики: Инвертированная длина пути, Leacock-Chodorow,
Wu-Palmer, Resnik, Jiang-Conrath, Lin.
Александр Панченко

32/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Lowest common subsumer (LCS)

Рис. : Ближайшие общие предки в семантической сети.

(car , food ) → object
(beef , pork) → meat
(pork, coupe) → object
(vegetable, pork) → food
Александр Панченко

33/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети
Инвертированная длина пути:
sij = len(ci , cj )−1 .
LeacockChodorow:
sij = − log

len(ci , cj )
.
2h

Resnik:
sij = − log P(cij ).
JiangConrath:
dij = 2 log P(cij ) − (log P(ci ) + log P(cj )).
Александр Панченко

34/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети

Lin:
sij =

2 log(P(cij ))
log(P(ci ) + log(P(cj ))

WuPalmer:
sij =

2len(cr , cij )
len(ci , cij ) + len(cj , cij ) + 2 · len(cr , cij )

Александр Панченко

35/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на семантической сети
Инструменты:
WordNet::Similarity tool (Perl, command-line):
http://wn-similarity.sourceforge.net/
NTLK (Python): http://nltk.org

Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html
Александр Панченко

36/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на Веб корпусе текстов
Данные: количество документов возвращенных ИПС: Google,
Yahoo, AltaVista, Bing, и т.п.
Переменные:
hi – количество документов возвращенных по запросу
слова ”ci ”
hij – количество документов возвращенных по запросу
”ci AND cj ”
Метрики:
Normalized Google Distance (NGD) (Cilibrasi and Vitanyi,
2007)
Pointwise Mutual Information - Information Retrieval (PMI-IR)
(Turney, 2001)
Александр Панченко

37/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Веб-метрики: пример

Александр Панченко

38/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на Веб корпусе текстов

Normalized Google Distance (NGD):
sij =

max(log (hi ), log (hj )) − log (hij )
log (M) − min(log (hi ), log (hj ))

Pointwise Mutual Information Information Retrieval
(PMIIR):
P(ci , cj )
sij = log
= log
P(ci )P(cj )

hij
i ,j

Александр Панченко

39/108

≈ log

hj

hi
i ,j

hij

hij

i ,j

hij

hij
.
hi hj

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Дистрибутивные метрики
Данные: корпус, такой как Википедия или ukWaC

Метрики:
Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006)
Syntactic Distributional Analysis (SDA) (Curran, 2003)

Александр Панченко

40/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Дистрибутивные метрики
Переменные:
fi – вектор признаков представляющий слово ci ,
основанный на контекстном окне
fis – вектор признаков представляющий слово ci ,
основанный на синтаксическом контекстном окне

Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)
Александр Панченко

41/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Другие метрики, основанные на корпусе текстов

Данные: корпус, такой как Википедия или ukWaC
Метрики:
Латентно-cемантический анализ (LSA) (Landauer and
Dumais, 1997)
Вероятностные модели (pLSA, LDA и др.) (Griffiths et al.,
2007)
NGD и PMI-IR (Veksler et al., 2008)
...

Александр Панченко

42/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Латентно-семантический анализ
Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997):
1 Representing the corpus D as an N × M term-document
matrix F.
2 Normalization of the matrix F with TF-IDF:
fij
|D|
fij =
,
· log
|d ∈ D : wi ∈ d |
i fij
3
4
5

Singular value decomposition of D: D = UΣVT .
Low-rank approximation of the matrix U with a reduced M × k
matrix Uk by retaining only the first k column of the U.
Calculation of similarities between terms ci and cj as a cosine
between respective columns of Uk (uk and uk ):
i
i
sij =
Александр Панченко

uk · uk
i
j
||uk ||||uk ||
i
j
43/108

.

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Латентно-семантический анализ
U is an M × M matrix which columns are the orthogonal
eigenvectors of DDT
VT is an N × N matrix which columns are the orthogonal
eigenvectors of DT D
Σ is an M × N diagonal matrix:


σ11 . . . 0
 .
. .
..
. 
Σ= .
.
.
.
0 · · · σnn
√
The i-th element on the diagonal σii = λi , where λi is an
eigenvalue of DDT .
The eigenvalues are ordered, such that λi ≥ λi+1 .
Источник: Manning et al. Introduction to information retrieval (2008), p.374.
Александр Панченко

44/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Латентно-семантический анализ

Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010)

Александр Панченко

45/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на определениях
Данные: определения из WordNet, Википедии, Викисловаря
или любого другого словаря.
Переменные:
gloss(ci ) – определение слова ci ;
fi вектор признаков, построенный из gloss(ci );
fi – вектор признаков ci , вычисленный на корпусе из всех
определений методом контекстного окна;
exist(ci , cj ) – наличие связи между ci и cj в словаре.
Метрики:
ExtendedLesk (Banerjee and Pedersen, 2003)
GlossVectors (Patwardhan and Pedersen, 2006)
DefVectors (Panchenko et al., 2012)
Александр Панченко

46/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на определениях: Extended Lesk

relies on the gloss similarity of terms ci and cj
relies on gloss similarity of all terms related to ci and cj
sij =

simg (ci , cj ),
ci ∈Ci cj ∈Cj

simg is a gloss-based similarity measure and set Ci includes
concept ci and all concepts directly related to it.

Александр Панченко

47/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрики, основанные на определениях: GlossVectors
a cosine between vectors vi and vj representing concepts ci
and cj
a vector vi is a sum of context vectors representing all words
from the definition of ci and the definitions of terms related to
ci :
sij =

vi · vj
where vi =
||vi ||||vj ||

fj .
∀j:cj ∈Gi

fj is a context vector, derived from the corpus of all glosses
Gi is concatenation of glosses of the concept ci and all
concepts which are directly related to it.

Александр Панченко

48/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение базовых метрик семантической близости

Александр Панченко

49/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение базовых метрик семантической близости

Александр Панченко

50/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение: лучшие базовые метрики

Каждая метрика излекает много ко-гипонимов:
Canon, Nikon ,
Lamborghini, Ferrari ,
Obama, Romney .
Александр Панченко

51/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Резюме
Основные ресурсы для построения метрик:
семантические сети и тезаурусы;
корпуса текстов;
Веб корпус текстов;
определения из словарей и энциклопедий.
Метрики дополняют друг друга в терминах:
лексического покрытия;
точности;
типов извлекаемых отношений.
Александр Панченко

52/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Программное обеспечение
Semantic Vectors:
https://code.google.com/p/semanticvectors/
S-Space Package:
https://code.google.com/p/airhead-research/
WordNet::Similarity:
http://wn-similarity.sourceforge.net
NLTK: http://nltk.googlecode.com/svn/trunk/doc/
howto/wordnet.html
WikiRelate!
PatternSim / Serelex: http://serelex.cental.be
Метрики, основанные на Веб корпусе:
http://cwl-projects.cogsci.rpi.edu/msr
LSA: http://lsa.colorado.edu
DefVectors: http://github.com/jgc128/defvectors
Александр Панченко

53/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

54/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Публикации
Hearst, M. A. Automatic acquisition of hyponyms from large
text corpora. In ACL, pages 539–545, 1992.
Panchenko A., Morozova O., Naets H. A Semantic
Similarity Measure Based on Lexico-Syntactic Patterns.
In Proceedings of KONVENS 2012, pp.174–178, 2012
Panchenko A., Romanov P., Morozova O., Naets H.,
Philippovich A., Fairon C. Serelex: Search and Visualization
of Semantically Related Words. In Proceedings of the 35th
European Conference on Information Retrieval (ECIR 2013).
Панченко А., Романов П., Романов А., Филиппович А.,
Филиппович Ю., Морозова О. Серелекс: поиск и
визуализация семантически связанных слов. Анализ
Изображений, Сетей и Текстов (АИСТ), Интуит, 2013
Александр Панченко

55/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Демо
http://serelex.cental.be/

Александр Панченко

56/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Лексико-синтаксические паттерны

18 паттернов извлекающих гиперонимы, ко-гипонимы и
синонимы

Александр Панченко

57/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Основной каскад преобразователей
Каскад конечных автоматов (FST)
В формате Unitex: http://igm.univ-mlv.fr/~unitex/

Александр Панченко

58/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Пример реализации паттерна в виде автомата

Паттерны, основанные на автоматах позволяют учесть
лингвистическую вариацию, сохранив точность
В отличие от паттернов основанных на строках (Bollegala
et al., 2007)
Александр Панченко

59/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

PatternSim: основные этапы

Паттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},
{[engineers]} and {[scientists]}[PATTERN=1]
such {non-alcoholic [sodas]} as {[root beer]} and
{[cream soda]}[PATTERN=1]
{traditional[food]}, such as
{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]

Александр Панченко

60/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов

Количество извлечений
Wikipedia – 1.196.468
ukWaC – 2.227.025
WaCypedia+ukWaC – 3.423.493

Александр Панченко

61/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Метрика семантической близости PatternSim

Александр Панченко

62/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычисление подобия: rerank
Efreq: мера подобия равна количеству извлеченных
отношений
sij = sij
Efreq-Cfreq: нормализация по частоте слов
sij =
eij

P(ci , cj ) =

ij

eij

P(ci , cj )
P(ci )P(cj )

– вероятность извлечения отношения

ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i

Александр Панченко

63/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Вычисление подобия:
Efreq-Rnum-Cfreq-Pnum:
sij =
P(ci , cj ) =

√

eij
ij

eij

pij ·

P(ci , cj )
2 · µb
·
.
bi∗ + b∗j P(ci )P(cj )

– вероятность извлечения отношения

ci , cj , где eij – частота взаимной встречаемости слов ci и
cj во множестве конкордансов
P(ci ) = fi fi – вероятность слова ci , где fi – частота ci
i
bi∗ = j:eij ≥β 1 – количество извлечений слова ci с
|C |

1
частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество
извлечений для отдельного слова
pij ∈ [1; 18] – количество отдельных паттернов которые
извлекли отношение ci , cj

Александр Панченко

64/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Ранжирование семантических отношений
Точность сравнима или лучше чем у аналогов;
Полнота меньше чем у аналогов.

Рис. : График точность-полнота (коллекция BLESS).
Александр Панченко

65/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Извлечение семантических отношений
Точность@1 ≈ 0.80;
“Хорошее” лексическое покрытие:

Александр Панченко

66/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Сравнение результатов базовых метрик и PatternSim

Александр Панченко

67/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

68/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Публикациии

Panchenko A., Morozova O. A Study of Hybrid Similarity
Measures for Semantic Relation Extraction. // Innovative
Hybrid Approaches to the Processing of Textual Data
Workshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18
Panchenko A., Similarity Measures for Semantic Relation
Extraction. PhD thesis. Universit´ catholique de Louvain. 197
e
pages, 2013, (Chapter 4).
Panchenko A. A Study of Heterogeneous Similarity
Measures for Semantic Relation Extraction. // In
JEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp.
29–42.

Александр Панченко

69/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Отдельные и гибридные метрики
(a) Terms, C

Si
knn
Relations, R

Terms, C
sim1

...

simN

...

norm

S1

norm

SN

S1

SN

combination method
Scmb
norm

Hybrid Similarity Measure
Features

Si
norm

Single Similarity Measure

simi

(b)

Scmb
knn
Relations, R

Рис. : Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.
Александр Панченко

70/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:
1
2
3
4
5

WuPalmer;
Leacock and Chodorow;
Resnik;
Jiang and Conrath;
Lin.

3 метрики, основанные на Веб корпусе
(NGD-Yahoo/Bing/Google);
5 метрики, основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)
1 лексико-синтаксические шаблоны (PatternSim)
2 другие (LSA, NGD-Factiva)

3 метрики, основанные на определениях
1
2
3

ExtendedLesk;
GlossVectors;
DefVectors-WktWiki.
Александр Панченко

71/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования без учителя
k
sij ∈ [0; 1] – попарное семантическое подобие слов wi и wj ,
вычисленное с помощью k-й метрики Sk .

Mean
Среднее между K попарными подобиями слов:
cmb
sij =

1
K

k
sij ;
k=1,K

Mean-Nnz
Среднее между K попарными подобиями слов больше нуля:
cmb
sij =

|k :

k
sij

1
k
sij ;
> 0, k = 1, K | k=1,K

Александр Панченко

72/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования без учителя
Mean-Zscore
Среднее между нормированными попарными подобиями слов
(Z-score):
Scmb =

1
K

K
k=1

Sk − µk
;
σk

где µk и σk среднее и стандартное отклонение значений k-й
метрики (Sk ).
Median
Медиана между K попарными подобиями слов:
cmb
1
K
sij = median(sij , . . . , sij ).
Александр Панченко

73/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования без учителя
Max
Максимум между K попарными подобиями слов:
K
1
cmb
sij = max(sij , . . . , sij );
RankFusion
Среднее между рангами слов:
cmb
sij =

1
K

k
rij .
k=1,K

k
где rij – ранк, соответствующий значению попарного подобия
k
sij .

Александр Панченко

74/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования метрик подобия
RelationFusion
Объединение отношений, извлеченных каждым методом.
Отношения, извлеченные несколькими метриками, надежнее.

1
2
3
4
5

Input: Матрицы подобия, сгенерированные K метриками
{S1 , . . . , SK }, количество ближайших соседей k
Output: Комбинированная матрица подобия, Scmb
for i=1,N do
Ri ← knn(Si , k) ;
Ri ← relation_matrix(Ri )
1
Scmb ← N N Ri ;
i=1
return Scmb ;

relation_matrix : rij =
Александр Панченко

1
0
75/108

if ci , cj ∈ Rk
else

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Бинарная логистическая регрессия;
Положительные обучающие примеры – синонимы,
гиперонимы, ко-гипонимы из BLESS/SN;
Отрицательные обучающие примеры – случайные
пары семантически несвязных слов из BLESS/SN;
Отношение ci , t, cj ∈ R представлено с помощью
1
N
вектора попарных близостей: x = (sij , . . . , sij ), N = 2, 16;
Категория yij :
yij =

0
1

если ci , t, cj случайное отношение
иначе

Александр Панченко

76/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Методы комбинирования с учителем
Logit, Logit-L1, Logit-L2
Logit максимизирует следующую функционал:
N

N
cmb
ln sij +

L(w) = max
w

i=1

cmb
ln(1 − sij )
i=1

Использование модели (w1 , . . . , wK ) для
комбинирования:
cmb
1
K
sij = P(rij = 1|sij , . . . , sij ) =

1
, где
1 + e −z

K
k
wk sij + w0 .

z=
k=1
Александр Панченко

77/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Модель комбинирования метрик

Рис. : Weights of the similarity measures used by the hybrid measure
Logit-E15. The weights were learnt on the BLESS dataset with 10-fold
cross validation repeated 10 times.
Александр Панченко

78/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Методы комбинирования с учителем
Машина Опорных Векторов (SVM), линейное ядро
Веса w и опорные вектора
SV :
αi yi xi .

w=
xi ∈SV

Использование модели
K
cmb
sij

T

k
wi sij +b.

= w x+b =
k=1

Александр Панченко

79/108
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Машина Опорных Векторов (SVM), линейное ядро
Geometrical margin is the distance to the closest data point:
ρ=

wT x − b
.
||w||
T

x−b
1
SVM maximizes the margin : ρ = w||w|| = ||w|| .
Result – a set of support vectors: SV = {x1 , . . . , xm }, where
yi ∈ {+1, −1} is the label.
Weight vector: w = xi ∈SV αi yi xi .
C -SVM optimizes the following function:

min

w,ξ,b

1
2
2 ||w||

+C

n
i=1 ξi

subject to yi (wT φ(xi )) ≥ 1 − ξi ,
ξi ≥ 0.
The function φ(x, x ) is called kernel.
Александр Панченко

80/108

(1)
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Какие из отдельных метрик следует комбинировать?

Количество возможных комбинаций
34:
16:

34
m
m=2 C34
16
m
m=2 C16

=
=

34
34!
m=2 m!(34−m)!
16
16!
m=2 m!(16−m)!

= 234 = 1.718 · 1010
= 65536

Экспертный выбор: 5, 9 и 15 метрик из 16
Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16
Анализ коэффициентов логистической регрессии: 12 из
16

Александр Панченко

81/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Результаты: базовые метрики, корреляция с суждениями
субъектов

Рис. : Pearson – корреляция Пирсона, Spearman – корреляция Спирмена.
Александр Панченко

82/108
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: базовые метрики, ранжирование отношний

Александр Панченко

83/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: базовые метрики, ранжирование отношний

Рис. : Графики Точность-Полнота (слева) 4х лучших метрик
основанных на корпусе, семантических сетях, определениях и
метрика, основанная на среднем значении 14 метрик; (слева)
метрики основанных на определениях Викисловаря и Википедии.
Александр Панченко

84/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: отдельные и комбинированные метрики

Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC,
RG, WordSim353 – корреляция с суждениями человека. BLESS, SN –
точность извлечения семантических отношений. Наилучшие значения в
группе (отдельные/комбинированные) обозначены полужирным шрифтом;
наилучшие значения обозначены серым цветом.
Александр Панченко

85/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: методы комбинирования с учителем

График Точность-Полнота вычисленный на коллекции BLESS:
(a) 16 отдельных метрик и гибридная метрика Logit-E15;
(b) 8 гибридных метрик.
Александр Панченко

86/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Прило

Результаты: метод комбинирования с учителем Logit-E15

Рис. : Значение подобия между 74 словами связанными со словом
“acacia”.
Александр Панченко

87/108
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: методы комбинирования с учителем

Александр Панченко

88/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Результаты: методы комбинирования с учителем
(продолжение)

Рис. : Оптимизация мета-параметров метрики C-SVM-radial-E15.

Александр Панченко

89/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

90/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

91/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде списка и графа слов
http://serelex.cental.be/

Александр Панченко

92/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде графа слов

Александр Панченко

93/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде графа слов

Александр Панченко

94/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде графа слов

Александр Панченко

95/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде множества изображений

Александр Панченко

96/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Оценка качества работы системы Серелекс

Рис. : Удовлетворенность пользователей первыми 20 результатами
поиска для 594 запроса (23 ассесора и 109 пользователей).
Александр Панченко

97/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Поиск и визуализация семантически связанных слов

Оценка качества работы системы Серелекс

Александр Панченко

98/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

План
1 Вычислительная лексическая семантика
2 Обзор метрик семантической близости
3 Метрика основанная на лексико-синтаксических шаблонах
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости

Поиск и визуализация семантически связанных слов
Классификация коротких текстов

Александр Панченко

99/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

iCop: классификация имен файлов

Рис. : Структура системы.

Использование семантических отношений для расширения
имени файла (Vocabulary Projection).
Александр Панченко

100/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

iCop: пример Vocabulary Projection

Александр Панченко

101/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

Качество классификации

Обучающая выборка
Gallery (train)
PirateBay Title+Desc+Tags
PirateBay Title+Tags
Gallery
Gallery
PirateBay Title+Desc+Tags
PirateBay Title+Tags

Тестовая выборка
Gallery
PirateBay Title+Desc+Tags
PirateBay Title+Tags
PirateBay Title+Desc+Tags
PirateBay Title+Tags
Gallery
Gallery

Accuracy
96.41
98.92
97.73
90.57
84.23
88.83
91.16

Accuracy (voc. projection)
96.83 (+0.42)
98.86 (–0.06)
97.63 (–0.10)
91.48 (+0.91)
88.89 (+4.66)
89.04 (+0.21)
91.30 (+0.14)

Таблица : Качество классификации с использованием C-SVM-linear c
учетом кросс-валидации.

Александр Панченко

102/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

Качество классификации

Рис. : C -SVM-linear trained on the Gallery dataset and tested on the
PirateBay dataset.
Александр Панченко

103/108

Прило
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

104/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

105/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

106/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

Классификация коротких текстов

Анализ работы

Александр Панченко

107/108

HybridSim

Прило
Лексическая семантика

Обзор метрик

PatternSim

HybridSim

Классификация коротких текстов

Спасибо за внимание!
Вопросы?

Александр Панченко

108/108

Прило

More Related Content

Viewers also liked

Text Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK DataText Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK DataAlexander Panchenko
 
Semantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation ExtractionSemantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation ExtractionAlexander Panchenko
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукAlexander Panchenko
 
ТРИЗ. Применение в бизнес-анализе
ТРИЗ. Применение в бизнес-анализеТРИЗ. Применение в бизнес-анализе
ТРИЗ. Применение в бизнес-анализеАндрей Курьян
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферированиеLidia Pivovarova
 

Viewers also liked (8)

Text Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK DataText Analysis of Social Networks: Working with FB and VK Data
Text Analysis of Social Networks: Working with FB and VK Data
 
Метрики семантической близости с приложениями к задачам АОТ
Метрики семантической близости с приложениями к задачам АОТМетрики семантической близости с приложениями к задачам АОТ
Метрики семантической близости с приложениями к задачам АОТ
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
Semantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation ExtractionSemantic Similarity Measures for Semantic Relation Extraction
Semantic Similarity Measures for Semantic Relation Extraction
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети Фейсбук
 
Word2vec для поискового движка II
Word2vec для поискового движка IIWord2vec для поискового движка II
Word2vec для поискового движка II
 
ТРИЗ. Применение в бизнес-анализе
ТРИЗ. Применение в бизнес-анализеТРИЗ. Применение в бизнес-анализе
ТРИЗ. Применение в бизнес-анализе
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 

Similar to Вычислительная лексическая семантика: метрики семантической близости и их приложения

Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим ЛитвиновLidia Pivovarova
 
построение и анализ компьютерной модели семантической сети экономических тер...
построение и анализ компьютерной модели  семантической сети экономических тер...построение и анализ компьютерной модели  семантической сети экономических тер...
построение и анализ компьютерной модели семантической сети экономических тер...Сергей Макрушин
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информацииLidia Pivovarova
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...ITMO University
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
 
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Сергей Макрушин
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
бурдаев Ontology 2010
бурдаев Ontology 2010бурдаев Ontology 2010
бурдаев Ontology 2010Vladimir Burdaev
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯITMO University
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 

Similar to Вычислительная лексическая семантика: метрики семантической близости и их приложения (17)

Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
построение и анализ компьютерной модели семантической сети экономических тер...
построение и анализ компьютерной модели  семантической сети экономических тер...построение и анализ компьютерной модели  семантической сети экономических тер...
построение и анализ компьютерной модели семантической сети экономических тер...
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
 
Masa
MasaMasa
Masa
 
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...
 
RussNet
RussNetRussNet
RussNet
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
бурдаев Ontology 2010
бурдаев Ontology 2010бурдаев Ontology 2010
бурдаев Ontology 2010
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 

More from Alexander Panchenko

Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...Alexander Panchenko
 
Building a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlBuilding a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlAlexander Panchenko
 
Improving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic ClassesImproving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic ClassesAlexander Panchenko
 
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesInducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesAlexander Panchenko
 
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...Alexander Panchenko
 
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Alexander Panchenko
 
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...Alexander Panchenko
 
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationUsing Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationAlexander Panchenko
 
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Alexander Panchenko
 
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Alexander Panchenko
 
Getting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part IIGetting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part IIAlexander Panchenko
 
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...Alexander Panchenko
 

More from Alexander Panchenko (12)

Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...Graph's not dead: from unsupervised induction of linguistic structures from t...
Graph's not dead: from unsupervised induction of linguistic structures from t...
 
Building a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common CrawlBuilding a Web-Scale Dependency-Parsed Corpus from Common Crawl
Building a Web-Scale Dependency-Parsed Corpus from Common Crawl
 
Improving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic ClassesImproving Hypernymy Extraction with Distributional Semantic Classes
Improving Hypernymy Extraction with Distributional Semantic Classes
 
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical ResourcesInducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
Inducing Interpretable Word Senses for WSD and Enrichment of Lexical Resources
 
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
IIT-UHH at SemEval-2017 Task 3: Exploring Multiple Features for Community Que...
 
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
Fighting with Sparsity of the Synonymy Dictionaries for Automatic Synset Indu...
 
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...The 6th Conference on Analysis of Images, Social Networks, and Texts  (AIST 2...
The 6th Conference on Analysis of Images, Social Networks, and Texts (AIST 2...
 
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense DisambiguationUsing Linked Disambiguated Distributional Networks for Word Sense Disambiguation
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
 
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
Unsupervised Does Not Mean Uninterpretable: The Case for Word Sense Induction...
 
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
Noun Sense Induction and Disambiguation using Graph-Based Distributional Sema...
 
Getting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part IIGetting started in Apache Spark and Flink (with Scala) - Part II
Getting started in Apache Spark and Flink (with Scala) - Part II
 
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
IIT-TUDA at SemEval-2016 Task 5: Beyond Sentiment Lexicon: Combining Domain ...
 

Вычислительная лексическая семантика: метрики семантической близости и их приложения