Вычислительная лексическая семантика: метрики семантической близости и их приложения
Upcoming SlideShare
Loading in...5
×
 

Вычислительная лексическая семантика: метрики семантической близости и их приложения

on

  • 365 views

 

Statistics

Views

Total Views
365
Views on SlideShare
362
Embed Views
3

Actions

Likes
2
Downloads
4
Comments
0

2 Embeds 3

http://panchenko.me 2
http://research.digsolab.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Вычислительная лексическая семантика: метрики семантической близости и их приложения Вычислительная лексическая семантика: метрики семантической близости и их приложения Presentation Transcript

  • Лексическая семантика Обзор метрик PatternSim HybridSim Вычислительная лексическая семантика: метрики семантической близости их приложения Александр Панченко Digital Society Laboratory & Universit´ catholique de Louvain e a.panchenko@digsolab.com 27 ноября 2013 г. Александр Панченко 1/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 2/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 3/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Введение О себе 1 PhD (Natural Language Processing) co-tutelle Universit´ catholique de Louvain и МГТУ им. e Н.Э.Баумана; http://cental.fltr.ucl.ac.be/team/~panchenko/ alexander.panchenko@uclouvain.be 2 Старший исследователь в Digital Society Laboratory. 3 Ассоциированный исследователь в Universit´ catholique e de Louvain. 4 Область научных интересов – Natural Language Processing: Вычислительная лексическая семантика. Классификация (коротких) текстов. АОТ для анализа социальных сетей. Александр Панченко 4/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Вычислительная лексическая семантика * рисунок адаптирован из курса Computational Linguistics LINGI2263 http://www.uclouvain.be/en-cours-2013-LINGI2263.html Александр Панченко 5/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Введение в область лексической семантики Jurafsky D. and Martin J.H. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2009), chapters 19,20, 22. Cruys T. Mining for meaning: the extraction of lexico-semantic knowledge from text (2010). PhD thesis. http://dissertations.ub.rug.nl/faculties/arts/ 2010/t.van.de.cruys/ Panchenko A. Similarity Measures for Semantic Relation Extraction (2013) http: //cental.fltr.ucl.ac.be/team/~panchenko/thesis.pdf Введение в обработку текста. ИСП РАН, ВМК МГУ, Лекция 6 и 7 http://modis.ispras.ru/tpc/wp-content/ uploads/2011/10/lecture6-2013.pdf Александр Панченко 6/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические отношения Рис. : Семантический ресурс из 29 отношений. Александр Панченко 7/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические отношения: типы Рис. : Семантический ресурс с (a) типизированными и (b) нетипизированными отношениями. Александр Панченко 8/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Семантические отношения: типы Александр Панченко 9/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim Семантические отношения: типы Александр Панченко 10/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические отношения: выразительность Рис. : Выразительность различных моделей представления семантичеких ресурсов. Александр Панченко 11/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: таксонония Рис. : A part of the taxonomy of economical activities NACE. Александр Панченко 12/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: тезаурус Рис. : The Eurovoc thesaurus: the term “energy industry” and its semantic relations. Here, hypernyms are denoted with arrows and associations are denoted with dashed lines. Александр Панченко 13/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: лексическая база данных Рис. : Lexical database WordNet: synset engineer and its semantic relations. Александр Панченко 14/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Семантические ресурсы: онтология Рис. : SUMO upper ontology: a part of the class hierarchy. Александр Панченко 15/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Извлечение семантических отношений из текста Александр Панченко 16/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости Мотивация исследования 1 Метрики семантической близости полезны для: ˇ систем обработки коротких текстов (Saric et al., 2012; Panchenko at., 2012); расширешия поисковых запросов (Hsu et al., 2006); вопросно-ответных систем (Sun et al., 2005); разрешения омонимии (Patwardhan et al., 2003); ... Лексико-семантическое знание о языке. Вычислительная лексическая семантика. Computational Lexical Semantics. Александр Панченко 17/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости Определение Метрика семантической близости численно выражает семантическую связность слов ci и cj : sij = sim(ci , cj ): sij = велико 0 если ci , cj – пара syn, hyper , cohypo иначе Свойства Неотрицательность: 0 ≤ sij ≤ 1; Рефлективность: sij = 1 ⇔ ci = cj ; Симметричность: sij = sji ; sij ≤ sik + skj Александр Панченко 18/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости: распределение Малое количество подобных пар: sij ∼ exp(λ). Распределение сем. близости слова “doctor”: Александр Панченко 19/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики семантической близости: распределение Рис. : Number of relations (synonyms and hyponyms) per term in the dictionaries: a dictionary of synonyms, Roget’s thesaurus, WordNet and a union of these three resources. Александр Панченко 20/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Системы измерения семантической близости Terms Text-Based Data C Feature Extractor F Similarity Measure Semantic Similarity Measure Semantic Relation Extractor S Normalizer S kNN Procedure R Semantic Relations Как построить систему с высокой точностью и лексическим покрытием? Александр Панченко 21/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Оценка качества метрики семантической близости 1 Корреляция с суждениями человека о сем. близости: Статистики: корреляция Пирсона (ρ) и Спирмена (r ). Проверочные данные: MC, RG, WordSim. 2 Ранжирование семантических отношений: Точность, Полнота, F-мера. Проверочные данные: BLESS, SN. 3 Точность извлечения семантических отношений: Статистики: Точность@k. Проверочные данные: аннотирование и/или тезаурусы. 4 Использование метрики в системе АОТ: в системе классификации имен файлов (iCOP); с системе поиска семантически связанных слов (Serelex). Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013, (Chapter 1). Александр Панченко 22/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Критерии, основанные на суждениях субъектов о семантической близости слово, ci tiger book computer ... possibility sugar слово, cj cat paper keyboard ... girl approach субъект, s 7.35 7.46 7.62 ... 1.94 0.88 sim, s 0.85 0.95 0.81 ... 0.25 0.05 субъект (ранг), r 1 2 3 ... 64 65 Данные: WordSim353 – 353 пар слов (Finkelstein, 2002) MC – 30 пар слов (Miller Charles, 1991) RG – 65 пар слов (Rubenstein Goodenough, 1965) Коэффициент корреляции Пирсона: ρ = Коэффициент корреляции Спирмена:: r Александр Панченко 23/98 cov (s,ˆ) s σ(s)σ(ˆ) s cov (r,ˆ) r = σ(r)σ(ˆ) r sim (ранг), ˆ r 3 2 1 ... 65 23
  • Лексическая семантика Обзор метрик PatternSim HybridSim Критерии, основанные на суждениях субъектов о семантической близости Александр Панченко 24/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Критерии, основанные на суждениях субъектов о семантической близости Рис. : Ранговая корреляция Спирмена на наборе данных Miller-Charles (MC). ρ метрики равно 0.843 (p<0.001), а корреляция случайных данных -0.173 (p=0.360). Александр Панченко 25/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Критерии точности извлечения отношений слово, ci judge judge judge judge judge judge ... judge judge judge слово, cj adjudicate arbitrate asessor chancellor gendarmerie sheriff ... pc fare lemon тип отношения, t syn syn syn syn syn syn ... random random random Данные: BLESS (Baroni and Lenci, 2011) – 26554 отношений (hyper, coord, mero, event, attri, random) SN (Panchenko, 2012) – 14682 отношений (syn, random) Александр Панченко 26/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Критерии точности извлечения отношений Основаны на количестве правильно отранжированных отношений. R – все семантические отношения, не являющиеся случайными ( animal , random, bishop и т.п.) ˆ R(k) множество извлеченных отношений при количестве ближайших соседей k Критерии ˆ Точность: P(k) = |R∩R(k)| , ˆ |R(k)| ˆ Полнота: R(k) = |R∩R(k)| , |R| F1-мера: F (k) = 2 · P(k)·R(k) P(k)+R(k) , Мы используем P(10), P(20), P(50), R(50). Александр Панченко 27/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Пример: оценка точности извлечения отношений Точность P(k = 50) = слово, ci aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado aficionado 1 7 ≈ 0.86 слово, cj enthusiast fan admirer addict devotee foundling fanatic adherent capital statute blot meddler enlargement bawdyhouse Александр Панченко тип отношения syn syn syn syn syn random syn syn random random random random random random 28/98 sij 0.07197 0.05195 0.01964 0.01326 0.01163 0.00777 0.00414 0.00353 0.00232 0.00029 0.00025 0.00005 0.00003 0.00000 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 29/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Обзор метрик семантической близости Публикации Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013: Chapters 2.1, 3.1. Panchenko A. A Study of Heterogeneous Similarity Measures for Semantic Relation Extraction. // In JEP-TALN-RECITAL 2012 — Grenoble (France), 2012. ACL Anthology / Google Scholar: “semantic similarity measure”, “semantic similarity”. Александр Панченко 30/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Обзор метрик семантической близости Публикации (анализ 37 базовых метрик): Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013, (Chapter 3). Panchenko A. A Study of Heterogeneous Similarity Measures for Semantic Relation Extraction. // In JEP-TALN-RECITAL 2012 — Grenoble (France), 2012. Александр Панченко 31/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Данные: семантическая сеть WordNet 3.0, корпус SemCor. Переменные: len(ci , cj ) – длина кратчайшего пути между ci и cj len(ci , lcs(ci , cj )) – длина кратчайшего пути от ci до ближайшего общего предка (БОП) слов ci и cj Ближайший Общий Предок (БОП) – Lowest Common Subsumers (LCS) len(croot , lcs(ci , cj )) – длина кратчайшего пути от корня croot до БОП слов ci и cj (глубина БОП) P(c) – вероятность слова c, оцененная из корпуса P(lcs(ci , cj )) – вероятность БОП слов ci и cj Метрики: Инвертированная длина пути, Leacock-Chodorow, Wu-Palmer, Resnik, Jiang-Conrath, Lin. Александр Панченко 32/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Lowest common subsumer (LCS) Рис. : Ближайшие общие предки в семантической сети. (car , food ) → object (beef , pork) → meat (pork, coupe) → object (vegetable, pork) → food Александр Панченко 33/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Инвертированная длина пути: sij = len(ci , cj )−1 . LeacockChodorow: sij = − log len(ci , cj ) . 2h Resnik: sij = − log P(cij ). JiangConrath: dij = 2 log P(cij ) − (log P(ci ) + log P(cj )). Александр Панченко 34/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Lin: sij = 2 log(P(cij )) log(P(ci ) + log(P(cj )) WuPalmer: sij = 2len(cr , cij ) len(ci , cij ) + len(cj , cij ) + 2 · len(cr , cij ) Александр Панченко 35/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на семантической сети Инструменты: WordNet::Similarity tool (Perl, command-line): http://wn-similarity.sourceforge.net/ NTLK (Python): http://nltk.org Источник: http://googlecode.com/svn-/trunk/doc/howto/wordnet.html Александр Панченко 36/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на Веб корпусе текстов Данные: количество документов возвращенных ИПС: Google, Yahoo, AltaVista, Bing, и т.п. Переменные: hi – количество документов возвращенных по запросу слова ”ci ” hij – количество документов возвращенных по запросу ”ci AND cj ” Метрики: Normalized Google Distance (NGD) (Cilibrasi and Vitanyi, 2007) Pointwise Mutual Information - Information Retrieval (PMI-IR) (Turney, 2001) Александр Панченко 37/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Веб-метрики: пример Александр Панченко 38/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на Веб корпусе текстов Normalized Google Distance (NGD): sij = max(log (hi ), log (hj )) − log (hij ) log (M) − min(log (hi ), log (hj )) Pointwise Mutual Information Information Retrieval (PMIIR): hij P(ci , cj ) sij = log = log P(ci )P(cj ) i ,j Александр Панченко 39/98 ≈ log hj hi i ,j hij hij i ,j hij hij . hi hj Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Дистрибутивные метрики Данные: корпус, такой как Википедия или ukWaC Метрики: Bag-of-words Distributional Analysis (BDA) (Sahlgren, 2006) Syntactic Distributional Analysis (SDA) (Curran, 2003) Александр Панченко 40/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Дистрибутивные метрики Переменные: fi – вектор признаков представляющий слово ci , основанный на контекстном окне fis – вектор признаков представляющий слово ci , основанный на синтаксическом контекстном окне Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010) Александр Панченко 41/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Другие метрики, основанные на корпусе текстов Данные: корпус, такой как Википедия или ukWaC Метрики: Латентно-cемантический анализ (LSA) (Landauer and Dumais, 1997) Вероятностные модели (pLSA, LDA и др.) (Griffiths et al., 2007) NGD и PMI-IR (Veksler et al., 2008) ... Александр Панченко 42/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Латентно-семантический анализ Latent Semantic Analysis (LSA) (Landauer and Dumais, 1997): 1 Representing the corpus D as an N × M term-document matrix F. 2 Normalization of the matrix F with TF-IDF: fij |D| fij = , · log |d ∈ D : wi ∈ d | i fij 3 4 5 Singular value decomposition of D: D = UΣVT . Low-rank approximation of the matrix U with a reduced M × k matrix Uk by retaining only the first k column of the U. Calculation of similarities between terms ci and cj as a cosine between respective columns of Uk (uk and uk ): i i sij = Александр Панченко uk · uk i j ||uk ||||uk || i j 43/98 . Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Латентно-семантический анализ U is an M × M matrix which columns are the orthogonal eigenvectors of DDT VT is an N × N matrix which columns are the orthogonal eigenvectors of DT D Σ is an M × N diagonal matrix:   σ11 . . . 0  . . . .. .  Σ= . . . . 0 · · · σnn √ The i-th element on the diagonal σii = λi , where λi is an eigenvalue of DDT . The eigenvalues are ordered, such that λi ≥ λi+1 . Источник: Manning et al. Introduction to information retrieval (2008), p.374. Александр Панченко 44/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Латентно-семантический анализ Источник: Tim Van de Cruys, Mining for Meaning, PhD thesis (2010) Александр Панченко 45/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на определениях Данные: определения из WordNet, Википедии, Викисловаря или любого другого словаря. Переменные: gloss(ci ) – определение слова ci ; fi вектор признаков, построенный из gloss(ci ); fi – вектор признаков ci , вычисленный на корпусе из всех определений методом контекстного окна; exist(ci , cj ) – наличие связи между ci и cj в словаре. Метрики: ExtendedLesk (Banerjee and Pedersen, 2003) GlossVectors (Patwardhan and Pedersen, 2006) DefVectors (Panchenko et al., 2012) Александр Панченко 46/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на определениях: Extended Lesk relies on the gloss similarity of terms ci and cj relies on gloss similarity of all terms related to ci and cj sij = simg (ci , cj ), ci ∈Ci cj ∈Cj simg is a gloss-based similarity measure and set Ci includes concept ci and all concepts directly related to it. Александр Панченко 47/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрики, основанные на определениях: GlossVectors a cosine between vectors vi and vj representing concepts ci and cj a vector vi is a sum of context vectors representing all words from the definition of ci and the definitions of terms related to ci : sij = vi · vj where vi = ||vi ||||vj || fj . ∀j:cj ∈Gi fj is a context vector, derived from the corpus of all glosses Gi is concatenation of glosses of the concept ci and all concepts which are directly related to it. Александр Панченко 48/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение базовых метрик семантической близости Александр Панченко 49/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение базовых метрик семантической близости Александр Панченко 50/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение: лучшие базовые метрики Каждая метрика излекает много ко-гипонимов: Canon, Nikon , Lamborghini, Ferrari , Obama, Romney . Александр Панченко 51/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Резюме Основные ресурсы для построения метрик: семантические сети и тезаурусы; корпуса текстов; Веб корпус текстов; определения из словарей и энциклопедий. Метрики дополняют друг друга в терминах: лексического покрытия; точности; типов извлекаемых отношений. Александр Панченко 52/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Программное обеспечение Semantic Vectors: https://code.google.com/p/semanticvectors/ S-Space Package: https://code.google.com/p/airhead-research/ WordNet::Similarity: http://wn-similarity.sourceforge.net NLTK: http://nltk.googlecode.com/svn/trunk/doc/ howto/wordnet.html WikiRelate! PatternSim / Serelex: http://serelex.cental.be Метрики, основанные на Веб корпусе: http://cwl-projects.cogsci.rpi.edu/msr LSA: http://lsa.colorado.edu DefVectors: http://github.com/jgc128/defvectors Александр Панченко 53/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 54/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Публикации Hearst, M. A. Automatic acquisition of hyponyms from large text corpora. In ACL, pages 539–545, 1992. Panchenko A., Morozova O., Naets H. A Semantic Similarity Measure Based on Lexico-Syntactic Patterns. In Proceedings of KONVENS 2012, pp.174–178, 2012 Panchenko A., Romanov P., Morozova O., Naets H., Philippovich A., Fairon C. Serelex: Search and Visualization of Semantically Related Words. In Proceedings of the 35th European Conference on Information Retrieval (ECIR 2013). Панченко А., Романов П., Романов А., Филиппович А., Филиппович Ю., Морозова О. Серелекс: поиск и визуализация семантически связанных слов. Анализ Изображений, Сетей и Текстов (АИСТ), Интуит, 2013 Александр Панченко 55/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Демо http://serelex.cental.be/ Александр Панченко 56/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Лексико-синтаксические паттерны 18 паттернов извлекающих гиперонимы, ко-гипонимы и синонимы Александр Панченко 57/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Основной каскад преобразователей Каскад конечных автоматов (FST) В формате Unitex: http://igm.univ-mlv.fr/~unitex/ Александр Панченко 58/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Пример реализации паттерна в виде автомата Паттерны, основанные на автоматах позволяют учесть лингвистическую вариацию, сохранив точность В отличие от паттернов основанных на строках (Bollegala et al., 2007) Александр Панченко 59/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim PatternSim: основные этапы Паттерны извлекают конкордансы such diverse {[occupations]} as {[doctors]}, {[engineers]} and {[scientists]}[PATTERN=1] such {non-alcoholic [sodas]} as {[root beer]} and {[cream soda]}[PATTERN=1] {traditional[food]}, such as {[sandwich]},{[burger]}, and {[fry]}[PATTERN=2] Александр Панченко 60/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim PatternSim: основные этапы Корпус Wikipedia+ukWaC: 2.9 · 1012 токенов Количество извлечений Wikipedia – 1.196.468 ukWaC – 2.227.025 WaCypedia+ukWaC – 3.423.493 Александр Панченко 61/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Метрика семантической близости PatternSim Александр Панченко 62/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Вычисление подобия: rerank Efreq: мера подобия равна количеству извлеченных отношений sij = sij Efreq-Cfreq: нормализация по частоте слов sij = eij P(ci , cj ) = ij eij P(ci , cj ) P(ci )P(cj ) – вероятность извлечения отношения ci , cj , где eij – частота взаимной встречаемости слов ci и cj во множестве конкордансов P(ci ) = fi fi – вероятность слова ci , где fi – частота ci i Александр Панченко 63/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Вычисление подобия: Efreq-Rnum-Cfreq-Pnum: sij = P(ci , cj ) = √ eij ij eij pij · P(ci , cj ) 2 · µb · . bi∗ + b∗j P(ci )P(cj ) – вероятность извлечения отношения ci , cj , где eij – частота взаимной встречаемости слов ci и cj во множестве конкордансов P(ci ) = fi fi – вероятность слова ci , где fi – частота ci i bi∗ = j:eij ≥β 1 – количество извлечений слова ci с |C | 1 частотой ≥ β, где µb = |C | i=1 bi∗ – среднее количество извлечений для отдельного слова pij ∈ [1; 18] – количество отдельных паттернов которые извлекли отношение ci , cj Александр Панченко 64/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Ранжирование семантических отношений Точность сравнима или лучше чем у аналогов; Полнота меньше чем у аналогов. Рис. : График точность-полнота (коллекция BLESS). Александр Панченко 65/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Извлечение семантических отношений Точность@1 ≈ 0.80; “Хорошее” лексическое покрытие: Александр Панченко 66/98
  • Лексическая семантика Обзор метрик PatternSim HybridSim Сравнение результатов базовых метрик и PatternSim Александр Панченко 67/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 68/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Публикациии Panchenko A., Morozova O. A Study of Hybrid Similarity Measures for Semantic Relation Extraction. // Innovative Hybrid Approaches to the Processing of Textual Data Workshop, EACL 2012 — Avignon (France), 2012 — pp. 10–18 Panchenko A., Similarity Measures for Semantic Relation Extraction. PhD thesis. Universit´ catholique de Louvain. 197 e pages, 2013, (Chapter 4). Panchenko A. A Study of Heterogeneous Similarity Measures for Semantic Relation Extraction. // In JEP-TALN-RECITAL 2012 — Grenoble (France), 2012 — pp. 29–42. Александр Панченко 69/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Отдельные и гибридные метрики (a) Terms, C Si knn Relations, R Terms, C ... simN ... sim1 norm S1 SN norm S1 SN combination method Scmb norm Hybrid Similarity Measure Features Si norm Single Similarity Measure simi (b) Scmb knn Relations, R Рис. : Система извлечения семантических отношений основанная на: (a) отдельной метрике; (b) гибридной метрике. Александр Панченко 70/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim 16 признаков = 16 отдельных метрик 5 метрик основанных на семантических сетях: 1 2 3 4 5 WuPalmer; Leacock and Chodorow; Resnik; Jiang and Conrath; Lin. 3 метрики, основанные на Веб корпусе (NGD-Yahoo/Bing/Google); 5 метрики, основанные на корпусе текстов: 2 дистрибутивных (BDA, SDA) 1 лексико-синтаксические шаблоны (PatternSim) 2 другие (LSA, NGD-Factiva) 3 метрики, основанные на определениях 1 2 3 ExtendedLesk; GlossVectors; DefVectors-WktWiki. Александр Панченко 71/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования без учителя k sij ∈ [0; 1] – попарное семантическое подобие слов wi и wj , вычисленное с помощью k-й метрики Sk . Mean Среднее между K попарными подобиями слов: cmb sij = 1 K k sij ; k=1,K Mean-Nnz Среднее между K попарными подобиями слов больше нуля: cmb sij = |k : k sij 1 k sij ; > 0, k = 1, K | k=1,K Александр Панченко 72/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования без учителя Mean-Zscore Среднее между нормированными попарными подобиями слов (Z-score): Scmb = 1 K K k=1 Sk − µk ; σk где µk и σk среднее и стандартное отклонение значений k-й метрики (Sk ). Median Медиана между K попарными подобиями слов: cmb 1 K sij = median(sij , . . . , sij ). Александр Панченко 73/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования без учителя Max Максимум между K попарными подобиями слов: K 1 cmb sij = max(sij , . . . , sij ); RankFusion Среднее между рангами слов: cmb sij = 1 K k rij . k=1,K k где rij – ранк, соответствующий значению попарного подобия k sij . Александр Панченко 74/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования метрик подобия RelationFusion Объединение отношений, извлеченных каждым методом. Отношения, извлеченные несколькими метриками, надежнее. 1 2 3 4 5 Input: Матрицы подобия, сгенерированные K метриками {S1 , . . . , SK }, количество ближайших соседей k Output: Комбинированная матрица подобия, Scmb for i=1,N do Ri ← knn(Si , k) ; Ri ← relation_matrix(Ri ) 1 Scmb ← N N Ri ; i=1 return Scmb ; relation_matrix : rij = Александр Панченко 1 0 75/98 if ci , cj ∈ Rk else Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования с учителем Logit, Logit-L1, Logit-L2 Бинарная логистическая регрессия; Положительные обучающие примеры – синонимы, гиперонимы, ко-гипонимы из BLESS/SN; Отрицательные обучающие примеры – случайные пары семантически несвязных слов из BLESS/SN; Отношение ci , t, cj ∈ R представлено с помощью 1 N вектора попарных близостей: x = (sij , . . . , sij ), N = 2, 16; Категория yij : yij = 0 1 если ci , t, cj случайное отношение иначе Александр Панченко 76/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Методы комбинирования с учителем Logit, Logit-L1, Logit-L2 Использование модели (w1 , . . . , wK ) для комбинирования: cmb sij = 1 ,z = 1 + e −z Александр Панченко K k wk sij + w0 . k=1 77/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Модель комбинирования метрик Рис. : Weights of the similarity measures used by the hybrid measure Logit-E15. The weights were learnt on the BLESS dataset with 10-fold cross validation repeated 10 times. Александр Панченко 78/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Методы комбинирования с учителем Support Vector Machine (SVM), linear kernel Веса w и опорные вектора SV : αi yi xi . w= xi ∈SV Использование модели K cmb sij T k wi sij +b. = w x+b = k=1 Александр Панченко 79/98
  • Лексическая семантика Обзор метрик PatternSim HybridSim Какие из отдельных метрик следует комбинировать? Количество возможных комбинаций 34: 16: 34 m m=2 C34 16 m m=2 C16 = = 34 34! m=2 m!(34−m)! 16 16! m=2 m!(16−m)! = 234 = 1.718 · 1010 = 65535 Экспертный выбор: 5, 9 и 15 метрик из 16 Forward Stepwise Procedure: 7, 8, 8, 10 метрик из 16 Анализ коэффициентов логистической регрессии: 12 из 16 Александр Панченко 80/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Результаты: базовые метрики, корреляция с суждениями субъектов Рис. : Pearson – корреляция Пирсона, Spearman – корреляция Спирмена. Александр Панченко 81/98
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Результаты: базовые метрики, ранжирование отношний Александр Панченко 82/98
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Результаты: базовые метрики, ранжирование отношний Рис. : Графики Точность-Полнота (слева) 4х лучших метрик основанных на корпусе, семантических сетях, определениях и метрика, основанная на среднем значении 14 метрик; (слева) метрики основанных на определениях Викисловаря и Википедии. Александр Панченко 83/98
  • Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: отдельные и комбинированные метрики Рис. : Характеристики 16 отдельных и 8 комбинированных метрик. MC, RG, WordSim353 – корреляция с суждениями человека. BLESS, SN – точность извлечения семантических отношений. Наилучшие значения в группе (отдельные/комбинированные) обозначены полужирным шрифтом; наилучшие значения обозначены серым цветом. Александр Панченко 84/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: методы комбинирования с учителем График Точность-Полнота вычисленный на коллекции BLESS: (a) 16 отдельных метрик и гибридная метрика Logit-E15; (b) 8 гибридных метрик. Александр Панченко 85/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Прилож Результаты: метод комбинирования с учителем Logit-E15 Рис. : Значение подобия между 74 словами связанными со словом “acacia”. Александр Панченко 86/98
  • Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: методы комбинирования с учителем Александр Панченко 87/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Результаты: методы комбинирования с учителем (продолжение) Рис. : Оптимизация мета-параметров метрики C-SVM-radial-E15. Александр Панченко 88/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 89/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 90/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде списка и графа слов http://serelex.cental.be/ Александр Панченко 91/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Серелекс: результаты в виде множества изображений Александр Панченко 92/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Поиск и визуализация семантически связанных слов Оценка качества работы системы Серелекс Рис. : Удовлетворенность пользователей первыми 20 результатами поиска для 594 запроса (23 ассесора и 109 пользователей). Александр Панченко 93/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов План 1 Вычислительная лексическая семантика 2 Обзор метрик семантической близости 3 Метрика основанная на лексико-синтаксических шаблонах 4 Гибридная метрика семантической близости 5 Приложения метрик семантической близости Поиск и визуализация семантически связанных слов Классификация коротких текстов Александр Панченко 94/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов iCop: классификация имен файлов Рис. : Структура системы. Использование семантических отношений для расширения имени файла (Vocabulary Projection). Александр Панченко 95/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim Классификация коротких текстов iCop: пример Vocabulary Projection Александр Панченко 96/98 HybridSim Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов Качество классификации Обучающая выборка Gallery (train) PirateBay Title+Desc+Tags PirateBay Title+Tags Gallery Gallery PirateBay Title+Desc+Tags PirateBay Title+Tags Тестовая выборка Gallery PirateBay Title+Desc+Tags PirateBay Title+Tags PirateBay Title+Desc+Tags PirateBay Title+Tags Gallery Gallery Accuracy 96.41 98.92 97.73 90.57 84.23 88.83 91.16 Accuracy (voc. projection) 96.83 (+0.42) 98.86 (–0.06) 97.63 (–0.10) 91.48 (+0.91) 88.89 (+4.66) 89.04 (+0.21) 91.30 (+0.14) Таблица : Качество классификации с использованием C-SVM-linear c учетом кросс-валидации. Александр Панченко 97/98 Прилож
  • Лексическая семантика Обзор метрик PatternSim HybridSim Классификация коротких текстов Спасибо за внимание! Вопросы? Александр Панченко 98/98 Прилож