SlideShare a Scribd company logo
1 of 33
Download to read offline
Word	
  Sense	
  Induc-on	
  &	
  
   Disambigua-on	
  Using	
  	
  
Hierarchical	
  Random	
  Graphs	
Ioannis	
  Klapa=is	
  &	
  Suresh	
  Manandhar	
  
                         	
  
               EMNLP	
  2010	
  
             発表者	
  :	
  M2	
  松田	
  
Abstract	
•  Unsupervised	
  WSD	
  
   –  Known	
  as	
  Word	
  Sense	
  Induc-on(WSI)	
  
   –  クラスタリングに基づくWSD	
  
•  本研究ではグラフをベースにしている	
  
   –  多くのWSIではグラフのノードをフラットにクラスタ
      リングする	
  
   –  対して、本研究ではグラフに存在している階層構
      造を用いることで性能を上げようと試みている	
  
語義の階層構造とグラフ	
•  多義語 paper	
  の共
   起グラフの例	
  
  –  密にリンクしている
     部分とそうでない
     部分がある	
  
  –  フラットなクラスタリ
     ングだと落としてし
     まう情報がある
階層構造の推測	
 Observed	
  Graph	
     Inferred	
  Hierarchy	
  

                                                  D2	
  
   B	
          D	
  



                                 D0	
                              D1	
  

   A	
          C	
  
                         A	
              B	
              C	
              D	
  



類似度に基づくグラフを元にして、階層関係を表したグラフを作成
研究の目的	
•  Infer	
  the	
  hierarchical	
  structure	
  (binary	
  tree)	
  of	
  
   a	
  graph	
  made	
  by	
  the	
  contexts	
  of	
  a	
  polysemous	
  
   word.	
  
    –  多義語のコンテキストから作成されたグラフから、
       階層構造(二分木)を推定する	
  
•  Apply	
  the	
  inferred	
  binary	
  tree	
  to	
  WSD	
  &	
  
   compare	
  with	
  flat	
  clustering.	
  
    –  推定された二分木をWSDに適用し、フラットなクラ
       スタリングとの比較を行う	
  
提案手法の概要	




        Step.1	
                 Step.2	
           Step.3	
        Step.4	
対象語のコンテキストから	
              グラフ(G)から、	
          Gold-­‐Standard   木の親
共起関係に基づくグラフ	
  (G)	
        階層構造を表               データから、そ           方向に
を作る	
                       した二分木(H)             れぞれのノード           足しあわ
G	
  :	
  無向、unweighted	
   の構造を推定	
             に対して語義            せて
                            (Hierarchical	
      の確率を振る	
          argmax	
  
                            Random	
  Graph)
Step.	
  1	

GRAPH	
  CREATION
Graph	
  Crea-on	
  (1/3)	
•  対象語を含んだコンテキスト(パラグラフ)から
   キーワードを抽出	
  
 –  対照コーパス(BNC)と出現確率を比較して、Log-­‐
    Likelihood	
  ra-oが一定以上の名詞	
  
   •  足切りパラメータ p1	
  
 –  Balancedなコンテキストに比べて、対象語と共起
    しやすい(独立でないと)名詞を抽出している	
  
•  以下、コンテキスト=抽出された名詞の集合
   で表す	
  
Graph	
  Crea-on	
  (2/3)	
•  グラフのノード	
  
  –  対象語を含むそれぞれのコンテキスト	
  
•  グラフのエッジ	
  
  –  コンテキスト同士の類似度を測り、一定値以上の
     場合、その間にエッジを張る	
  
    •  足切りパラメータ p3	
              simcl (A,B) + simwd (A,B)
    W (A,B) =                          ・・・式(1)	
                          2
                       こんな感じの無向グラフ	
  (G)	
  が	
  
                           出来上がる
Graph	
  Crea-on	
  (3/3)	
                   simcl (A,B) + simwd (A,B)
         W (A,B) =
                               2
    •  simcl	
  :	
  コロケーションに基づく類似度	
  
      –  コロケーションの抽出にも	
  Log-­‐Likelihood	
  ra-oを
!        使用	
  
      –  足切りパラメータ p2	
  	
  
    •  simwd:	
  Bag-­‐of-­‐Wordsに基づく類似度	
  
    •  いずれも	
  Jaccard	
  係数を用いて類似度を計算	
  
Step.2	

INFERRING	
  GRAPH	
  HIERARCHY
Hierarchical	
  Random	
  Graphs	
  	
•  Model	
  :n	
  個の葉ノードと n-­‐1	
  個の内部ノード
   からなる二分木	
  
•  内部ノードの集合を D	
  とおく	
               分かりにくいので	
  
                                         後で	
   –  	
  	
  D = {D1, D2 ,...Dn!1 }
•  もとのグラフ	
  G	
  において、 Dk	
  に対応するエッ
   ジが存在する確率を θk	
  とおく	
  
•  Dのトポロジカルな構造と各内部ノードに関連
   づく確率変数のベクトルをセットにして、	
   !
   –  HRG	
  	
  :        と定義	
  
                    H (D, ! )
HRG	
  (例)	



  もとのグラフ G	




   HRG	
  H
HRG	
  parameteriza-on	
  	
    •  目標:もとのグラフ G	
  と統計的に類似した
                           !
       HRGになるようなパラメータ D と ! を選ぶ	
  
           !
     –  !	
  	
  は	
  Dのトポロジーさえ決まれば	
  MLE	
  で簡単に
        	
  	
  
        求まる.	
  
     –  	
  D	
  はsuper-­‐exponen-alに組み合わせが大きくなる
            	
  	
               !
        ので、	
  MCMC	
  で求める.	
  


!
        左右どちらの二分木が、	
  
     元のグラフの性質を反映している?
!
           HRG	
  parameteriza-on	
  (!	
  )	
                                      	
  	
  
 •  D	
  k	
  	
  をHRGの内部ノードとする	
  
     	
  
 •  l(Dk ) r(D	
  	
  )	
  	
  をそれぞれ、 の左、右の	
  subtree	
  
       ,	
  	
  	
  	
  	
  	
  k                       Dk
     に存在する葉ノードの個数とする	
  
 •  	
  	
  (D	
  k	
  	
  	
  	
  を Dk の	
  subtree	
  同士を結ぶエッジのうち、
     f 	
  	
  	
   )
! もとのグラフ	
  G	
  に存在するものの数とする	
             !

 •  すると、 ! k の最尤推定値は	
  
     !
              f (Dk )
      !k =
           l(Dk )r(Dk )
       直感的に言うと・・・・	
  
       	
  	
  	
  	
  左の葉と右の葉を結ぶすべてのパスのうち、	
  G	
  に実際存在するものの割合
!
                HRG	
  parameteriza-on	
  (!	
  )	
                                           	
  	
  
•  Example	
  for	
  node	
  D2:	
  
    –  f(D2)	
  =	
  2,	
  there	
  are	
  2	
  edges,	
  AB	
  &	
  CD	
  
    –  l(D2)	
  =2,	
  there	
  are	
  2	
  ver-ces	
  on	
  the	
  le=	
  subtree.	
  
    –  r(D2)	
  =	
  2,	
  the	
  are	
  2	
  ver8ces	
  on	
  the	
  right	
  subtree.	
  
    –  Hence	
  the	
  probability	
  is	
  2/4	
  =	
  0.5	
  
HRG	
  parameteriza-on	
  (	
  	
  	
  )	
                                        D

•  尤度関数	
  (Clauset	
  et	
  al.,	
  2008)	
  :	
  
             !
        L(D, ! ) =          " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk )
                                              k)
                            Dk !D




•  L	
  (A)	
  =	
  0.105	
  
•  L	
  (B)	
  =	
  0.062	
  
	
  
尤度関数について	
  (1/2)	
     !
L(D, ! ) =   " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk )
             Dk !D


h(! k ) = !! k log! k ! (1! ! k )log(1! ! k )      とおいて対数をとると、	


         !
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
                     Dk "D

対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標	
  
(対数をとるのは主にアンダーフローを防ぐため)
尤度関数について	
  (2/2)	
                        それぞれ、左(右)の葉の数	
  
                        (木のルートに近いノードほど大きな値)	

         !
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
                Dk "D

-­‐h(θ)は右図のようにθが	
  
0か1に近いときに最大値をとる	


 曖昧性の低いノードほど高い値	


θが0か1に近いノードが多い場合に対数尤度が大きくなる	
  
もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ	
                 θはDのトポロジ(およびG)が決まれば一意に決まるので、	
  
                 対数尤度を最大化するような	
  D	
  を求める問題に落ちる
MCMC	
  Sampling	
•  先ほど述べたように、θは簡単に求まる	
  
•  しかし、尤度が最大になるようなDは、二分木
   のすべての構造を列挙しなければ求まらない	
  
•  そこで、木の構造をすこしづつ変化させ、尤
   度の変化を見ながら最適な構造を見つける	


  Markov	
  Chain	
  Monte	
  Carlo(MCMC)法を用いる
具体的なサンプリング法	




S  Given	
  a	
  current	
  dendrogram	
     Dcurr
         Dk
S  ノード    をランダムに選択する	
  (Figure	
  (A)).	
  
S  子Subtreeのどちらかを兄弟Subtreeと入れ替える	
  (Figures	
  (B),(C))	
  
S  Metropolis-­‐Has-ngs	
  ruleに基づいて採択を判定する	
  
                     !
!                                                      L(Dnext )
     S  尤度が上がるなら採択、下がる場合でも                                      の確率で採択	
  
                                                       L(Dcurr )
                                     (おおよそ	
  O(n2)	
  くらいのステップ数で収束するらしい)
Step.3	

SENSE	
  MAPPING
Sense	
  Mapping	
•  推定されたHRGを実際にWSDに用いるには、
   「語義」と対応付ける必要がある	
  
 –  内部ノードDiが語義skに関連づく確率をタグ付き
    コーパスから学習	
     F(D )	
  :	
  D の下にある葉(コ   i    i
                                          ンテキスト)の集合	
  
                 | F(Di )! F "(sk ) |     F’(sk)	
  :	
  コーパスの中で語
   P(sk | Di ) =
                     | F(Di ) |           義skとタグ付けされてい
                                          るコンテキストの集合	

タグ付きコーパスとの語彙のオーバーラップをはかって、	
  
それぞれの内部ノードに対して語義の確率をマッピングしている	
 タグ付きコーパスとしてはSemeval	
  2007	
  English	
  lexical	
  sampleデータを使用
Step.4	

SENSE	
  TAGGING
Sense	
  Tagging	

  •    Let	
  	
  	
  c	
  j	
  	
  be	
  an	
  untagged	
  instance.	
  
                              	
  
  •    This	
  will	
  be	
  leaf	
  in	
  the	
  dendrogram.	
  
  •    Example:	
  context	
  C	
  in	
  Figure	
  (A).	
  
! •    H(c	
  	
  j	
  )	
  set	
  of	
  parents	
  for	
  context	
   c j
       	
  	
  	
  	
  	
   	
  
  •    Score	
  assigned	
  to	
  sense	
  	
  sk

       w(sk , c j ) =            % p(s        k   | Di ) " # i
                                                  !                     例:	
  
                             D i $ H (c j )
                                                                        w(s1,C)	
  =	
  (0*1+	
  (2/3)*0.25)	
  =	
  0.16	
  	
  
                                   !                                    w(s2,C)	
  =	
  (1*1+(1/3)*0.25)=	
  1.08.	
  	
  
  スコアが最も高い語義をleaf-­‐nodeに対応する	
  
                                                                        よって,	
  s2	
  が	
  leaf-­‐node	
  Cに対応する語義	
  
  語義として出力する
EVALUATION
Evalua-on	
  Sehng	
•  データセット:	
  
   –  Semeval-­‐2007	
  sense	
  induc-on	
  task	
  
•  評価指標:	
  
   –  F1-­‐score	
  
•  Baselines:	
  
   –  フラットクラスタリング using	
  weighted	
  graphs	
  (CWW)	
  
   –  フラットクラスタリング using	
  unweighted	
  graphs	
  
      (CWU)	
  
        •  Chinese	
  Whispers	
  (Biemann,	
  2006)	
  という手法を用いている	
  
   –  階層的凝集型クラスタリング(HAC)	
  
        •  average	
  linkageに基づくもの	
  (伝統的な手法)	
  
Result(1/2)	




•  パラメータ: すべて共起に基づくグラフGのもの	
  
  –  p1,	
  p2	
  :	
  単語、コロケーションの抽出のためのしきい値(対数尤度比)	
  
  –  p3	
  :	
  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)	
  
•  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出
   ている	
  
•  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の
   両方の関係を考慮できるため性能が向上した	
  
  –  と著者らは主張している・・・	
  
Result(2/2)	
System	
                                                          Performance	
  (%)	
  
HRGs	
                                                            87.6	
  
(Brody	
  &	
  Lapata,	
  2009)	
                                 87.3	
  
(Niu	
  et	
  al.,	
  2007)	
                                     86.8	
  
(Klapa=is	
  and	
  Manandhar,	
  2008)	
                         86.4	
  
HAC	
                                                             86.0	
  
CWU	
                                                             85.1	
  
CWW	
                                                             84.7	
  
(Pedersen,	
  2007)	
                                             84.5	
  
MFS	
                                                             80.9	
  

                                  F1-­‐score	
  for	
  SemEval-­‐2007	
  WSI	
  task	
  dataset.	
  
                 State-­‐of-­‐the-­‐artな他の手法と比べても高い性能	
  
                  (ただし、上位3つは有意な差ではないらしい)
Conclusion	
•  Unsupervised	
  method	
  for	
  inferring	
  the	
  
   hierarchical	
  grouping	
  of	
  the	
  senses	
  of	
  a	
  
   polysemous	
  word.	
  
•  Graphs	
  exhibit	
  hierarchical	
  organiza-on	
  
   captured	
  by	
  HRGs,	
  in	
  effect	
  providing	
  
   improved	
  WSD	
  performance	
  compared	
  to	
  	
  
   –  Flat	
  graph	
  clustering.	
  
   –  Hierarchical	
  Agglomera-ve	
  Clustering	
  
感想、疑問等	
•  Hierarchical	
  Random	
  Graphの尤度関数の解釈が難しい	
  
•  グラフ	
  G	
  を unweighted	
  にしてしまうのはもったいない気が
   する	
  
  –  関連性には「程度」がある	
  
  –  足切りパラメータに意味があるのかよくわからない	
  
•  MCMCの収束条件について何も書いてない	
  
•  凝集クラスタリング(HAC)に対して有意に性能が向上する
   理由がイマイチ納得いかない	
  
•  途中からGold-­‐Standardを用いているので評価指標が公平
   なものであるか判断が難しい	
  
  –  WSDとして評価するためには必要なものではあるが・・・	
  
  –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ
     ちらの結果も見たかった	
  
おまけ	
•  Hierarchical	
  Random	
  Graphの原論文
   (Nature2008(leker),	
  ICML2006)も当たってみた	
  
  –  いろいろと応用があるらしい	
  
     •  Missing	
  ling	
  detec-on,	
  link	
  predic-on	
  
     •  Community	
  detec-on	
  
     •  Personalized	
  recommenda-on	
  etc…	
  
•  NLPの分野ではまだほとんど応用されていない
   手法なので、興味のある方は触ってみるといい
   かも	
  
  –  著者がコードも配っています	
  
  –  	
  	
  
ANY	
  QUESTION	
  OR	
  COMMENT?

More Related Content

What's hot

PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
Preferred Networks
 
情報検索の基礎(11章)
情報検索の基礎(11章)情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
 

What's hot (17)

lsh
lshlsh
lsh
 
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
PFI Seminar 2012/03/15 カーネルとハッシュの機械学習
 
情報検索の基礎(11章)
情報検索の基礎(11章)情報検索の基礎(11章)
情報検索の基礎(11章)
 
Information retrieval model
Information retrieval modelInformation retrieval model
Information retrieval model
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
OWLで何が言えるか
OWLで何が言えるかOWLで何が言えるか
OWLで何が言えるか
 
演習発表 Sari v.1.2
演習発表 Sari v.1.2演習発表 Sari v.1.2
演習発表 Sari v.1.2
 
OWLで何が書けるか
OWLで何が書けるかOWLで何が書けるか
OWLで何が書けるか
 
第5章 拡張モデル(前半)
第5章 拡張モデル(前半)第5章 拡張モデル(前半)
第5章 拡張モデル(前半)
 
K-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周りK-means hashing (CVPR'13) とハッシング周り
K-means hashing (CVPR'13) とハッシング周り
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
 
yyoshida thesis
yyoshida thesisyyoshida thesis
yyoshida thesis
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
Introduction to Categorical Programming
Introduction to Categorical ProgrammingIntroduction to Categorical Programming
Introduction to Categorical Programming
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 

Viewers also liked (8)

Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 

Similar to Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
YoheiOkuyama
 
Math tutorial public
Math tutorial publicMath tutorial public
Math tutorial public
Kenta Oono
 
第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章
Tomonobu_Hirano
 
形式手法とalloyの紹介
形式手法とalloyの紹介形式手法とalloyの紹介
形式手法とalloyの紹介
Daisuke Tanaka
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
Kenta Oono
 
Intoroduction of Pandas with Python
Intoroduction of Pandas with PythonIntoroduction of Pandas with Python
Intoroduction of Pandas with Python
Atsushi Hayakawa
 
Scalaプログラミング・マニアックス
Scalaプログラミング・マニアックスScalaプログラミング・マニアックス
Scalaプログラミング・マニアックス
Tomoharu ASAMI
 
Sort
SortSort
Sort
oupc
 

Similar to Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010) (20)

R seminar on igraph
R seminar on igraphR seminar on igraph
R seminar on igraph
 
Learning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data ManifoldLearning Depthwise Separable Graph Convolution from Data Manifold
Learning Depthwise Separable Graph Convolution from Data Manifold
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
 
Math tutorial public
Math tutorial publicMath tutorial public
Math tutorial public
 
テーマ別勉強会(R言語)#3.pdf
テーマ別勉強会(R言語)#3.pdfテーマ別勉強会(R言語)#3.pdf
テーマ別勉強会(R言語)#3.pdf
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
Blueprintsについて
BlueprintsについてBlueprintsについて
Blueprintsについて
 
第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
 
形式手法とalloyの紹介
形式手法とalloyの紹介形式手法とalloyの紹介
形式手法とalloyの紹介
 
Thinking in Cats
Thinking in CatsThinking in Cats
Thinking in Cats
 
第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案
 
Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
Intoroduction of Pandas with Python
Intoroduction of Pandas with PythonIntoroduction of Pandas with Python
Intoroduction of Pandas with Python
 
Scalaプログラミング・マニアックス
Scalaプログラミング・マニアックスScalaプログラミング・マニアックス
Scalaプログラミング・マニアックス
 
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京
 
Sort
SortSort
Sort
 

More from Koji Matsuda

Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
Koji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
Koji Matsuda
 

More from Koji Matsuda (11)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 

Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

  • 1. Word  Sense  Induc-on  &   Disambigua-on  Using     Hierarchical  Random  Graphs Ioannis  Klapa=is  &  Suresh  Manandhar     EMNLP  2010   発表者  :  M2  松田  
  • 2. Abstract •  Unsupervised  WSD   –  Known  as  Word  Sense  Induc-on(WSI)   –  クラスタリングに基づくWSD   •  本研究ではグラフをベースにしている   –  多くのWSIではグラフのノードをフラットにクラスタ リングする   –  対して、本研究ではグラフに存在している階層構 造を用いることで性能を上げようと試みている  
  • 3. 語義の階層構造とグラフ •  多義語 paper  の共 起グラフの例   –  密にリンクしている 部分とそうでない 部分がある   –  フラットなクラスタリ ングだと落としてし まう情報がある
  • 4. 階層構造の推測 Observed  Graph   Inferred  Hierarchy   D2   B   D   D0   D1   A   C   A   B   C   D   類似度に基づくグラフを元にして、階層関係を表したグラフを作成
  • 5. 研究の目的 •  Infer  the  hierarchical  structure  (binary  tree)  of   a  graph  made  by  the  contexts  of  a  polysemous   word.   –  多義語のコンテキストから作成されたグラフから、 階層構造(二分木)を推定する   •  Apply  the  inferred  binary  tree  to  WSD  &   compare  with  flat  clustering.   –  推定された二分木をWSDに適用し、フラットなクラ スタリングとの比較を行う  
  • 6. 提案手法の概要 Step.1 Step.2 Step.3 Step.4 対象語のコンテキストから   グラフ(G)から、   Gold-­‐Standard 木の親 共起関係に基づくグラフ  (G)   階層構造を表 データから、そ 方向に を作る   した二分木(H) れぞれのノード 足しあわ G  :  無向、unweighted の構造を推定   に対して語義 せて (Hierarchical   の確率を振る argmax   Random  Graph)
  • 8. Graph  Crea-on  (1/3) •  対象語を含んだコンテキスト(パラグラフ)から キーワードを抽出   –  対照コーパス(BNC)と出現確率を比較して、Log-­‐ Likelihood  ra-oが一定以上の名詞   •  足切りパラメータ p1   –  Balancedなコンテキストに比べて、対象語と共起 しやすい(独立でないと)名詞を抽出している   •  以下、コンテキスト=抽出された名詞の集合 で表す  
  • 9. Graph  Crea-on  (2/3) •  グラフのノード   –  対象語を含むそれぞれのコンテキスト   •  グラフのエッジ   –  コンテキスト同士の類似度を測り、一定値以上の 場合、その間にエッジを張る   •  足切りパラメータ p3 simcl (A,B) + simwd (A,B) W (A,B) = ・・・式(1) 2 こんな感じの無向グラフ  (G)  が   出来上がる
  • 10. Graph  Crea-on  (3/3) simcl (A,B) + simwd (A,B) W (A,B) = 2 •  simcl  :  コロケーションに基づく類似度   –  コロケーションの抽出にも  Log-­‐Likelihood  ra-oを ! 使用   –  足切りパラメータ p2     •  simwd:  Bag-­‐of-­‐Wordsに基づく類似度   •  いずれも  Jaccard  係数を用いて類似度を計算  
  • 12. Hierarchical  Random  Graphs   •  Model  :n  個の葉ノードと n-­‐1  個の内部ノード からなる二分木   •  内部ノードの集合を D  とおく   分かりにくいので   後で –     D = {D1, D2 ,...Dn!1 } •  もとのグラフ  G  において、 Dk  に対応するエッ ジが存在する確率を θk  とおく   •  Dのトポロジカルな構造と各内部ノードに関連 づく確率変数のベクトルをセットにして、   ! –  HRG    :        と定義   H (D, ! )
  • 13. HRG  (例) もとのグラフ G HRG  H
  • 14. HRG  parameteriza-on   •  目標:もとのグラフ G  と統計的に類似した ! HRGになるようなパラメータ D と ! を選ぶ   ! –  !    は  Dのトポロジーさえ決まれば  MLE  で簡単に     求まる.   –   D  はsuper-­‐exponen-alに組み合わせが大きくなる     ! ので、  MCMC  で求める.   ! 左右どちらの二分木が、   元のグラフの性質を反映している?
  • 15. ! HRG  parameteriza-on  (!  )     •  D  k    をHRGの内部ノードとする     •  l(Dk ) r(D    )    をそれぞれ、 の左、右の  subtree     ,            k Dk に存在する葉ノードの個数とする   •     (D  k        を Dk の  subtree  同士を結ぶエッジのうち、 f       ) ! もとのグラフ  G  に存在するものの数とする   ! •  すると、 ! k の最尤推定値は   ! f (Dk ) !k = l(Dk )r(Dk ) 直感的に言うと・・・・          左の葉と右の葉を結ぶすべてのパスのうち、  G  に実際存在するものの割合
  • 16. ! HRG  parameteriza-on  (!  )     •  Example  for  node  D2:   –  f(D2)  =  2,  there  are  2  edges,  AB  &  CD   –  l(D2)  =2,  there  are  2  ver-ces  on  the  le=  subtree.   –  r(D2)  =  2,  the  are  2  ver8ces  on  the  right  subtree.   –  Hence  the  probability  is  2/4  =  0.5  
  • 17. HRG  parameteriza-on  (      ) D •  尤度関数  (Clauset  et  al.,  2008)  :   ! L(D, ! ) = " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk ) k) Dk !D •  L  (A)  =  0.105   •  L  (B)  =  0.062    
  • 18. 尤度関数について  (1/2) ! L(D, ! ) = " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk ) Dk !D h(! k ) = !! k log! k ! (1! ! k )log(1! ! k ) とおいて対数をとると、 ! log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D 対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標   (対数をとるのは主にアンダーフローを防ぐため)
  • 19. 尤度関数について  (2/2) それぞれ、左(右)の葉の数   (木のルートに近いノードほど大きな値) ! log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D -­‐h(θ)は右図のようにθが   0か1に近いときに最大値をとる 曖昧性の低いノードほど高い値 θが0か1に近いノードが多い場合に対数尤度が大きくなる   もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ θはDのトポロジ(およびG)が決まれば一意に決まるので、   対数尤度を最大化するような  D  を求める問題に落ちる
  • 20. MCMC  Sampling •  先ほど述べたように、θは簡単に求まる   •  しかし、尤度が最大になるようなDは、二分木 のすべての構造を列挙しなければ求まらない   •  そこで、木の構造をすこしづつ変化させ、尤 度の変化を見ながら最適な構造を見つける Markov  Chain  Monte  Carlo(MCMC)法を用いる
  • 21. 具体的なサンプリング法 S  Given  a  current  dendrogram   Dcurr Dk S  ノード    をランダムに選択する  (Figure  (A)).   S  子Subtreeのどちらかを兄弟Subtreeと入れ替える  (Figures  (B),(C))   S  Metropolis-­‐Has-ngs  ruleに基づいて採択を判定する   ! ! L(Dnext ) S  尤度が上がるなら採択、下がる場合でも の確率で採択   L(Dcurr ) (おおよそ  O(n2)  くらいのステップ数で収束するらしい)
  • 23. Sense  Mapping •  推定されたHRGを実際にWSDに用いるには、 「語義」と対応付ける必要がある   –  内部ノードDiが語義skに関連づく確率をタグ付き コーパスから学習   F(D )  :  D の下にある葉(コ i i ンテキスト)の集合   | F(Di )! F "(sk ) | F’(sk)  :  コーパスの中で語 P(sk | Di ) = | F(Di ) | 義skとタグ付けされてい るコンテキストの集合 タグ付きコーパスとの語彙のオーバーラップをはかって、   それぞれの内部ノードに対して語義の確率をマッピングしている タグ付きコーパスとしてはSemeval  2007  English  lexical  sampleデータを使用
  • 25. Sense  Tagging •  Let      c  j    be  an  untagged  instance.     •  This  will  be  leaf  in  the  dendrogram.   •  Example:  context  C  in  Figure  (A).   ! •  H(c    j  )  set  of  parents  for  context   c j             •  Score  assigned  to  sense    sk w(sk , c j ) = % p(s k | Di ) " # i ! 例:   D i $ H (c j ) w(s1,C)  =  (0*1+  (2/3)*0.25)  =  0.16     ! w(s2,C)  =  (1*1+(1/3)*0.25)=  1.08.     スコアが最も高い語義をleaf-­‐nodeに対応する   よって,  s2  が  leaf-­‐node  Cに対応する語義   語義として出力する
  • 27. Evalua-on  Sehng •  データセット:   –  Semeval-­‐2007  sense  induc-on  task   •  評価指標:   –  F1-­‐score   •  Baselines:   –  フラットクラスタリング using  weighted  graphs  (CWW)   –  フラットクラスタリング using  unweighted  graphs   (CWU)   •  Chinese  Whispers  (Biemann,  2006)  という手法を用いている   –  階層的凝集型クラスタリング(HAC)   •  average  linkageに基づくもの  (伝統的な手法)  
  • 28. Result(1/2) •  パラメータ: すべて共起に基づくグラフGのもの   –  p1,  p2  :  単語、コロケーションの抽出のためのしきい値(対数尤度比)   –  p3  :  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)   •  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出 ている   •  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の 両方の関係を考慮できるため性能が向上した   –  と著者らは主張している・・・  
  • 29. Result(2/2) System   Performance  (%)   HRGs   87.6   (Brody  &  Lapata,  2009)   87.3   (Niu  et  al.,  2007)   86.8   (Klapa=is  and  Manandhar,  2008)   86.4   HAC   86.0   CWU   85.1   CWW   84.7   (Pedersen,  2007)   84.5   MFS   80.9   F1-­‐score  for  SemEval-­‐2007  WSI  task  dataset.   State-­‐of-­‐the-­‐artな他の手法と比べても高い性能   (ただし、上位3つは有意な差ではないらしい)
  • 30. Conclusion •  Unsupervised  method  for  inferring  the   hierarchical  grouping  of  the  senses  of  a   polysemous  word.   •  Graphs  exhibit  hierarchical  organiza-on   captured  by  HRGs,  in  effect  providing   improved  WSD  performance  compared  to     –  Flat  graph  clustering.   –  Hierarchical  Agglomera-ve  Clustering  
  • 31. 感想、疑問等 •  Hierarchical  Random  Graphの尤度関数の解釈が難しい   •  グラフ  G  を unweighted  にしてしまうのはもったいない気が する   –  関連性には「程度」がある   –  足切りパラメータに意味があるのかよくわからない   •  MCMCの収束条件について何も書いてない   •  凝集クラスタリング(HAC)に対して有意に性能が向上する 理由がイマイチ納得いかない   •  途中からGold-­‐Standardを用いているので評価指標が公平 なものであるか判断が難しい   –  WSDとして評価するためには必要なものではあるが・・・   –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ ちらの結果も見たかった  
  • 32. おまけ •  Hierarchical  Random  Graphの原論文 (Nature2008(leker),  ICML2006)も当たってみた   –  いろいろと応用があるらしい   •  Missing  ling  detec-on,  link  predic-on   •  Community  detec-on   •  Personalized  recommenda-on  etc…   •  NLPの分野ではまだほとんど応用されていない 手法なので、興味のある方は触ってみるといい かも   –  著者がコードも配っています   –     
  • 33. ANY  QUESTION  OR  COMMENT?