Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

832 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
832
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
4
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

  1. 1. Word  Sense  Induc-on  &   Disambigua-on  Using    Hierarchical  Random  Graphs Ioannis  Klapa=is  &  Suresh  Manandhar     EMNLP  2010   発表者  :  M2  松田  
  2. 2. Abstract •  Unsupervised  WSD   –  Known  as  Word  Sense  Induc-on(WSI)   –  クラスタリングに基づくWSD  •  本研究ではグラフをベースにしている   –  多くのWSIではグラフのノードをフラットにクラスタ リングする   –  対して、本研究ではグラフに存在している階層構 造を用いることで性能を上げようと試みている  
  3. 3. 語義の階層構造とグラフ •  多義語 paper  の共 起グラフの例   –  密にリンクしている 部分とそうでない 部分がある   –  フラットなクラスタリ ングだと落としてし まう情報がある
  4. 4. 階層構造の推測 Observed  Graph   Inferred  Hierarchy   D2   B   D   D0   D1   A   C   A   B   C   D  類似度に基づくグラフを元にして、階層関係を表したグラフを作成
  5. 5. 研究の目的 •  Infer  the  hierarchical  structure  (binary  tree)  of   a  graph  made  by  the  contexts  of  a  polysemous   word.   –  多義語のコンテキストから作成されたグラフから、 階層構造(二分木)を推定する  •  Apply  the  inferred  binary  tree  to  WSD  &   compare  with  flat  clustering.   –  推定された二分木をWSDに適用し、フラットなクラ スタリングとの比較を行う  
  6. 6. 提案手法の概要 Step.1 Step.2 Step.3 Step.4 対象語のコンテキストから   グラフ(G)から、   Gold-­‐Standard 木の親共起関係に基づくグラフ  (G)   階層構造を表 データから、そ 方向にを作る   した二分木(H) れぞれのノード 足しあわG  :  無向、unweighted の構造を推定   に対して語義 せて (Hierarchical   の確率を振る argmax   Random  Graph)
  7. 7. Step.  1 GRAPH  CREATION
  8. 8. Graph  Crea-on  (1/3) •  対象語を含んだコンテキスト(パラグラフ)から キーワードを抽出   –  対照コーパス(BNC)と出現確率を比較して、Log-­‐ Likelihood  ra-oが一定以上の名詞   •  足切りパラメータ p1   –  Balancedなコンテキストに比べて、対象語と共起 しやすい(独立でないと)名詞を抽出している  •  以下、コンテキスト=抽出された名詞の集合 で表す  
  9. 9. Graph  Crea-on  (2/3) •  グラフのノード   –  対象語を含むそれぞれのコンテキスト  •  グラフのエッジ   –  コンテキスト同士の類似度を測り、一定値以上の 場合、その間にエッジを張る   •  足切りパラメータ p3 simcl (A,B) + simwd (A,B) W (A,B) = ・・・式(1) 2 こんな感じの無向グラフ  (G)  が   出来上がる
  10. 10. Graph  Crea-on  (3/3) simcl (A,B) + simwd (A,B) W (A,B) = 2 •  simcl  :  コロケーションに基づく類似度   –  コロケーションの抽出にも  Log-­‐Likelihood  ra-oを! 使用   –  足切りパラメータ p2     •  simwd:  Bag-­‐of-­‐Wordsに基づく類似度   •  いずれも  Jaccard  係数を用いて類似度を計算  
  11. 11. Step.2 INFERRING  GRAPH  HIERARCHY
  12. 12. Hierarchical  Random  Graphs   •  Model  :n  個の葉ノードと n-­‐1  個の内部ノード からなる二分木  •  内部ノードの集合を D  とおく   分かりにくいので   後で –     D = {D1, D2 ,...Dn!1 }•  もとのグラフ  G  において、 Dk  に対応するエッ ジが存在する確率を θk  とおく  •  Dのトポロジカルな構造と各内部ノードに関連 づく確率変数のベクトルをセットにして、   ! –  HRG    :        と定義   H (D, ! )
  13. 13. HRG  (例) もとのグラフ G HRG  H
  14. 14. HRG  parameteriza-on   •  目標:もとのグラフ G  と統計的に類似した ! HRGになるようなパラメータ D と ! を選ぶ   ! –  !    は  Dのトポロジーさえ決まれば  MLE  で簡単に     求まる.   –   D  はsuper-­‐exponen-alに組み合わせが大きくなる     ! ので、  MCMC  で求める.  ! 左右どちらの二分木が、   元のグラフの性質を反映している?
  15. 15. ! HRG  parameteriza-on  (!  )     •  D  k    をHRGの内部ノードとする     •  l(Dk ) r(D    )    をそれぞれ、 の左、右の  subtree     ,            k Dk に存在する葉ノードの個数とする   •     (D  k        を Dk の  subtree  同士を結ぶエッジのうち、 f       )! もとのグラフ  G  に存在するものの数とする   ! •  すると、 ! k の最尤推定値は   ! f (Dk ) !k = l(Dk )r(Dk ) 直感的に言うと・・・・          左の葉と右の葉を結ぶすべてのパスのうち、  G  に実際存在するものの割合
  16. 16. ! HRG  parameteriza-on  (!  )    •  Example  for  node  D2:   –  f(D2)  =  2,  there  are  2  edges,  AB  &  CD   –  l(D2)  =2,  there  are  2  ver-ces  on  the  le=  subtree.   –  r(D2)  =  2,  the  are  2  ver8ces  on  the  right  subtree.   –  Hence  the  probability  is  2/4  =  0.5  
  17. 17. HRG  parameteriza-on  (      ) D•  尤度関数  (Clauset  et  al.,  2008)  :   ! L(D, ! ) = " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk ) k) Dk !D•  L  (A)  =  0.105  •  L  (B)  =  0.062    
  18. 18. 尤度関数について  (1/2) !L(D, ! ) = " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk ) Dk !Dh(! k ) = !! k log! k ! (1! ! k )log(1! ! k ) とおいて対数をとると、 !log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標  (対数をとるのは主にアンダーフローを防ぐため)
  19. 19. 尤度関数について  (2/2) それぞれ、左(右)の葉の数   (木のルートに近いノードほど大きな値) !log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D-­‐h(θ)は右図のようにθが  0か1に近いときに最大値をとる 曖昧性の低いノードほど高い値 θが0か1に近いノードが多い場合に対数尤度が大きくなる  もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ θはDのトポロジ(およびG)が決まれば一意に決まるので、   対数尤度を最大化するような  D  を求める問題に落ちる
  20. 20. MCMC  Sampling •  先ほど述べたように、θは簡単に求まる  •  しかし、尤度が最大になるようなDは、二分木 のすべての構造を列挙しなければ求まらない  •  そこで、木の構造をすこしづつ変化させ、尤 度の変化を見ながら最適な構造を見つける Markov  Chain  Monte  Carlo(MCMC)法を用いる
  21. 21. 具体的なサンプリング法 S  Given  a  current  dendrogram   Dcurr DkS  ノード    をランダムに選択する  (Figure  (A)).  S  子Subtreeのどちらかを兄弟Subtreeと入れ替える  (Figures  (B),(C))  S  Metropolis-­‐Has-ngs  ruleに基づいて採択を判定する   !! L(Dnext ) S  尤度が上がるなら採択、下がる場合でも の確率で採択   L(Dcurr ) (おおよそ  O(n2)  くらいのステップ数で収束するらしい)
  22. 22. Step.3 SENSE  MAPPING
  23. 23. Sense  Mapping •  推定されたHRGを実際にWSDに用いるには、 「語義」と対応付ける必要がある   –  内部ノードDiが語義skに関連づく確率をタグ付き コーパスから学習   F(D )  :  D の下にある葉(コ i i ンテキスト)の集合   | F(Di )! F "(sk ) | F’(sk)  :  コーパスの中で語 P(sk | Di ) = | F(Di ) | 義skとタグ付けされてい るコンテキストの集合 タグ付きコーパスとの語彙のオーバーラップをはかって、  それぞれの内部ノードに対して語義の確率をマッピングしている タグ付きコーパスとしてはSemeval  2007  English  lexical  sampleデータを使用
  24. 24. Step.4 SENSE  TAGGING
  25. 25. Sense  Tagging •  Let      c  j    be  an  untagged  instance.     •  This  will  be  leaf  in  the  dendrogram.   •  Example:  context  C  in  Figure  (A).  ! •  H(c    j  )  set  of  parents  for  context   c j             •  Score  assigned  to  sense    sk w(sk , c j ) = % p(s k | Di ) " # i ! 例:   D i $ H (c j ) w(s1,C)  =  (0*1+  (2/3)*0.25)  =  0.16     ! w(s2,C)  =  (1*1+(1/3)*0.25)=  1.08.     スコアが最も高い語義をleaf-­‐nodeに対応する   よって,  s2  が  leaf-­‐node  Cに対応する語義   語義として出力する
  26. 26. EVALUATION
  27. 27. Evalua-on  Sehng •  データセット:   –  Semeval-­‐2007  sense  induc-on  task  •  評価指標:   –  F1-­‐score  •  Baselines:   –  フラットクラスタリング using  weighted  graphs  (CWW)   –  フラットクラスタリング using  unweighted  graphs   (CWU)   •  Chinese  Whispers  (Biemann,  2006)  という手法を用いている   –  階層的凝集型クラスタリング(HAC)   •  average  linkageに基づくもの  (伝統的な手法)  
  28. 28. Result(1/2) •  パラメータ: すべて共起に基づくグラフGのもの   –  p1,  p2  :  単語、コロケーションの抽出のためのしきい値(対数尤度比)   –  p3  :  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)  •  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出 ている  •  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の 両方の関係を考慮できるため性能が向上した   –  と著者らは主張している・・・  
  29. 29. Result(2/2) System   Performance  (%)  HRGs   87.6  (Brody  &  Lapata,  2009)   87.3  (Niu  et  al.,  2007)   86.8  (Klapa=is  and  Manandhar,  2008)   86.4  HAC   86.0  CWU   85.1  CWW   84.7  (Pedersen,  2007)   84.5  MFS   80.9   F1-­‐score  for  SemEval-­‐2007  WSI  task  dataset.   State-­‐of-­‐the-­‐artな他の手法と比べても高い性能   (ただし、上位3つは有意な差ではないらしい)
  30. 30. Conclusion •  Unsupervised  method  for  inferring  the   hierarchical  grouping  of  the  senses  of  a   polysemous  word.  •  Graphs  exhibit  hierarchical  organiza-on   captured  by  HRGs,  in  effect  providing   improved  WSD  performance  compared  to     –  Flat  graph  clustering.   –  Hierarchical  Agglomera-ve  Clustering  
  31. 31. 感想、疑問等 •  Hierarchical  Random  Graphの尤度関数の解釈が難しい  •  グラフ  G  を unweighted  にしてしまうのはもったいない気が する   –  関連性には「程度」がある   –  足切りパラメータに意味があるのかよくわからない  •  MCMCの収束条件について何も書いてない  •  凝集クラスタリング(HAC)に対して有意に性能が向上する 理由がイマイチ納得いかない  •  途中からGold-­‐Standardを用いているので評価指標が公平 なものであるか判断が難しい   –  WSDとして評価するためには必要なものではあるが・・・   –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ ちらの結果も見たかった  
  32. 32. おまけ •  Hierarchical  Random  Graphの原論文 (Nature2008(leker),  ICML2006)も当たってみた   –  いろいろと応用があるらしい   •  Missing  ling  detec-on,  link  predic-on   •  Community  detec-on   •  Personalized  recommenda-on  etc…  •  NLPの分野ではまだほとんど応用されていない 手法なので、興味のある方は触ってみるといい かも   –  著者がコードも配っています   –     
  33. 33. ANY  QUESTION  OR  COMMENT?

×