Word	
  Sense	
  Induc-on	
  &	
  
   Disambigua-on	
  Using	
  	
  
Hierarchical	
  Random	
  Graphs	
Ioannis	
  Klapa=is	
  &	
  Suresh	
  Manandhar	
  
                         	
  
               EMNLP	
  2010	
  
             発表者	
  :	
  M2	
  松田	
  
Abstract	
•  Unsupervised	
  WSD	
  
   –  Known	
  as	
  Word	
  Sense	
  Induc-on(WSI)	
  
   –  クラスタリングに基づくWSD	
  
•  本研究ではグラフをベースにしている	
  
   –  多くのWSIではグラフのノードをフラットにクラスタ
      リングする	
  
   –  対して、本研究ではグラフに存在している階層構
      造を用いることで性能を上げようと試みている	
  
語義の階層構造とグラフ	
•  多義語 paper	
  の共
   起グラフの例	
  
  –  密にリンクしている
     部分とそうでない
     部分がある	
  
  –  フラットなクラスタリ
     ングだと落としてし
     まう情報がある
階層構造の推測	
 Observed	
  Graph	
     Inferred	
  Hierarchy	
  

                                                  D2	
  
   B	
          D	
  



                                 D0	
                              D1	
  

   A	
          C	
  
                         A	
              B	
              C	
              D	
  



類似度に基づくグラフを元にして、階層関係を表したグラフを作成
研究の目的	
•  Infer	
  the	
  hierarchical	
  structure	
  (binary	
  tree)	
  of	
  
   a	
  graph	
  made	
  by	
  the	
  contexts	
  of	
  a	
  polysemous	
  
   word.	
  
    –  多義語のコンテキストから作成されたグラフから、
       階層構造(二分木)を推定する	
  
•  Apply	
  the	
  inferred	
  binary	
  tree	
  to	
  WSD	
  &	
  
   compare	
  with	
  flat	
  clustering.	
  
    –  推定された二分木をWSDに適用し、フラットなクラ
       スタリングとの比較を行う	
  
提案手法の概要	




        Step.1	
                 Step.2	
           Step.3	
        Step.4	
対象語のコンテキストから	
              グラフ(G)から、	
          Gold-­‐Standard   木の親
共起関係に基づくグラフ	
  (G)	
        階層構造を表               データから、そ           方向に
を作る	
                       した二分木(H)             れぞれのノード           足しあわ
G	
  :	
  無向、unweighted	
   の構造を推定	
             に対して語義            せて
                            (Hierarchical	
      の確率を振る	
          argmax	
  
                            Random	
  Graph)
Step.	
  1	

GRAPH	
  CREATION
Graph	
  Crea-on	
  (1/3)	
•  対象語を含んだコンテキスト(パラグラフ)から
   キーワードを抽出	
  
 –  対照コーパス(BNC)と出現確率を比較して、Log-­‐
    Likelihood	
  ra-oが一定以上の名詞	
  
   •  足切りパラメータ p1	
  
 –  Balancedなコンテキストに比べて、対象語と共起
    しやすい(独立でないと)名詞を抽出している	
  
•  以下、コンテキスト=抽出された名詞の集合
   で表す	
  
Graph	
  Crea-on	
  (2/3)	
•  グラフのノード	
  
  –  対象語を含むそれぞれのコンテキスト	
  
•  グラフのエッジ	
  
  –  コンテキスト同士の類似度を測り、一定値以上の
     場合、その間にエッジを張る	
  
    •  足切りパラメータ p3	
              simcl (A,B) + simwd (A,B)
    W (A,B) =                          ・・・式(1)	
                          2
                       こんな感じの無向グラフ	
  (G)	
  が	
  
                           出来上がる
Graph	
  Crea-on	
  (3/3)	
                   simcl (A,B) + simwd (A,B)
         W (A,B) =
                               2
    •  simcl	
  :	
  コロケーションに基づく類似度	
  
      –  コロケーションの抽出にも	
  Log-­‐Likelihood	
  ra-oを
!        使用	
  
      –  足切りパラメータ p2	
  	
  
    •  simwd:	
  Bag-­‐of-­‐Wordsに基づく類似度	
  
    •  いずれも	
  Jaccard	
  係数を用いて類似度を計算	
  
Step.2	

INFERRING	
  GRAPH	
  HIERARCHY
Hierarchical	
  Random	
  Graphs	
  	
•  Model	
  :n	
  個の葉ノードと n-­‐1	
  個の内部ノード
   からなる二分木	
  
•  内部ノードの集合を D	
  とおく	
               分かりにくいので	
  
                                         後で	
   –  	
  	
  D = {D1, D2 ,...Dn!1 }
•  もとのグラフ	
  G	
  において、 Dk	
  に対応するエッ
   ジが存在する確率を θk	
  とおく	
  
•  Dのトポロジカルな構造と各内部ノードに関連
   づく確率変数のベクトルをセットにして、	
   !
   –  HRG	
  	
  :        と定義	
  
                    H (D, ! )
HRG	
  (例)	



  もとのグラフ G	




   HRG	
  H
HRG	
  parameteriza-on	
  	
    •  目標:もとのグラフ G	
  と統計的に類似した
                           !
       HRGになるようなパラメータ D と ! を選ぶ	
  
           !
     –  !	
  	
  は	
  Dのトポロジーさえ決まれば	
  MLE	
  で簡単に
        	
  	
  
        求まる.	
  
     –  	
  D	
  はsuper-­‐exponen-alに組み合わせが大きくなる
            	
  	
               !
        ので、	
  MCMC	
  で求める.	
  


!
        左右どちらの二分木が、	
  
     元のグラフの性質を反映している?
!
           HRG	
  parameteriza-on	
  (!	
  )	
                                      	
  	
  
 •  D	
  k	
  	
  をHRGの内部ノードとする	
  
     	
  
 •  l(Dk ) r(D	
  	
  )	
  	
  をそれぞれ、 の左、右の	
  subtree	
  
       ,	
  	
  	
  	
  	
  	
  k                       Dk
     に存在する葉ノードの個数とする	
  
 •  	
  	
  (D	
  k	
  	
  	
  	
  を Dk の	
  subtree	
  同士を結ぶエッジのうち、
     f 	
  	
  	
   )
! もとのグラフ	
  G	
  に存在するものの数とする	
             !

 •  すると、 ! k の最尤推定値は	
  
     !
              f (Dk )
      !k =
           l(Dk )r(Dk )
       直感的に言うと・・・・	
  
       	
  	
  	
  	
  左の葉と右の葉を結ぶすべてのパスのうち、	
  G	
  に実際存在するものの割合
!
                HRG	
  parameteriza-on	
  (!	
  )	
                                           	
  	
  
•  Example	
  for	
  node	
  D2:	
  
    –  f(D2)	
  =	
  2,	
  there	
  are	
  2	
  edges,	
  AB	
  &	
  CD	
  
    –  l(D2)	
  =2,	
  there	
  are	
  2	
  ver-ces	
  on	
  the	
  le=	
  subtree.	
  
    –  r(D2)	
  =	
  2,	
  the	
  are	
  2	
  ver8ces	
  on	
  the	
  right	
  subtree.	
  
    –  Hence	
  the	
  probability	
  is	
  2/4	
  =	
  0.5	
  
HRG	
  parameteriza-on	
  (	
  	
  	
  )	
                                        D

•  尤度関数	
  (Clauset	
  et	
  al.,	
  2008)	
  :	
  
             !
        L(D, ! ) =          " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk )
                                              k)
                            Dk !D




•  L	
  (A)	
  =	
  0.105	
  
•  L	
  (B)	
  =	
  0.062	
  
	
  
尤度関数について	
  (1/2)	
     !
L(D, ! ) =   " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk )
             Dk !D


h(! k ) = !! k log! k ! (1! ! k )log(1! ! k )      とおいて対数をとると、	


         !
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
                     Dk "D

対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標	
  
(対数をとるのは主にアンダーフローを防ぐため)
尤度関数について	
  (2/2)	
                        それぞれ、左(右)の葉の数	
  
                        (木のルートに近いノードほど大きな値)	

         !
log L(D, ! ) = ! # h(! k )l(Dk )r(Dk )
                Dk "D

-­‐h(θ)は右図のようにθが	
  
0か1に近いときに最大値をとる	


 曖昧性の低いノードほど高い値	


θが0か1に近いノードが多い場合に対数尤度が大きくなる	
  
もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ	
                 θはDのトポロジ(およびG)が決まれば一意に決まるので、	
  
                 対数尤度を最大化するような	
  D	
  を求める問題に落ちる
MCMC	
  Sampling	
•  先ほど述べたように、θは簡単に求まる	
  
•  しかし、尤度が最大になるようなDは、二分木
   のすべての構造を列挙しなければ求まらない	
  
•  そこで、木の構造をすこしづつ変化させ、尤
   度の変化を見ながら最適な構造を見つける	


  Markov	
  Chain	
  Monte	
  Carlo(MCMC)法を用いる
具体的なサンプリング法	




S  Given	
  a	
  current	
  dendrogram	
     Dcurr
         Dk
S  ノード    をランダムに選択する	
  (Figure	
  (A)).	
  
S  子Subtreeのどちらかを兄弟Subtreeと入れ替える	
  (Figures	
  (B),(C))	
  
S  Metropolis-­‐Has-ngs	
  ruleに基づいて採択を判定する	
  
                     !
!                                                      L(Dnext )
     S  尤度が上がるなら採択、下がる場合でも                                      の確率で採択	
  
                                                       L(Dcurr )
                                     (おおよそ	
  O(n2)	
  くらいのステップ数で収束するらしい)
Step.3	

SENSE	
  MAPPING
Sense	
  Mapping	
•  推定されたHRGを実際にWSDに用いるには、
   「語義」と対応付ける必要がある	
  
 –  内部ノードDiが語義skに関連づく確率をタグ付き
    コーパスから学習	
     F(D )	
  :	
  D の下にある葉(コ   i    i
                                          ンテキスト)の集合	
  
                 | F(Di )! F "(sk ) |     F’(sk)	
  :	
  コーパスの中で語
   P(sk | Di ) =
                     | F(Di ) |           義skとタグ付けされてい
                                          るコンテキストの集合	

タグ付きコーパスとの語彙のオーバーラップをはかって、	
  
それぞれの内部ノードに対して語義の確率をマッピングしている	
 タグ付きコーパスとしてはSemeval	
  2007	
  English	
  lexical	
  sampleデータを使用
Step.4	

SENSE	
  TAGGING
Sense	
  Tagging	

  •    Let	
  	
  	
  c	
  j	
  	
  be	
  an	
  untagged	
  instance.	
  
                              	
  
  •    This	
  will	
  be	
  leaf	
  in	
  the	
  dendrogram.	
  
  •    Example:	
  context	
  C	
  in	
  Figure	
  (A).	
  
! •    H(c	
  	
  j	
  )	
  set	
  of	
  parents	
  for	
  context	
   c j
       	
  	
  	
  	
  	
   	
  
  •    Score	
  assigned	
  to	
  sense	
  	
  sk

       w(sk , c j ) =            % p(s        k   | Di ) " # i
                                                  !                     例:	
  
                             D i $ H (c j )
                                                                        w(s1,C)	
  =	
  (0*1+	
  (2/3)*0.25)	
  =	
  0.16	
  	
  
                                   !                                    w(s2,C)	
  =	
  (1*1+(1/3)*0.25)=	
  1.08.	
  	
  
  スコアが最も高い語義をleaf-­‐nodeに対応する	
  
                                                                        よって,	
  s2	
  が	
  leaf-­‐node	
  Cに対応する語義	
  
  語義として出力する
EVALUATION
Evalua-on	
  Sehng	
•  データセット:	
  
   –  Semeval-­‐2007	
  sense	
  induc-on	
  task	
  
•  評価指標:	
  
   –  F1-­‐score	
  
•  Baselines:	
  
   –  フラットクラスタリング using	
  weighted	
  graphs	
  (CWW)	
  
   –  フラットクラスタリング using	
  unweighted	
  graphs	
  
      (CWU)	
  
        •  Chinese	
  Whispers	
  (Biemann,	
  2006)	
  という手法を用いている	
  
   –  階層的凝集型クラスタリング(HAC)	
  
        •  average	
  linkageに基づくもの	
  (伝統的な手法)	
  
Result(1/2)	




•  パラメータ: すべて共起に基づくグラフGのもの	
  
  –  p1,	
  p2	
  :	
  単語、コロケーションの抽出のためのしきい値(対数尤度比)	
  
  –  p3	
  :	
  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)	
  
•  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出
   ている	
  
•  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の
   両方の関係を考慮できるため性能が向上した	
  
  –  と著者らは主張している・・・	
  
Result(2/2)	
System	
                                                          Performance	
  (%)	
  
HRGs	
                                                            87.6	
  
(Brody	
  &	
  Lapata,	
  2009)	
                                 87.3	
  
(Niu	
  et	
  al.,	
  2007)	
                                     86.8	
  
(Klapa=is	
  and	
  Manandhar,	
  2008)	
                         86.4	
  
HAC	
                                                             86.0	
  
CWU	
                                                             85.1	
  
CWW	
                                                             84.7	
  
(Pedersen,	
  2007)	
                                             84.5	
  
MFS	
                                                             80.9	
  

                                  F1-­‐score	
  for	
  SemEval-­‐2007	
  WSI	
  task	
  dataset.	
  
                 State-­‐of-­‐the-­‐artな他の手法と比べても高い性能	
  
                  (ただし、上位3つは有意な差ではないらしい)
Conclusion	
•  Unsupervised	
  method	
  for	
  inferring	
  the	
  
   hierarchical	
  grouping	
  of	
  the	
  senses	
  of	
  a	
  
   polysemous	
  word.	
  
•  Graphs	
  exhibit	
  hierarchical	
  organiza-on	
  
   captured	
  by	
  HRGs,	
  in	
  effect	
  providing	
  
   improved	
  WSD	
  performance	
  compared	
  to	
  	
  
   –  Flat	
  graph	
  clustering.	
  
   –  Hierarchical	
  Agglomera-ve	
  Clustering	
  
感想、疑問等	
•  Hierarchical	
  Random	
  Graphの尤度関数の解釈が難しい	
  
•  グラフ	
  G	
  を unweighted	
  にしてしまうのはもったいない気が
   する	
  
  –  関連性には「程度」がある	
  
  –  足切りパラメータに意味があるのかよくわからない	
  
•  MCMCの収束条件について何も書いてない	
  
•  凝集クラスタリング(HAC)に対して有意に性能が向上する
   理由がイマイチ納得いかない	
  
•  途中からGold-­‐Standardを用いているので評価指標が公平
   なものであるか判断が難しい	
  
  –  WSDとして評価するためには必要なものではあるが・・・	
  
  –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ
     ちらの結果も見たかった	
  
おまけ	
•  Hierarchical	
  Random	
  Graphの原論文
   (Nature2008(leker),	
  ICML2006)も当たってみた	
  
  –  いろいろと応用があるらしい	
  
     •  Missing	
  ling	
  detec-on,	
  link	
  predic-on	
  
     •  Community	
  detec-on	
  
     •  Personalized	
  recommenda-on	
  etc…	
  
•  NLPの分野ではまだほとんど応用されていない
   手法なので、興味のある方は触ってみるといい
   かも	
  
  –  著者がコードも配っています	
  
  –  	
  	
  
ANY	
  QUESTION	
  OR	
  COMMENT?

Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)

  • 1.
    Word  Sense  Induc-on  &   Disambigua-on  Using     Hierarchical  Random  Graphs Ioannis  Klapa=is  &  Suresh  Manandhar     EMNLP  2010   発表者  :  M2  松田  
  • 2.
    Abstract •  Unsupervised  WSD   –  Known  as  Word  Sense  Induc-on(WSI)   –  クラスタリングに基づくWSD   •  本研究ではグラフをベースにしている   –  多くのWSIではグラフのノードをフラットにクラスタ リングする   –  対して、本研究ではグラフに存在している階層構 造を用いることで性能を上げようと試みている  
  • 3.
    語義の階層構造とグラフ •  多義語 paper  の共 起グラフの例   –  密にリンクしている 部分とそうでない 部分がある   –  フラットなクラスタリ ングだと落としてし まう情報がある
  • 4.
    階層構造の推測 Observed  Graph   Inferred  Hierarchy   D2   B   D   D0   D1   A   C   A   B   C   D   類似度に基づくグラフを元にして、階層関係を表したグラフを作成
  • 5.
    研究の目的 •  Infer  the  hierarchical  structure  (binary  tree)  of   a  graph  made  by  the  contexts  of  a  polysemous   word.   –  多義語のコンテキストから作成されたグラフから、 階層構造(二分木)を推定する   •  Apply  the  inferred  binary  tree  to  WSD  &   compare  with  flat  clustering.   –  推定された二分木をWSDに適用し、フラットなクラ スタリングとの比較を行う  
  • 6.
    提案手法の概要 Step.1 Step.2 Step.3 Step.4 対象語のコンテキストから   グラフ(G)から、   Gold-­‐Standard 木の親 共起関係に基づくグラフ  (G)   階層構造を表 データから、そ 方向に を作る   した二分木(H) れぞれのノード 足しあわ G  :  無向、unweighted の構造を推定   に対して語義 せて (Hierarchical   の確率を振る argmax   Random  Graph)
  • 7.
  • 8.
    Graph  Crea-on  (1/3) • 対象語を含んだコンテキスト(パラグラフ)から キーワードを抽出   –  対照コーパス(BNC)と出現確率を比較して、Log-­‐ Likelihood  ra-oが一定以上の名詞   •  足切りパラメータ p1   –  Balancedなコンテキストに比べて、対象語と共起 しやすい(独立でないと)名詞を抽出している   •  以下、コンテキスト=抽出された名詞の集合 で表す  
  • 9.
    Graph  Crea-on  (2/3) • グラフのノード   –  対象語を含むそれぞれのコンテキスト   •  グラフのエッジ   –  コンテキスト同士の類似度を測り、一定値以上の 場合、その間にエッジを張る   •  足切りパラメータ p3 simcl (A,B) + simwd (A,B) W (A,B) = ・・・式(1) 2 こんな感じの無向グラフ  (G)  が   出来上がる
  • 10.
    Graph  Crea-on  (3/3) simcl (A,B) + simwd (A,B) W (A,B) = 2 •  simcl  :  コロケーションに基づく類似度   –  コロケーションの抽出にも  Log-­‐Likelihood  ra-oを ! 使用   –  足切りパラメータ p2     •  simwd:  Bag-­‐of-­‐Wordsに基づく類似度   •  いずれも  Jaccard  係数を用いて類似度を計算  
  • 11.
  • 12.
    Hierarchical  Random  Graphs   •  Model  :n  個の葉ノードと n-­‐1  個の内部ノード からなる二分木   •  内部ノードの集合を D  とおく   分かりにくいので   後で –     D = {D1, D2 ,...Dn!1 } •  もとのグラフ  G  において、 Dk  に対応するエッ ジが存在する確率を θk  とおく   •  Dのトポロジカルな構造と各内部ノードに関連 づく確率変数のベクトルをセットにして、   ! –  HRG    :        と定義   H (D, ! )
  • 13.
    HRG  (例) もとのグラフ G HRG  H
  • 14.
    HRG  parameteriza-on   •  目標:もとのグラフ G  と統計的に類似した ! HRGになるようなパラメータ D と ! を選ぶ   ! –  !    は  Dのトポロジーさえ決まれば  MLE  で簡単に     求まる.   –   D  はsuper-­‐exponen-alに組み合わせが大きくなる     ! ので、  MCMC  で求める.   ! 左右どちらの二分木が、   元のグラフの性質を反映している?
  • 15.
    ! HRG  parameteriza-on  (!  )     •  D  k    をHRGの内部ノードとする     •  l(Dk ) r(D    )    をそれぞれ、 の左、右の  subtree     ,            k Dk に存在する葉ノードの個数とする   •     (D  k        を Dk の  subtree  同士を結ぶエッジのうち、 f       ) ! もとのグラフ  G  に存在するものの数とする   ! •  すると、 ! k の最尤推定値は   ! f (Dk ) !k = l(Dk )r(Dk ) 直感的に言うと・・・・          左の葉と右の葉を結ぶすべてのパスのうち、  G  に実際存在するものの割合
  • 16.
    ! HRG  parameteriza-on  (!  )     •  Example  for  node  D2:   –  f(D2)  =  2,  there  are  2  edges,  AB  &  CD   –  l(D2)  =2,  there  are  2  ver-ces  on  the  le=  subtree.   –  r(D2)  =  2,  the  are  2  ver8ces  on  the  right  subtree.   –  Hence  the  probability  is  2/4  =  0.5  
  • 17.
    HRG  parameteriza-on  (      ) D •  尤度関数  (Clauset  et  al.,  2008)  :   ! L(D, ! ) = " ! kf (Dk ) (1# !! l (Dk )r(Dk )# f (Dk ) k) Dk !D •  L  (A)  =  0.105   •  L  (B)  =  0.062    
  • 18.
    尤度関数について  (1/2) ! L(D, ! ) = " ! kf (Dk ) (1# ! k )l (Dk )r(Dk )# f (Dk ) Dk !D h(! k ) = !! k log! k ! (1! ! k )log(1! ! k ) とおいて対数をとると、 ! log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D 対数尤度関数が導かれる。これを最大化するパラメータを見つけるのが目標   (対数をとるのは主にアンダーフローを防ぐため)
  • 19.
    尤度関数について  (2/2) それぞれ、左(右)の葉の数   (木のルートに近いノードほど大きな値) ! log L(D, ! ) = ! # h(! k )l(Dk )r(Dk ) Dk "D -­‐h(θ)は右図のようにθが   0か1に近いときに最大値をとる 曖昧性の低いノードほど高い値 θが0か1に近いノードが多い場合に対数尤度が大きくなる   もとのグラフGにおけるリンクがとても多いかとても少なくなるようDを選ぶ θはDのトポロジ(およびG)が決まれば一意に決まるので、   対数尤度を最大化するような  D  を求める問題に落ちる
  • 20.
    MCMC  Sampling •  先ほど述べたように、θは簡単に求まる   •  しかし、尤度が最大になるようなDは、二分木 のすべての構造を列挙しなければ求まらない   •  そこで、木の構造をすこしづつ変化させ、尤 度の変化を見ながら最適な構造を見つける Markov  Chain  Monte  Carlo(MCMC)法を用いる
  • 21.
    具体的なサンプリング法 S  Given  a  current  dendrogram   Dcurr Dk S  ノード    をランダムに選択する  (Figure  (A)).   S  子Subtreeのどちらかを兄弟Subtreeと入れ替える  (Figures  (B),(C))   S  Metropolis-­‐Has-ngs  ruleに基づいて採択を判定する   ! ! L(Dnext ) S  尤度が上がるなら採択、下がる場合でも の確率で採択   L(Dcurr ) (おおよそ  O(n2)  くらいのステップ数で収束するらしい)
  • 22.
  • 23.
    Sense  Mapping •  推定されたHRGを実際にWSDに用いるには、 「語義」と対応付ける必要がある   –  内部ノードDiが語義skに関連づく確率をタグ付き コーパスから学習   F(D )  :  D の下にある葉(コ i i ンテキスト)の集合   | F(Di )! F "(sk ) | F’(sk)  :  コーパスの中で語 P(sk | Di ) = | F(Di ) | 義skとタグ付けされてい るコンテキストの集合 タグ付きコーパスとの語彙のオーバーラップをはかって、   それぞれの内部ノードに対して語義の確率をマッピングしている タグ付きコーパスとしてはSemeval  2007  English  lexical  sampleデータを使用
  • 24.
  • 25.
    Sense  Tagging •  Let      c  j    be  an  untagged  instance.     •  This  will  be  leaf  in  the  dendrogram.   •  Example:  context  C  in  Figure  (A).   ! •  H(c    j  )  set  of  parents  for  context   c j             •  Score  assigned  to  sense    sk w(sk , c j ) = % p(s k | Di ) " # i ! 例:   D i $ H (c j ) w(s1,C)  =  (0*1+  (2/3)*0.25)  =  0.16     ! w(s2,C)  =  (1*1+(1/3)*0.25)=  1.08.     スコアが最も高い語義をleaf-­‐nodeに対応する   よって,  s2  が  leaf-­‐node  Cに対応する語義   語義として出力する
  • 26.
  • 27.
    Evalua-on  Sehng •  データセット:   –  Semeval-­‐2007  sense  induc-on  task   •  評価指標:   –  F1-­‐score   •  Baselines:   –  フラットクラスタリング using  weighted  graphs  (CWW)   –  フラットクラスタリング using  unweighted  graphs   (CWU)   •  Chinese  Whispers  (Biemann,  2006)  という手法を用いている   –  階層的凝集型クラスタリング(HAC)   •  average  linkageに基づくもの  (伝統的な手法)  
  • 28.
    Result(1/2) •  パラメータ: すべて共起に基づくグラフGのもの   –  p1,  p2  :  単語、コロケーションの抽出のためのしきい値(対数尤度比)   –  p3  :  エッジを張るかどうか決める類似度のしきい値(ジャッカード係数)   •  (おおよそ)パラメータに依存せず、安定してベースラインより高い性能が出 ている   •  HACでは「類似」関係のみを考慮しているが、HRGでは「類似」「非類似」の 両方の関係を考慮できるため性能が向上した   –  と著者らは主張している・・・  
  • 29.
    Result(2/2) System   Performance  (%)   HRGs   87.6   (Brody  &  Lapata,  2009)   87.3   (Niu  et  al.,  2007)   86.8   (Klapa=is  and  Manandhar,  2008)   86.4   HAC   86.0   CWU   85.1   CWW   84.7   (Pedersen,  2007)   84.5   MFS   80.9   F1-­‐score  for  SemEval-­‐2007  WSI  task  dataset.   State-­‐of-­‐the-­‐artな他の手法と比べても高い性能   (ただし、上位3つは有意な差ではないらしい)
  • 30.
    Conclusion •  Unsupervised  method  for  inferring  the   hierarchical  grouping  of  the  senses  of  a   polysemous  word.   •  Graphs  exhibit  hierarchical  organiza-on   captured  by  HRGs,  in  effect  providing   improved  WSD  performance  compared  to     –  Flat  graph  clustering.   –  Hierarchical  Agglomera-ve  Clustering  
  • 31.
    感想、疑問等 •  Hierarchical  Random  Graphの尤度関数の解釈が難しい   •  グラフ  G  を unweighted  にしてしまうのはもったいない気が する   –  関連性には「程度」がある   –  足切りパラメータに意味があるのかよくわからない   •  MCMCの収束条件について何も書いてない   •  凝集クラスタリング(HAC)に対して有意に性能が向上する 理由がイマイチ納得いかない   •  途中からGold-­‐Standardを用いているので評価指標が公平 なものであるか判断が難しい   –  WSDとして評価するためには必要なものではあるが・・・   –  WSIとしての評価指標も(妥当性はともかく)存在するので、そ ちらの結果も見たかった  
  • 32.
    おまけ •  Hierarchical  Random  Graphの原論文 (Nature2008(leker),  ICML2006)も当たってみた   –  いろいろと応用があるらしい   •  Missing  ling  detec-on,  link  predic-on   •  Community  detec-on   •  Personalized  recommenda-on  etc…   •  NLPの分野ではまだほとんど応用されていない 手法なので、興味のある方は触ってみるといい かも   –  著者がコードも配っています   –     
  • 33.