Language	
  Models	
  as	
  
                  Representa1ons	
  for	
  	
  
               Weakly-­‐Supervised	
  NLP	
  Tasks	
               Fei	
  Huang,	
  Alexander	
  Yates,	
  Arun	
  Ahuja	
  
                            and	
  Doug	
  Downey	
  
                                   CoNLL2011	
  
                                 紹介者	
  :	
  松田	

2011/12/13	
                                                               1
Introduc1on	
•  NLPのタスクの多くは分類問題に帰着できる	
  
•  分類に用いる素性ベクトルの作り方に性能が大
   きく依存する	
  
      –  人手で注意深くつくられた素性が強い	
  
•  しかし、(特にDomain	
  Adapta1onのような状況に
   おいて)次のような問題が性能を制限している	
  
      –  	
  スパース性	
  
               •  訓練データに出てきていない語に対応する能力	
  
      –  多義性	
  
               •  ドメインに依存して語義の分布がかわる(POSの分布もかわ
                  る)ような語に対応する能力	
  


2011/12/13	
                                     2
Introduc1on	
•  この問題に対処するために、素性表現に着目	
  
      –  unseen	
  exampleに対する汎化性能を上げるような素性表現	
  
      –  distribu1onal	
  hypothesis	
  :	
  意味の似た語はコンテキストも似て
         いる	
  
•  研究のゴール	
  
      –  コンテキストを考慮した確率的言語モデルに基づく素性表現を
         開発	
  
      –  素性表現:語(token	
  /	
  type)から実数値ベクトルへのマッピング	
  
               •  言語モデルから生成	
  →	
  コンテキストを考慮したベクトルを生成できる	
  
               •  コンテキストから生成	
  →	
  多義性やスパース性に対して頑健になる	
  




2011/12/13	
                                                    3
Previous	
  Work	
•  素性表現についての研究は主に四つに分類される	
  
      1.        文書レベルでの共起指標に基づくVector	
  Space	
  Model	
  
      2.        Vector	
  Space	
  Modelに対する次元削減	
  
      3.        分布類似度に基づくクラスタリング	
  
      4.        言語モデルに基づく素性表現	
  
               •    PL-­‐MRFという新しいrepresenta1onを提案し、 POS	
  Taggerにお
                    いてstate-­‐of-­‐the-­‐artな性能を達成したところがcontribu1on	
  
•       Domain	
  Adapta1onの研究としては	
  
      –  targetドメインのラベルつきデータがある設定	
  
      –  targetドメインのラベルつきデータが無い設定	
  
      –  本研究は後者	
  

2011/12/13	
                                                              4
Representa1ons	
•  A	
  representa1on	
  is	
  a	
  set	
  of	
  features	
  that	
  
   describe	
  instances	
  for	
  a	
  classifier	
  
•  形式的な定義	
  

      –  事例集合から素性空間への写像を行う関数	
  

      –  R(x)	
  :	
  Yという素性空間(	
  such	
  as	
  Rd	
  )	
  の中の一つの
         ベクトル	
  

2011/12/13	
                                                            5
Representa1ons(具体例)	

                                               伝統的な素性表現	



                                               trigram言語モデル	


                                               グラフィカルモデル	



                                               クラスタリングに	
  
                                               基づく表現	


                                               提案手法	


*-­‐TOKEN-­‐R	
  :	
  ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)	
  
*-­‐TYPE-­‐R	
  :	
  語それ自体に対する素性表現(コーパス中で一定)	
  2011/12/13	
                                              6
フレームワーク	

                                    解くtaskの	
  
                                   labeled	
  data	
  
                                                          素性	
  
                                     2.	
  素性ベクトル作成	
    ベクトル	

                         1.学習	
       大量の	
  
   unlabeled	
  data	
            Representa1on	
                                                               3.	
  学習	


                                                         解くtaskの	
  
                                                          分類器	




2011/12/13	
                                                                7
Unsupervised	
  HMMs	
                                                (本当は有向)	
  




   •  それぞれの語が	
  K	
  状態のうちのいずれかの状態を持つ、というモデル	
  
   •  EMアルゴリズムによってパラメータ P(xi|yi),	
  P(yi|yi-­‐1) の推定が可能	
  
   •  Viterbiアルゴリズムによって状態のデコードが可能	
  

   •  高村さんの本に書いてあるHMMは	
  Supervised-­‐HMMs	
  なので注意	
  
2011/12/13	
                                                   8
I-­‐HMM(Independent-­‐HMM)	
                                                  本当は有向	




                                                                  M	




          M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築	
  
          それぞれのノードが	
  K	
  状態のいずれかの値をもっている(HMMと同じ)	
  
2011/12/13	
                                                9
I-­‐HMMの問題点	
• 	
  それぞれのHMMが独立に訓練されており、
      文の別の側面を(異なるレイヤで)捉えるとい
      うモデルになっていない	
  
•  それぞれのレイヤーが語の異なる側面をとら
      えるようにしたい	
  
      –  POS,	
  gender,	
  number,	
  格(case),	
  人称,	
  テンス,	
  etc..	
  
•  レイヤー間のインタラクションの導入	


2011/12/13	
                                                             10
La`ce	
  Structured	
  MRF	
                     i	




                                                                 M	
j	




      2011/12/13	
                                        11
La`ce	
  Structured	
  MRF	
      極大クリークを因子とした対数線形モデルで表現(PRML	
  8.3に類似例あり)	



           P(x)	
  =	
  	




      パラメータとしては、例えば・・・	
         となりあった二つのノードに関する遷移パラメタ	


         観測された語に関するパラメタ	

         となりあった二つのレイヤに関するパラメタ	

         ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能	
2011/12/13	
                                            12
Par1al	
  La`ce	
  MRF	
odd	




even	
                                                                            M	




odd	




   いくつかのエッジを削除する。文の前半では(odd	
  –	
  even),	
  文の後半では	
  (even	
  –	
  odd)	
  の間	
  
   (あまり納得できるような正当化はなされていない)	
    2011/12/13	
                                                              13
Par1al	
  La`ce	
  MRF	
•  エッジを削除することで効率的計算が可能にな
   る	
  
      –  動的計画法,	
  メッセージパッシング	
  
      –  tree-­‐width(木幅:グラフがどれだけ木に近いかを表す
         指標)が	
  2	
  
               •  木幅が	
  1	
  であれば木、低いほど効率的な計算が可能	
  
      –  O(K4MN)	
  
               •  K	
  :	
  ノードの状態数,	
  M:レイヤー数,	
  N	
  :	
  文長	
  
•  (論文には書いていないが)モデルの柔軟さをで
   きるだけ損なわずに木幅を低くして計算しやすく
   するためのエッジ削除法なのではないか	
  

2011/12/13	
                                                           14
Contras1ve	
  Es1ma1on	
•  (Smith	
  and	
  Eisner,	
  	
  2005)	
  
•  対数線形モデルをUnlabeled	
  Dataから学習す
   る一般的な枠組み	
  
      –  Contras1ve	
  Divergence学習,	
  擬似負例からの学
         習	




               N(x)	
  :	
  Neighborhood	
  func1on(本論文では、隣接する二単語を入れ替えたもの)	

2011/12/13	
                                                            15
?	
                  ?	
                    ?	
                      ?	
                   ?	
                   ?	
  
        p      red	
            leaves	
                  don t	
            hide	
                      blue	
                jays	
  


                             ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                           red	
         leaves	
           don t	
        hide	
             blue	
                jays	
  

                             ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                         leaves	
              red	
        don t	
        hide	
             blue	
                jays	
  

                             ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                           red	
              don t	
      leaves	
        hide	
             blue	
                jays	
  
     p                       ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                           red	
          leaves	
           hide	
        don t	
   blue	
                         jays	
  

                            ?	
                 ?	
            ?	
            ?	
                ?	
                  ?	
  
                          red	
          leaves	
           don t	
        blue	
             hide	
                jays	
  

                            ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                          red	
          leaves	
          don t	
         hide	
             jays	
            blue	
  
2011/12/13	
                                                                                                                              16	
                                                                        Smith	
  and	
  Eisner,	
  ACL2005発表スライドより引用
その他学習における工夫	
•  目的関数はnon-­‐convexなので勾配法で局所
   解を求めることになる	
  
•  For	
  tractability:一層づつ順番に訓練する	
  
      –  層 i	
  に「関係する」パラメータを θi,	
  その他を θ¬i	
  
      –  まず	
  θ¬0	
  をすべてゼロに固定し、	
  θ0	
  を最適化	
  
      –  収束したら固定して、次の層にとりかかる	
  
      –  一層あたり100iter以下で収束するらしい	
  



2011/12/13	
                                          17
Domain	
  Adapta1on	
  for	
  a	
  POS	
  Tagger	
 Newspaper	
  Domain(WSJ)	
  	
  =>	
  Biomedical	
  Domain(MEDLINE)	
  へのドメイン適応	




                                       Penn	
  Treebank	
  
     Penn	
  Treebank	
                  +MEDLINE	
                         MEDLINE	
  
                                       71306	
  sentence	
                561	
  sentence	




 labeled	
  training	
  data	
     unlabeled	
  training	
  data	
     labeled	
  test	
  data	
  
    for	
  POS	
  Tagger	
              for	
  train	
  LMs	
  

2011/12/13	
                   POS	
  Taggerの学習モデルはCRF	
                                                    18
Domain	
  Adapta1on	
  for	
  a	
  POS	
  Tagger	




                                              trigram	
  on	
  Web1T	
                                              8	
  layer,	
  80	
  state	
                                              20	
  layer,	
  binary	
                                    可能な状態数	
  	
  
                                    I-­‐HMM	
  :	
  1015	
  ,	
  PL-­‐MRF	
  :	
  106	
  	

 bioドメインの	
   PL-­‐MRFはOOV-­‐errorを大幅に下げることに成功している	
 ラベルつきデータ併用	
2011/12/13	
                                    19
Domain	
  Adapta1on	
  for	
  a	
  POS	
  Tagger	

                                             多義語の判定は	
  
                                             人手で行った。	
  
                                             	
  
                                             unlabeledデータ	
  
                                             中に5回以下しか	
  
                                             出現しない語を	
  
                                             sparse語、	
  
                                             50回以上出現	
  
                                             する語を	
  
                                             non-­‐sparse語	
  
                                             として調査。	
  



多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい	
  
  	
  おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため	
  
スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。	
2011/12/13	
                                           20
Informa1on	
  Extrac1on	
•  set-­‐expansion	
  task	
  
      –  種語が幾つか与えられた状況で、コーパス中に
         出現する同じ意味カテゴリの語を獲得するタスク	
  
      –  distribu1onal	
  hypothesisに基づいた手法	
  
               •  同じ意味カテゴリに属する語はそのコンテキストにあら
                  われる語の分布も似ているだろう、という仮定	
  
      –  正例の一部だけが与えられているという意味で	
  
         “weakly-­‐supervised”	
  である	
  


2011/12/13	
                                  21
Informa1on	
  Extrac1on	
•  手法	
  
      1.  コーパス、シードの集合が与えられている	
      2.  それぞれの意味カテゴリCに対して	
  
               •  すべての候補フレーズP	
  が、カテゴリCに属する尤もらしさで
                  降順に並べる	
  
      –  各カテゴリに対して、シードとして語を幾つか与えて
         その平均値ベクトルをCのprototype	
  vectorとする	
  
      –  それぞれのフレーズPに対して、prototype	
  vectorとの
         距離をはかり、近い順にカテゴリCに属すると判定	
  
               •  距離	
  :	
  KL,	
  JS疑距離,	
  cosine,	
  ユークリッド,	
  L1の単純平均	
  
                   –  チューニングしても効果はなかったらしい	
  


2011/12/13	
                                                                      22
Informa1on	
  Extrac1on	
•  実験データ	
  
      –  Webから集めた10万文	
  
      –  Lexアルゴリズム(Downey	
  et	
  al.,	
  2007)を用いて複数
         語からなる固有名詞は一語として認識できるように結
         合	
  
      –  Wikipediaの	
  “listOf”	
  ページから正解データを得た(16
         カテゴリ、432事例)	
  
•  実験設定	
  
      –  seed事例を5個づつ、という実験をseedをランダムに
         変えながら5回	
  
      –  評価はAUC	
  metric.	
  
               •  Recall-­‐Precision	
  曲線の下側の面積(大きいほど良い)	
  

2011/12/13	
                                                    23
Informa1on	
  Extrac1on	




 ランダムベースラインよりは	
  
 良くなったものの、提案手法
 (LATTICE-­‐TYPE-­‐R)の効果はみ   あるカテゴリに90%以上のインスタンスが属さ
 えない	
                       ない場合は多義 (人手で推定)、コーパス中に
                             30回以下の場合はスパース、と定義	
  



2011/12/13	
                                      24
IEで性能が振るわない理由	
•  分類する「対象」の違いが疑わしい	
  
      –  POSタギング:	
  “token”(インスタンス)の分類	
  
      –  IE	
  :	
  “type”(語そのもの)	
  の分類	
  
•  Representa1onのモデル	
  
      –  PL-­‐MRFはHMMに比べてtransi1onのパラメータに依存が
         大きいのではないか	
  
      –  訓練に用いているContras1ve	
  Es1ma1onもtransi1onパラ
         メータに対する依存を強くする効果がありそうだ	
  
•  語が与えられた状態でのモデルの事後分布	
  
      –  エントロピー :	
  PL-­‐MRF	
  :	
  9.95	
  bits,	
  HMM	
  :	
  2.74bits	
  
      –  PL-­‐MRFは語が決まってもモデルの曖昧性が高い	
  
•  結論	
  :	
  よく分からないので更なる実験が必要	
2011/12/13	
                                                                      25
Conclusion	
•  まとめ	
  
      –  多義性やスパースな状況に対応できるような素性表現	
  
      –  本論文で提案したグラフィカルモデルに基づくrepresenta1onは
         POS	
  TaggerのDomain	
  Adapta1onで	
  state-­‐of-­‐the-­‐art.	
  
      –  IEにおける多義性の扱い等は今後の課題	
  
•  以下、個人的感想	
  
      –  (PL-­‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理
         解できなかった	
  
      –  そもそも	
  IE	
  は問題設定としてどうなのだ	
  
               •  というかこれは	
  IE	
  なのだろうか,	
  多義性を考慮するtype分類とは	
  
      –  Token-­‐based	
  tasks(POS	
  Tagger)と	
  Type-­‐based	
  tasks(IE)で異なっ
         た素性表現が有効であるというのは割と納得できる	
  
      –  Contras1ve	
  Es1ma1onについては、本論文ではさらっとしか触
         れていないが、応用範囲はかなり広いようだ	
  

2011/12/13	
                                                                   26

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)

  • 1.
    Language  Models  as   Representa1ons  for     Weakly-­‐Supervised  NLP  Tasks Fei  Huang,  Alexander  Yates,  Arun  Ahuja   and  Doug  Downey   CoNLL2011   紹介者  :  松田 2011/12/13 1
  • 2.
    Introduc1on •  NLPのタスクの多くは分類問題に帰着できる   • 分類に用いる素性ベクトルの作り方に性能が大 きく依存する   –  人手で注意深くつくられた素性が強い   •  しかし、(特にDomain  Adapta1onのような状況に おいて)次のような問題が性能を制限している   –   スパース性   •  訓練データに出てきていない語に対応する能力   –  多義性   •  ドメインに依存して語義の分布がかわる(POSの分布もかわ る)ような語に対応する能力   2011/12/13 2
  • 3.
    Introduc1on •  この問題に対処するために、素性表現に着目   –  unseen  exampleに対する汎化性能を上げるような素性表現   –  distribu1onal  hypothesis  :  意味の似た語はコンテキストも似て いる   •  研究のゴール   –  コンテキストを考慮した確率的言語モデルに基づく素性表現を 開発   –  素性表現:語(token  /  type)から実数値ベクトルへのマッピング   •  言語モデルから生成  →  コンテキストを考慮したベクトルを生成できる   •  コンテキストから生成  →  多義性やスパース性に対して頑健になる   2011/12/13 3
  • 4.
    Previous  Work •  素性表現についての研究は主に四つに分類される   1.  文書レベルでの共起指標に基づくVector  Space  Model   2.  Vector  Space  Modelに対する次元削減   3.  分布類似度に基づくクラスタリング   4.  言語モデルに基づく素性表現   •  PL-­‐MRFという新しいrepresenta1onを提案し、 POS  Taggerにお いてstate-­‐of-­‐the-­‐artな性能を達成したところがcontribu1on   •  Domain  Adapta1onの研究としては   –  targetドメインのラベルつきデータがある設定   –  targetドメインのラベルつきデータが無い設定   –  本研究は後者   2011/12/13 4
  • 5.
    Representa1ons •  A  representa1on  is  a  set  of  features  that   describe  instances  for  a  classifier   •  形式的な定義   –  事例集合から素性空間への写像を行う関数   –  R(x)  :  Yという素性空間(  such  as  Rd  )  の中の一つの ベクトル   2011/12/13 5
  • 6.
    Representa1ons(具体例) 伝統的な素性表現 trigram言語モデル グラフィカルモデル クラスタリングに   基づく表現 提案手法 *-­‐TOKEN-­‐R  :  ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)   *-­‐TYPE-­‐R  :  語それ自体に対する素性表現(コーパス中で一定) 2011/12/13 6
  • 7.
    フレームワーク 解くtaskの   labeled  data   素性   2.  素性ベクトル作成 ベクトル 1.学習 大量の   unlabeled  data Representa1on 3.  学習 解くtaskの   分類器 2011/12/13 7
  • 8.
    Unsupervised  HMMs (本当は有向)   •  それぞれの語が  K  状態のうちのいずれかの状態を持つ、というモデル   •  EMアルゴリズムによってパラメータ P(xi|yi),  P(yi|yi-­‐1) の推定が可能   •  Viterbiアルゴリズムによって状態のデコードが可能   •  高村さんの本に書いてあるHMMは  Supervised-­‐HMMs  なので注意   2011/12/13 8
  • 9.
    I-­‐HMM(Independent-­‐HMM) 本当は有向 M M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築   それぞれのノードが  K  状態のいずれかの値をもっている(HMMと同じ)   2011/12/13 9
  • 10.
    I-­‐HMMの問題点 •   それぞれのHMMが独立に訓練されており、 文の別の側面を(異なるレイヤで)捉えるとい うモデルになっていない   •  それぞれのレイヤーが語の異なる側面をとら えるようにしたい   –  POS,  gender,  number,  格(case),  人称,  テンス,  etc..   •  レイヤー間のインタラクションの導入 2011/12/13 10
  • 11.
    La`ce  Structured  MRF i M j 2011/12/13 11
  • 12.
    La`ce  Structured  MRF 極大クリークを因子とした対数線形モデルで表現(PRML  8.3に類似例あり) P(x)  =   パラメータとしては、例えば・・・ となりあった二つのノードに関する遷移パラメタ 観測された語に関するパラメタ となりあった二つのレイヤに関するパラメタ ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能 2011/12/13 12
  • 13.
    Par1al  La`ce  MRF odd even M odd いくつかのエッジを削除する。文の前半では(odd  –  even),  文の後半では  (even  –  odd)  の間   (あまり納得できるような正当化はなされていない) 2011/12/13 13
  • 14.
    Par1al  La`ce  MRF • エッジを削除することで効率的計算が可能にな る   –  動的計画法,  メッセージパッシング   –  tree-­‐width(木幅:グラフがどれだけ木に近いかを表す 指標)が  2   •  木幅が  1  であれば木、低いほど効率的な計算が可能   –  O(K4MN)   •  K  :  ノードの状態数,  M:レイヤー数,  N  :  文長   •  (論文には書いていないが)モデルの柔軟さをで きるだけ損なわずに木幅を低くして計算しやすく するためのエッジ削除法なのではないか   2011/12/13 14
  • 15.
    Contras1ve  Es1ma1on •  (Smith  and  Eisner,    2005)   •  対数線形モデルをUnlabeled  Dataから学習す る一般的な枠組み   –  Contras1ve  Divergence学習,  擬似負例からの学 習 N(x)  :  Neighborhood  func1on(本論文では、隣接する二単語を入れ替えたもの) 2011/12/13 15
  • 16.
    ?   ?   ?   ?   ?   ?   p red   leaves   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   leaves   red   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   red   don t   leaves   hide   blue   jays   p ?   ?   ?   ?   ?   ?   red   leaves   hide   don t   blue   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   blue   hide   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   hide   jays   blue   2011/12/13 16 Smith  and  Eisner,  ACL2005発表スライドより引用
  • 17.
    その他学習における工夫 •  目的関数はnon-­‐convexなので勾配法で局所 解を求めることになる   •  For  tractability:一層づつ順番に訓練する   –  層 i  に「関係する」パラメータを θi,  その他を θ¬i   –  まず  θ¬0  をすべてゼロに固定し、  θ0  を最適化   –  収束したら固定して、次の層にとりかかる   –  一層あたり100iter以下で収束するらしい   2011/12/13 17
  • 18.
    Domain  Adapta1on  for  a  POS  Tagger Newspaper  Domain(WSJ)    =>  Biomedical  Domain(MEDLINE)  へのドメイン適応 Penn  Treebank   Penn  Treebank +MEDLINE   MEDLINE   71306  sentence 561  sentence labeled  training  data   unlabeled  training  data   labeled  test  data   for  POS  Tagger   for  train  LMs   2011/12/13 POS  Taggerの学習モデルはCRF 18
  • 19.
    Domain  Adapta1on  for  a  POS  Tagger trigram  on  Web1T 8  layer,  80  state 20  layer,  binary 可能な状態数     I-­‐HMM  :  1015  ,  PL-­‐MRF  :  106   bioドメインの   PL-­‐MRFはOOV-­‐errorを大幅に下げることに成功している ラベルつきデータ併用 2011/12/13 19
  • 20.
    Domain  Adapta1on  for  a  POS  Tagger 多義語の判定は   人手で行った。     unlabeledデータ   中に5回以下しか   出現しない語を   sparse語、   50回以上出現   する語を   non-­‐sparse語   として調査。   多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい    おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため   スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。 2011/12/13 20
  • 21.
    Informa1on  Extrac1on •  set-­‐expansion  task   –  種語が幾つか与えられた状況で、コーパス中に 出現する同じ意味カテゴリの語を獲得するタスク   –  distribu1onal  hypothesisに基づいた手法   •  同じ意味カテゴリに属する語はそのコンテキストにあら われる語の分布も似ているだろう、という仮定   –  正例の一部だけが与えられているという意味で   “weakly-­‐supervised”  である   2011/12/13 21
  • 22.
    Informa1on  Extrac1on •  手法   1.  コーパス、シードの集合が与えられている 2.  それぞれの意味カテゴリCに対して   •  すべての候補フレーズP  が、カテゴリCに属する尤もらしさで 降順に並べる   –  各カテゴリに対して、シードとして語を幾つか与えて その平均値ベクトルをCのprototype  vectorとする   –  それぞれのフレーズPに対して、prototype  vectorとの 距離をはかり、近い順にカテゴリCに属すると判定   •  距離  :  KL,  JS疑距離,  cosine,  ユークリッド,  L1の単純平均   –  チューニングしても効果はなかったらしい   2011/12/13 22
  • 23.
    Informa1on  Extrac1on •  実験データ   –  Webから集めた10万文   –  Lexアルゴリズム(Downey  et  al.,  2007)を用いて複数 語からなる固有名詞は一語として認識できるように結 合   –  Wikipediaの  “listOf”  ページから正解データを得た(16 カテゴリ、432事例)   •  実験設定   –  seed事例を5個づつ、という実験をseedをランダムに 変えながら5回   –  評価はAUC  metric.   •  Recall-­‐Precision  曲線の下側の面積(大きいほど良い)   2011/12/13 23
  • 24.
    Informa1on  Extrac1on ランダムベースラインよりは   良くなったものの、提案手法 (LATTICE-­‐TYPE-­‐R)の効果はみ あるカテゴリに90%以上のインスタンスが属さ えない ない場合は多義 (人手で推定)、コーパス中に 30回以下の場合はスパース、と定義   2011/12/13 24
  • 25.
    IEで性能が振るわない理由 •  分類する「対象」の違いが疑わしい   –  POSタギング:  “token”(インスタンス)の分類   –  IE  :  “type”(語そのもの)  の分類   •  Representa1onのモデル   –  PL-­‐MRFはHMMに比べてtransi1onのパラメータに依存が 大きいのではないか   –  訓練に用いているContras1ve  Es1ma1onもtransi1onパラ メータに対する依存を強くする効果がありそうだ   •  語が与えられた状態でのモデルの事後分布   –  エントロピー :  PL-­‐MRF  :  9.95  bits,  HMM  :  2.74bits   –  PL-­‐MRFは語が決まってもモデルの曖昧性が高い   •  結論  :  よく分からないので更なる実験が必要 2011/12/13 25
  • 26.
    Conclusion •  まとめ   –  多義性やスパースな状況に対応できるような素性表現   –  本論文で提案したグラフィカルモデルに基づくrepresenta1onは POS  TaggerのDomain  Adapta1onで  state-­‐of-­‐the-­‐art.   –  IEにおける多義性の扱い等は今後の課題   •  以下、個人的感想   –  (PL-­‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理 解できなかった   –  そもそも  IE  は問題設定としてどうなのだ   •  というかこれは  IE  なのだろうか,  多義性を考慮するtype分類とは   –  Token-­‐based  tasks(POS  Tagger)と  Type-­‐based  tasks(IE)で異なっ た素性表現が有効であるというのは割と納得できる   –  Contras1ve  Es1ma1onについては、本論文ではさらっとしか触 れていないが、応用範囲はかなり広いようだ   2011/12/13 26