Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)

on

  • 784 views

 

Statistics

Views

Total Views
784
Views on SlideShare
784
Embed Views
0

Actions

Likes
2
Downloads
6
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011) Presentation Transcript

  • 1. Language  Models  as   Representa1ons  for     Weakly-­‐Supervised  NLP  Tasks Fei  Huang,  Alexander  Yates,  Arun  Ahuja   and  Doug  Downey   CoNLL2011   紹介者  :  松田 2011/12/13 1
  • 2. Introduc1on •  NLPのタスクの多くは分類問題に帰着できる  •  分類に用いる素性ベクトルの作り方に性能が大 きく依存する   –  人手で注意深くつくられた素性が強い  •  しかし、(特にDomain  Adapta1onのような状況に おいて)次のような問題が性能を制限している   –   スパース性   •  訓練データに出てきていない語に対応する能力   –  多義性   •  ドメインに依存して語義の分布がかわる(POSの分布もかわ る)ような語に対応する能力  2011/12/13 2
  • 3. Introduc1on •  この問題に対処するために、素性表現に着目   –  unseen  exampleに対する汎化性能を上げるような素性表現   –  distribu1onal  hypothesis  :  意味の似た語はコンテキストも似て いる  •  研究のゴール   –  コンテキストを考慮した確率的言語モデルに基づく素性表現を 開発   –  素性表現:語(token  /  type)から実数値ベクトルへのマッピング   •  言語モデルから生成  →  コンテキストを考慮したベクトルを生成できる   •  コンテキストから生成  →  多義性やスパース性に対して頑健になる  2011/12/13 3
  • 4. Previous  Work •  素性表現についての研究は主に四つに分類される   1.  文書レベルでの共起指標に基づくVector  Space  Model   2.  Vector  Space  Modelに対する次元削減   3.  分布類似度に基づくクラスタリング   4.  言語モデルに基づく素性表現   •  PL-­‐MRFという新しいrepresenta1onを提案し、 POS  Taggerにお いてstate-­‐of-­‐the-­‐artな性能を達成したところがcontribu1on  •  Domain  Adapta1onの研究としては   –  targetドメインのラベルつきデータがある設定   –  targetドメインのラベルつきデータが無い設定   –  本研究は後者  2011/12/13 4
  • 5. Representa1ons •  A  representa1on  is  a  set  of  features  that   describe  instances  for  a  classifier  •  形式的な定義   –  事例集合から素性空間への写像を行う関数   –  R(x)  :  Yという素性空間(  such  as  Rd  )  の中の一つの ベクトル  2011/12/13 5
  • 6. Representa1ons(具体例) 伝統的な素性表現 trigram言語モデル グラフィカルモデル クラスタリングに   基づく表現 提案手法 *-­‐TOKEN-­‐R  :  ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)  *-­‐TYPE-­‐R  :  語それ自体に対する素性表現(コーパス中で一定) 2011/12/13 6
  • 7. フレームワーク 解くtaskの   labeled  data   素性   2.  素性ベクトル作成 ベクトル 1.学習 大量の   unlabeled  data Representa1on 3.  学習 解くtaskの   分類器 2011/12/13 7
  • 8. Unsupervised  HMMs (本当は有向)   •  それぞれの語が  K  状態のうちのいずれかの状態を持つ、というモデル   •  EMアルゴリズムによってパラメータ P(xi|yi),  P(yi|yi-­‐1) の推定が可能   •  Viterbiアルゴリズムによって状態のデコードが可能   •  高村さんの本に書いてあるHMMは  Supervised-­‐HMMs  なので注意  2011/12/13 8
  • 9. I-­‐HMM(Independent-­‐HMM) 本当は有向 M M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築   それぞれのノードが  K  状態のいずれかの値をもっている(HMMと同じ)  2011/12/13 9
  • 10. I-­‐HMMの問題点 •   それぞれのHMMが独立に訓練されており、 文の別の側面を(異なるレイヤで)捉えるとい うモデルになっていない  •  それぞれのレイヤーが語の異なる側面をとら えるようにしたい   –  POS,  gender,  number,  格(case),  人称,  テンス,  etc..  •  レイヤー間のインタラクションの導入 2011/12/13 10
  • 11. La`ce  Structured  MRF i M j 2011/12/13 11
  • 12. La`ce  Structured  MRF 極大クリークを因子とした対数線形モデルで表現(PRML  8.3に類似例あり) P(x)  =   パラメータとしては、例えば・・・ となりあった二つのノードに関する遷移パラメタ 観測された語に関するパラメタ となりあった二つのレイヤに関するパラメタ ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能 2011/12/13 12
  • 13. Par1al  La`ce  MRF odd even M odd いくつかのエッジを削除する。文の前半では(odd  –  even),  文の後半では  (even  –  odd)  の間   (あまり納得できるような正当化はなされていない) 2011/12/13 13
  • 14. Par1al  La`ce  MRF •  エッジを削除することで効率的計算が可能にな る   –  動的計画法,  メッセージパッシング   –  tree-­‐width(木幅:グラフがどれだけ木に近いかを表す 指標)が  2   •  木幅が  1  であれば木、低いほど効率的な計算が可能   –  O(K4MN)   •  K  :  ノードの状態数,  M:レイヤー数,  N  :  文長  •  (論文には書いていないが)モデルの柔軟さをで きるだけ損なわずに木幅を低くして計算しやすく するためのエッジ削除法なのではないか  2011/12/13 14
  • 15. Contras1ve  Es1ma1on •  (Smith  and  Eisner,    2005)  •  対数線形モデルをUnlabeled  Dataから学習す る一般的な枠組み   –  Contras1ve  Divergence学習,  擬似負例からの学 習 N(x)  :  Neighborhood  func1on(本論文では、隣接する二単語を入れ替えたもの) 2011/12/13 15
  • 16. ?   ?   ?   ?   ?   ?   p red   leaves   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   leaves   red   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   red   don t   leaves   hide   blue   jays   p ?   ?   ?   ?   ?   ?   red   leaves   hide   don t   blue   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   blue   hide   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   hide   jays   blue  2011/12/13 16 Smith  and  Eisner,  ACL2005発表スライドより引用
  • 17. その他学習における工夫 •  目的関数はnon-­‐convexなので勾配法で局所 解を求めることになる  •  For  tractability:一層づつ順番に訓練する   –  層 i  に「関係する」パラメータを θi,  その他を θ¬i   –  まず  θ¬0  をすべてゼロに固定し、  θ0  を最適化   –  収束したら固定して、次の層にとりかかる   –  一層あたり100iter以下で収束するらしい  2011/12/13 17
  • 18. Domain  Adapta1on  for  a  POS  Tagger Newspaper  Domain(WSJ)    =>  Biomedical  Domain(MEDLINE)  へのドメイン適応 Penn  Treebank   Penn  Treebank +MEDLINE   MEDLINE   71306  sentence 561  sentence labeled  training  data   unlabeled  training  data   labeled  test  data   for  POS  Tagger   for  train  LMs  2011/12/13 POS  Taggerの学習モデルはCRF 18
  • 19. Domain  Adapta1on  for  a  POS  Tagger trigram  on  Web1T 8  layer,  80  state 20  layer,  binary 可能な状態数     I-­‐HMM  :  1015  ,  PL-­‐MRF  :  106   bioドメインの   PL-­‐MRFはOOV-­‐errorを大幅に下げることに成功している ラベルつきデータ併用 2011/12/13 19
  • 20. Domain  Adapta1on  for  a  POS  Tagger 多義語の判定は   人手で行った。     unlabeledデータ   中に5回以下しか   出現しない語を   sparse語、   50回以上出現   する語を   non-­‐sparse語   として調査。  多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい    おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため  スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。 2011/12/13 20
  • 21. Informa1on  Extrac1on •  set-­‐expansion  task   –  種語が幾つか与えられた状況で、コーパス中に 出現する同じ意味カテゴリの語を獲得するタスク   –  distribu1onal  hypothesisに基づいた手法   •  同じ意味カテゴリに属する語はそのコンテキストにあら われる語の分布も似ているだろう、という仮定   –  正例の一部だけが与えられているという意味で   “weakly-­‐supervised”  である  2011/12/13 21
  • 22. Informa1on  Extrac1on •  手法   1.  コーパス、シードの集合が与えられている 2.  それぞれの意味カテゴリCに対して   •  すべての候補フレーズP  が、カテゴリCに属する尤もらしさで 降順に並べる   –  各カテゴリに対して、シードとして語を幾つか与えて その平均値ベクトルをCのprototype  vectorとする   –  それぞれのフレーズPに対して、prototype  vectorとの 距離をはかり、近い順にカテゴリCに属すると判定   •  距離  :  KL,  JS疑距離,  cosine,  ユークリッド,  L1の単純平均   –  チューニングしても効果はなかったらしい  2011/12/13 22
  • 23. Informa1on  Extrac1on •  実験データ   –  Webから集めた10万文   –  Lexアルゴリズム(Downey  et  al.,  2007)を用いて複数 語からなる固有名詞は一語として認識できるように結 合   –  Wikipediaの  “listOf”  ページから正解データを得た(16 カテゴリ、432事例)  •  実験設定   –  seed事例を5個づつ、という実験をseedをランダムに 変えながら5回   –  評価はAUC  metric.   •  Recall-­‐Precision  曲線の下側の面積(大きいほど良い)  2011/12/13 23
  • 24. Informa1on  Extrac1on ランダムベースラインよりは   良くなったものの、提案手法 (LATTICE-­‐TYPE-­‐R)の効果はみ あるカテゴリに90%以上のインスタンスが属さ えない ない場合は多義 (人手で推定)、コーパス中に 30回以下の場合はスパース、と定義  2011/12/13 24
  • 25. IEで性能が振るわない理由 •  分類する「対象」の違いが疑わしい   –  POSタギング:  “token”(インスタンス)の分類   –  IE  :  “type”(語そのもの)  の分類  •  Representa1onのモデル   –  PL-­‐MRFはHMMに比べてtransi1onのパラメータに依存が 大きいのではないか   –  訓練に用いているContras1ve  Es1ma1onもtransi1onパラ メータに対する依存を強くする効果がありそうだ  •  語が与えられた状態でのモデルの事後分布   –  エントロピー :  PL-­‐MRF  :  9.95  bits,  HMM  :  2.74bits   –  PL-­‐MRFは語が決まってもモデルの曖昧性が高い  •  結論  :  よく分からないので更なる実験が必要 2011/12/13 25
  • 26. Conclusion •  まとめ   –  多義性やスパースな状況に対応できるような素性表現   –  本論文で提案したグラフィカルモデルに基づくrepresenta1onは POS  TaggerのDomain  Adapta1onで  state-­‐of-­‐the-­‐art.   –  IEにおける多義性の扱い等は今後の課題  •  以下、個人的感想   –  (PL-­‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理 解できなかった   –  そもそも  IE  は問題設定としてどうなのだ   •  というかこれは  IE  なのだろうか,  多義性を考慮するtype分類とは   –  Token-­‐based  tasks(POS  Tagger)と  Type-­‐based  tasks(IE)で異なっ た素性表現が有効であるというのは割と納得できる   –  Contras1ve  Es1ma1onについては、本論文ではさらっとしか触 れていないが、応用範囲はかなり広いようだ  2011/12/13 26