A scalable probablistic classifier for language modeling: ACL 2011 読み会

4,774 views
4,723 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,774
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
15
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

A scalable probablistic classifier for language modeling: ACL 2011 読み会

  1. 1. ACL2011読み会 坪坂 正志 2011/9/3@サイボウズラボ2011/9/3 ACL 2011 読み会@サイボウズラボ 1
  2. 2. 紹介論文• Joel Lang : A scalable probablistic classifier for language modeling. ACL. 2011 – 確率的識別器を使った言語モデルに関する論文 – Kneser-NeyのようなNグラムモデルに比べ、長距離の特徴量 などを利用できる – 同様に識別器を使った先行研究と違い、語彙数30367、1億 語以上のコーパスに対してもスケールする 2011/9/3 ACL 2011 読み会@サイボウズラボ 2
  3. 3. 言語モデルHappy families are all alike; every unhappy 次に来る単語は? 2011/9/3 ACL 2011 読み会@サイボウズラボ 3
  4. 4. 言語モデルHappy families are all alike; every unhappy 次に来る単語は? • 例えばtrigramモデルではP(word | every unhappy)を 計算する 2011/9/3 ACL 2011 読み会@サイボウズラボ 4
  5. 5. 言語モデルHappy families are all alike; every unhappy 次に来る単語は? • 例えばtrigramモデルではP(word | every unhappy)を 計算する • でも離れた単語に注目すると、より次の単語の予測 精度が高くなる可能性がある 2011/9/3 ACL 2011 読み会@サイボウズラボ 5
  6. 6. トリガーモデル• Nグラムの範囲を超えた長距離の単語の影響を組 み入れた言語モデル• 詳しくは2011/9/3 ACL 2011 読み会@サイボウズラボ 6
  7. 7. どういう特徴量を使うか• これまでの文脈が ” Yesterday at the press conference Mr Thompson said”の場合 通常の3-gram 3-gramの一部をスキップ 3個前までの出現単語 4-8個前までの出現単語 2011/9/3 ACL 2011 読み会@サイボウズラボ 7
  8. 8. 先行研究• [Rosenfeld 1996] – 最大エントロピー分類器を使った言語モデル – パラメータの推定に非常に時間がかかる• [Bengio+ 2003] – ニューラルネットを使った言語モデル – これも大きなデータセットに適応するのは困難• [Mnih and Hinton 2008] – 語彙数20000, 1400万語のデータセットに対して適用• [Van den Bosch 2005] – 決定木ベースの手法 – 一億語以上のデータセットに対して適用可能 – 確率モデルではないのでperplexityでの比較が困難2011/9/3 ACL 2011 読み会@サイボウズラボ 8
  9. 9. 先行研究 (論文では触れてない)• 岡野原, 辻井 : 行列分解による多クラス分類とその 応用. 言語処理学会. 2010 – 単語数5379万、語彙数116万のデータに対して適用 – 確率モデルではないが、ソフトマックス関数を使って確率 値に変換している2011/9/3 ACL 2011 読み会@サイボウズラボ 9
  10. 10. 問題設定• 与えられた特徴量ベクトルに対して、クラス分布 (|)を推定する – ここで一つのクラスは一つの語彙に相当する – 特徴量ベクトル = (1 , … , ) – 特徴量はバイナリを仮定 ( ∈ *0,1+) – 各特徴量は「直前の単語列が”* Thompson said”である」、 「4-8単語前までに”conference”が出現」などを意味する• ここで特徴量ベクトルの次元は非常に大きいが、ア クティブな(非ゼロ)なものの数は少ない – 例えば先程の例では17個2011/9/3 ACL 2011 読み会@サイボウズラボ 10
  11. 11. VMM (Variable mixture model)• 各 ごとに(| )を定める• さらに特徴量ごとに予測の強さ ∈ を定める• このとき(|, )を次のようにモデル化する2011/9/3 ACL 2011 読み会@サイボウズラボ 11
  12. 12. 最大エントロピーとの比較• (2)式を変形すると最大エントロピーの式に近い形に なる2011/9/3 ACL 2011 読み会@サイボウズラボ 12
  13. 13. 最大エントロピーとの比較• 最大エントロピーにおいては規格化定数の計算量 がクラス数(語彙数)に比例する• 一方VMMでは計算量は有効な特徴量の数に比例 する – クラス数によらない2011/9/3 ACL 2011 読み会@サイボウズラボ 13
  14. 14. ( | )の推定• ここに関しては決定的に行う• absolute discountを使ったsmoothing• 特徴量 がアクティブだったときに である確率2011/9/3 ACL 2011 読み会@サイボウズラボ 14
  15. 15. の推定• 最尤推定を行う• パラメータの推定アルゴリズムにはSGA (Stochastic gradient ascent)を使う – なお、パラメータの推定では全データ点を一回舐めるだけ で十分であった。 – 逆に複数回見た場合、過学習の傾向が見られた2011/9/3 ACL 2011 読み会@サイボウズラボ 15
  16. 16. leave-one-out• 勾配計算においてデータ点を取ってきたときに ( | )の計算に取ってきたデータ点の寄与をとり のぞいて計算する – これにより汎化性能が向上する2011/9/3 ACL 2011 読み会@サイボウズラボ 16
  17. 17. 実験• RCV1データを利用 – 総語彙数 30367 (week 31において頻度4以下の単語はout-of- vocabulary(UNK)に変換) – week 50のデータをディベロップメントセット、week 51のデータ をテストセットとする – 訓練データとしては4種類のサイズのデータを用意 • D1 (week 1, 3.1M words), D2 (week 1-3, 10M words), D3(week 1-10, 37M words), D4 (week 1-30, 113M words) 2011/9/3 ACL 2011 読み会@サイボウズラボ 17
  18. 18. 利用するモデル• KN : modified Kneser-Ney• VM-BA (basic) : N-gram特徴量のみを利用• VM-SR (short range) : BAに加え、skip N-gramとN個 前までの単語をBOFにした特徴量を利用• VM-LR (long range) : SRに加え、長距離の単語をBOF にした特徴量を利用2011/9/3 ACL 2011 読み会@サイボウズラボ 18
  19. 19. 実験結果• 長距離の特徴量を使った VM-LRのperplexityが最も小 さくなっている• D4においてVM-LRの学習時 間が30分に対してKNは6分• D3,D4においてN=5がないの はメモリ不足のため 2011/9/3 ACL 2011 読み会@サイボウズラボ 19
  20. 20. 実は結果をプロットしてみると(論文にはない)• コーパスサイズを増やしていくと、モデルによる perplexityの違いは少なくなる(cf [Brants+ 2007])2011/9/3 ACL 2011 読み会@サイボウズラボ 20
  21. 21. まとめ• スケーラブルかつ豊富な特徴量を利用できる確率 的分類器のモデルであるVMMを提案した – 加えて実装は単純• 言語モデルに適応したところ、Nグラムモデルである Kneser-Neyよりも高い精度となった• 今後はメモリの使用量の改善などを行いたい2011/9/3 ACL 2011 読み会@サイボウズラボ 21
  22. 22. 参考文献• R. Rosenfeld : A maximum entropy approach to adaptive statistical language modeling. Computer, speech and language. 1996• Y. Bengio+ : A neural probabilistic language model. Journal of Machine Learning Research. 2003• A. Mnih and G. Hinton : A scalable hierachical distributed language model. NIPS. 2008• A. Van den Bosch : Scalable classification-based word prediction and confusible correction. Traitement automatique des langues. 2005• T. Brants+ : Large Language Models in Machine Translation. EMNLP. 20072011/9/3 ACL 2011 読み会@サイボウズラボ 22

×