• Like
A scalable probablistic classifier for language modeling: ACL 2011 読み会
Upcoming SlideShare
Loading in...5
×

A scalable probablistic classifier for language modeling: ACL 2011 読み会

  • 4,245 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
4,245
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
15
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. ACL2011読み会 坪坂 正志 2011/9/3@サイボウズラボ2011/9/3 ACL 2011 読み会@サイボウズラボ 1
  • 2. 紹介論文• Joel Lang : A scalable probablistic classifier for language modeling. ACL. 2011 – 確率的識別器を使った言語モデルに関する論文 – Kneser-NeyのようなNグラムモデルに比べ、長距離の特徴量 などを利用できる – 同様に識別器を使った先行研究と違い、語彙数30367、1億 語以上のコーパスに対してもスケールする 2011/9/3 ACL 2011 読み会@サイボウズラボ 2
  • 3. 言語モデルHappy families are all alike; every unhappy 次に来る単語は? 2011/9/3 ACL 2011 読み会@サイボウズラボ 3
  • 4. 言語モデルHappy families are all alike; every unhappy 次に来る単語は? • 例えばtrigramモデルではP(word | every unhappy)を 計算する 2011/9/3 ACL 2011 読み会@サイボウズラボ 4
  • 5. 言語モデルHappy families are all alike; every unhappy 次に来る単語は? • 例えばtrigramモデルではP(word | every unhappy)を 計算する • でも離れた単語に注目すると、より次の単語の予測 精度が高くなる可能性がある 2011/9/3 ACL 2011 読み会@サイボウズラボ 5
  • 6. トリガーモデル• Nグラムの範囲を超えた長距離の単語の影響を組 み入れた言語モデル• 詳しくは2011/9/3 ACL 2011 読み会@サイボウズラボ 6
  • 7. どういう特徴量を使うか• これまでの文脈が ” Yesterday at the press conference Mr Thompson said”の場合 通常の3-gram 3-gramの一部をスキップ 3個前までの出現単語 4-8個前までの出現単語 2011/9/3 ACL 2011 読み会@サイボウズラボ 7
  • 8. 先行研究• [Rosenfeld 1996] – 最大エントロピー分類器を使った言語モデル – パラメータの推定に非常に時間がかかる• [Bengio+ 2003] – ニューラルネットを使った言語モデル – これも大きなデータセットに適応するのは困難• [Mnih and Hinton 2008] – 語彙数20000, 1400万語のデータセットに対して適用• [Van den Bosch 2005] – 決定木ベースの手法 – 一億語以上のデータセットに対して適用可能 – 確率モデルではないのでperplexityでの比較が困難2011/9/3 ACL 2011 読み会@サイボウズラボ 8
  • 9. 先行研究 (論文では触れてない)• 岡野原, 辻井 : 行列分解による多クラス分類とその 応用. 言語処理学会. 2010 – 単語数5379万、語彙数116万のデータに対して適用 – 確率モデルではないが、ソフトマックス関数を使って確率 値に変換している2011/9/3 ACL 2011 読み会@サイボウズラボ 9
  • 10. 問題設定• 与えられた特徴量ベクトルに対して、クラス分布 (|)を推定する – ここで一つのクラスは一つの語彙に相当する – 特徴量ベクトル = (1 , … , ) – 特徴量はバイナリを仮定 ( ∈ *0,1+) – 各特徴量は「直前の単語列が”* Thompson said”である」、 「4-8単語前までに”conference”が出現」などを意味する• ここで特徴量ベクトルの次元は非常に大きいが、ア クティブな(非ゼロ)なものの数は少ない – 例えば先程の例では17個2011/9/3 ACL 2011 読み会@サイボウズラボ 10
  • 11. VMM (Variable mixture model)• 各 ごとに(| )を定める• さらに特徴量ごとに予測の強さ ∈ を定める• このとき(|, )を次のようにモデル化する2011/9/3 ACL 2011 読み会@サイボウズラボ 11
  • 12. 最大エントロピーとの比較• (2)式を変形すると最大エントロピーの式に近い形に なる2011/9/3 ACL 2011 読み会@サイボウズラボ 12
  • 13. 最大エントロピーとの比較• 最大エントロピーにおいては規格化定数の計算量 がクラス数(語彙数)に比例する• 一方VMMでは計算量は有効な特徴量の数に比例 する – クラス数によらない2011/9/3 ACL 2011 読み会@サイボウズラボ 13
  • 14. ( | )の推定• ここに関しては決定的に行う• absolute discountを使ったsmoothing• 特徴量 がアクティブだったときに である確率2011/9/3 ACL 2011 読み会@サイボウズラボ 14
  • 15. の推定• 最尤推定を行う• パラメータの推定アルゴリズムにはSGA (Stochastic gradient ascent)を使う – なお、パラメータの推定では全データ点を一回舐めるだけ で十分であった。 – 逆に複数回見た場合、過学習の傾向が見られた2011/9/3 ACL 2011 読み会@サイボウズラボ 15
  • 16. leave-one-out• 勾配計算においてデータ点を取ってきたときに ( | )の計算に取ってきたデータ点の寄与をとり のぞいて計算する – これにより汎化性能が向上する2011/9/3 ACL 2011 読み会@サイボウズラボ 16
  • 17. 実験• RCV1データを利用 – 総語彙数 30367 (week 31において頻度4以下の単語はout-of- vocabulary(UNK)に変換) – week 50のデータをディベロップメントセット、week 51のデータ をテストセットとする – 訓練データとしては4種類のサイズのデータを用意 • D1 (week 1, 3.1M words), D2 (week 1-3, 10M words), D3(week 1-10, 37M words), D4 (week 1-30, 113M words) 2011/9/3 ACL 2011 読み会@サイボウズラボ 17
  • 18. 利用するモデル• KN : modified Kneser-Ney• VM-BA (basic) : N-gram特徴量のみを利用• VM-SR (short range) : BAに加え、skip N-gramとN個 前までの単語をBOFにした特徴量を利用• VM-LR (long range) : SRに加え、長距離の単語をBOF にした特徴量を利用2011/9/3 ACL 2011 読み会@サイボウズラボ 18
  • 19. 実験結果• 長距離の特徴量を使った VM-LRのperplexityが最も小 さくなっている• D4においてVM-LRの学習時 間が30分に対してKNは6分• D3,D4においてN=5がないの はメモリ不足のため 2011/9/3 ACL 2011 読み会@サイボウズラボ 19
  • 20. 実は結果をプロットしてみると(論文にはない)• コーパスサイズを増やしていくと、モデルによる perplexityの違いは少なくなる(cf [Brants+ 2007])2011/9/3 ACL 2011 読み会@サイボウズラボ 20
  • 21. まとめ• スケーラブルかつ豊富な特徴量を利用できる確率 的分類器のモデルであるVMMを提案した – 加えて実装は単純• 言語モデルに適応したところ、Nグラムモデルである Kneser-Neyよりも高い精度となった• 今後はメモリの使用量の改善などを行いたい2011/9/3 ACL 2011 読み会@サイボウズラボ 21
  • 22. 参考文献• R. Rosenfeld : A maximum entropy approach to adaptive statistical language modeling. Computer, speech and language. 1996• Y. Bengio+ : A neural probabilistic language model. Journal of Machine Learning Research. 2003• A. Mnih and G. Hinton : A scalable hierachical distributed language model. NIPS. 2008• A. Van den Bosch : Scalable classification-based word prediction and confusible correction. Traitement automatique des langues. 2005• T. Brants+ : Large Language Models in Machine Translation. EMNLP. 20072011/9/3 ACL 2011 読み会@サイボウズラボ 22