トピックモデルの評価指標  
Perplexity とは何なのか?
@hoxo_m
2016/03/29
⾃自⼰己紹介
•     hoxo_m
•  所属:匿匿名知的集団ホクソエム
あらすじ
•  前回、3.7節の発表の中で  Perplexity を説
明したが、反応があまり良良くなかった
•  今回は佐藤トピ本の  p.123〜~125(3ページ)
の内容だけにしぼって詳しく説明したい
•  Perplexity とは何か?を理理解することが
⽬目的
•  分かってる⼈人は寝ててください
トピックモデルの評価指標
•  トピックモデルの評価指標として
Perplexity  と  Coherence  の 2 つが広く
使われている。
•  Perplexity :予測性能
•  Coherence:トピックの品質
•  今回は  Perplexity について解説する
4
Coherence については前回  の LT を参照してください。
http://www.slideshare.net/hoxo_m/coherence-57598192
Perplexity とは
•  辞書で引くと・・
– the feeling of being confused or worried by
something you cannot understand
(理理解できないものにより困惑する感覚)
5
http://www.ldoceonline.com/dictionary/perplexity
⇨  ぶっちゃけ分からん
佐藤トピ本より
•  Perplexity は分岐数または選択肢の数を
表している
•  Perplexity  は確率率率の逆数で定義される
•  直感的には、確率率率が 0.01 のとき 100 個の
中から⼀一つ選ぶことに相当するので、
「確率率率の逆数は選択肢の数を表している」
分かったような?
分からないような?
「確率率率の逆数は選択肢の数を表している」
今⽇日はここを理理解しよう!
佐藤トピ本(p.123)より
•  Perplexity は分岐数または選択肢の数を
表している
•  ある⽂文書の  1 単語が隠されているとする
This is a ______.
•  辞書の語彙数が  10000 のとき、ここに⼊入
る単語の候補は  10000 個(ランダムモデル)
•  なんらかの⾔言語モデルを仮定することで
候補数を減らすことができる
⾔言語モデルと候補数
•  This is a ______.
•  普通に考えると
– ⼊入るのは名詞  (○  pen, × happy)
– 可算名詞である(× coffee, × information)
– ⼦子⾳音から始まる  (× apple, × orange)
•  我々が持つ⾃自然な⾔言語モデルによる制約
  ⇨ ⾔言語モデルを仮定すると候補数は減る
統計的⾔言語モデル
•  LDA  を仮定すれば候補数は減るはず
•  LDA  は統計的⾔言語モデル
This is a ______.
•  単語は、ここに⼊入るか⼊入らないかではな
く、⼊入る確率率率で表される
  P(“pen”) = 0.01 P(“banana”) = 0.00001
•  このとき「候補数」とはどのように考え
れば良良いか?
正解確率率率と候補数
単語1  ⭕  
単語2  ❌
単語3  ⭕
単語4  ⭕
単語5  ❌
単語6  ❌
候補は3個
⇨  正解する確率率率は 1/3
単語1  確率率率  0.01
あとは不不明
正解する確率率率は 1/100
⇨  候補が  100  個あるのと同じ
単語1を正解とすると・・
Perplexity
•  100 個の候補単語から正解を選ぶことと、
確率率率 0.01 の正解を選ぶことは、難しさは
同じ
•  Perplexity = 1 / P(正解単語  | M)
•  と定義すれば、Perplexity  は、モデル M
において正解を選ぶ難しさを表す
•  Perplexity = 100 ならば、100 個の候補か
ら選ぶのと同じ難しさになる
Perplexity によるモデル評価
•  Perplexity は、モデル M の下で正解を選
ぶ難しさを表す
•  Perplexity  は候補数に対応している
•  候補数が少ないほど正解を当てやすい
  ⇨ Perplexity  はモデルの予測性能を表す
Perplexity  まとめ
•  Perplexity は、モデルに従って正解を選
ぶためのある種の困難さを表す
•  どれぐらい困難かは、Perplexity 個の選
択肢から正解を選ぶときと同じ困難さ
•  Perplexity  は選択肢の数を表す
•  Perplexity  は確率率率の逆数で定義される
「確率率率の逆数は選択肢の数を表している」

トピックモデルの評価指標 Perplexity とは何なのか?