トピックモデルの評価指標 Perplexity とは何なのか？

トピックモデルの評価指標
Perplexity とは何なのか？
@hoxo_m
2016/03/29

⾃自⼰己紹介
•  　 hoxo_m
•  所属：匿匿名知的集団ホクソエム

あらすじ
•  前回、3.7節の発表の中で Perplexity を説
明したが、反応があまり良良くなかった
•  今回は佐藤トピ本の p.123〜～125(3ページ)
の内容だけにしぼって詳しく説明したい
•  Perplexity とは何か？を理理解することが
⽬目的
•  分かってる⼈人は寝ててください

トピックモデルの評価指標
•  トピックモデルの評価指標として
Perplexity と Coherence の 2 つが広く
使われている。
•  Perplexity ：予測性能
•  Coherence：トピックの品質
•  今回は Perplexity について解説する
4
Coherence については前回の LT を参照してください。
http://www.slideshare.net/hoxo_m/coherence-57598192

Perplexity とは
•  辞書で引くと・・
– the feeling of being confused or worried by
something you cannot understand
(理理解できないものにより困惑する感覚)
5
http://www.ldoceonline.com/dictionary/perplexity
⇨ ぶっちゃけ分からん

佐藤トピ本より
•  Perplexity は分岐数または選択肢の数を
表している
•  Perplexity は確率率率の逆数で定義される
•  直感的には、確率率率が 0.01 のとき 100 個の
中から⼀一つ選ぶことに相当するので、
「確率率率の逆数は選択肢の数を表している」

分かったような？
分からないような？

今⽇日はここを理理解しよう！

佐藤トピ本(p.123)より
•  Perplexity は分岐数または選択肢の数を
表している
•  ある⽂文書の 1 単語が隠されているとする
This is a ______.
•  辞書の語彙数が 10000 のとき、ここに⼊入
る単語の候補は 10000 個(ランダムモデル)
•  なんらかの⾔言語モデルを仮定することで
候補数を減らすことができる

⾔言語モデルと候補数
•  This is a ______.
•  普通に考えると
– ⼊入るのは名詞 (○ pen, × happy)
– 可算名詞である(× coffee, × information)
– ⼦子⾳音から始まる (× apple, × orange)
•  我々が持つ⾃自然な⾔言語モデルによる制約
　⇨ ⾔言語モデルを仮定すると候補数は減る

統計的⾔言語モデル
•  LDA を仮定すれば候補数は減るはず
•  LDA は統計的⾔言語モデル
This is a ______.
•  単語は、ここに⼊入るか⼊入らないかではな
く、⼊入る確率率率で表される
　P(“pen”) = 0.01 P(“banana”) = 0.00001
•  このとき「候補数」とはどのように考え
れば良良いか？

正解確率率率と候補数
単語１ ⭕
単語２ ❌
単語３ ⭕
単語４ ⭕
単語５ ❌
単語６ ❌
候補は３個
⇨ 正解する確率率率は 1/3
単語１確率率率 0.01
あとは不不明
正解する確率率率は 1/100
⇨ 候補が 100 個あるのと同じ
単語１を正解とすると・・

Perplexity
•  100 個の候補単語から正解を選ぶことと、
確率率率 0.01 の正解を選ぶことは、難しさは
同じ
•  Perplexity = 1 / P(正解単語 | M)
•  と定義すれば、Perplexity は、モデル M
において正解を選ぶ難しさを表す
•  Perplexity = 100 ならば、100 個の候補か
ら選ぶのと同じ難しさになる

Perplexity によるモデル評価
•  Perplexity は、モデル M の下で正解を選
ぶ難しさを表す
•  Perplexity は候補数に対応している
•  候補数が少ないほど正解を当てやすい
　⇨ Perplexity はモデルの予測性能を表す

Perplexity まとめ
•  Perplexity は、モデルに従って正解を選
ぶためのある種の困難さを表す
•  どれぐらい困難かは、Perplexity 個の選
択肢から正解を選ぶときと同じ困難さ
•  Perplexity は選択肢の数を表す
•  Perplexity は確率率率の逆数で定義される

トピックモデルの評価指標 Perplexity とは何なのか？

More Related Content

What's hot

Viewers also liked

More from hoxo_m

トピックモデルの評価指標 Perplexity とは何なのか？