Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

トピックモデルの評価指標 Perplexity とは何なのか?

15,129 views

Published on

『トピックモデルによる統計的潜在意味解析』読書会ファイナル ~佐藤一誠先生スペシャル~ LT 資料
http://topicmodel.connpass.com/event/27999/

Published in: Data & Analytics
  • Be the first to comment

トピックモデルの評価指標 Perplexity とは何なのか?

  1. 1. トピックモデルの評価指標   Perplexity とは何なのか? @hoxo_m 2016/03/29
  2. 2. ⾃自⼰己紹介 •     hoxo_m •  所属:匿匿名知的集団ホクソエム
  3. 3. あらすじ •  前回、3.7節の発表の中で  Perplexity を説 明したが、反応があまり良良くなかった •  今回は佐藤トピ本の  p.123〜~125(3ページ) の内容だけにしぼって詳しく説明したい •  Perplexity とは何か?を理理解することが ⽬目的 •  分かってる⼈人は寝ててください
  4. 4. トピックモデルの評価指標 •  トピックモデルの評価指標として Perplexity  と  Coherence  の 2 つが広く 使われている。 •  Perplexity :予測性能 •  Coherence:トピックの品質 •  今回は  Perplexity について解説する 4 Coherence については前回  の LT を参照してください。 http://www.slideshare.net/hoxo_m/coherence-57598192
  5. 5. Perplexity とは •  辞書で引くと・・ – the feeling of being confused or worried by something you cannot understand (理理解できないものにより困惑する感覚) 5 http://www.ldoceonline.com/dictionary/perplexity ⇨  ぶっちゃけ分からん
  6. 6. 佐藤トピ本より •  Perplexity は分岐数または選択肢の数を 表している •  Perplexity  は確率率率の逆数で定義される •  直感的には、確率率率が 0.01 のとき 100 個の 中から⼀一つ選ぶことに相当するので、 「確率率率の逆数は選択肢の数を表している」
  7. 7. 分かったような? 分からないような? 「確率率率の逆数は選択肢の数を表している」
  8. 8. 今⽇日はここを理理解しよう!
  9. 9. 佐藤トピ本(p.123)より •  Perplexity は分岐数または選択肢の数を 表している •  ある⽂文書の  1 単語が隠されているとする This is a ______. •  辞書の語彙数が  10000 のとき、ここに⼊入 る単語の候補は  10000 個(ランダムモデル) •  なんらかの⾔言語モデルを仮定することで 候補数を減らすことができる
  10. 10. ⾔言語モデルと候補数 •  This is a ______. •  普通に考えると – ⼊入るのは名詞  (○  pen, × happy) – 可算名詞である(× coffee, × information) – ⼦子⾳音から始まる  (× apple, × orange) •  我々が持つ⾃自然な⾔言語モデルによる制約   ⇨ ⾔言語モデルを仮定すると候補数は減る
  11. 11. 統計的⾔言語モデル •  LDA  を仮定すれば候補数は減るはず •  LDA  は統計的⾔言語モデル This is a ______. •  単語は、ここに⼊入るか⼊入らないかではな く、⼊入る確率率率で表される   P(“pen”) = 0.01 P(“banana”) = 0.00001 •  このとき「候補数」とはどのように考え れば良良いか?
  12. 12. 正解確率率率と候補数 単語1  ⭕   単語2  ❌ 単語3  ⭕ 単語4  ⭕ 単語5  ❌ 単語6  ❌ 候補は3個 ⇨  正解する確率率率は 1/3 単語1  確率率率  0.01 あとは不不明 正解する確率率率は 1/100 ⇨  候補が  100  個あるのと同じ 単語1を正解とすると・・
  13. 13. Perplexity •  100 個の候補単語から正解を選ぶことと、 確率率率 0.01 の正解を選ぶことは、難しさは 同じ •  Perplexity = 1 / P(正解単語  | M) •  と定義すれば、Perplexity  は、モデル M において正解を選ぶ難しさを表す •  Perplexity = 100 ならば、100 個の候補か ら選ぶのと同じ難しさになる
  14. 14. Perplexity によるモデル評価 •  Perplexity は、モデル M の下で正解を選 ぶ難しさを表す •  Perplexity  は候補数に対応している •  候補数が少ないほど正解を当てやすい   ⇨ Perplexity  はモデルの予測性能を表す
  15. 15. Perplexity  まとめ •  Perplexity は、モデルに従って正解を選 ぶためのある種の困難さを表す •  どれぐらい困難かは、Perplexity 個の選 択肢から正解を選ぶときと同じ困難さ •  Perplexity  は選択肢の数を表す •  Perplexity  は確率率率の逆数で定義される 「確率率率の逆数は選択肢の数を表している」

×