# トピックモデルによる統計的潜在意味解析 2章後半

11,067 views

Published on

「トピックモデルによる統計的潜在意味解析」 の読書会.
2章後半の資料.

Published in: Data & Analytics
1. 1. トピックモデルによる統計的潜在意味解析   読書会   2章後半 Akiba  Shinya 2015/06/04
2. 2. ⽬目次 2章  Latent  Dirichlet  Allocation後半   -‐‑‒  ⽣生成過程の例例   -‐‑‒  2.4  LDAの幾何学的解釈   -‐‑‒  2.5  LDAの応⽤用例例
3. 3. ⽣生成過程の例例
4. 4. ⽣生成過程の例例 playsong music band tennisplay ﬁeld run 各トピックの単語分布φk topic2topic1 topic2topic1 topic2topic1 各⽂文書のトピック分布θd ⽂文書1 ⽂文書2 ⽂文書3 topic1 topic2 ⽂文書⽣生成のために   必要なもの
5. 5. θdα zd,i wd,i φk K M nd β ⽂文書数:  M   ⽂文書d内の単語数:  nd トピック数:  K …⽂文書1 …⽂文書2 …⽂文書3 … ⽣生成過程の例例
6. 6. θdα zd,i wd,i φk K M nd β ⽂文書dの各単語に対して,  潜在トピックzd,iを割り当てる ⽂文書1 ⽂文書1のトピック分布 … topic2topic1 ⽣生成過程の例例
7. 7. θdα zd,i wd,i φk K M nd β ⽂文書1 … playsong music band music topic1の単語分布 ⽣生成過程の例例 割り当てられたトピックの単語分布から単語を⽣生成.
8. 8. θdα zd,i wd,i φk K M nd β ⽂文書dの各単語に対して,  潜在トピックzd,iを割り当てる ⽂文書1 ⽂文書1のトピック分布 …music topic2topic1 ⽣生成過程の例例
9. 9. θdα zd,i wd,i φk K M nd β ⽂文書1 …music ﬁeld tennisplay ﬁeld run topic2の単語分布 ⽣生成過程の例例 割り当てられたトピックの単語分布から単語を⽣生成.
10. 10. θdα zd,i wd,i φk K M nd β ⽂文書dの各単語に対して,  潜在トピックzd,iを割り当てる ⽂文書1 ⽂文書1のトピック分布 …music ﬁeld topic2topic1 ⽣生成過程の例例
11. 11. θdα zd,i wd,i φk K M nd β ⽂文書1 … playsong music band music ﬁeld song topic1の単語分布 ⽣生成過程の例例 割り当てられたトピックの単語分布から単語を⽣生成. wd,i
12. 12. θdα zd,i wd,i φk K M nd β ⽂文書1 …music ﬁeld song ⽣生成過程の例例 …⽂文書2 ⽂文書2のトピック分布 run ⽂文書2も⽂文書1と同様.   トピック分布は異異なる. wd,i
13. 13. LDAの幾何学的解釈
14. 14. LDAの幾何学的解釈 gameplay music play music game ⽂文書Aにおける単語分布 ⽂文書A …game game play 各⽂文書は   単語座標単体上の   座標 単語座標単体
15. 15. LDAの幾何学的解釈 gameplay music play music game ⽂文書Aにおける単語分布 ⽂文書A …game game play 各⽂文書は   単語座標単体上の   座標 単語座標単体
16. 16. LDAの幾何学的解釈 gameplay music play music game gameplay music ⽂文書Bにおける単語分布 ⽂文書Aにおける単語分布 ⽂文書A …game game play ⽂文書B …play music play 各⽂文書は   単語座標単体上の   座標 単語座標単体
17. 17. LDAの幾何学的解釈 gameplay music play music game gameplay music ⽂文書Bにおける単語分布 ⽂文書Aにおける単語分布 各⽂文書は   単語座標単体上の   座標 単語座標単体
18. 18. LDAの幾何学的解釈 gameplay music play music game gameplay music ⽂文書Bにおける単語分布 ⽂文書Aにおける単語分布 各⽂文書は   単語座標単体上の   座標 単語座標単体 潜在トピック座標単体 -‐‑‒ 基底ベクトルは単語分布 φ2 φ1
19. 19. LDAの幾何学的解釈 gameplay music play music game gameplay music ⽂文書Bにおける単語分布 ⽂文書Aにおける単語分布 各⽂文書は   単語座標単体上の   座標 単語座標単体 潜在トピック座標単体 -‐‑‒ 基底ベクトルは単語分布 φ2 φ1 θd ⽂文書d -‐‑‒ ⽂文書ごとのトピック分布θd
20. 20. LDAの幾何学的解釈 gameplay music play music game gameplay music ⽂文書Bにおける単語分布 ⽂文書Aにおける単語分布 各⽂文書は   単語座標単体上の   座標 単語座標単体 潜在トピック座標単体 φ2 φ1 θd ⽂文書d φ3 トピックが3つのとき
21. 21. LDAの応⽤用例例
22. 22. LDAの応⽤用例例 -‐‑‒ ⽂文書作成のサポート   -‐‑‒ 情報検索索   -‐‑‒ 推薦システム   -‐‑‒ そのほか
23. 23. LDAの応⽤用例例 ⽂文書dにおける   単語vの出現確率率率 『⽂文書作成のサポート』
24. 24. LDAの応⽤用例例 ⽂文書dにおける   単語vの出現確率率率 トピックkにおける   単語vの出現確率率率 ⽂文書dにおける   トピックkの出現確率率率 『⽂文書作成のサポート』
25. 25. LDAの応⽤用例例 ⽂文書dにおける   単語vの出現確率率率 トピックを介するので   実際に出現していない単語も出現する. 『⽂文書作成のサポート』 -‐‑‒ 使える単語を教えてくれる   -‐‑‒ 単語の⾔言い換え
26. 26. LDAの応⽤用例例 -‐‑‒ 単語vが与えられたとき,  vが含まれない 関連した⽂文書dも検索索できる. 「car」で検索索  -‐‑‒>     ⾞車車に関連するトピックkが   選択される確率率率が⾼高くなる car   …   … automobile   …   … ⾞車車に関連するトピックk   から選ばれやすい⽂文書 『情報検索索』
27. 27. Bag  of  XXX LDAの応⽤用例例 -‐‑‒  Bag  of  Items:  商品購⼊入履履歴   -‐‑‒  Bag  of  Ads:  広告のクリック履履歴   -‐‑‒  Bag  of  Music:  ⾳音楽の再⽣生履履歴 『推薦システム』 B.  Marlin,    Modeling  User  Rating  Proﬁles  for  Collaborative  Filtering,   in  Neural  Information  Processing  Systems  15  (2003).   https://people.cs.umass.edu/~∼marlin/research/papers/urp-‐‑‒nips2003.pdf word1 word2 word3 ⽂文書1 ⽂文書2 ⽂文書3 ⽂文書4 item1 item2 item3 ユーザ1 ユーザ2 ユーザ3 ユーザ4 Bag  of  ItemsBag  of  words
28. 28. LDAの応⽤用例例 そのほか   -‐‑‒ 画像処理理   -‐‑‒ バイオインフォマティックス   -‐‑‒ ⼈人の⾏行行動解析などなど 『画像処理理』 … 画像1 画像2 特徴抽出   (SIFT) 画像1の特徴点1   のベクトル 画像1の特徴点2   のベクトル … 画像2の特徴点1   のベクトル … クラスタリング   (k-‐‑‒means法) …… 3 2 4 画像1の   BOW表現 画像2の   BOW表現 … …