Topic Model Survey (wsdm2012)

2,964 views

Published on

topic model survey in WSDM2012
http://d.hatena.ne.jp/repose/

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,964
On SlideShare
0
From Embeds
0
Number of Embeds
1,709
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Topic Model Survey (wsdm2012)

  1. 1. トピックモデル勉強会 WSDM2012 @y_benjo
  2. 2. 論文一覧• Auralist: Introducing Serendipity into Music Recommendation• ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness• Mining Contrastive Opinions on Political Texts using Cross- Perspective Topic Model• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking• Scalable Inference in Latent Variable Models
  3. 3. 論文一覧• Auralist: Introducing Serendipity into Music 推薦の話 Recommendation• ETF: Extended Tensor Factorization Model for Personalizing レビューの話 Prediction of Review Helpfulness• Mining Contrastive Opinions on Political Texts using Cross- 意見の話 Perspective Topic Model• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking ランキングの話• Scalable Inference in Latent Variable Models スケーラブルの話
  4. 4. Auralist: Introducing Serendipity into Music Recommendation Yuan Cao Zhang, Diarmuid Séaghdha, Daniele Quercia and Tamas Jambor (Multimedia and Geo Mining)
  5. 5. Auralist• 背景 • 音楽を推薦したい• 解くべき課題: 精度だけじゃいかん • diversity: 幅広く推薦したい • novelty: 知らなかったものを推薦したい • serendipity: 意外なものを推薦したい
  6. 6. Auralist• 方針: • accuracy/diversity/novelty/serendipityを考慮した推薦 を実現• オリジナリティ: • Artist-userにLDAを使ってp(user¦z)から類似度を測る • Artist-LDA + Listener Diversity(serendipity) • トピックの情報量でDiversityを測る • Artist-LDA + Declustering • もう既に退屈しているであろうアーティストを除外する
  7. 7. Auralist• 評価 • データ: Last.fm dataset • 実験1: 既存指標 • 実験2: ユーザ調査 • 「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」• 感想 • タイトルがかっこいい • 手法は超絶アレなグラフィカルモデルが書いてあるわけで はない
  8. 8. ETF: Extended Tensor FactorizationModel for Personalizing Prediction of Review HelpfulnessSamaneh Moghaddam, Mohsen Jamali and Martin Ester (Spotlight on Mining)
  9. 9. ETF• 背景 • レビューが増えすぎている• 解くべき課題 • クオリティが高く有用なレビューを抽出したい • 読む人によってレビューの有用度は異なる
  10. 10. ETF• 方針 • reviewer,review,rater(読む人),productを潜在変数と して考える • 文章/ソーシャルの要素を考えなくて済む• オリジナリティ • MF: rater review で行列分解 • TF: rater reviewer productをテンソル分解 • ETF: TF + レビュアーの全商品に対する得点 • BETF: ETF + バイアス
  11. 11. ETF• 評価 • データ: Epinions • 指標: RMSE • テキストを使ったものより改善 • レビュー数5未満のユーザに対してRMSEが倍近く改善• 感想 • 読んでわかったけどトピックモデルじゃない • グラフィカルモデルに釣られた • テンソル分解とか楽しそうで紹介した
  12. 12. Mining Contrastive Opinions on Political Texts using the Cross- perspective Topic ModelYi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu (Spotlight on Mining)
  13. 13. Mining Contrastive Opinions• 背景 • 異なる観点ごとにまとめ,その違いを定量化したい• 想定例 • 入力: 新聞社ごとの文章や,政党ごとのマニフェスト • 出力: それぞれの政策や法案,事件について新聞社や政党ご との意見
  14. 14. Mining Contrastive Opinions• 方針・オリジナリティ • Cross-Perspective Topic(CPT) modelの提案 • Jensen-Shannon divergenceで違いを定量化 トピック共通 オピニオン固有 オピニオン固有 fig1の簡単なイメージ図 同じトピックから異なるオピニオンワードが生成される
  15. 15. Mining Contrastive Opinions• 評価 • Perplexity,P@N,nDCG,MMR(関連度) • 質的分析 • トピックごとにそれっぽいか • 意見の異なりはそれっぽいか• 感想 • 完全なunsupervisedかと思って途中まで読んでいた • <document, opinion word, word> が入力形式 • ダライラマに関して新華社とNYTで意見がかなり違うとい うのに笑った
  16. 16. Pairwise Cross-Domain FactorModel for Heterogeneous Transfer Ranking Bo Long, Yi Chang, Anlei Dong and Jianzhang He (Spotlight on Mining)
  17. 17. Pairwise Cross-Domain• 背景 • ランキング学習で二つのジャンルのデータを使いたい• 解くべき課題 • transfer learning + learning to rankをどう解くか? • targetとsourceで共通して持つ/持たない特徴量がある場 合にどう解くか
  18. 18. Pairwise Cross-Domain• 方針・オリジナリティ • 共通する次元は「同じパラメータ」を持つ分布から • 異なる次元は異なるパラメータを持つ分布からS固有次元 ST共通次元 ST共通次元 T固有次元 スコアS スコアT 選好順序 fig1のイメージ
  19. 19. Pairwise Cross-Domain• 評価 • データ • ソース => 普通の英語圏の検索 • ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非 英語圏のQAサイトの検索 • 指標: DCG• 感想 • グラフィカルモデルが曼荼羅かと思ったが意味は分かった
  20. 20. Scalable Inference in Latent Variable ModelsAmr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan Narayanamurthy and Alex Smola (Spotlight on Mining)
  21. 21. Scalable Latent Variable• 背景 • 潜在変数が入ったモデルマジ大事• 解くべき課題 • 大規模,ストリーミングデータへの適用が困難 • 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
  22. 22. Scalable Latent Variable• 方針 • Webスケールのストリーミングデータに対してスケーラブ ルかつ並列に解く • Collapsed Gibbs Sampling• オリジナリティ • グローバルなデータを各machineにコピーする • コピーできないぐらい大きい時はmemcachedに入れる • スケジューリングも頑張る
  23. 23. Scalable Latent Variable• 評価 • 対数尤度,計算時間• 感想 • トピックモデルの話というより並列処理の話 • 前提知識足りなくてピンとこなかった • 早くてすごいと思った(小学生並みの感想)

×