Your SlideShare is downloading. ×
Topic Model Survey (wsdm2012)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Topic Model Survey (wsdm2012)

2,642
views

Published on

topic model survey in WSDM2012 …

topic model survey in WSDM2012
http://d.hatena.ne.jp/repose/

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
2,642
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. トピックモデル勉強会 WSDM2012 @y_benjo
  • 2. 論文一覧• Auralist: Introducing Serendipity into Music Recommendation• ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness• Mining Contrastive Opinions on Political Texts using Cross- Perspective Topic Model• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking• Scalable Inference in Latent Variable Models
  • 3. 論文一覧• Auralist: Introducing Serendipity into Music 推薦の話 Recommendation• ETF: Extended Tensor Factorization Model for Personalizing レビューの話 Prediction of Review Helpfulness• Mining Contrastive Opinions on Political Texts using Cross- 意見の話 Perspective Topic Model• Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking ランキングの話• Scalable Inference in Latent Variable Models スケーラブルの話
  • 4. Auralist: Introducing Serendipity into Music Recommendation Yuan Cao Zhang, Diarmuid Séaghdha, Daniele Quercia and Tamas Jambor (Multimedia and Geo Mining)
  • 5. Auralist• 背景 • 音楽を推薦したい• 解くべき課題: 精度だけじゃいかん • diversity: 幅広く推薦したい • novelty: 知らなかったものを推薦したい • serendipity: 意外なものを推薦したい
  • 6. Auralist• 方針: • accuracy/diversity/novelty/serendipityを考慮した推薦 を実現• オリジナリティ: • Artist-userにLDAを使ってp(user¦z)から類似度を測る • Artist-LDA + Listener Diversity(serendipity) • トピックの情報量でDiversityを測る • Artist-LDA + Declustering • もう既に退屈しているであろうアーティストを除外する
  • 7. Auralist• 評価 • データ: Last.fm dataset • 実験1: 既存指標 • 実験2: ユーザ調査 • 「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」• 感想 • タイトルがかっこいい • 手法は超絶アレなグラフィカルモデルが書いてあるわけで はない
  • 8. ETF: Extended Tensor FactorizationModel for Personalizing Prediction of Review HelpfulnessSamaneh Moghaddam, Mohsen Jamali and Martin Ester (Spotlight on Mining)
  • 9. ETF• 背景 • レビューが増えすぎている• 解くべき課題 • クオリティが高く有用なレビューを抽出したい • 読む人によってレビューの有用度は異なる
  • 10. ETF• 方針 • reviewer,review,rater(読む人),productを潜在変数と して考える • 文章/ソーシャルの要素を考えなくて済む• オリジナリティ • MF: rater review で行列分解 • TF: rater reviewer productをテンソル分解 • ETF: TF + レビュアーの全商品に対する得点 • BETF: ETF + バイアス
  • 11. ETF• 評価 • データ: Epinions • 指標: RMSE • テキストを使ったものより改善 • レビュー数5未満のユーザに対してRMSEが倍近く改善• 感想 • 読んでわかったけどトピックモデルじゃない • グラフィカルモデルに釣られた • テンソル分解とか楽しそうで紹介した
  • 12. Mining Contrastive Opinions on Political Texts using the Cross- perspective Topic ModelYi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu (Spotlight on Mining)
  • 13. Mining Contrastive Opinions• 背景 • 異なる観点ごとにまとめ,その違いを定量化したい• 想定例 • 入力: 新聞社ごとの文章や,政党ごとのマニフェスト • 出力: それぞれの政策や法案,事件について新聞社や政党ご との意見
  • 14. Mining Contrastive Opinions• 方針・オリジナリティ • Cross-Perspective Topic(CPT) modelの提案 • Jensen-Shannon divergenceで違いを定量化 トピック共通 オピニオン固有 オピニオン固有 fig1の簡単なイメージ図 同じトピックから異なるオピニオンワードが生成される
  • 15. Mining Contrastive Opinions• 評価 • Perplexity,P@N,nDCG,MMR(関連度) • 質的分析 • トピックごとにそれっぽいか • 意見の異なりはそれっぽいか• 感想 • 完全なunsupervisedかと思って途中まで読んでいた • <document, opinion word, word> が入力形式 • ダライラマに関して新華社とNYTで意見がかなり違うとい うのに笑った
  • 16. Pairwise Cross-Domain FactorModel for Heterogeneous Transfer Ranking Bo Long, Yi Chang, Anlei Dong and Jianzhang He (Spotlight on Mining)
  • 17. Pairwise Cross-Domain• 背景 • ランキング学習で二つのジャンルのデータを使いたい• 解くべき課題 • transfer learning + learning to rankをどう解くか? • targetとsourceで共通して持つ/持たない特徴量がある場 合にどう解くか
  • 18. Pairwise Cross-Domain• 方針・オリジナリティ • 共通する次元は「同じパラメータ」を持つ分布から • 異なる次元は異なるパラメータを持つ分布からS固有次元 ST共通次元 ST共通次元 T固有次元 スコアS スコアT 選好順序 fig1のイメージ
  • 19. Pairwise Cross-Domain• 評価 • データ • ソース => 普通の英語圏の検索 • ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非 英語圏のQAサイトの検索 • 指標: DCG• 感想 • グラフィカルモデルが曼荼羅かと思ったが意味は分かった
  • 20. Scalable Inference in Latent Variable ModelsAmr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan Narayanamurthy and Alex Smola (Spotlight on Mining)
  • 21. Scalable Latent Variable• 背景 • 潜在変数が入ったモデルマジ大事• 解くべき課題 • 大規模,ストリーミングデータへの適用が困難 • 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
  • 22. Scalable Latent Variable• 方針 • Webスケールのストリーミングデータに対してスケーラブ ルかつ並列に解く • Collapsed Gibbs Sampling• オリジナリティ • グローバルなデータを各machineにコピーする • コピーできないぐらい大きい時はmemcachedに入れる • スケジューリングも頑張る
  • 23. Scalable Latent Variable• 評価 • 対数尤度,計算時間• 感想 • トピックモデルの話というより並列処理の話 • 前提知識足りなくてピンとこなかった • 早くてすごいと思った(小学生並みの感想)