トピックモデル勉強会
  WSDM2012

   @y_benjo
論文一覧

•   Auralist: Introducing Serendipity into Music
    Recommendation

•   ETF: Extended Tensor Factorization Model for Personalizing
    Prediction of Review Helpfulness

•   Mining Contrastive Opinions on Political Texts using Cross-
    Perspective Topic Model

•   Pairwise Cross-Domain Factor Model for Heterogeneous
    Transfer Ranking

•   Scalable Inference in Latent Variable Models
論文一覧

•   Auralist: Introducing Serendipity into Music
                           推薦の話
    Recommendation

•   ETF: Extended Tensor Factorization Model for Personalizing
                        レビューの話
    Prediction of Review Helpfulness

•   Mining Contrastive Opinions on Political Texts using Cross-
                         意見の話
    Perspective Topic Model

•   Pairwise Cross-Domain Factor Model for Heterogeneous
    Transfer Ranking ランキングの話

•   Scalable Inference in Latent Variable Models
                     スケーラブルの話
Auralist: Introducing Serendipity
  into Music Recommendation

     Yuan Cao Zhang, Diarmuid Séaghdha,
      Daniele Quercia and Tamas Jambor
         (Multimedia and Geo Mining)
Auralist


• 背景
 • 音楽を推薦したい
• 解くべき課題: 精度だけじゃいかん
 • diversity: 幅広く推薦したい
 • novelty: 知らなかったものを推薦したい
 • serendipity: 意外なものを推薦したい
Auralist

• 方針:
 • accuracy/diversity/novelty/serendipityを考慮した推薦
   を実現

• オリジナリティ:
 • Artist-userにLDAを使ってp(user¦z)から類似度を測る
 • Artist-LDA + Listener Diversity(serendipity)
  •   トピックの情報量でDiversityを測る

 • Artist-LDA + Declustering
  •   もう既に退屈しているであろうアーティストを除外する
Auralist

• 評価
 • データ: Last.fm dataset
 • 実験1: 既存指標
 • 実験2: ユーザ調査
  •   「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」

• 感想
 • タイトルがかっこいい
 • 手法は超絶アレなグラフィカルモデルが書いてあるわけで
   はない
ETF: Extended Tensor Factorization
Model for Personalizing Prediction
      of Review Helpfulness
Samaneh Moghaddam, Mohsen Jamali and Martin Ester
             (Spotlight on Mining)
ETF


• 背景
 • レビューが増えすぎている
• 解くべき課題
 • クオリティが高く有用なレビューを抽出したい
 • 読む人によってレビューの有用度は異なる
ETF

• 方針
 • reviewer,review,rater(読む人),productを潜在変数と
   して考える
  •   文章/ソーシャルの要素を考えなくて済む

• オリジナリティ
 • MF: rater review で行列分解
 • TF: rater reviewer productをテンソル分解
 • ETF: TF + レビュアーの全商品に対する得点
 • BETF: ETF + バイアス
ETF

• 評価
 • データ: Epinions
 • 指標: RMSE
  •   テキストを使ったものより改善

  •   レビュー数5未満のユーザに対してRMSEが倍近く改善

• 感想
 • 読んでわかったけどトピックモデルじゃない
  •   グラフィカルモデルに釣られた

 • テンソル分解とか楽しそうで紹介した
Mining Contrastive Opinions on
   Political Texts using the Cross-
      perspective Topic Model
Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu
                   (Spotlight on Mining)
Mining Contrastive Opinions



• 背景
 • 異なる観点ごとにまとめ,その違いを定量化したい
• 想定例
 • 入力: 新聞社ごとの文章や,政党ごとのマニフェスト
 • 出力: それぞれの政策や法案,事件について新聞社や政党ご
  との意見
Mining Contrastive Opinions
• 方針・オリジナリティ
 • Cross-Perspective Topic(CPT) modelの提案
 • Jensen-Shannon divergenceで違いを定量化
                   トピック共通




          オピニオン固有          オピニオン固有

           fig1の簡単なイメージ図
    同じトピックから異なるオピニオンワードが生成される
Mining Contrastive Opinions

• 評価
 • Perplexity,P@N,nDCG,MMR(関連度)
 • 質的分析
  •   トピックごとにそれっぽいか

  •   意見の異なりはそれっぽいか

• 感想
 • 完全なunsupervisedかと思って途中まで読んでいた
  •   <document, opinion word, word> が入力形式

 • ダライラマに関して新華社とNYTで意見がかなり違うとい
  うのに笑った
Pairwise Cross-Domain Factor
Model for Heterogeneous Transfer
             Ranking
  Bo Long, Yi Chang, Anlei Dong and Jianzhang He
               (Spotlight on Mining)
Pairwise Cross-Domain



• 背景
 • ランキング学習で二つのジャンルのデータを使いたい
• 解くべき課題
 • transfer learning + learning to rankをどう解くか?
 • targetとsourceで共通して持つ/持たない特徴量がある場
   合にどう解くか
Pairwise Cross-Domain
• 方針・オリジナリティ
 • 共通する次元は「同じパラメータ」を持つ分布から
 • 異なる次元は異なるパラメータを持つ分布から
S固有次元     ST共通次元          ST共通次元   T固有次元


        スコアS                   スコアT


                   選好順序

               fig1のイメージ
Pairwise Cross-Domain


• 評価
 • データ
  •   ソース => 普通の英語圏の検索

  •   ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非
      英語圏のQAサイトの検索

 • 指標: DCG
• 感想
 • グラフィカルモデルが曼荼羅かと思ったが意味は分かった
Scalable Inference in Latent
        Variable Models

Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan
        Narayanamurthy and Alex Smola
             (Spotlight on Mining)
Scalable Latent Variable




• 背景
 • 潜在変数が入ったモデルマジ大事
• 解くべき課題
 • 大規模,ストリーミングデータへの適用が困難
  •   理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
Scalable Latent Variable


• 方針
 • Webスケールのストリーミングデータに対してスケーラブ
   ルかつ並列に解く

 • Collapsed Gibbs Sampling
• オリジナリティ
 • グローバルなデータを各machineにコピーする
 • コピーできないぐらい大きい時はmemcachedに入れる
 • スケジューリングも頑張る
Scalable Latent Variable



• 評価
 • 対数尤度,計算時間
• 感想
 • トピックモデルの話というより並列処理の話
 • 前提知識足りなくてピンとこなかった
 • 早くてすごいと思った(小学生並みの感想)

Topic Model Survey (wsdm2012)

  • 1.
  • 2.
    論文一覧 • Auralist: Introducing Serendipity into Music Recommendation • ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness • Mining Contrastive Opinions on Political Texts using Cross- Perspective Topic Model • Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking • Scalable Inference in Latent Variable Models
  • 3.
    論文一覧 • Auralist: Introducing Serendipity into Music 推薦の話 Recommendation • ETF: Extended Tensor Factorization Model for Personalizing レビューの話 Prediction of Review Helpfulness • Mining Contrastive Opinions on Political Texts using Cross- 意見の話 Perspective Topic Model • Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking ランキングの話 • Scalable Inference in Latent Variable Models スケーラブルの話
  • 4.
    Auralist: Introducing Serendipity into Music Recommendation Yuan Cao Zhang, Diarmuid Séaghdha, Daniele Quercia and Tamas Jambor (Multimedia and Geo Mining)
  • 5.
    Auralist • 背景 •音楽を推薦したい • 解くべき課題: 精度だけじゃいかん • diversity: 幅広く推薦したい • novelty: 知らなかったものを推薦したい • serendipity: 意外なものを推薦したい
  • 6.
    Auralist • 方針: •accuracy/diversity/novelty/serendipityを考慮した推薦 を実現 • オリジナリティ: • Artist-userにLDAを使ってp(user¦z)から類似度を測る • Artist-LDA + Listener Diversity(serendipity) • トピックの情報量でDiversityを測る • Artist-LDA + Declustering • もう既に退屈しているであろうアーティストを除外する
  • 7.
    Auralist • 評価 •データ: Last.fm dataset • 実験1: 既存指標 • 実験2: ユーザ調査 • 「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」 • 感想 • タイトルがかっこいい • 手法は超絶アレなグラフィカルモデルが書いてあるわけで はない
  • 8.
    ETF: Extended TensorFactorization Model for Personalizing Prediction of Review Helpfulness Samaneh Moghaddam, Mohsen Jamali and Martin Ester (Spotlight on Mining)
  • 9.
    ETF • 背景 •レビューが増えすぎている • 解くべき課題 • クオリティが高く有用なレビューを抽出したい • 読む人によってレビューの有用度は異なる
  • 10.
    ETF • 方針 •reviewer,review,rater(読む人),productを潜在変数と して考える • 文章/ソーシャルの要素を考えなくて済む • オリジナリティ • MF: rater review で行列分解 • TF: rater reviewer productをテンソル分解 • ETF: TF + レビュアーの全商品に対する得点 • BETF: ETF + バイアス
  • 11.
    ETF • 評価 •データ: Epinions • 指標: RMSE • テキストを使ったものより改善 • レビュー数5未満のユーザに対してRMSEが倍近く改善 • 感想 • 読んでわかったけどトピックモデルじゃない • グラフィカルモデルに釣られた • テンソル分解とか楽しそうで紹介した
  • 12.
    Mining Contrastive Opinionson Political Texts using the Cross- perspective Topic Model Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu (Spotlight on Mining)
  • 13.
    Mining Contrastive Opinions •背景 • 異なる観点ごとにまとめ,その違いを定量化したい • 想定例 • 入力: 新聞社ごとの文章や,政党ごとのマニフェスト • 出力: それぞれの政策や法案,事件について新聞社や政党ご との意見
  • 14.
    Mining Contrastive Opinions •方針・オリジナリティ • Cross-Perspective Topic(CPT) modelの提案 • Jensen-Shannon divergenceで違いを定量化 トピック共通 オピニオン固有 オピニオン固有 fig1の簡単なイメージ図 同じトピックから異なるオピニオンワードが生成される
  • 15.
    Mining Contrastive Opinions •評価 • Perplexity,P@N,nDCG,MMR(関連度) • 質的分析 • トピックごとにそれっぽいか • 意見の異なりはそれっぽいか • 感想 • 完全なunsupervisedかと思って途中まで読んでいた • <document, opinion word, word> が入力形式 • ダライラマに関して新華社とNYTで意見がかなり違うとい うのに笑った
  • 16.
    Pairwise Cross-Domain Factor Modelfor Heterogeneous Transfer Ranking Bo Long, Yi Chang, Anlei Dong and Jianzhang He (Spotlight on Mining)
  • 17.
    Pairwise Cross-Domain • 背景 • ランキング学習で二つのジャンルのデータを使いたい • 解くべき課題 • transfer learning + learning to rankをどう解くか? • targetとsourceで共通して持つ/持たない特徴量がある場 合にどう解くか
  • 18.
    Pairwise Cross-Domain • 方針・オリジナリティ • 共通する次元は「同じパラメータ」を持つ分布から • 異なる次元は異なるパラメータを持つ分布から S固有次元 ST共通次元 ST共通次元 T固有次元 スコアS スコアT 選好順序 fig1のイメージ
  • 19.
    Pairwise Cross-Domain • 評価 • データ • ソース => 普通の英語圏の検索 • ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非 英語圏のQAサイトの検索 • 指標: DCG • 感想 • グラフィカルモデルが曼荼羅かと思ったが意味は分かった
  • 20.
    Scalable Inference inLatent Variable Models Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan Narayanamurthy and Alex Smola (Spotlight on Mining)
  • 21.
    Scalable Latent Variable •背景 • 潜在変数が入ったモデルマジ大事 • 解くべき課題 • 大規模,ストリーミングデータへの適用が困難 • 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
  • 22.
    Scalable Latent Variable •方針 • Webスケールのストリーミングデータに対してスケーラブ ルかつ並列に解く • Collapsed Gibbs Sampling • オリジナリティ • グローバルなデータを各machineにコピーする • コピーできないぐらい大きい時はmemcachedに入れる • スケジューリングも頑張る
  • 23.
    Scalable Latent Variable •評価 • 対数尤度,計算時間 • 感想 • トピックモデルの話というより並列処理の話 • 前提知識足りなくてピンとこなかった • 早くてすごいと思った(小学生並みの感想)