Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sexi勉強会0630

1,123 views

Published on

  • Be the first to comment

Sexi勉強会0630

  1. 1. Connecting Comments and Tags: Improved Modeling of Social Tagging Systems Yoshifumi Seki Gunosy Inc. / University of Tokyo @SEXI2013 読み会 / 2013.06.30
  2. 2. 紹介する論文 • Connecting Comments and Tags: Improved Modeling of Social Tagging Systems (WSDM 2013) – Dawei Yin, Brian D. Davison • Lehigh Univesity – ShengboGuo, Boris Chidlovskii, Cedric Archambeau, Guillaume Bouchard • Xerox Research Center Europe • Social Tagging Systemのモデル化に関する研究 • データ構造の提案が多分メイン – 変数がいっぱいでてきて辛い
  3. 3. Abstract • ウェブに於いてタグ付けという行為は広く行われており, コンテンツに付けられるタグを予測したり,ユーザがつ けようとするであろうタグを推薦することはユーザ体験 を高める – これまでの研究ではユーザの過去のタグ付け情報のみが扱われ ており,他の行動は無視されてきた • Social Tagging Systemにおけるタグ付け予測モデルの改 善を行う – 高次のインタラクションの結合 – スパース性 – cold start • Flickr, Bibsonomyのデータセットにおいて過去の提案手 法より良い結果を示した
  4. 4. Introduction • タグ付けは多くのウェブサービスにおいて,コンテンツを管 理するための手法として用いられている. – 大規模なサービスにおいてはウェブ全体のサイズと比較するとごく 一部にしかタグが付けられていない • これまでの手法はユーザの過去のタグ付け履歴しか参照して いない – コンテンツへのコメント – ユーザ同士のフレンド情報 • ベイズ的手法を元にしたgeneralized latent factor modelを提 案しSocial Tagging Systemをより良くモデル化した • コメントとタグを同じモデルに組み込み結果を向上させるこ とに成功した • 実際のデータセットにおける実験で,ベイジアン的なモデル が確率的モデルより優れていること,また既存手法より提案 手法がすくぐれていることを明らかにした.
  5. 5. Preliminary Experiments • user, item, tag, comment, contentというentityとそれらを 結ぶrelationが存在する. • cliqueではなくentity-relation間のbipartite graphを考える
  6. 6. Dataset • Flicker – user : 2,866 – 60,399 tags – 32,752 comment – 46,733 items • Bibsonomy – ECML PKDD 09
  7. 7. Dataset
  8. 8. Dataset • Cold Start – Graphベースのシステムを考えた時,新しいアイテムにタグ付けを することは非常に難しい • Data Sparsity – SNSデータはスパース性が高い • MoviewLens – 1,000,000 rating for 6,000 user and 4,000 moviews – density 4.17% • Flicker – 373,125 recods user-tag-item – density 4.6170 * 10^-8
  9. 9. Multi-Relational Data Model • データ構造
  10. 10. • multi dimentional dot – 2次元だと内積になる
  11. 11. Bayesian Treatment • データのスパース性が高いとMAP推定よりもベイズ推定 がよいとされている – Overfitting
  12. 12. Inference – hyper parameter
  13. 13. Inference – model parameter
  14. 14. Experiment • Method – PRA ( Probabilistic Relational Analysis ) • 提案手法, MAP推定 – BPRA ( Bayesian Probabilistic Relational Analysis ) • 提案手法,Bayes – PMF ( Probabilistic Matrix Factorization ) • 行列因子分解を用いた協調フィルタリング – BPMF ( Bayesian Probabilistic Matrix Factorization ) – TF ( Rendle’s Tensor Factorization) • graph-base – BPTF (Bayesian Probabilistic Tensor Factorization ) • 高次のデータを考慮した協調フィルタリング • Evaluation – 平均二乗誤差
  15. 15. Flicker Experiment • 2010.04.01で訓練データとテストデータを分離 – use-item-tag • training 2,613,388 • test 205,880 – user-item-comment • training 1,366,068 • test 341,043 • 全部正例なので,50個のtagをランダムに選択し、負例 として生成する.
  16. 16. Result • BPRA, PRAとの比較で全てにおいてBPRAのほうが優れ ていた – HyperParameterの収束もよい. • itemはcold startの問題があるのでPMF, BPMFは計算不 可能 • commentではTFが一番悪い -> high-orderではないので
  17. 17. どのContextを用いるか • 関係性を減らすと精度は下がっていく
  18. 18. Bibsonomy
  19. 19. Conclusion • Social Tagging Systemのモデリングにおいてcommentな どの情報を結合して,有効な結果を示した. • 今回扱ったような高次のデータ構造は最近の研究として は注目されている分野であり,そこにベイズ的な扱いを 加えることで精度が向上することを示した. • 今後の拡張 – 時間因子をモデルに組み込む – 収束速度の差の解決 • core tensor • 各エンティティの次元を共通化できるようになる – 収束の高速化 • ギブスサンプリングから最急降下法に変える
  20. 20. 感想 • しっかりとコールドスタート問題に取り組んでいる珍し い論文 – 多くの論文では情報が少ないという状況からはじめるが,情報 のないコンテンツにたいしても取り組んでいる. • データ構造勝負な感じ – Social Tagging系はこういう論文が多いイメージ – 変数が多くて読むのが大変 – モデル的には特別なことはしてない感じ • でも知識がなくて辛かった – いろいろ使いどころはありそう

×