Your SlideShare is downloading. ×
0
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Sexi勉強会0630
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Sexi勉強会0630

610

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
610
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Connecting Comments and Tags: Improved Modeling of Social Tagging Systems Yoshifumi Seki Gunosy Inc. / University of Tokyo @SEXI2013 読み会 / 2013.06.30
  • 2. 紹介する論文 • Connecting Comments and Tags: Improved Modeling of Social Tagging Systems (WSDM 2013) – Dawei Yin, Brian D. Davison • Lehigh Univesity – ShengboGuo, Boris Chidlovskii, Cedric Archambeau, Guillaume Bouchard • Xerox Research Center Europe • Social Tagging Systemのモデル化に関する研究 • データ構造の提案が多分メイン – 変数がいっぱいでてきて辛い
  • 3. Abstract • ウェブに於いてタグ付けという行為は広く行われており, コンテンツに付けられるタグを予測したり,ユーザがつ けようとするであろうタグを推薦することはユーザ体験 を高める – これまでの研究ではユーザの過去のタグ付け情報のみが扱われ ており,他の行動は無視されてきた • Social Tagging Systemにおけるタグ付け予測モデルの改 善を行う – 高次のインタラクションの結合 – スパース性 – cold start • Flickr, Bibsonomyのデータセットにおいて過去の提案手 法より良い結果を示した
  • 4. Introduction • タグ付けは多くのウェブサービスにおいて,コンテンツを管 理するための手法として用いられている. – 大規模なサービスにおいてはウェブ全体のサイズと比較するとごく 一部にしかタグが付けられていない • これまでの手法はユーザの過去のタグ付け履歴しか参照して いない – コンテンツへのコメント – ユーザ同士のフレンド情報 • ベイズ的手法を元にしたgeneralized latent factor modelを提 案しSocial Tagging Systemをより良くモデル化した • コメントとタグを同じモデルに組み込み結果を向上させるこ とに成功した • 実際のデータセットにおける実験で,ベイジアン的なモデル が確率的モデルより優れていること,また既存手法より提案 手法がすくぐれていることを明らかにした.
  • 5. Preliminary Experiments • user, item, tag, comment, contentというentityとそれらを 結ぶrelationが存在する. • cliqueではなくentity-relation間のbipartite graphを考える
  • 6. Dataset • Flicker – user : 2,866 – 60,399 tags – 32,752 comment – 46,733 items • Bibsonomy – ECML PKDD 09
  • 7. Dataset
  • 8. Dataset • Cold Start – Graphベースのシステムを考えた時,新しいアイテムにタグ付けを することは非常に難しい • Data Sparsity – SNSデータはスパース性が高い • MoviewLens – 1,000,000 rating for 6,000 user and 4,000 moviews – density 4.17% • Flicker – 373,125 recods user-tag-item – density 4.6170 * 10^-8
  • 9. Multi-Relational Data Model • データ構造
  • 10. • multi dimentional dot – 2次元だと内積になる
  • 11. Bayesian Treatment • データのスパース性が高いとMAP推定よりもベイズ推定 がよいとされている – Overfitting
  • 12. Inference – hyper parameter
  • 13. Inference – model parameter
  • 14. Experiment • Method – PRA ( Probabilistic Relational Analysis ) • 提案手法, MAP推定 – BPRA ( Bayesian Probabilistic Relational Analysis ) • 提案手法,Bayes – PMF ( Probabilistic Matrix Factorization ) • 行列因子分解を用いた協調フィルタリング – BPMF ( Bayesian Probabilistic Matrix Factorization ) – TF ( Rendle’s Tensor Factorization) • graph-base – BPTF (Bayesian Probabilistic Tensor Factorization ) • 高次のデータを考慮した協調フィルタリング • Evaluation – 平均二乗誤差
  • 15. Flicker Experiment • 2010.04.01で訓練データとテストデータを分離 – use-item-tag • training 2,613,388 • test 205,880 – user-item-comment • training 1,366,068 • test 341,043 • 全部正例なので,50個のtagをランダムに選択し、負例 として生成する.
  • 16. Result • BPRA, PRAとの比較で全てにおいてBPRAのほうが優れ ていた – HyperParameterの収束もよい. • itemはcold startの問題があるのでPMF, BPMFは計算不 可能 • commentではTFが一番悪い -> high-orderではないので
  • 17. どのContextを用いるか • 関係性を減らすと精度は下がっていく
  • 18. Bibsonomy
  • 19. Conclusion • Social Tagging Systemのモデリングにおいてcommentな どの情報を結合して,有効な結果を示した. • 今回扱ったような高次のデータ構造は最近の研究として は注目されている分野であり,そこにベイズ的な扱いを 加えることで精度が向上することを示した. • 今後の拡張 – 時間因子をモデルに組み込む – 収束速度の差の解決 • core tensor • 各エンティティの次元を共通化できるようになる – 収束の高速化 • ギブスサンプリングから最急降下法に変える
  • 20. 感想 • しっかりとコールドスタート問題に取り組んでいる珍し い論文 – 多くの論文では情報が少ないという状況からはじめるが,情報 のないコンテンツにたいしても取り組んでいる. • データ構造勝負な感じ – Social Tagging系はこういう論文が多いイメージ – 変数が多くて読むのが大変 – モデル的には特別なことはしてない感じ • でも知識がなくて辛かった – いろいろ使いどころはありそう

×