SlideShare a Scribd company logo
1 of 21
Connecting Comments and Tags:
Improved Modeling of Social Tagging Systems
Yoshifumi Seki
Gunosy Inc. / University of Tokyo
@SEXI2013 読み会 / 2013.06.30
紹介する論文
• Connecting Comments and Tags: Improved Modeling of
Social Tagging Systems (WSDM 2013)
– Dawei Yin, Brian D. Davison
• Lehigh Univesity
– ShengboGuo, Boris Chidlovskii, Cedric Archambeau, Guillaume
Bouchard
• Xerox Research Center Europe
• Social Tagging Systemのモデル化に関する研究
• データ構造の提案が多分メイン
– 変数がいっぱいでてきて辛い
Abstract
• ウェブに於いてタグ付けという行為は広く行われており,
コンテンツに付けられるタグを予測したり,ユーザがつ
けようとするであろうタグを推薦することはユーザ体験
を高める
– これまでの研究ではユーザの過去のタグ付け情報のみが扱われ
ており,他の行動は無視されてきた
• Social Tagging Systemにおけるタグ付け予測モデルの改
善を行う
– 高次のインタラクションの結合
– スパース性
– cold start
• Flickr, Bibsonomyのデータセットにおいて過去の提案手
法より良い結果を示した
Introduction
• タグ付けは多くのウェブサービスにおいて,コンテンツを管
理するための手法として用いられている.
– 大規模なサービスにおいてはウェブ全体のサイズと比較するとごく
一部にしかタグが付けられていない
• これまでの手法はユーザの過去のタグ付け履歴しか参照して
いない
– コンテンツへのコメント
– ユーザ同士のフレンド情報
• ベイズ的手法を元にしたgeneralized latent factor modelを提
案しSocial Tagging Systemをより良くモデル化した
• コメントとタグを同じモデルに組み込み結果を向上させるこ
とに成功した
• 実際のデータセットにおける実験で,ベイジアン的なモデル
が確率的モデルより優れていること,また既存手法より提案
手法がすくぐれていることを明らかにした.
Preliminary Experiments
• user, item, tag, comment, contentというentityとそれらを
結ぶrelationが存在する.
• cliqueではなくentity-relation間のbipartite graphを考える
Dataset
• Flicker
– user : 2,866
– 60,399 tags
– 32,752 comment
– 46,733 items
• Bibsonomy
– ECML PKDD 09
Dataset
Dataset
• Cold Start
– Graphベースのシステムを考えた時,新しいアイテムにタグ付けを
することは非常に難しい
• Data Sparsity
– SNSデータはスパース性が高い
• MoviewLens
– 1,000,000 rating for 6,000 user and 4,000 moviews
– density 4.17%
• Flicker
– 373,125 recods user-tag-item
– density 4.6170 * 10^-8
Multi-Relational Data Model
• データ構造
• multi dimentional dot
– 2次元だと内積になる
Bayesian Treatment
• データのスパース性が高いとMAP推定よりもベイズ推定
がよいとされている
– Overfitting
Inference – hyper parameter
Inference – model parameter
Experiment
• Method
– PRA ( Probabilistic Relational Analysis )
• 提案手法, MAP推定
– BPRA ( Bayesian Probabilistic Relational Analysis )
• 提案手法,Bayes
– PMF ( Probabilistic Matrix Factorization )
• 行列因子分解を用いた協調フィルタリング
– BPMF ( Bayesian Probabilistic Matrix Factorization )
– TF ( Rendle’s Tensor Factorization)
• graph-base
– BPTF (Bayesian Probabilistic Tensor Factorization )
• 高次のデータを考慮した協調フィルタリング
• Evaluation
– 平均二乗誤差
Flicker Experiment
• 2010.04.01で訓練データとテストデータを分離
– use-item-tag
• training 2,613,388
• test 205,880
– user-item-comment
• training 1,366,068
• test 341,043
• 全部正例なので,50個のtagをランダムに選択し、負例
として生成する.
Result
• BPRA, PRAとの比較で全てにおいてBPRAのほうが優れ
ていた
– HyperParameterの収束もよい.
• itemはcold startの問題があるのでPMF, BPMFは計算不
可能
• commentではTFが一番悪い -> high-orderではないので
どのContextを用いるか
• 関係性を減らすと精度は下がっていく
Bibsonomy
Conclusion
• Social Tagging Systemのモデリングにおいてcommentな
どの情報を結合して,有効な結果を示した.
• 今回扱ったような高次のデータ構造は最近の研究として
は注目されている分野であり,そこにベイズ的な扱いを
加えることで精度が向上することを示した.
• 今後の拡張
– 時間因子をモデルに組み込む
– 収束速度の差の解決
• core tensor
• 各エンティティの次元を共通化できるようになる
– 収束の高速化
• ギブスサンプリングから最急降下法に変える
感想
• しっかりとコールドスタート問題に取り組んでいる珍し
い論文
– 多くの論文では情報が少ないという状況からはじめるが,情報
のないコンテンツにたいしても取り組んでいる.
• データ構造勝負な感じ
– Social Tagging系はこういう論文が多いイメージ
– 変数が多くて読むのが大変
– モデル的には特別なことはしてない感じ
• でも知識がなくて辛かった
– いろいろ使いどころはありそう

More Related Content

Similar to Sexi勉強会0630

河野ゼミ紹介2013
河野ゼミ紹介2013河野ゼミ紹介2013
河野ゼミ紹介2013義広 河野
 
ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜
ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜
ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜Takafumi Nakanishi
 
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成yamahige
 
02 20170311presentation inoueeri
02 20170311presentation inoueeri02 20170311presentation inoueeri
02 20170311presentation inoueeriYumiko Hatanaka
 
Mini lecture on Learning Analytics
Mini lecture on Learning AnalyticsMini lecture on Learning Analytics
Mini lecture on Learning AnalyticsYasuhisa Tamura
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みShun Shiramatsu
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会LINE Corp.
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)Sho Nakamura
 
AIを取り巻く基準について
AIを取り巻く基準についてAIを取り巻く基準について
AIを取り巻く基準についてNoriyasu Higashino
 
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...joisino
 
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative FilteringDeep Learning JP
 
授業用Twitterクライアント・アーカイブシステムの開発とその評価
授業用Twitterクライアント・アーカイブシステムの開発とその評価授業用Twitterクライアント・アーカイブシステムの開発とその評価
授業用Twitterクライアント・アーカイブシステムの開発とその評価Shinya Mori (@mosuke5)
 
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender SystemDeep Learning JP
 
国内外におけるオープンエデュケーションの歩みと今後の課題
国内外におけるオープンエデュケーションの歩みと今後の課題国内外におけるオープンエデュケーションの歩みと今後の課題
国内外におけるオープンエデュケーションの歩みと今後の課題 Katsusuke Shigeta
 
教員免許状更新講習20150730
教員免許状更新講習20150730教員免許状更新講習20150730
教員免許状更新講習20150730義広 河野
 
河野ゼミ紹介2014
河野ゼミ紹介2014河野ゼミ紹介2014
河野ゼミ紹介2014義広 河野
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報Takayuki Itoh
 
マトリックス型テキスト編集モデルによる学習過程の可視化
マトリックス型テキスト編集モデルによる学習過程の可視化マトリックス型テキスト編集モデルによる学習過程の可視化
マトリックス型テキスト編集モデルによる学習過程の可視化yamahige
 

Similar to Sexi勉強会0630 (20)

河野ゼミ紹介2013
河野ゼミ紹介2013河野ゼミ紹介2013
河野ゼミ紹介2013
 
ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜
ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜
ビッグデータ・オープンデータ活用の現状〜ビッグデータ活用概要編〜
 
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
 
02 20170311presentation inoueeri
02 20170311presentation inoueeri02 20170311presentation inoueeri
02 20170311presentation inoueeri
 
Mini lecture on Learning Analytics
Mini lecture on Learning AnalyticsMini lecture on Learning Analytics
Mini lecture on Learning Analytics
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
AIを取り巻く基準について
AIを取り巻く基準についてAIを取り巻く基準について
AIを取り巻く基準について
 
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
 
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
 
20200117 pd legal_comm
20200117 pd legal_comm20200117 pd legal_comm
20200117 pd legal_comm
 
授業用Twitterクライアント・アーカイブシステムの開発とその評価
授業用Twitterクライアント・アーカイブシステムの開発とその評価授業用Twitterクライアント・アーカイブシステムの開発とその評価
授業用Twitterクライアント・アーカイブシステムの開発とその評価
 
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
 
国内外におけるオープンエデュケーションの歩みと今後の課題
国内外におけるオープンエデュケーションの歩みと今後の課題国内外におけるオープンエデュケーションの歩みと今後の課題
国内外におけるオープンエデュケーションの歩みと今後の課題
 
教員免許状更新講習20150730
教員免許状更新講習20150730教員免許状更新講習20150730
教員免許状更新講習20150730
 
河野ゼミ紹介2014
河野ゼミ紹介2014河野ゼミ紹介2014
河野ゼミ紹介2014
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
 
マトリックス型テキスト編集モデルによる学習過程の可視化
マトリックス型テキスト編集モデルによる学習過程の可視化マトリックス型テキスト編集モデルによる学習過程の可視化
マトリックス型テキスト編集モデルによる学習過程の可視化
 
Drupal con17
Drupal con17Drupal con17
Drupal con17
 

Sexi勉強会0630