Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
TwitterでのUser Recommendation             @TokyoWebmining#232012.10.27            @americiumian
本日の概要   自己紹介・発表の目的 (1 slide)   なぜTwitterユーザ推薦? (3 slides)   Twitterユーザ推薦方式の紹介 (20 slides)   どのように評価するか? (5 slides)   ...
自己紹介・発表の目的   @americiumian       チーズケーキとかまぼこの        ある大学の情報系院生       学部時代はネットワーク        トラヒック制御の研究       現在はTwitterを対...
4   なぜTwitterユーザ推薦?       Twitterとは       Twitterから情報を得るには       ユーザ推薦の何がうれしいか
Twitterとは            Twitter                SNSの一種                リアルタイムで情報の収集・発信・共有・コミュニケー                 ションを行うマイクロブ...
Twitterから情報を得るには   follow       他ユーザのtweetを見ることができるようにすること       -er : 自分をfollowしているユーザ                               f...
よいユーザが推薦できると何がうれしいか   Twitterでしか得られない情報を効率的に得られる       キーワードで探すとノイズが多い+API制限       followすると今後もその話題についての情報が得られる   影響力の...
8   Twitterユーザ推薦法の紹介       よいユーザとは?       目的別ユーザ推薦法
よいユーザとは?   例えば                   vs   一概には決められない       有名人を推薦すべき?       同じ会社の人を推薦すべき?       自分と似た傾向のつぶやきをする人を推薦すべき?  ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
TwitterRank   目的       総合的に影響力の高いユーザを推薦する   手法のアイデア       ユーザは同じトピックを共有するユーザをフォローしやすい           どのトピックをつぶやきやすいか調べる   ...
手法概要 1. Tweetを収集       2. LDAを用いて     3. 各ユーザ,どのトピックの                      トピックを抽出        発言が多いか調べる                       ...
結論   実験結果       影響力のある人物を抽出できた(定性的評価)       以下の手法に比べ,良い結果を出した           フォロワー数           フォロワーグラフにおけるPageRank        ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
属性伝播に着目した推薦   目的       同じ興味,所属のユーザを推薦する       *この論文では,同じ所属のクラスタを発見するにとどまる   手法のアイデア       ユーザは同じ属性を持つユーザをフォローすることが多い ...
手法概要 属性の伝播とは ある属性を持つユーザn人以上に followされている時,属性が伝搬 している,と判断する1. ターゲットユーザがfollowしている   ユーザセット(第一世代)を得る2. 第一世代がn人以上followしている  ...
結論   実験       あるユーザにfolloweeを属性別で分類してもらう       そのユーザセットを元に,属性伝播の基準(n)や世代数        (m)を変えてグラフを構成       実際に属性が伝搬しているかどうかタ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
TURKEYSで用いる Twitterの機能   retweet (RT)       あるユーザのtweetを、本文を変えることなく、        引用者情報を付加して再投稿すること(情報の共有)   reply (@...)    ...
Twitter User Rank using KEYword Search   目的       ある話題について影響力のあるユーザを推薦する   手法のアイデア       ある話題に関して,価値のあるRTやreplyをしている  ...
手法概要      クエリ                クエリを含むtweet            tweet/Retweet, replyしたユーザ                        +それに対するreply         ...
結論   実験結果       以下の手法よりもよい結果           tweet数           follow関係           ユーザ同士の関係のみを考慮したTURKEYS   課題       とてもポピュ...
ではどんな研究があるのか?   総合的に影響力の高いユーザを推薦       TwitterRank   自分と似たユーザを推薦       属性伝播に着目した推薦   ある話題について影響力の高いユーザを推薦       TURK...
Friendship and location analysis and prediction   目的       実際の友達関係を推定       ユーザの位置推定   手法のアイデア       同じような語彙を使う人は友達の可...
手法1. tweetの語彙類似度   2. tweetの位置情報   3. どの程度followeeが   を用いてユーザ間の        を用いて,同じ場所に      かぶっているかを計算   類似度を計算           いた度合い...
結論   実験方法       tweetから”@***”は除いて実験した       フォロー関係の一部を隠して,推測   実験結果       50%のエッジを隠しても上手く動いた       全てのエッジを隠してもある程度動い...
手法のまとめ               TwitterRank   属性伝播法      TURKEYS   Flap目的とするユーザ       総合的影響力        同属性のユーザ    ある話題で影響   実際の友達       ...
29   どうやって評価する?        ユーザの評価は難しい        個々のユーザを評価            主観評価            ユーザによる評価        ランキング全体を評価            ...
ユーザ推薦の評価は難しい   follower数が多いとよい?       たくさんfollowして,フォロー返しを待てば,        follower数は増やせる       Webページの被リンク数とは異なる   tweet数が...
個々のユーザの評価 – 主観評価   概要       推薦されたユーザのtweetを実際に見て評価する   利点       手法のどこが悪いか発見しやすい       手軽に評価できる   欠点       元となる ユーザ/...
個々のユーザの評価 - ユーザ評価   評価方法       推薦ユーザを見せ,質問にn段階で答えてもらい,評価           ”フォローしたいか”           ”目的に沿ったユーザか” etc...       同様の...
ランキング全体の評価   DCG(Discounted Cumulative Gain)       0. システムはランク付けされたユーザリストを出力       1. 何らかの指標を用いて全ユーザに関連度Rを付与       2. ...
DCGの具体的な計算例理想         A       B      C     D      E 関連度       3       3      2     2      1                 関連度3 : すごく関係ある...
まとめ   なぜTwitterユーザ推薦?       興味のある情報が得られる       商品の宣伝にも   何を目的とするか,が大事       目的に応じてアルゴリズムは異なる   評価は難しい       個々の評価  ...
付録1. Twitter研究の主なトピックまとめ    ユーザ推薦    評判分析    実世界の動向(株価・売上)の予測    ユーザの属性推定    トピック同定    トレンド分析    自動要約    情報の信頼性評価 ...
付録2. Twitterアカウントの増やし方         1. gmailアカウントを作る             example@gmail.com         2. example+(任意)@gmail.comで登録     ...
今回紹介した論文   総合的に影響力の高いユーザを推薦       Weng, J.; Lim, E.-P.; Jiang, J.; and He, Q. 2010.        TwitterRank:Finding Topic-Sen...
今回紹介した論文   ある話題について影響力の高いユーザを推薦       Tomoya Noro, Fei Ru, Feng Xiao, Takehiro Tokuda        Twitter User Rank Using Key...
手法の参考文献   LDA       [Blei+2003] Latent Dirichlet allocation, JMLR       latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」  ...
その他参考文献   ユーザ推薦以外のTwitter研究       マイクロブログマイニングの現在   他のランキングの評価手法       Web Data Mining           http://www.cs.uic.ed...
Upcoming SlideShare
Loading in …5
×

Twitter User Recommendation

6,176 views

Published on

Published in: Technology
  • Dating for everyone is here: ❶❶❶ http://bit.ly/39mQKz3 ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Sex in your area is here: ❤❤❤ http://bit.ly/39mQKz3 ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Twitter User Recommendation

  1. 1. TwitterでのUser Recommendation @TokyoWebmining#232012.10.27 @americiumian
  2. 2. 本日の概要 自己紹介・発表の目的 (1 slide) なぜTwitterユーザ推薦? (3 slides) Twitterユーザ推薦方式の紹介 (20 slides) どのように評価するか? (5 slides) まとめ (1 slide) 付録・参考文献 2
  3. 3. 自己紹介・発表の目的 @americiumian  チーズケーキとかまぼこの ある大学の情報系院生  学部時代はネットワーク トラヒック制御の研究  現在はTwitterを対象とした レコメンデーションの研究発表目的 Twitterユーザ推薦の概要をつかんで頂く  目的・アイデア・手法の概要・結果に絞って説明します  詳細は各論文へ 3
  4. 4. 4 なぜTwitterユーザ推薦?  Twitterとは  Twitterから情報を得るには  ユーザ推薦の何がうれしいか
  5. 5. Twitterとは  Twitter  SNSの一種  リアルタイムで情報の収集・発信・共有・コミュニケー ションを行うマイクロブログサービス  特徴  1 tweetは140字以内  登録ユーザ数は5億人以上 (2012年7月) [2]  1日のtweet数は3億4000万以上 (2012年3月) [1]  情報インフラとしての役割[1] http://jp.techcrunch.com/archives/20120321six-year-old-twitter-now-has-140m-active-users-sending-340m-tweets-per-day/ [2] http://jp.techcrunch.com/archives/20120730analyst-twitter-passed-500m-users-in-june-2012-140m-of-them-in-us- 5 jakarta-biggest-tweeting-city/
  6. 6. Twitterから情報を得るには follow  他ユーザのtweetを見ることができるようにすること  -er : 自分をfollowしているユーザ follow  -ee : 自分がfollowしているユーザ  friendとも A B Search  クエリを含む最新tweetを検索  最新1500件 or 最新1週間分に限る  ノイズも多い 6
  7. 7. よいユーザが推薦できると何がうれしいか Twitterでしか得られない情報を効率的に得られる  キーワードで探すとノイズが多い+API制限  followすると今後もその話題についての情報が得られる 影響力のあるユーザが分かれば宣伝してもらえる  ソエンド  qrustスコア(影響力スコア)の高いユーザ に対し,宣伝ツイートをしたらクーポン発行  Klout  Kloutスコア(影響力スコア)が高いユーザ に対し,空港のラウンジ無料招待 7
  8. 8. 8 Twitterユーザ推薦法の紹介  よいユーザとは?  目的別ユーザ推薦法
  9. 9. よいユーザとは? 例えば vs 一概には決められない  有名人を推薦すべき?  同じ会社の人を推薦すべき?  自分と似た傾向のつぶやきをする人を推薦すべき? どのようなユーザを推薦したいか 決める必要がある 9
  10. 10. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 10
  11. 11. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 11
  12. 12. TwitterRank 目的  総合的に影響力の高いユーザを推薦する 手法のアイデア  ユーザは同じトピックを共有するユーザをフォローしやすい  どのトピックをつぶやきやすいか調べる  各トピックで影響力の高い人を見つける  リンク解析手法を適用する  総合して,影響力の高い人を見つける  重み付き和を求める 12
  13. 13. 手法概要 1. Tweetを収集 2. LDAを用いて 3. 各ユーザ,どのトピックの トピックを抽出 発言が多いか調べる 𝑟 𝑡 𝑃𝑅 𝑡4. 3の解析を元に 5. 各トピックについて 6. トピック頻度で JSダイバージェンスで フォロー関係グラフを構成する 重み付けして ユーザ間の類似度を測る 重みは類似度とtweet数を考慮 スコアリング 13 PageRankでスコアリングする
  14. 14. 結論 実験結果  影響力のある人物を抽出できた(定性的評価)  以下の手法に比べ,良い結果を出した  フォロワー数  フォロワーグラフにおけるPageRank  トピックの頻度を考慮しないTwitterRank 課題  “follow”の理由を推測して分類する必要がある  (tweet数が多いほどよいユーザとは限らない)  (botに弱い) 14
  15. 15. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 15
  16. 16. 属性伝播に着目した推薦 目的  同じ興味,所属のユーザを推薦する  *この論文では,同じ所属のクラスタを発見するにとどまる 手法のアイデア  ユーザは同じ属性を持つユーザをフォローすることが多い  ある大学の人は同じ大学の人をフォローしやすい  ある属性を持った多くの人にフォローされていれば, その人も同じ属性を持っているのでは?  属性が伝播している  同じ属性を持つユーザで,フォローしていない人を推薦 16
  17. 17. 手法概要 属性の伝播とは ある属性を持つユーザn人以上に followされている時,属性が伝搬 している,と判断する1. ターゲットユーザがfollowしている ユーザセット(第一世代)を得る2. 第一世代がn人以上followしている ユーザセット(第二世代)を得る3. 2を繰り返すことで第m世代までの ユーザセットを得る 17
  18. 18. 結論 実験  あるユーザにfolloweeを属性別で分類してもらう  そのユーザセットを元に,属性伝播の基準(n)や世代数 (m)を変えてグラフを構成  実際に属性が伝搬しているかどうかターゲットユーザに 判断してもらう  同じ属性のコミュニティを発見することができた 課題  botや有名人アカウントに影響されやすい  属性の規模に応じて,nやmを決める必要がある 18
  19. 19. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 19
  20. 20. TURKEYSで用いる Twitterの機能 retweet (RT)  あるユーザのtweetを、本文を変えることなく、 引用者情報を付加して再投稿すること(情報の共有) reply (@...)  他のユーザとの会話や言及  会話のchainを辿れる 20
  21. 21. Twitter User Rank using KEYword Search 目的  ある話題について影響力のあるユーザを推薦する 手法のアイデア  ある話題に関して,価値のあるRTやreplyをしている ユーザは,followする価値がある  グラフを構成し,影響力のあるユーザを推薦する  リンク解析手法 21
  22. 22. 手法概要 クエリ クエリを含むtweet tweet/Retweet, replyしたユーザ +それに対するreply User Influence Score(UI) 1. tweetがユーザに与える影響力を表す,Tweet Count Score(TC) (Re)tweet 関係を加味した隣接行列を作る1. あるユーザのtweetが 2. ユーザがtweetに与える影響力を表す 含まれる割合を計算 retweet,reply関係を加味した隣接行列を作る 3. HITSに似た手法を用いてスコアリング 𝑇𝑈𝑅𝐾𝐸𝑌𝑆 𝑈 = 𝑇𝐶(𝑈) 𝑤 × 𝑈𝐼(𝑈)1−𝑤 22
  23. 23. 結論 実験結果  以下の手法よりもよい結果  tweet数  follow関係  ユーザ同士の関係のみを考慮したTURKEYS 課題  とてもポピュラーなキーワードには弱い  論文中では“福島”  tweetのテキストを考慮する必要がある 23
  24. 24. ではどんな研究があるのか? 総合的に影響力の高いユーザを推薦  TwitterRank 自分と似たユーザを推薦  属性伝播に着目した推薦 ある話題について影響力の高いユーザを推薦  TURKEYS 実際の友達を推定して推薦  Flap 24
  25. 25. Friendship and location analysis and prediction 目的  実際の友達関係を推定  ユーザの位置推定 手法のアイデア  同じような語彙を使う人は友達の可能性が高い  近くに長い間いる人は友達の可能性が高い  tweetの位置情報を用いる 25
  26. 26. 手法1. tweetの語彙類似度 2. tweetの位置情報 3. どの程度followeeが を用いてユーザ間の を用いて,同じ場所に かぶっているかを計算 類似度を計算 いた度合いを計算 𝑇(𝑢, 𝑣) 𝐶(𝑢, 𝑣) 𝑀 𝐸 (𝑢, 𝑣) 決定木を用いて学習 26
  27. 27. 結論 実験方法  tweetから”@***”は除いて実験した  フォロー関係の一部を隠して,推測 実験結果  50%のエッジを隠しても上手く動いた  全てのエッジを隠してもある程度動いた 課題  友達関係推測と位置推測の組み合わせ  (位置情報付きtweetが多くないと使えない) 27
  28. 28. 手法のまとめ TwitterRank 属性伝播法 TURKEYS Flap目的とするユーザ 総合的影響力 同属性のユーザ ある話題で影響 実際の友達 のあるユーザ 力のあるユーザユーザからの入力 なし フォロー関係 クエリ tweet情報 フォロー関係対cold-start性 ◯ × ◯ ×注意すべきこと tweet数,フォ フォロー先が同属 一般語への対処 位置情報付 ローの信頼性 性とは限らない ツイートの量 28
  29. 29. 29 どうやって評価する?  ユーザの評価は難しい  個々のユーザを評価  主観評価  ユーザによる評価  ランキング全体を評価  DCG
  30. 30. ユーザ推薦の評価は難しい follower数が多いとよい?  たくさんfollowして,フォロー返しを待てば, follower数は増やせる  Webページの被リンク数とは異なる tweet数が多いとよい?  情報の発信量は多いが,ノイズが混じる可能性も高い 30
  31. 31. 個々のユーザの評価 – 主観評価 概要  推薦されたユーザのtweetを実際に見て評価する 利点  手法のどこが悪いか発見しやすい  手軽に評価できる 欠点  元となる ユーザ/クエリ に依存しやすい  自分の手法にバイアスがかかる(?) 31
  32. 32. 個々のユーザの評価 - ユーザ評価 評価方法  推薦ユーザを見せ,質問にn段階で答えてもらい,評価  ”フォローしたいか”  ”目的に沿ったユーザか” etc...  同様の対抗手法がある場合,同じ条件で推薦を行い, 手法名を隠してユーザに見せ,同様の質問で評価 利点  手法の優位性を示しやすい 欠点  手間がかかる 32
  33. 33. ランキング全体の評価 DCG(Discounted Cumulative Gain)  0. システムはランク付けされたユーザリストを出力  1. 何らかの指標を用いて全ユーザに関連度Rを付与  2. 以下の計算式で,𝑝位までの結果に対するDCGを計算 𝑝 𝑅𝑖 𝐷𝐶𝐺 𝑝 = 𝑅1 + 𝑅 𝑖 : 𝑖位のユーザの関連度 𝑖=2 𝑙𝑜𝑔2 𝑖 nDCG(Normalized Discounted Cumulative Gain)  DCGを,理想的な順位(スコアの降順の時の順位)の時の DCG(IDCG)で正規化したもの 𝐷𝐶𝐺𝑝 nDCG = 𝐼𝐷𝐶𝐺𝑝 33
  34. 34. DCGの具体的な計算例理想 A B C D E 関連度 3 3 2 2 1 関連度3 : すごく関係ある 関連度2 : 少し関係ある 3 2 1 1 関連度1 : 不適切 𝐼𝐷𝐶𝐺 = 3 + + + + = 8.193 𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5手法1 D B C E A 関連度 2 3 2 1 3 3 2 1 3 正規化 𝐷𝐶𝐺5 = 2 + + + + = 8.054 𝑛𝐷𝐶𝐺 = 0.983 𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5手法2 A E B D C 関連度 3 1 3 2 2 1 3 2 2 正規化 𝐷𝐶𝐺5 = 3 + + + + = 7.754 𝑛𝐷𝐶𝐺 = 0.946 𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5 34
  35. 35. まとめ なぜTwitterユーザ推薦?  興味のある情報が得られる  商品の宣伝にも 何を目的とするか,が大事  目的に応じてアルゴリズムは異なる 評価は難しい  個々の評価  ランキング全体の評価 35
  36. 36. 付録1. Twitter研究の主なトピックまとめ  ユーザ推薦  評判分析  実世界の動向(株価・売上)の予測  ユーザの属性推定  トピック同定  トレンド分析  自動要約  情報の信頼性評価  Social sensorとしての利用  緊急時のコミュニケーション手段としての利用  Tweet用のテキスト処理ツールの開発 36
  37. 37. 付録2. Twitterアカウントの増やし方  1. gmailアカウントを作る  example@gmail.com  2. example+(任意)@gmail.comで登録  未登録のアドレスとして扱われる  全てexample@gmail.comで管理可能 37
  38. 38. 今回紹介した論文 総合的に影響力の高いユーザを推薦  Weng, J.; Lim, E.-P.; Jiang, J.; and He, Q. 2010. TwitterRank:Finding Topic-Sensitive Influential Twitterers. In ACM WSDM. 自分と似たユーザを推薦  康大樹, 島田諭, 関洋平, 佐藤哲司. 属性伝播モデルを用 いたマイクロブログのフォロー先推薦法. DEIM Forum 2011,No. A1-3, 2011. 38
  39. 39. 今回紹介した論文 ある話題について影響力の高いユーザを推薦  Tomoya Noro, Fei Ru, Feng Xiao, Takehiro Tokuda Twitter User Rank Using Keyword Search. 22nd European Japanese Conference on Information Modelling and Knowledge Bases, pp.48-65. 2012 Jun 実際の友達を推定して推薦(+ユーザの位置推定)  Sadilek, A.: Kautz, H.; and Bigham, J. P. 2012. Finding your friends and following them to where you are. In Proc. of the fifth ACM int’l conference on Web search and data mining.  slide : http://www.slideshare.net/nokuno/finding-your- friends-and-following-them-to-where-you-are- wsdm2012 39
  40. 40. 手法の参考文献 LDA  [Blei+2003] Latent Dirichlet allocation, JMLR  latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」  LDA入門 JSダイバージェンス  Jensen-Shannonダイバージェンス - 機械学習の「朱鷺の杜 Wiki」 PageRank, HITS  Google PageRankの数理 ―最強検索エンジンのランキング 手法を求めて―  Googleページランクの数理1【アイマス教養講座】 40
  41. 41. その他参考文献 ユーザ推薦以外のTwitter研究  マイクロブログマイニングの現在 他のランキングの評価手法  Web Data Mining  http://www.cs.uic.edu/~liub/WebMiningBook.html 41

×