Twitter User Recommendation

TwitterでのUser Recommendation
@TokyoWebmining#23

2012.10.27 @americiumian

本日の概要
 自己紹介・発表の目的 (1 slide)
 なぜTwitterユーザ推薦？ (3 slides)
 Twitterユーザ推薦方式の紹介 (20 slides)
 どのように評価するか？ (5 slides)
 まとめ (1 slide)

 付録・参考文献

2

自己紹介・発表の目的
 @americiumian
 チーズケーキとかまぼこの
ある大学の情報系院生
 学部時代はネットワーク
トラヒック制御の研究
 現在はTwitterを対象とした
レコメンデーションの研究
発表目的
 Twitterユーザ推薦の概要をつかんで頂く
 目的・アイデア・手法の概要・結果に絞って説明します
 詳細は各論文へ

3

4 なぜTwitterユーザ推薦？
 Twitterとは
 Twitterから情報を得るには
 ユーザ推薦の何がうれしいか

Twitterとは
 Twitter
 SNSの一種
 リアルタイムで情報の収集・発信・共有・コミュニケー
ションを行うマイクロブログサービス

 特徴
 1 tweetは140字以内
 登録ユーザ数は5億人以上 (2012年7月) [2]
 1日のtweet数は3億4000万以上 (2012年3月) [1]
 情報インフラとしての役割
[1] http://jp.techcrunch.com/archives/20120321six-year-old-twitter-now-has-140m-active-users-sending-340m-tweets-per-day/
[2] http://jp.techcrunch.com/archives/20120730analyst-twitter-passed-500m-users-in-june-2012-140m-of-them-in-us- 5
jakarta-biggest-tweeting-city/

Twitterから情報を得るには
 follow
 他ユーザのtweetを見ることができるようにすること
 -er : 自分をfollowしているユーザ
follow
 -ee : 自分がfollowしているユーザ
 friendとも
A B

 Search
 クエリを含む最新tweetを検索
 最新1500件 or 最新1週間分に限る
 ノイズも多い
6

よいユーザが推薦できると何がうれしいか

 Twitterでしか得られない情報を効率的に得られる
 キーワードで探すとノイズが多い＋API制限
 followすると今後もその話題についての情報が得られる

 影響力のあるユーザが分かれば宣伝してもらえる
 ソエンド
 qrustスコア(影響力スコア)の高いユーザ
に対し，宣伝ツイートをしたらクーポン発行
 Klout
 Kloutスコア(影響力スコア)が高いユーザ
に対し，空港のラウンジ無料招待

7

8 Twitterユーザ推薦法の紹介
 よいユーザとは？
 目的別ユーザ推薦法

よいユーザとは？
 例えば

vs

 一概には決められない
 有名人を推薦すべき？
 同じ会社の人を推薦すべき？
 自分と似た傾向のつぶやきをする人を推薦すべき？
どのようなユーザを推薦したいか
決める必要がある 9

ではどんな研究があるのか？
 総合的に影響力の高いユーザを推薦
 TwitterRank
 自分と似たユーザを推薦
 属性伝播に着目した推薦
 ある話題について影響力の高いユーザを推薦
 TURKEYS
 実際の友達を推定して推薦
 Flap

10

 TwitterRank
 TURKEYS
 Flap

11

TwitterRank
 目的
 総合的に影響力の高いユーザを推薦する

 手法のアイデア
 ユーザは同じトピックを共有するユーザをフォローしやすい
 どのトピックをつぶやきやすいか調べる
 各トピックで影響力の高い人を見つける
 リンク解析手法を適用する
 総合して，影響力の高い人を見つける
 重み付き和を求める

12

手法概要

1. Tweetを収集 2. LDAを用いて 3. 各ユーザ，どのトピックの
トピックを抽出発言が多いか調べる

𝑟 𝑡 𝑃𝑅 𝑡

4. 3の解析を元に 5. 各トピックについて 6. トピック頻度で
JSダイバージェンスでフォロー関係グラフを構成する重み付けして
ユーザ間の類似度を測る重みは類似度とtweet数を考慮スコアリング 13
PageRankでスコアリングする

結論
 実験結果
 影響力のある人物を抽出できた(定性的評価)
 以下の手法に比べ，良い結果を出した
 フォロワー数
 フォロワーグラフにおけるPageRank
 トピックの頻度を考慮しないTwitterRank

 課題
 “follow”の理由を推測して分類する必要がある
 (tweet数が多いほどよいユーザとは限らない)
 (botに弱い)

14

 TwitterRank
 TURKEYS
 Flap

15

属性伝播に着目した推薦
 目的
 同じ興味，所属のユーザを推薦する
 *この論文では，同じ所属のクラスタを発見するにとどまる

 ユーザは同じ属性を持つユーザをフォローすることが多い
 ある大学の人は同じ大学の人をフォローしやすい
 ある属性を持った多くの人にフォローされていれば，
その人も同じ属性を持っているのでは？
 属性が伝播している

 同じ属性を持つユーザで，フォローしていない人を推薦
16

手法概要

属性の伝播とは
ある属性を持つユーザn人以上に
followされている時，属性が伝搬
している，と判断する

1. ターゲットユーザがfollowしている
ユーザセット(第一世代)を得る

2. 第一世代がn人以上followしている
ユーザセット(第二世代)を得る

3. 2を繰り返すことで第m世代までの
ユーザセットを得る
17

結論
 実験
 あるユーザにfolloweeを属性別で分類してもらう
 そのユーザセットを元に，属性伝播の基準(n)や世代数
(m)を変えてグラフを構成
 実際に属性が伝搬しているかどうかターゲットユーザに
判断してもらう
 同じ属性のコミュニティを発見することができた
 課題
 botや有名人アカウントに影響されやすい
 属性の規模に応じて，nやmを決める必要がある

18

 TwitterRank
 TURKEYS
 Flap

19

TURKEYSで用いる Twitterの機能
 retweet (RT)
 あるユーザのtweetを、本文を変えることなく、
引用者情報を付加して再投稿すること(情報の共有)

 reply (@...)
 他のユーザとの会話や言及
 会話のchainを辿れる

20

Twitter User Rank using KEYword Search

 目的
 ある話題について影響力のあるユーザを推薦する

 ある話題に関して，価値のあるRTやreplyをしている
ユーザは，followする価値がある

 グラフを構成し，影響力のあるユーザを推薦する
 リンク解析手法

21

手法概要

クエリクエリを含むtweet tweet/Retweet, replyしたユーザ
+それに対するreply

User Influence Score(UI)
1. tweetがユーザに与える影響力を表す，
Tweet Count Score(TC) (Re)tweet 関係を加味した隣接行列を作る
1. あるユーザのtweetが
2. ユーザがtweetに与える影響力を表す
含まれる割合を計算
retweet,reply関係を加味した隣接行列を作る
3. HITSに似た手法を用いてスコアリング

𝑇𝑈𝑅𝐾𝐸𝑌𝑆 𝑈 = 𝑇𝐶(𝑈) 𝑤 × 𝑈𝐼(𝑈)1−𝑤
22

結論
 実験結果
 以下の手法よりもよい結果
 tweet数
 follow関係
 ユーザ同士の関係のみを考慮したTURKEYS

 課題
 とてもポピュラーなキーワードには弱い
 論文中では“福島”
 tweetのテキストを考慮する必要がある

23

 TwitterRank
 TURKEYS
 Flap

24

Friendship and location analysis and prediction

 目的
 実際の友達関係を推定
 ユーザの位置推定

 同じような語彙を使う人は友達の可能性が高い
 近くに長い間いる人は友達の可能性が高い
 tweetの位置情報を用いる

25

手法

1. tweetの語彙類似度 2. tweetの位置情報 3. どの程度followeeが
を用いてユーザ間のを用いて，同じ場所にかぶっているかを計算
類似度を計算いた度合いを計算

𝑇(𝑢, 𝑣) 𝐶(𝑢, 𝑣) 𝑀 𝐸 (𝑢, 𝑣)

決定木を用いて学習 26

結論
 実験方法
 tweetから”@***”は除いて実験した
 フォロー関係の一部を隠して，推測
 実験結果
 50％のエッジを隠しても上手く動いた
 全てのエッジを隠してもある程度動いた
 課題
 友達関係推測と位置推測の組み合わせ
 (位置情報付きtweetが多くないと使えない)

27

手法のまとめ

TwitterRank 属性伝播法 TURKEYS Flap
目的とするユーザ総合的影響力同属性のユーザある話題で影響実際の友達
のあるユーザ力のあるユーザ
ユーザからの入力なしフォロー関係クエリ tweet情報
フォロー関係
対cold-start性 ◯ × ◯ ×
注意すべきこと tweet数，フォフォロー先が同属一般語への対処位置情報付
ローの信頼性性とは限らないツイートの量

28

29 どうやって評価する？
 ユーザの評価は難しい
 個々のユーザを評価
 主観評価
 ユーザによる評価

 ランキング全体を評価
 DCG

ユーザ推薦の評価は難しい
 follower数が多いとよい？
 たくさんfollowして，フォロー返しを待てば，
follower数は増やせる
 Webページの被リンク数とは異なる

 tweet数が多いとよい？
 情報の発信量は多いが，ノイズが混じる可能性も高い

30

個々のユーザの評価 – 主観評価
 概要
 推薦されたユーザのtweetを実際に見て評価する

 利点
 手法のどこが悪いか発見しやすい
 手軽に評価できる

 欠点
 元となるユーザ/クエリに依存しやすい
 自分の手法にバイアスがかかる(?)
31

個々のユーザの評価 - ユーザ評価

 評価方法
 推薦ユーザを見せ，質問にn段階で答えてもらい，評価
 ”フォローしたいか”
 ”目的に沿ったユーザか” etc...
 同様の対抗手法がある場合，同じ条件で推薦を行い，
手法名を隠してユーザに見せ，同様の質問で評価

 利点
 手法の優位性を示しやすい
 欠点
 手間がかかる

32

ランキング全体の評価
 DCG(Discounted Cumulative Gain)
 0. システムはランク付けされたユーザリストを出力
 1. 何らかの指標を用いて全ユーザに関連度Rを付与
 2. 以下の計算式で，𝑝位までの結果に対するDCGを計算
𝑝 𝑅𝑖
𝐷𝐶𝐺 𝑝 = 𝑅1 + 𝑅 𝑖 : 𝑖位のユーザの関連度
𝑖=2 𝑙𝑜𝑔2 𝑖

 nDCG(Normalized Discounted Cumulative Gain)
 DCGを，理想的な順位(スコアの降順の時の順位)の時の
DCG(IDCG)で正規化したもの
𝐷𝐶𝐺𝑝
nDCG =
𝐼𝐷𝐶𝐺𝑝
33

DCGの具体的な計算例
理想 A B C D E
関連度 3 3 2 2 1 関連度3 : すごく関係ある
関連度2 : 少し関係ある
3 2 1 1 関連度1 : 不適切
𝐼𝐷𝐶𝐺 = 3 + + + + = 8.193
𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5

手法1
D B C E A
関連度 2 3 2 1 3
3 2 1 3 正規化
𝐷𝐶𝐺5 = 2 + + + + = 8.054 𝑛𝐷𝐶𝐺 = 0.983
𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5

手法2
A E B D C
関連度 3 1 3 2 2
1 3 2 2 正規化
𝐷𝐶𝐺5 = 3 + + + + = 7.754 𝑛𝐷𝐶𝐺 = 0.946
𝑙𝑜𝑔2 2 𝑙𝑜𝑔2 3 𝑙𝑜𝑔2 4 𝑙𝑜𝑔2 5 34

まとめ
 なぜTwitterユーザ推薦？
 興味のある情報が得られる
 商品の宣伝にも

 何を目的とするか，が大事
 目的に応じてアルゴリズムは異なる

 評価は難しい
 個々の評価
 ランキング全体の評価
35

付録1. Twitter研究の主なトピックまとめ
 ユーザ推薦
 評判分析
 実世界の動向(株価・売上)の予測
 ユーザの属性推定
 トピック同定
 トレンド分析
 自動要約
 情報の信頼性評価
 Social sensorとしての利用
 緊急時のコミュニケーション手段としての利用
 Tweet用のテキスト処理ツールの開発
36

付録2. Twitterアカウントの増やし方

 １． gmailアカウントを作る
 example@gmail.com

 2. example+(任意)@gmail.comで登録
 未登録のアドレスとして扱われる
 全てexample@gmail.comで管理可能

37

今回紹介した論文
 Weng, J.; Lim, E.-P.; Jiang, J.; and He, Q. 2010.
TwitterRank:Finding Topic-Sensitive Influential
Twitterers. In ACM WSDM.

 康大樹, 島田諭, 関洋平, 佐藤哲司. 属性伝播モデルを用
いたマイクロブログのフォロー先推薦法. DEIM Forum
2011,No. A1-3, 2011.

38

今回紹介した論文
 Tomoya Noro, Fei Ru, Feng Xiao, Takehiro Tokuda
Twitter User Rank Using Keyword Search. 22nd
European Japanese Conference on Information
Modelling and Knowledge Bases, pp.48-65. 2012 Jun
 実際の友達を推定して推薦(+ユーザの位置推定)
 Sadilek, A.: Kautz, H.; and Bigham, J. P. 2012.
Finding your friends and following them to where
you are. In Proc. of the fifth ACM int’l conference on
Web search and data mining.
 slide : http://www.slideshare.net/nokuno/finding-your-
friends-and-following-them-to-where-you-are-
wsdm2012

39

手法の参考文献
 LDA
 [Blei+2003] Latent Dirichlet allocation, JMLR
 latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」
 LDA入門

 JSダイバージェンス
 Jensen-Shannonダイバージェンス - 機械学習の「朱鷺の杜
Wiki」

 PageRank, HITS
 Google PageRankの数理 ―最強検索エンジンのランキング
手法を求めて―
 Googleページランクの数理1【アイマス教養講座】 40

その他参考文献
 ユーザ推薦以外のTwitter研究
 マイクロブログマイニングの現在

 他のランキングの評価手法
 Web Data Mining
 http://www.cs.uic.edu/~liub/WebMiningBook.html

41

Twitter User Recommendation

More Related Content

Similar to Twitter User Recommendation

Twitter User Recommendation