Www13 slide

851 views

Published on

  • Be the first to comment

  • Be the first to like this

Www13 slide

  1. 1. Whom to Mention: Expand the Diffusion of Tweets by @ Recommendation on Micro-blogging Systems WWW13読み会 What Is the Added Value of Negative Links in Online Social Networks? @_a_k_5
  2. 2. はじめに • 中の人は論文の輪読とかそういうものをやったこ とがありません • 論文の読み込みが足りない、スライドの質が低い などの感想を随時受け付けています
  3. 3. Whom to Mention: Expand the Diffusion of Tweets by@ Recommendation on Micro-blogging Systems
  4. 4. 概要 • 推薦システム「Whom to Mention」の提案 • ユーザの興味関心マッチングと内容依存のユーザ関係、ユ ーザの影響力を利用 • twitter上での情報拡散支援 • 適任な人にmentionしてその人がrtしたらよさそう • ランキング問題として定式化 • 情報検索のチャレンジングな問題
  5. 5. mentionツイート • ツイート内に@userを付与 • mentionが推薦に使えそうな理由 • 基本的にはユーザ間のスレッド • mention先が自分の友人でなかった場合、その人がrtした ら新たなコミュニティに情報が拡散 • mention先が自分の友人だった場合、その人に多くの 友人がいると普通のタイムラインではツイートを見逃す 可能性大(mentionなら別枠で通知) Mention RT
  6. 6. 使用特徴量 1.ユーザの関心度合いによるマッチング • 拡散したいツイートに対する候補者の関心は重要 2.ネットワーク上でのユーザ間の関係モデリング • ネットワーク上でのユーザ間の関係は重要 3.ユーザの影響力モデリング • ネットワーク上でのユーザの影響力は情報拡散に おいて重要
  7. 7. • 候補者の直近1000ツイートから特徴量抽出 • 以下のスコアを定義 • ツイートは名詞と辞書内のワードだけ残してbowに 関心度合いマッチング • ツイート集合、ハッシュタグ、bioを利用 },,,{ uuuuu tagfhdr  文書,ハッシュタグ,Bio,?? }{ UrR u  文書に対する重み 文書に対する重み (短い文書ほど高いスコア) タグ等に出てくる 方が重要 ほぼ同じ?
  8. 8. ユーザ関係モデリング • リツイート数とリツイート内容を利用 • 以下のスコアを定義 • 2ユーザ間のリツイートしたツイート集合:rt_u,v • rt_u,v not equal rt_v,uであることに注意 || ,vurt • リツイート数の強さとリツイート内容を混合させる
  9. 9. • 4指標の集合:s_u • 平均coverageって? ユーザの影響力モデリング • フォロワー数 • 平均rt数 • 平均reply数 • 平均coverage数 • rtが伝わった範囲みたいな感じ Mention RT coverage • ノードvのツイートに対するcoverage
  10. 10. • SVR(support vector regression) • 学習データセット ランキング関数 • 回帰アルゴリズムの一つ A. Smola and B. Sch ̈lkopf. A tutorial on support vector regression. • 従属変数にはcoverageを利用する • ユーザuのクエリ(ツイート)に対する候補者vの特徴ベクトル ),( yqrely 
  11. 11. • 中国版twitter データセット • 5,000ユーザの48,000ツイート取得 • 5rt以上のツイートに絞る(7,800ツイート、計13万rt) • rtに絡んだ5万ユーザから特徴量抽出 • 実験は5-fold cross validation
  12. 12. • 4つの評価分類 実験設定 • 本手法の有効性 • 特徴量の有用性 • ランキング関数の比較 • 推薦人数の制約と推薦者の重複対策 • 評価指標 • precision:推薦人数に対する正解率 • avg_precision cut-off K:平均precision • rt:リツイートされた数 • coverage:rtを受け取った範囲 • avg_coverage:上の値にarctan()したもの
  13. 13. • 4つの比較手法(ランダム含めると5つ) 本手法の有効性 • cr:ユーザ情報とツイートを使ったランキング • ccfr:過去のツイートから最も類似したものを選ぶ • br:近傍ユーザを選ぶ • infr:影響力の強いユーザを選ぶ
  14. 14. • 有用な特徴量は… 特徴量と関数比較 • dbdt:決定木 • lr:線形回帰 • svr • 関数間での比較 • ネットワーク的なユーザ間の関係は重要
  15. 15. • 推薦人数と評価指標 制約と重複問題 • 推薦者の重複 • 推薦しすぎるとスパムだと思われかねない • 同じ人に集中するとRTしてもらえない • 少ない人数でも一番いい結果 • 比較手法の方が平坦(Overlapしてない) • 論文中では提案手法の方が平坦と言って ると思われるしよくわからん… • 推薦された回数のプロット • 精度とOverlapはトレードオフなような
  16. 16. • mentionユーザ推薦システムの提案 まとめ • 3つのジャンルから特徴量構築 • SVRを用いたユーザのランキング • 評価 • 提案手法の有効性を確認 • ユーザ間の関係性が評価に大きな影響を与えている
  17. 17. • 面白いところ(?) 所感 • 推薦としてmentionというシステム内の機能を使うところ • 実装の可能性がありそう • 評価が徹底している • 私、気になります!なところ • 候補者の選定 • 現実ではうまく枝刈りしないと厳しい感 • ユーザが本当に嬉しいかどうか • 何回もmentionされるユーザは正直迷惑… • オーバーラップについては今後の課題でもあるっぽい
  18. 18. What Is the Added Value of Negative Links in Online Social Networks?
  19. 19. 概要 • ネットワーク上のネガティブリンクの付加価値 • 2つのソーシャルネットワークを利用して比較 • ネガティブリンクの予測をポジティブリンクだけで高い 精度で予測できることを示す • ネガティブリンク予測の一般的な方法論について考える • 中心性と近接性を組み合わせたモデルが有効である • 機械学習を利用したリンク予測 ネガティブリンクの付加価値は小さいものの、ある程度の 付加価値はあることを示す
  20. 20. ネガティブリンクとは •ソーシャルネットワークでの例 ユーザによるニュース配信サイト レビューサイト •ポジティブリンク…リンク先のユーザの情報が優先されるetc •ネガティブリンク…ユーザの情報をブロックetc Positive Negative •Signedネットワーク ポジネガの混合ネットワーク ネットワークにラベル付け ユーザi,jのエッジ
  21. 21. ネットワークデータ •Slashdot…ユーザによるニュース配信 •Epinion…製品レビューサイト ポジ…ニュースリストの上位に来るようになる ネガ…ニュースリストの下位に来るようになる ポジ…その人のレビューが見やすくなる ネガ…その人のレビューが見えなくなる
  22. 22. 優先選択とバランス理論 •優先選択性 •バランス理論 友達が多い人ほど新たな友達できやすい ノードの次数やPageRankによって反映 友達の友達は友達になりやすい 共通の友人の数、コサイン類似度 •一般的なリンク予測(生成)モデルで使われる ノードjの出次数 混合比 ノードjの次数 i,jの共通 隣接ノード数
  23. 23. 分析 •各リンクのPR値とcosine ポジリンクを3:1分割 ||3|| ba pp  各エッジもサンプリング |||||| ONpb  •分析結果 ポジリンク:高PRかつ高cosine ネガリンク:高PRかつ低cosine Noリンク:低PRかつ低cosine(0)
  24. 24. リンク予測に使う特徴量 •近接性ベースの関数(任意のユーザi,j) 前述のページランク値 •中心性ベースの関数 ユーザi,jの掛け合わせ 2 パス、3パスで到達できるノード集合 隣接ノード集合のJaccard,Adamic-Adar数 グラフカーネル(指数、ニューマン) 割愛
  25. 25. 予測式 •計10個のFeatureを用意 •評価に用いる関数 •ロジスティック回帰を使用(最小二乗法近似)
  26. 26. 評価手法 •AUC(Area Unser Curve) •ROC(Repair Operating Characteristic) •予測関数 f この値を使って予測関数の精度を測る この値でソートして、TrueとFalseの関係をプロット 区切る位置を変えてプロット 右のようなものができる ROCの下側の面積(AUC>0.5ならおk) http://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html 0.5でランダムと同等
  27. 27. 実験設定 ONpa | •ポジリンクだけを用いた各種予測性能 ba pNp | OpNp ba | OpNp bba | •ネガリンクを利用した予測性能 •実験1 •実験2 OpNNp bbaa | ネガを加えたときの予測性能の変化
  28. 28. 実験1結果 •AUCの分析結果 •全てでAUC>0.5となるのはPR-COSのみ
  29. 29. ROC曲線 •PR-cosが一番よい 特にネガに対して良好な結果 OpNp ba | •こんなのがよさそう
  30. 30. 実験2結果 •ネガリンク付与との比較 OpNp bba | OpNNp bbaa | 結果はよくなるが高々0.05程度 ポジリンクだけでなんとかなる
  31. 31. まとめ ポジリンクの特徴だけで高い精度でネガリンクの予測ができる • ネットワーク上のネガティブリンクの付加価値 ネガリンクの特徴量入れてもそこまで改善しない • ネガリンクは不要なの? NO! 個人の組織化ツールとして利用されている(誰が敵か思い出せる) 他人に誰を非難しているか知らせることができる 不信という特徴は信頼と同じく中心的な機能 Slashdot Epinions
  32. 32. • 面白いところ(?) 所感 • ネガなしでネガ予測できる • シンプルな特徴で良好な結果が出る • 私、気になります!なところ • 特徴量がほとんど同じようなものの集合 • 文中にもあるが、ほとんどの特徴量が相関係数1に近い • 比較手法がもっといろいろありそうな予感 • 個人的には、ネガリンクの役割が余りないような感じがして少し 悲しかった

×