Successfully reported this slideshow.
Your SlideShare is downloading. ×

Cikm読み会

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Www13 slide
Www13 slide
Loading in …3
×

Check these out next

1 of 26 Ad
Advertisement

More Related Content

Similar to Cikm読み会 (20)

Advertisement

Cikm読み会

  1. 1. CIKM2013読み会 Predicting User Activity Level in Social Networks Unsupervised Social Network Spam Detection @_A_K_5
  2. 2. Predicting User Activity Level in Social Networks
  3. 3. 概要 • ソーシャルメディア上でのユーザのアクティビティ を予測(2値分類問題) • ソーシャルメディアの特性(ユーザの多様性・情報 伝播・ダイナミクス)を考慮した予測モデルを提案 • 提案モデルが一般的な教師ありモデルと比較して優 れたパフォーマンスであることを示す
  4. 4. 定義と問題の整理 • 時刻tの時のユーザiの特徴量と予測関数f(・)をもち いて、時刻t+1のアクティビティy_i^(t+1)を予測
  5. 5. ベースとなる予測モデル • ロジスティック回帰 • 以下の式を最小化する重みベクトルw_0を求める これだけではSocialCRMの特性が考慮できていない
  6. 6. パーソナライズ化 • ユーザ数分だけ重みベクトルを追加 • パーソナライズ調整項(第3項) • γが小さくなればなるほどパーソナライズが強化 される一方で過学習が起きる
  7. 7. ダイナミックモデリング 時間遅れパラメータの追加 e^{-αx} • • 何がかわるのか T-t • 直近の情報程重要で、時間の経過につれて情報の重要度 が下がるようにする • パラメータαで指数分布の調整
  8. 8. ソーシャル正則化 • ソーシャルメディア上では仲の良い友人のアクティ ビティに自分のアクティビティも依存している! • アクティビティレベルが親友に似るように正則化項 を追加 • パラメータβで調整
  9. 9. SocTiPerLR Model • 各種パラメータの最適化 • ベクトルw_{0..N}は確率的勾配降下法で求める • α・β・γは解析的に求まらないので手動で決定
  10. 10. データセットと特徴量 • データ:RENREN(中国版Facebook) • • • サブネットワーク抽出(約25kユーザ) ユーザの25週間分のアクションログ 特徴量 • 行動的な特徴 Ex.投稿数、写真投稿等約30個 • 時間的な特徴 Ex.アクティブな日の数、週の平均アクティブ日7個 • ソーシャル的な特徴 Ex.友人の数、ある週のアクティブな友人数等3個
  11. 11. 実験設定 • • 20週間のデータを学習し、21-25週を予測 • パラメータは各週で固定 active->inactiveをうまく予測できたかで評価
  12. 12. 他手法との比較 • 代表的な分類モデルとの比較 • • ランダムフォレスト • • 通常のロジステック回帰 ノード分類アルゴリズム(KDD2009) 提案手法のどの特性が効いているか評価 • Personalizeしか考慮しないもの • Personalize+ダイナミクス
  13. 13. その他の分類手法との比較 • 提案手法は良好な結果 • 比較手法より頑健な結果でもある
  14. 14. 各種特性の比較 • 提案手法が良好な結果 • 各特性がそれぞれよく効いている
  15. 15. Unsupervised Social Network Spam Detection
  16. 16. 概要 • ソーシャルネットワーク上のスパムアカウントを抽 出したい • 抽出アプローチとして、教師ありの手法は高精度で 検出可能であることが示されているが、学習コスト の面を考慮すると教師なしでの抽出が望ましい • UNIKという、ユーザグラフとソーシャルグラフを 組み合わせた手法を提案する
  17. 17. データ概要と特性 • • • 2009年のあるソーシャルブログサイトのデータ ユーザ数:176000 10ヶ月分の投稿内容(200万のURL付き投稿) 投稿頻度は高い ユーザ数は少ない
  18. 18. 既存手法の課題 AutoRE(email spam detection model) • • • • • • 投稿数のバースト数があるしきい値を越えたらスパ ムと判定 しきい値の設定に依存し、誤判定が多い FBCluster 同じURLや投稿内容の類似関係をグラフ化し、コミュニ ティとして抽出する スパマーの検出精度は高いが、スパマーでない人を誤判定 する Spammerの知識向上(バースト抑制・正常URLの混在)
  19. 19. 提案手法1:SD2 • SD2(FBClusterの応用) • 問題は、グラフ作成時にスパマーとスパマーでな い人の間にリンクが出来てしまったこと • ソーシャルグラフとユーザリンクグラフ(URLの シェア関係グラフ)を併合したグラフを用いる XXX.com frendship △△.com XXX.com XXX.com
  20. 20. SD2の流れ • グラフからリンク数が3以下のノードを除去 • 任意のノードをスタートとし、ある指標を最 小化するように近傍ノードを選択してランキ ングする コミュニティの 結合強度を利用 • 指標はなだらかに減少するが、どこかで指標が振 動し始めるので、そこをグラフのカット地点とする • カット地点より下位にランキングされたユーザが スパマー
  21. 21. SD2の課題とUNIK SD2は非常に高精度な検出が可能 • 弱点:Sybil attackに弱い →単一のスパマーが複数アカウントにまたがってスパムを発 信すること • SD2を改良したUNIKを提案 • ソーシャルグラフとユーザリンクグラフを分離して処理 →複数アカウントになっても、同一URLの投稿によりユーザ リンクグラフで密につながる •
  22. 22. UNIKの流れ • ソーシャルグラフからスパマーでない人を抽出 • それらのユーザが使用するURL->ホワイトリスト化 • ユーザリンクグラフからホワイトリストのURLリンクをカット • 残ったグラフの次数の大きいユーザがスパマー!!
  23. 23. 評価(ホワイトリスト生成) • URLをどこまで合ってれば同一のものとして扱うか? • フルパス・ドメイン・ホスト… 単体の精度としてはDomain Hostが非常に良い Host+1path(Hostが同一なら その一つ下の層が違くてもOK) も良好
  24. 24. 他手法との比較 • 既存手法と比べて非常に高性能 • 単純な評価ではSD2がやや勝っているが、頑 健性ではUNIKが上回る(でも評価してない)
  25. 25. 頑健性評価 Sybil attackの影響 • ノードの10,20%をランダムにス パマーに変更 • Host+1pathが頑健な性能 • • legit url(スパムでないURL混ぜる) • 20%を,50%をスパムでないURLに 変更 • Hostのほうがややいい性能だが、 どちらも頑健な性能
  26. 26. スパムクラスタの特徴 • 平均投稿間隔 • • スパムらしいクラスタ(ピ ンク)に対して、他はスパム らしくない動きに見える アクティブな日数 • スパムらしいクラスタ(ピ ンク)に対して、他は普通の 人間っぽい 賢いスパマーもうまく 抽出できていそう

×