SlideShare a Scribd company logo
1 of 26
Download to read offline
CIKM2013読み会
Predicting User Activity Level in Social Networks
Unsupervised Social Network Spam Detection

@_A_K_5
Predicting User Activity Level
in Social Networks
概要
•

ソーシャルメディア上でのユーザのアクティビティ
を予測(2値分類問題)

•

ソーシャルメディアの特性(ユーザの多様性・情報
伝播・ダイナミクス)を考慮した予測モデルを提案

•

提案モデルが一般的な教師ありモデルと比較して優
れたパフォーマンスであることを示す
定義と問題の整理

•

時刻tの時のユーザiの特徴量と予測関数f(・)をもち
いて、時刻t+1のアクティビティy_i^(t+1)を予測
ベースとなる予測モデル
•

ロジスティック回帰

•

以下の式を最小化する重みベクトルw_0を求める

これだけではSocialCRMの特性が考慮できていない
パーソナライズ化
•

ユーザ数分だけ重みベクトルを追加

•

パーソナライズ調整項(第3項)
•

γが小さくなればなるほどパーソナライズが強化
される一方で過学習が起きる
ダイナミックモデリング
時間遅れパラメータの追加
e^{-αx}

•

•

何がかわるのか

T-t

•

直近の情報程重要で、時間の経過につれて情報の重要度
が下がるようにする

•

パラメータαで指数分布の調整
ソーシャル正則化
•

ソーシャルメディア上では仲の良い友人のアクティ
ビティに自分のアクティビティも依存している!

•

アクティビティレベルが親友に似るように正則化項
を追加
•

パラメータβで調整
SocTiPerLR Model

•

各種パラメータの最適化
•

ベクトルw_{0..N}は確率的勾配降下法で求める

•

α・β・γは解析的に求まらないので手動で決定
データセットと特徴量
•

データ:RENREN(中国版Facebook)
•
•

•

サブネットワーク抽出(約25kユーザ)
ユーザの25週間分のアクションログ

特徴量
•

行動的な特徴
Ex.投稿数、写真投稿等約30個

•

時間的な特徴
Ex.アクティブな日の数、週の平均アクティブ日7個

•

ソーシャル的な特徴
Ex.友人の数、ある週のアクティブな友人数等3個
実験設定
•

•

20週間のデータを学習し、21-25週を予測
• パラメータは各週で固定

active->inactiveをうまく予測できたかで評価
他手法との比較
•

代表的な分類モデルとの比較
•
•

ランダムフォレスト

•

•

通常のロジステック回帰
ノード分類アルゴリズム(KDD2009)

提案手法のどの特性が効いているか評価
•

Personalizeしか考慮しないもの

•

Personalize+ダイナミクス
その他の分類手法との比較

•

提案手法は良好な結果

•

比較手法より頑健な結果でもある
各種特性の比較

•

提案手法が良好な結果

•

各特性がそれぞれよく効いている
Unsupervised
Social Network Spam Detection
概要
•

ソーシャルネットワーク上のスパムアカウントを抽
出したい

•

抽出アプローチとして、教師ありの手法は高精度で
検出可能であることが示されているが、学習コスト
の面を考慮すると教師なしでの抽出が望ましい

•

UNIKという、ユーザグラフとソーシャルグラフを
組み合わせた手法を提案する
データ概要と特性
•
•
•

2009年のあるソーシャルブログサイトのデータ
ユーザ数:176000
10ヶ月分の投稿内容(200万のURL付き投稿)

投稿頻度は高い

ユーザ数は少ない
既存手法の課題
AutoRE(email spam detection model)

•
•

•
•
•

•

投稿数のバースト数があるしきい値を越えたらスパ
ムと判定
しきい値の設定に依存し、誤判定が多い
FBCluster
同じURLや投稿内容の類似関係をグラフ化し、コミュニ
ティとして抽出する
スパマーの検出精度は高いが、スパマーでない人を誤判定
する

Spammerの知識向上(バースト抑制・正常URLの混在)
提案手法1:SD2
•

SD2(FBClusterの応用)
• 問題は、グラフ作成時にスパマーとスパマーでな
い人の間にリンクが出来てしまったこと
• ソーシャルグラフとユーザリンクグラフ(URLの
シェア関係グラフ)を併合したグラフを用いる
XXX.com
frendship
△△.com

XXX.com

XXX.com
SD2の流れ
•

グラフからリンク数が3以下のノードを除去

•

任意のノードをスタートとし、ある指標を最
小化するように近傍ノードを選択してランキ
ングする
コミュニティの
結合強度を利用

•

指標はなだらかに減少するが、どこかで指標が振
動し始めるので、そこをグラフのカット地点とする

•

カット地点より下位にランキングされたユーザが
スパマー
SD2の課題とUNIK
SD2は非常に高精度な検出が可能
• 弱点:Sybil attackに弱い
→単一のスパマーが複数アカウントにまたがってスパムを発
信すること
•

SD2を改良したUNIKを提案
• ソーシャルグラフとユーザリンクグラフを分離して処理
→複数アカウントになっても、同一URLの投稿によりユーザ
リンクグラフで密につながる
•
UNIKの流れ

•

ソーシャルグラフからスパマーでない人を抽出

•

それらのユーザが使用するURL->ホワイトリスト化

•

ユーザリンクグラフからホワイトリストのURLリンクをカット

•

残ったグラフの次数の大きいユーザがスパマー!!
評価(ホワイトリスト生成)
•

URLをどこまで合ってれば同一のものとして扱うか?
• フルパス・ドメイン・ホスト…

単体の精度としてはDomain
Hostが非常に良い
Host+1path(Hostが同一なら
その一つ下の層が違くてもOK)
も良好
他手法との比較
•

既存手法と比べて非常に高性能
•

単純な評価ではSD2がやや勝っているが、頑
健性ではUNIKが上回る(でも評価してない)
頑健性評価
Sybil attackの影響
• ノードの10,20%をランダムにス
パマーに変更
• Host+1pathが頑健な性能

•

•

legit url(スパムでないURL混ぜる)
• 20%を,50%をスパムでないURLに
変更
• Hostのほうがややいい性能だが、
どちらも頑健な性能
スパムクラスタの特徴
•

平均投稿間隔
•

•

スパムらしいクラスタ(ピ
ンク)に対して、他はスパム
らしくない動きに見える

アクティブな日数
• スパムらしいクラスタ(ピ
ンク)に対して、他は普通の
人間っぽい

賢いスパマーもうまく
抽出できていそう

More Related Content

Similar to Cikm読み会

[DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions [DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions Deep Learning JP
 
情報検索のためのユーザモデル
情報検索のためのユーザモデル情報検索のためのユーザモデル
情報検索のためのユーザモデルkt.mako
 
アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】
アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】
アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】Tomoharu ASAMI
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Hironori Washizaki
 
Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death
Tori lab 輪読会 WWW 2014 - Modeling and predicting  the growth and deathTori lab 輪読会 WWW 2014 - Modeling and predicting  the growth and death
Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and deathKimitaka
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田Kosuke Shinoda
 
Relationship driven requirement analysis
Relationship driven requirement analysisRelationship driven requirement analysis
Relationship driven requirement analysisKent Ishizawa
 
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践saireya _
 
行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf幸太朗 岩澤
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-Hironori Washizaki
 
設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】
設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】
設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】Tomoharu ASAMI
 
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))HironoriTAKEUCHI1
 
東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介Daiyu Hatakeyama
 
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎幸太朗 岩澤
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design PatternsHironori Washizaki
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
 
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術Yoichi Motomura
 
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作n-yuki
 
モデル勉強会100710kajiura改
モデル勉強会100710kajiura改モデル勉強会100710kajiura改
モデル勉強会100710kajiura改Kazuya Nishina
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Projecthiroya
 

Similar to Cikm読み会 (20)

[DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions [DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions
 
情報検索のためのユーザモデル
情報検索のためのユーザモデル情報検索のためのユーザモデル
情報検索のためのユーザモデル
 
アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】
アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】
アプリケーション・アーキテクチャ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第34回】
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
 
Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death
Tori lab 輪読会 WWW 2014 - Modeling and predicting  the growth and deathTori lab 輪読会 WWW 2014 - Modeling and predicting  the growth and death
Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田
 
Relationship driven requirement analysis
Relationship driven requirement analysisRelationship driven requirement analysis
Relationship driven requirement analysis
 
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
 
行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
 
設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】
設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】
設計/原理 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第28回】
 
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
機械学習応用システムのアーキテクチャ・デザイパターン(2020-07 ドラフトバージョン))
 
東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介
 
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
 
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
 
モデル勉強会100710kajiura改
モデル勉強会100710kajiura改モデル勉強会100710kajiura改
モデル勉強会100710kajiura改
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Project
 

Cikm読み会