SpiderAFにおける機械学習を使った不正検知

Spider Labs, Ltd.
Spider Labs, Ltd.Spider Labs, Ltd.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
【.LOG(ドットログ)】第2回アドテクノロジーを支える技術 #ドットログ
「SpiderAFにおける機械学習を使った不正検知」
2019/02/21@ログリー株式会社
赤石 暁(株式会社Phybbit)
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 2
赤石 暁 (あかいし あきら)
株式会社Phybbit Developer
略歴
2010年 3月 首都大学東京 博士過程修了
2012年11月 電気通信大学 特任助教
2018年 3月 株式会社Phybbit 入社
やってること
SpiderAFの開発
不正トラフィックの研究・解析
P E N D I N G P A T E N T
C O N F I D E N T I A L Copyright © 2018, Phybbit Ltd. All rights reserved.
目次
1. アドフラウド(広告不正)って何?
2. ログデータから何がわかる?
3. 不正パターンの可視化
4. まとめ
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 44
Phybbit (SpiderAF)
広告ログデータを集計
可視化・スコアリング
データから
アドフラウドを
見つけ出す!
SpiderAF ダッシュボード
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 55
アドフラウド(広告詐欺)って何?
広告をクリック
ウェブサイト運営者
スクリプト・ボットによる
不正クリック
アドフラウドのひと
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 66
ログデータから不正を見つける
クリック時間、IP、OS/端末情報
不正サイトを見つける
ルールベース
機械学習
- 教師あり(XGBoost , CNN, NLP, etc.)
- 教師なし(k-means clustering, t-SNE)
P E N D I N G P A T E N T
C O N F I D E N T I A L Copyright © 2018, Phybbit Ltd. All rights reserved.
目次
2. ログデータから何がわかる?
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 88
ログデータから得られる情報
時間
IP:国、県、ISP
デバイス情報、OS環境、ブラウザ
クリック=HTTP request UserAgent/SDK
サイトA
サイトB
サイトC
サイトD
サイトE
サイトF
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 99
クリック時間の集計
サイトごとに集計
サイトBサイトA
サイトB
サイトB
サイトA
一定期間(e.g.一ヶ月)の
データを集計
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1010
時間分布の不正パターン
サイトA
昼休み
サイトB
一日中クリックしっぱなし?!
寝てる😴
仕事終わり😆
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1111
分の分布の不正パターン
サイトA サイトB
何分にクリックするかはバラバラ
→平均するとほぼ一定
15分おきにクリック?!
ボット/スクリプトによるクリック?!
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1212
IPの分析
国の分布 県の分布 ISPの分布
正常サイトでは日本の人口分布に近くなる
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1313
IPの分析
国の分布 県の分布 ISPの分布
正常サイトでは日本の人口分布に近くなる不正サイトでは、不自然な分布になる
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1414
端末情報
正常サイト 不正サイト
デバイス、ブラウザでも同様の傾向がある
iOS 6.0は2012年リリース
不正サイトでは
古いOSが使われがち
(scriptのUAを更新してない?!
安い端末で大量クリック?!)
P E N D I N G P A T E N T
C O N F I D E N T I A L Copyright © 2018, Phybbit Ltd. All rights reserved.
目次
3. 不正パターンの可視化
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1616
不正パターンを見つけたい
クリックの時間
24次元データ 低次元データ
サイトA
サイトB
サイトC
サイトA
サイトB
サイトC
Dimensionality reduction
PCA
NMF
t-SNE
サイトごとに合計で割る
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1717
t-SNE
t-distributed stochastic neighbor embedding
サイトA
サイトB
サイトC
サイトA
サイトB
サイトC
https://scikit-learn.org/
元データ構造を2次元にmapping
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1818
t-SNEでの可視化
不正サイトを一括で見つけられる!
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 1919
OS version
• androidだけ
• iOSだけ
• 両方
サイトA
サイトB
サイトC
57次元
サイトA
サイトB
サイトC
サイトごとに合計で割る
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 2020
OS t-SNE
iOSだけ
androidだけ
両方
サイトC
サイトB
サイトA
サイトD
サイトE
サイトF
サイト
G
サイトH
サイトI
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 2121
OS t-SNE
古いiOSだけ
小さい“島”は
異常なパターンになっている
→ぜんぶ不正サイト
android 5.0 ?!
iOS 10.3 ?!
サイトC
サイトB
サイトA
サイトD
サイトE
サイトF
サイト
G
サイトH
サイトI
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 2222
t-SNEによる不正検出
どんなデータでも使える
ラベルなしで使える(教師なし)
t-SNEの利点
不正サイトを一括で見つけられる
サイトの類似性がわかる
• 不正スコアの精度向上
• 新しい不正パターンの発見
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved.
CONFIDENTIAL
PATENT PENDING
Copyright © 2018, Phybbit Ltd. All rights reserved. 2323
まとめ
ログデータから不正を見つける
サイトごとに集計し、不正パターンを見つける
t-SNEで可視化
https://spideraf.com
1 of 23

Recommended

if-up 2017 | A4:カメラデバイスとクラウド〜スムーズな連携のために〜 by
if-up 2017 | A4:カメラデバイスとクラウド〜スムーズな連携のために〜if-up 2017 | A4:カメラデバイスとクラウド〜スムーズな連携のために〜
if-up 2017 | A4:カメラデバイスとクラウド〜スムーズな連携のために〜SORACOM,INC
1.6K views32 slides
NLP in SmartNews by
NLP in SmartNewsNLP in SmartNews
NLP in SmartNewsSmartNews, Inc.
2.5K views17 slides
3月アドフラウド勉強会_「アドフラウド調査レポート」制作の裏話 by
3月アドフラウド勉強会_「アドフラウド調査レポート」制作の裏話3月アドフラウド勉強会_「アドフラウド調査レポート」制作の裏話
3月アドフラウド勉強会_「アドフラウド調査レポート」制作の裏話Spider Labs, Ltd.
633 views24 slides
Casestudy_with by
Casestudy_withCasestudy_with
Casestudy_withSpider Labs, Ltd.
1.3K views12 slides
IFAスイッチのご紹介 by
IFAスイッチのご紹介IFAスイッチのご紹介
IFAスイッチのご紹介IFA Switch Ltd.
2K views13 slides
Phybbit Series A 事業計画書 by
Phybbit Series A 事業計画書Phybbit Series A 事業計画書
Phybbit Series A 事業計画書Satoko Ohtsuki
23.2K views23 slides

More Related Content

Similar to SpiderAFにおける機械学習を使った不正検知

ROSでロボット開発中 by
ROSでロボット開発中ROSでロボット開発中
ROSでロボット開発中ssuser2144b2
5.3K views76 slides
Yahoo! JAPANの不正投稿対策 #yjmu by
Yahoo! JAPANの不正投稿対策 #yjmu Yahoo! JAPANの不正投稿対策 #yjmu
Yahoo! JAPANの不正投稿対策 #yjmu Yahoo!デベロッパーネットワーク
846 views15 slides
Pycon reject banditアルゴリズムを用いた自動abテスト by
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストShoichi Taguchi
1.4K views42 slides
誰でもできるGoogleアシスタント開発 by
誰でもできるGoogleアシスタント開発誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発Namito Satoyama
4K views73 slides
AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~ by
AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~
AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~Hironari Ono
164 views37 slides
Smart Phone Reward & Social Game by
Smart Phone Reward & Social GameSmart Phone Reward & Social Game
Smart Phone Reward & Social GameNobuyoshi Noda
1.5K views19 slides

Similar to SpiderAFにおける機械学習を使った不正検知(20)

ROSでロボット開発中 by ssuser2144b2
ROSでロボット開発中ROSでロボット開発中
ROSでロボット開発中
ssuser2144b25.3K views
Pycon reject banditアルゴリズムを用いた自動abテスト by Shoichi Taguchi
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
Shoichi Taguchi1.4K views
誰でもできるGoogleアシスタント開発 by Namito Satoyama
誰でもできるGoogleアシスタント開発誰でもできるGoogleアシスタント開発
誰でもできるGoogleアシスタント開発
Namito Satoyama4K views
AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~ by Hironari Ono
AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~
AlibabaCloud使ってみた ~震える手でお小遣いからDATAVを買う編~
Hironari Ono164 views
Smart Phone Reward & Social Game by Nobuyoshi Noda
Smart Phone Reward & Social GameSmart Phone Reward & Social Game
Smart Phone Reward & Social Game
Nobuyoshi Noda1.5K views
モバイル・IoT・VR、今後のデバイスに向けた開発手法について ~スマホの次を見据えて~ by Koichi Sasaki
モバイル・IoT・VR、今後のデバイスに向けた開発手法について ~スマホの次を見据えて~モバイル・IoT・VR、今後のデバイスに向けた開発手法について ~スマホの次を見据えて~
モバイル・IoT・VR、今後のデバイスに向けた開発手法について ~スマホの次を見据えて~
Koichi Sasaki4.9K views
ハイブリットソーシャルゲームの現場 by Shota Suzuki
ハイブリットソーシャルゲームの現場ハイブリットソーシャルゲームの現場
ハイブリットソーシャルゲームの現場
Shota Suzuki1.3K views
非エンジニアよ エクセル辞めてBigQueryを使いなさい by Hironari Ono
非エンジニアよ エクセル辞めてBigQueryを使いなさい非エンジニアよ エクセル辞めてBigQueryを使いなさい
非エンジニアよ エクセル辞めてBigQueryを使いなさい
Hironari Ono199 views
「未知の脅威」を検出するために -Securitydays2015 imatrixセミナー@KITTE- by imatrix_share
「未知の脅威」を検出するために -Securitydays2015 imatrixセミナー@KITTE-「未知の脅威」を検出するために -Securitydays2015 imatrixセミナー@KITTE-
「未知の脅威」を検出するために -Securitydays2015 imatrixセミナー@KITTE-
imatrix_share870 views
セキュリティエバンジェリストやってますが、実はネツエンなんです by Taku Harako
セキュリティエバンジェリストやってますが、実はネツエンなんですセキュリティエバンジェリストやってますが、実はネツエンなんです
セキュリティエバンジェリストやってますが、実はネツエンなんです
Taku Harako698 views
電子出版と電子書籍の今とこれから by 馮 富久
電子出版と電子書籍の今とこれから電子出版と電子書籍の今とこれから
電子出版と電子書籍の今とこれから
馮 富久8.1K views
Ionicを使ってスマホアプリを作ってみた by 虎の穴 開発室
Ionicを使ってスマホアプリを作ってみたIonicを使ってスマホアプリを作ってみた
Ionicを使ってスマホアプリを作ってみた
【DMP x LPO ABテスト】パブリックdmpを用いたデータドリブンペルソナ構築 by Satoru Yamamoto
【DMP x LPO ABテスト】パブリックdmpを用いたデータドリブンペルソナ構築【DMP x LPO ABテスト】パブリックdmpを用いたデータドリブンペルソナ構築
【DMP x LPO ABテスト】パブリックdmpを用いたデータドリブンペルソナ構築
Satoru Yamamoto5.5K views
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話 by 和也 大木
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
和也 大木3.4K views

More from Spider Labs, Ltd.

Spider AF-アプリ広告主向け資料 by
Spider AF-アプリ広告主向け資料Spider AF-アプリ広告主向け資料
Spider AF-アプリ広告主向け資料Spider Labs, Ltd.
109 views11 slides
SpiderAF-ウェブ広告主向け資料 by
SpiderAF-ウェブ広告主向け資料SpiderAF-ウェブ広告主向け資料
SpiderAF-ウェブ広告主向け資料Spider Labs, Ltd.
2.3K views26 slides
アドフラウド対策ツール「SpiderAF」 by
アドフラウド対策ツール「SpiderAF」アドフラウド対策ツール「SpiderAF」
アドフラウド対策ツール「SpiderAF」Spider Labs, Ltd.
429 views14 slides
3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション by
3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション
3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーションSpider Labs, Ltd.
855 views37 slides
3月アドフラウド勉強会_パネルディスカッション2 by
3月アドフラウド勉強会_パネルディスカッション23月アドフラウド勉強会_パネルディスカッション2
3月アドフラウド勉強会_パネルディスカッション2Spider Labs, Ltd.
1.4K views15 slides
3月アドフラウド勉強会_パネルディスカッション1 by
3月アドフラウド勉強会_パネルディスカッション13月アドフラウド勉強会_パネルディスカッション1
3月アドフラウド勉強会_パネルディスカッション1Spider Labs, Ltd.
864 views17 slides

More from Spider Labs, Ltd.(9)

Spider AF-アプリ広告主向け資料 by Spider Labs, Ltd.
Spider AF-アプリ広告主向け資料Spider AF-アプリ広告主向け資料
Spider AF-アプリ広告主向け資料
Spider Labs, Ltd.109 views
SpiderAF-ウェブ広告主向け資料 by Spider Labs, Ltd.
SpiderAF-ウェブ広告主向け資料SpiderAF-ウェブ広告主向け資料
SpiderAF-ウェブ広告主向け資料
Spider Labs, Ltd.2.3K views
アドフラウド対策ツール「SpiderAF」 by Spider Labs, Ltd.
アドフラウド対策ツール「SpiderAF」アドフラウド対策ツール「SpiderAF」
アドフラウド対策ツール「SpiderAF」
Spider Labs, Ltd.429 views
3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション by Spider Labs, Ltd.
3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション
3月アドフラウド勉強会_「Industry pulse」からみる2019年アドベリフィケーション
Spider Labs, Ltd.855 views
3月アドフラウド勉強会_パネルディスカッション2 by Spider Labs, Ltd.
3月アドフラウド勉強会_パネルディスカッション23月アドフラウド勉強会_パネルディスカッション2
3月アドフラウド勉強会_パネルディスカッション2
Spider Labs, Ltd.1.4K views
3月アドフラウド勉強会_パネルディスカッション1 by Spider Labs, Ltd.
3月アドフラウド勉強会_パネルディスカッション13月アドフラウド勉強会_パネルディスカッション1
3月アドフラウド勉強会_パネルディスカッション1
Spider Labs, Ltd.864 views
第二回アドフラウド勉強会パネルディスカッション2 by Spider Labs, Ltd.
第二回アドフラウド勉強会パネルディスカッション2第二回アドフラウド勉強会パネルディスカッション2
第二回アドフラウド勉強会パネルディスカッション2
Spider Labs, Ltd.3.3K views
第二回アドフラウド勉強会パネルディスカッション1 by Spider Labs, Ltd.
第二回アドフラウド勉強会パネルディスカッション1第二回アドフラウド勉強会パネルディスカッション1
第二回アドフラウド勉強会パネルディスカッション1
Spider Labs, Ltd.1.7K views
BOTだけではない!新型アドフラウドによる新たな問題点 by Spider Labs, Ltd.
BOTだけではない!新型アドフラウドによる新たな問題点BOTだけではない!新型アドフラウドによる新たな問題点
BOTだけではない!新型アドフラウドによる新たな問題点
Spider Labs, Ltd.3.7K views

Recently uploaded

概念モデリングワークショップ 設計編 by
概念モデリングワークショップ 設計編概念モデリングワークショップ 設計編
概念モデリングワークショップ 設計編Knowledge & Experience
10 views37 slides
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) by
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
217 views33 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 views34 slides
さくらのひやおろし2023 by
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023法林浩之
83 views58 slides
JJUG CCC.pptx by
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 views14 slides
概念モデリングワークショップ 基礎編 by
概念モデリングワークショップ 基礎編概念モデリングワークショップ 基礎編
概念モデリングワークショップ 基礎編Knowledge & Experience
19 views71 slides

Recently uploaded(8)

マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之83 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172220 views
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)

SpiderAFにおける機械学習を使った不正検知

  • 1. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1 CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 【.LOG(ドットログ)】第2回アドテクノロジーを支える技術 #ドットログ 「SpiderAFにおける機械学習を使った不正検知」 2019/02/21@ログリー株式会社 赤石 暁(株式会社Phybbit)
  • 2. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 2 赤石 暁 (あかいし あきら) 株式会社Phybbit Developer 略歴 2010年 3月 首都大学東京 博士過程修了 2012年11月 電気通信大学 特任助教 2018年 3月 株式会社Phybbit 入社 やってること SpiderAFの開発 不正トラフィックの研究・解析
  • 3. P E N D I N G P A T E N T C O N F I D E N T I A L Copyright © 2018, Phybbit Ltd. All rights reserved. 目次 1. アドフラウド(広告不正)って何? 2. ログデータから何がわかる? 3. 不正パターンの可視化 4. まとめ
  • 4. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 44 Phybbit (SpiderAF) 広告ログデータを集計 可視化・スコアリング データから アドフラウドを 見つけ出す! SpiderAF ダッシュボード
  • 5. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 55 アドフラウド(広告詐欺)って何? 広告をクリック ウェブサイト運営者 スクリプト・ボットによる 不正クリック アドフラウドのひと
  • 6. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 66 ログデータから不正を見つける クリック時間、IP、OS/端末情報 不正サイトを見つける ルールベース 機械学習 - 教師あり(XGBoost , CNN, NLP, etc.) - 教師なし(k-means clustering, t-SNE)
  • 7. P E N D I N G P A T E N T C O N F I D E N T I A L Copyright © 2018, Phybbit Ltd. All rights reserved. 目次 2. ログデータから何がわかる?
  • 8. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 88 ログデータから得られる情報 時間 IP:国、県、ISP デバイス情報、OS環境、ブラウザ クリック=HTTP request UserAgent/SDK サイトA サイトB サイトC サイトD サイトE サイトF
  • 9. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 99 クリック時間の集計 サイトごとに集計 サイトBサイトA サイトB サイトB サイトA 一定期間(e.g.一ヶ月)の データを集計
  • 10. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1010 時間分布の不正パターン サイトA 昼休み サイトB 一日中クリックしっぱなし?! 寝てる😴 仕事終わり😆
  • 11. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1111 分の分布の不正パターン サイトA サイトB 何分にクリックするかはバラバラ →平均するとほぼ一定 15分おきにクリック?! ボット/スクリプトによるクリック?!
  • 12. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1212 IPの分析 国の分布 県の分布 ISPの分布 正常サイトでは日本の人口分布に近くなる
  • 13. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1313 IPの分析 国の分布 県の分布 ISPの分布 正常サイトでは日本の人口分布に近くなる不正サイトでは、不自然な分布になる
  • 14. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1414 端末情報 正常サイト 不正サイト デバイス、ブラウザでも同様の傾向がある iOS 6.0は2012年リリース 不正サイトでは 古いOSが使われがち (scriptのUAを更新してない?! 安い端末で大量クリック?!)
  • 15. P E N D I N G P A T E N T C O N F I D E N T I A L Copyright © 2018, Phybbit Ltd. All rights reserved. 目次 3. 不正パターンの可視化
  • 16. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1616 不正パターンを見つけたい クリックの時間 24次元データ 低次元データ サイトA サイトB サイトC サイトA サイトB サイトC Dimensionality reduction PCA NMF t-SNE サイトごとに合計で割る
  • 17. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1717 t-SNE t-distributed stochastic neighbor embedding サイトA サイトB サイトC サイトA サイトB サイトC https://scikit-learn.org/ 元データ構造を2次元にmapping
  • 18. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1818 t-SNEでの可視化 不正サイトを一括で見つけられる!
  • 19. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 1919 OS version • androidだけ • iOSだけ • 両方 サイトA サイトB サイトC 57次元 サイトA サイトB サイトC サイトごとに合計で割る
  • 20. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 2020 OS t-SNE iOSだけ androidだけ 両方 サイトC サイトB サイトA サイトD サイトE サイトF サイト G サイトH サイトI
  • 21. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 2121 OS t-SNE 古いiOSだけ 小さい“島”は 異常なパターンになっている →ぜんぶ不正サイト android 5.0 ?! iOS 10.3 ?! サイトC サイトB サイトA サイトD サイトE サイトF サイト G サイトH サイトI
  • 22. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 2222 t-SNEによる不正検出 どんなデータでも使える ラベルなしで使える(教師なし) t-SNEの利点 不正サイトを一括で見つけられる サイトの類似性がわかる • 不正スコアの精度向上 • 新しい不正パターンの発見
  • 23. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. CONFIDENTIAL PATENT PENDING Copyright © 2018, Phybbit Ltd. All rights reserved. 2323 まとめ ログデータから不正を見つける サイトごとに集計し、不正パターンを見つける t-SNEで可視化 https://spideraf.com

Editor's Notes

  1. SELECT site_id, HOUR(time) AS hour, COUNT(1) FROM log_data_table GROUP BY site_id, hour