More Related Content
PDF
PDF
PDF
Tokyowebmining19 data fusion PDF
PDF
PDF
PDF
PDF
Complex network ws_percolation Viewers also liked
PDF
PDF
PDF
PDF
Tokyowebmining07 初めてでも分かるヘッジファンド入門 PDF
エンジニアサポート新年会2012 データマイニングcross 第1部 PDF
PDF
PDF
PDF
PDF
PDF
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介 PDF
PDF
PDF
PDF
Tokyowebmining09 初めてでも分かるペアトレード PDF
PDF
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み PDF
PDF
Similar to Japan r2 lt_yokkuns
XLS
PDF
【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直 PDF
PDF
PDF
PDF
FIT2012招待講演「異常検知技術のビジネス応用最前線」 PDF
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析 PDF
PDF
データマイニング+WEB 勉強会@東京-蓄積データの有効活用- DOCX
PPTX
PDF
PDF
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~ PDF
Lisp Tutorial for Pythonista : Day 5 PDF
LET2012 ワークショップ「R による教育・言語データ処理のススメ」 PDF
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析 PDF
PDF
20101002 cd sigfin_spx_ss PDF
PPTX
More from Yohei Sato
PDF
Tokyor60 r data_science_part1 PDF
PPTX
PDF
R言語で学ぶマーケティング分析 競争ポジショニング戦略 PDF
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 - PDF
異常行動検出入門 – 行動データ時系列のデータマイニング – PDF
Japan r2 lt_yokkuns
- 1.
Rで異常検知
@yokkuns : 里 洋平
第2回 Japan.R LT
2011.11.26
2011年11月28日月曜日
- 2.
AGENDA
• 自己紹介
• 異常検知概要
• 異常検知とは
• 考え方
• Rで簡易版実装
2011年11月28日月曜日
- 3.
AGENDA
• 自己紹介
• 異常検知概要
• 異常検知とは
• 考え方
• Rで簡易版実装
2011年11月28日月曜日
- 4.
里 洋平
• ID : @yokkuns
• 名前 : 里 洋平
• 職業 : データマイニング
エンジニア
2011年11月28日月曜日
- 5.
- 6.
- 7.
活動例(抜粋): Time SeriesAnalysis
Anomaly detection
複数時系列から異常な振る舞いを検知する
C
A
時系列のモデリング 複数時系列の異常検知 B
時系列A 時系列A
異常な振る舞い
時系列B
時系列C 時系列B 時系列C
異常な振る舞いの時系列を検出
例1:トラフィック異常検知 例2:CM効果のノイズ除去
トラフィックA ケースA
CM効果
トラフィックB ケースB
トラフィックC 調査 ケースC
異常な振る舞いをしている 異常な振る舞いをしているケースを
トラフィックの原因を調査する 除外して、CMの効果を算出する
85
2011年11月28日月曜日
- 8.
活動例(抜粋): Time SeriesAnalysis
Anomaly detection
新しいデータと過去時系列モデルの乖離から異常検出
8000.0000
異常スコア推移 3.0000
モデル構築
異常値
◇例 : ARIMAモデル 2.2500
5970.7500 1.5000
0.7500
3941.5000 0
異常スコアの算出
-0.7500
◇例 : 対数損失
1912.2500 -1.5000
-2.2500
-117.0000 -3.0000
t
4/ 週
4/ 1 週
4/ 8 週
5/ 週
2週
5/ 週
5/ 6 週
5/ 3 週
6/ 週
6/ 週
6/ 3 週
6/ 0 週
7/ 週
7/ 週
7/ 1 週
7/ 週
週
4
25
9
30
6
27
4
18
25
4/
1
1
5/
1
2
1
2
1
86
2011年11月28日月曜日
- 9.
活動例(抜粋): Time SeriesAnalysis
TV Commercial Effects
時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列 ト
新規
登録
CM ARPPU
ARPU
各KPIの時系列
その他
外部
継続率
要因
ケース
87
2011年11月28日月曜日
- 10.
Tokyo.R 主催
◆ 数少ない社会人中心のRコミュニティ
◆ 2010年に設立し、現在第19回まで開催
◆ 様々な業種•職種の方が参加
2011年11月28日月曜日
- 11.
AGENDA
• 自己紹介
• 異常検知概要
• 異常検知とは
• 考え方
• Rで簡易版実装
2011年11月28日月曜日
- 12.
異常検知
大量のデータから異常なデータや変化を検出する
2011年11月28日月曜日
- 13.
セキュリティ
コンピュータウィルスやDos攻撃
2011年11月28日月曜日
- 14.
障害対応
障害の原因特定
2011年11月28日月曜日
- 15.
AGENDA
• 自己紹介
• 異常検知概要
• 異常検知とは
• 考え方
• Rで簡易版実装
2011年11月28日月曜日
- 16.
学習
過去データからモデルを構築する
2011年11月28日月曜日
- 17.
予測と観測
モデルによる予測値と観測値の差を見る
モデルによる予測
予測と観測の差
観測結果
2011年11月28日月曜日
- 18.
異常スコア算出
過去の予測と観測の差と比較して今回の差は異常か否か
モデルによる予測
予測と観測の差
観測結果
2011年11月28日月曜日
- 19.
AGENDA
• 自己紹介
• 異常検知概要
• 異常検知とは
• 考え方
• Rで簡易版実装
2011年11月28日月曜日
- 20.
Rで簡易版実装
過去データでARモデルを構築
残差を過去の残差の標準偏差で割った値を異常スコアとする
2011年11月28日月曜日
- 21.
Rで簡易版実装
過去データでARモデルを構築
残差を過去の残差の標準偏差で割った値を異常スコアとする
ARモデルの構築と予測
過去の残差
2011年11月28日月曜日
- 22.
Rで簡易版実装
時系列データyを用意しシミュレーション
2011年11月28日月曜日
- 23.
Rで簡易版実装
時系列データyを用意しシミュレーション
51∼100個目のデータで異常検知を実行
学習データ
新しいデータ
結果をデータフレムに整形
2011年11月28日月曜日
- 24.
結果
過去に比べ急激に下がった時に検知
異常発生!
観測値
予測値
異常発生!
異常発生!
異常スコア
2011年11月28日月曜日
- 25.
AGENDA
• 自己紹介
• 異常検知概要
• 異常検知とは
• 考え方
• Rで簡易版実装
2011年11月28日月曜日
- 26.
次回以降の
発表者を募集しています
2011年11月28日月曜日