R言語による異常検知入門  @yokkuns 里 洋平2011/07/02 Tokyo.R#15
本日は、Tokyo.R#15にご参加頂きありがとうございます!
発表の前に皆さんに謝らなければならないことがあります
実装間に合いませんでした。   すみません・・・
時系列分析による 異常検知入門  @yokkuns 里 洋平2011/07/02 Tokyo.R#15
本日の内容●    変化点検出
AGENDA●    自己紹介●    異常検知とは●   3つの異常検知●    変化点検出●    最後に
AGENDA●    自己紹介●    異常検知とは●   3つの異常検知●    変化点検出●    最後に
自己紹介       ●   名前 : 里 洋平       ●   ID   : yokkuns       ●   職業 : データマイニングエンジニア
Tokyo.Rを主催しています    参加ありがとうございます!    http://groups.google.com/group/r-study-tokyo
本を執筆しました
AGENDA●    自己紹介●    異常検知とは●   3つの異常検知●    変化点検出●    最後に
異常検知とは大量データから異常なデータや変化を検出する技術
異常検知とは大量データから異常なデータや変化を検出する技術  ログ
異常検知とは大量データから異常なデータや変化を検出する技術         データマイニング  ログ
異常検知とは大量データから異常なデータや変化を検出する技術         データマイニング  ログ
セキュリティ分野での活用例  コンピュータウイルスやDos攻撃の早期発見
障害検出•故障診断での活用例 障害発生から原因特定までを時間を短縮する
障害検出•故障診断での活用例 障害発生から原因特定までを時間を短縮する   ログ   解析解析  解析   解析
障害検出•故障診断での活用例 障害発生から原因特定までを時間を短縮する   ログ            ログ    高い異常スコア   解析         解析解析  解析   解析           解析
マーケティングでの活用例     新しい流行の兆しを検出する
マーケティングでの活用例     新しい流行の兆しを検出する    口コミ   消費行動   アンケート
マーケティングでの活用例     新しい流行の兆しを検出する    口コミ   消費行動   アンケート      いつもと違った異常を検知
マーケティングでの活用例     新しい流行の兆しを検出する    口コミ   消費行動   アンケート      いつもと違った異常を検知    新しい流行に気付き、新商品の開発へ
過去データからモデルを作る   統計モデルを用いて異常を検出する   入力データ           確率モデルの学習   スコア計算                       出力
AGENDA●    自己紹介●    異常検知とは●   3つの異常検知●    変化点検出●    最後に
3つの異常検知          基本的な異常検知 機能   入力対象   確率モデル   検出対象   応用
3つの異常検知           基本的な異常検知  機能    入力対象   確率モデル    検出対象     応用はずれ値検出 多次元ベクトル 独立モデル   外れ値     不正検出                          ...
3つの異常検知            基本的な異常検知  機能     入力対象    確率モデル    検出対象       応用はずれ値検出 多次元ベクトル 独立モデル     外れ値       不正検出                 ...
3つの異常検知            基本的な異常検知  機能     入力対象    確率モデル    検出対象       応用はずれ値検出 多次元ベクトル 独立モデル     外れ値       不正検出                 ...
3つの異常検知            基本的な異常検知  機能     入力対象    確率モデル    検出対象       応用はずれ値検出 多次元ベクトル 独立モデル     外れ値       不正検出                 ...
3つの異常検知            基本的な異常検知  機能     入力対象    確率モデル    検出対象       応用はずれ値検出 多次元ベクトル 独立モデル     外れ値       不正検出                 ...
AGENDA●    自己紹介●    異常検知とは●   3つの異常検知●    変化点検出●    最後に
変化点を検出する必要性
変化点を検出する必要性決まった閾値による検知では手遅れな場合がある
変化点を検出する必要性決まった閾値による検知では手遅れな場合がある●    新種のワームの発生    ●        決まった閾値を超えた時点では手遅れ        –   ウイルスの増殖速度は相当速い
変化点を検出する必要性決まった閾値による検知では手遅れな場合がある●    新種のワームの発生    ●        決まった閾値を超えた時点では手遅れ        –   ウイルスの増殖速度は相当速い    急激な時系列的振る舞いの変わり...
統計的検定に基づく変化点検出 前後の時系列モデルへの当てはまりで検出する      あてはめ曲線                        時系列データ                            時間   当てはめ誤差     ...
統計的検定に基づく変化点検出           リアルタイムで検出できない●    全ての候補点に対して検定を行うため時間がかかる    ●        セキュリティ監視や障害監視に使えない
統計的検定に基づく変化点検出           リアルタイムで検出できない●    全ての候補点に対して検定を行うため時間がかかる    ●        セキュリティ監視や障害監視に使えない計算効率が高くオンライン処理に向いた変化点検出が必要
変化点検出エンジンChange Finder     リアルタイムに変化点を検出できる                         時系列データ      スコア                         変化点
変化点検出エンジンChange Finder        2段階学習により本質的な変動を捉える入力 Xt         第1段階学習                  第2段階学習        データ時系列モデルの            ...
Change Finderの基本原理●   Step1 : 第1段階学習                     時系列データの確率モデルを用意し、    データ時系列モデルの       オンライン忘却学習アルゴリズムで学習       忘却...
Change Finderの基本原理●   Step1 : 第1段階学習                     時系列データの確率モデルを用意し、    データ時系列モデルの       オンライン忘却学習アルゴリズムで学習       忘却...
Change Finderの基本原理●   Step1 : 第1段階学習                     時系列データの確率モデルを用意し、    データ時系列モデルの       オンライン忘却学習アルゴリズムで学習       忘却...
Change Finderの基本原理●   Step2 : 平滑化                  Given : T       スコアの平滑化
Change Finderの基本原理●   Step3 : 第2段階学習                     時系列データの確率モデルを用意し、    スコア時系列モデルの       オンライン忘却学習アルゴリズムで学習       忘却...
Change Finderのポイント    ノイズを除去し、本質的な変動のみを捉える●    第1段階学習では時系列中の外れ値を検出●    外れ値スコアを平滑化→ノイズに反応した外れ値を除去●    第2段階学習によって本質的な変動のみを検出
変化点検出の応用例      攻撃検知1 : MS.Blast          第1次検知    第2次検知           (発生)   (爆発的増加)        変化点スコア                    アクセスドロップ数
AGENDA●    自己紹介●    異常検知とは●   3つの異常検知●    変化点検出●    最後に
最後に     次回以降の  発表者を募集しています!
ご清聴ありがとうございました
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
Upcoming SlideShare
Loading in …5
×

Tokyo r15 異常検知入門

12,954 views

Published on

Published in: Travel, Business
  • Be the first to comment

Tokyo r15 異常検知入門

  1. 1. R言語による異常検知入門 @yokkuns 里 洋平2011/07/02 Tokyo.R#15
  2. 2. 本日は、Tokyo.R#15にご参加頂きありがとうございます!
  3. 3. 発表の前に皆さんに謝らなければならないことがあります
  4. 4. 実装間に合いませんでした。 すみません・・・
  5. 5. 時系列分析による 異常検知入門 @yokkuns 里 洋平2011/07/02 Tokyo.R#15
  6. 6. 本日の内容● 変化点検出
  7. 7. AGENDA● 自己紹介● 異常検知とは● 3つの異常検知● 変化点検出● 最後に
  8. 8. AGENDA● 自己紹介● 異常検知とは● 3つの異常検知● 変化点検出● 最後に
  9. 9. 自己紹介 ● 名前 : 里 洋平 ● ID : yokkuns ● 職業 : データマイニングエンジニア
  10. 10. Tokyo.Rを主催しています 参加ありがとうございます! http://groups.google.com/group/r-study-tokyo
  11. 11. 本を執筆しました
  12. 12. AGENDA● 自己紹介● 異常検知とは● 3つの異常検知● 変化点検出● 最後に
  13. 13. 異常検知とは大量データから異常なデータや変化を検出する技術
  14. 14. 異常検知とは大量データから異常なデータや変化を検出する技術 ログ
  15. 15. 異常検知とは大量データから異常なデータや変化を検出する技術 データマイニング ログ
  16. 16. 異常検知とは大量データから異常なデータや変化を検出する技術 データマイニング ログ
  17. 17. セキュリティ分野での活用例 コンピュータウイルスやDos攻撃の早期発見
  18. 18. 障害検出•故障診断での活用例 障害発生から原因特定までを時間を短縮する
  19. 19. 障害検出•故障診断での活用例 障害発生から原因特定までを時間を短縮する ログ 解析解析 解析 解析
  20. 20. 障害検出•故障診断での活用例 障害発生から原因特定までを時間を短縮する ログ ログ 高い異常スコア 解析 解析解析 解析 解析 解析
  21. 21. マーケティングでの活用例 新しい流行の兆しを検出する
  22. 22. マーケティングでの活用例 新しい流行の兆しを検出する 口コミ 消費行動 アンケート
  23. 23. マーケティングでの活用例 新しい流行の兆しを検出する 口コミ 消費行動 アンケート いつもと違った異常を検知
  24. 24. マーケティングでの活用例 新しい流行の兆しを検出する 口コミ 消費行動 アンケート いつもと違った異常を検知 新しい流行に気付き、新商品の開発へ
  25. 25. 過去データからモデルを作る 統計モデルを用いて異常を検出する 入力データ 確率モデルの学習 スコア計算 出力
  26. 26. AGENDA● 自己紹介● 異常検知とは● 3つの異常検知● 変化点検出● 最後に
  27. 27. 3つの異常検知 基本的な異常検知 機能 入力対象 確率モデル 検出対象 応用
  28. 28. 3つの異常検知 基本的な異常検知 機能 入力対象 確率モデル 検出対象 応用はずれ値検出 多次元ベクトル 独立モデル 外れ値 不正検出 侵入検知 故障検知
  29. 29. 3つの異常検知 基本的な異常検知 機能 入力対象 確率モデル 検出対象 応用はずれ値検出 多次元ベクトル 独立モデル 外れ値 不正検出 侵入検知 故障検知変化点検出 多次元時系列 時系列モデ 時系列上の 攻撃検出 ル 急激な変化 ワーム検出 バースト的異常 障害予兆検出
  30. 30. 3つの異常検知 基本的な異常検知 機能 入力対象 確率モデル 検出対象 応用はずれ値検出 多次元ベクトル 独立モデル 外れ値 不正検出 侵入検知 故障検知変化点検出 多次元時系列 時系列モデ 時系列上の 攻撃検出 ル 急激な変化 ワーム検出 バースト的異常 障害予兆検出異常行動検出 セッション 行動モデル 異常セッション なりすまし検出 時系列 異常行動パター 障害予兆検出 ン 不審行動検出
  31. 31. 3つの異常検知 基本的な異常検知 機能 入力対象 確率モデル 検出対象 応用はずれ値検出 多次元ベクトル 独立モデル 外れ値 不正検出 侵入検知 故障検知変化点検出 多次元時系列 時系列モデ 時系列上の 攻撃検出 ル 急激な変化 ワーム検出 バースト的異常 障害予兆検出異常行動検出 セッション 行動モデル 異常セッション なりすまし検出 時系列 異常行動パター 障害予兆検出 ン 不審行動検出
  32. 32. 3つの異常検知 基本的な異常検知 機能 入力対象 確率モデル 検出対象 応用はずれ値検出 多次元ベクトル 独立モデル 外れ値 不正検出 侵入検知 故障検知変化点検出 多次元時系列 時系列モデ 時系列上の 攻撃検出 ル 急激な変化 ワーム検出 バースト的異常 障害予兆検出異常行動検出 セッション 行動モデル 異常セッション なりすまし検出 時系列 異常行動パター 障害予兆検出 ン 不審行動検出 本日のテーマは、変化点検出
  33. 33. AGENDA● 自己紹介● 異常検知とは● 3つの異常検知● 変化点検出● 最後に
  34. 34. 変化点を検出する必要性
  35. 35. 変化点を検出する必要性決まった閾値による検知では手遅れな場合がある
  36. 36. 変化点を検出する必要性決まった閾値による検知では手遅れな場合がある● 新種のワームの発生 ● 決まった閾値を超えた時点では手遅れ – ウイルスの増殖速度は相当速い
  37. 37. 変化点を検出する必要性決まった閾値による検知では手遅れな場合がある● 新種のワームの発生 ● 決まった閾値を超えた時点では手遅れ – ウイルスの増殖速度は相当速い 急激な時系列的振る舞いの変わり目の時点の検出が重要
  38. 38. 統計的検定に基づく変化点検出 前後の時系列モデルへの当てはまりで検出する あてはめ曲線 時系列データ 時間 当てはめ誤差 当てはめ誤差 ERROR1 ERROR1 変化点 ERROR2 変化点
  39. 39. 統計的検定に基づく変化点検出 リアルタイムで検出できない● 全ての候補点に対して検定を行うため時間がかかる ● セキュリティ監視や障害監視に使えない
  40. 40. 統計的検定に基づく変化点検出 リアルタイムで検出できない● 全ての候補点に対して検定を行うため時間がかかる ● セキュリティ監視や障害監視に使えない計算効率が高くオンライン処理に向いた変化点検出が必要
  41. 41. 変化点検出エンジンChange Finder リアルタイムに変化点を検出できる 時系列データ スコア 変化点
  42. 42. 変化点検出エンジンChange Finder 2段階学習により本質的な変動を捉える入力 Xt 第1段階学習 第2段階学習 データ時系列モデルの スコア時系列モデルの 忘却学習 スコアの平滑化 忘却学習 スコアリング スコアリング
  43. 43. Change Finderの基本原理● Step1 : 第1段階学習 時系列データの確率モデルを用意し、 データ時系列モデルの オンライン忘却学習アルゴリズムで学習 忘却学習 対数損失 : スコアリング ヘリンジャースコア :
  44. 44. Change Finderの基本原理● Step1 : 第1段階学習 時系列データの確率モデルを用意し、 データ時系列モデルの オンライン忘却学習アルゴリズムで学習 忘却学習 過去のモデルに対する データの意外性 対数損失 : スコアリング ヘリンジャースコア :
  45. 45. Change Finderの基本原理● Step1 : 第1段階学習 時系列データの確率モデルを用意し、 データ時系列モデルの オンライン忘却学習アルゴリズムで学習 忘却学習 対数損失 : スコアリング ヘリンジャースコア : 学習前後で確率分布が どれくらい動いたか
  46. 46. Change Finderの基本原理● Step2 : 平滑化 Given : T スコアの平滑化
  47. 47. Change Finderの基本原理● Step3 : 第2段階学習 時系列データの確率モデルを用意し、 スコア時系列モデルの オンライン忘却学習アルゴリズムで学習 忘却学習 Given : T 対数損失 : スコアリング ヘリンジャースコア :
  48. 48. Change Finderのポイント ノイズを除去し、本質的な変動のみを捉える● 第1段階学習では時系列中の外れ値を検出● 外れ値スコアを平滑化→ノイズに反応した外れ値を除去● 第2段階学習によって本質的な変動のみを検出
  49. 49. 変化点検出の応用例 攻撃検知1 : MS.Blast 第1次検知 第2次検知 (発生) (爆発的増加) 変化点スコア アクセスドロップ数
  50. 50. AGENDA● 自己紹介● 異常検知とは● 3つの異常検知● 変化点検出● 最後に
  51. 51. 最後に 次回以降の 発表者を募集しています!
  52. 52. ご清聴ありがとうございました

×