SlideShare a Scribd company logo
異常行動検出入門(改)
                    - 行動データ時系列のデータマイニング -




                           @yokkuns: 里 洋平
                         yohei0511@gmail.com
                2012.05.11 機械学習 プログラミング勉強会


2012年5月12日土曜日
本日の内容
                データマイニングによる異常検知
                   - 第5章 異常行動検出 -




2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
自己紹介

             時系列解析や異常検知などの方法論を
          実ビジネスに適用するデータマイニングエンジニア



     ◆ 名前: 里 洋平
     ◆ ID : yokkuns
     ◆ 職業:
     データマイニングエンジニア
     ◆     統計解析 パターン認識 機械学
     習 データマイニング NLP 金融工学
     などを勉強中

2012年5月12日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2012年5月12日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2012年5月12日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2012年5月12日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年5月12日土曜日
活動例: 時系列解析と異常検知
                      Anomaly detection

                新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移   3.0000
  モデル構築
                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                           -117.0000                   -3.0000


                                                t
                                   4/ 週
                                   4/ 1週
                                   4/ 8週
                                    5/ 週
                                    5/ 週
                                   5/ 週
                                   5/ 週
                                   5/ 週
                                    6/ 週
                                   6/ 週
                                   6/ 週
                                   6/ 週
                                    7/ 週
                                   7/ 週
                                   7/ 週
                                   7/ 8週
                                         週
                                       4



                                     25
                                       2
                                       9
                                     16
                                     23
                                     30
                                       6
                                     13
                                     20
                                     27
                                       4
                                     11


                                     25
                                     1
                                     1




                                     1
                                    4/




                                                                 86
2012年5月12日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2012年5月12日土曜日
活動例: データマイニングCROSS




2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
異常検知とは
         大概のデータが従う規則的なパターンからずれた
            異常や変化を見つけ出し活用する技術
      セキュリティや障害検知、マーケティングなど応用範囲が広い




2012年5月12日土曜日
セキュリティでの応用
                トラフィック量の過去の時系列的な振る舞いを用いて
                 異常な振る舞いが始まったタイミングで検知する




2012年5月12日土曜日
システム障害への応用
                システムのログの中から異常なログを検出し
                  障害の原因調査及び対策に活用する




2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
基本的な考え方
                       !"#$%&'
        予測モデル と 異常スコアの算出 の2段階で考える
     !"#$%&'
          訓練データ

                               モデルからの乖離
                                           モデルの
                         実績値              変化の度合い




                  !"


                                予測モデル




2012年5月12日土曜日
時系列モデルの構築

          訓練データを用いて、対象データの予測モデルを構築する




2012年5月12日土曜日
異常スコアの算出
                 予測モデルで予測した値と実際の乖離の度合いや
                 1ステップ前の予測モデルと今回の予測モデルの
                確率分布の変化の度合いを異常スコアとして算出する




                        モデルによる予測



                                     乖離の度合いを
                                    異常スコアにする



                               実績
2012年5月12日土曜日
Rによる変化点検出の簡単な実行例
                訓練データからARモデルを構築
           どの程度モデルから乖離しているかを異常スコアとする


                            ARモデルの構築と予測




                                過去の残差




2012年5月12日土曜日
Rによる変化点検出の簡単な実行例

                時系列データyを用意してシミュレーションする



                         51∼100個目のデータで異常検知を実行



                          学習データ

                          新しいデータ




                                   結果をデータフレムに整形




2012年5月12日土曜日
Rによる変化点検出の簡単な実行例
          過去に比べて急激に下がった時点を検知
    単純なしきい値設定では検知出来ない異常を検出する事が出来る



                   異常発生!
                             観測値
                             予測値

           異常発生!
                            異常発生!




                             異常スコア




2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
異常行動検出
                  大量のログから行動パターンを学習し
                不正行為や不審行為を自動的に検出する技術




  図: http://bit.ly/J4PrAf
2012年5月12日土曜日
静的な異常行動検出モデル
          特定のユーザに関するセッションの発生確率が
      他のユーザに比べて有為に小さくなったときにアラートを出す




2012年5月12日土曜日
動的な異常行動検出モデル
   出現頻度では異常がなくても、時間的順序に異常がある場合もある
      動きを確率モデルで表現し、動的な異常行動も検出する



                  cp              cp




         cd            vi    cd

                                         zip



       sendmail              vi
                       zip             sendmail



2012年5月12日土曜日
異常行動検出の基本的な流れ
             行動を複数の行動モデルの線形結合で表現
          混合数は行動パターン数を意味しており、動的に決定する




2012年5月12日土曜日
混合隠れマルコフモデル
           行動を複数の隠れマルコフモデルの線形結合で表現する




2012年5月12日土曜日
オンライン忘却型学習: E-Step
                       メンバーシップ確率の更新を行う




                   j番目のセッションが
                k番目の成分で出力される確率
2012年5月12日土曜日
オンライン忘却型学習: M-Step

                各パラメータの更新を行う




2012年5月12日土曜日
混合数の決定
       学習されたモデルの中で最適な混合数を持つものを選択
    最適な混合数の時間的変化は行動パターンの構造的な変化を意味する




  図: http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf
2012年5月12日土曜日
異常スコアの算出
                   1ステップまでのモデルでの発生確率を
                セッション長で割った値を異常スコアとして用いる




2012年5月12日土曜日
しきい値の動的最適化
         異常スコアのヒストグラムをオンライン忘却型学習
      裾確率がρを超えない最大のスコアをしきい値として設定する




2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
なりすまし検出
    UNIXコマンド列からなりすましユーザとそのタイミングを検出




  図: http://bit.ly/J4PrAf
2012年5月12日土曜日
なりすまし検出
                なりすましのタイミングで行動パターン数が増える




  図: http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf
2012年5月12日土曜日
syslogからの障害検知
         syslogからログの出力パターンを学習して異常検知を実施
               システムロックアップの予兆を2日前に発見




  図: http://bit.ly/J4PrAf
2012年5月12日土曜日
syslogからの障害検知

     システムロックアップの発生前にはログの出力パターンが増える




  図: http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf
2012年5月12日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 異常検知とは

      ◆ 基本的な考え方

      ◆ 異常行動検出

      ◆ 異常行動検出の応用例

2012年5月12日土曜日
TokyoRの

     発表者・LTを募集しています!



2012年5月12日土曜日
ご清聴ありがとうございました!




2012年5月12日土曜日
以下参考資料



2012年5月12日土曜日
Web上の参考資料



 ◆ 統計的異常検出3手法

     http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf




◆ ダイナミックマイニングと異常検出・CGMテキスト分析への応用

     http://bit.ly/J4PrAf




2012年5月12日土曜日

More Related Content

What's hot

【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
Deep Learning JP
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
Kei Uchiumi
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
gree_tech
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
Masaaki Imaizumi
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
Plot Hong
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 

What's hot (20)

【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 

Similar to 異常行動検出入門(改)

Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Yohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 

Similar to 異常行動検出入門(改) (10)

Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
Yohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 

異常行動検出入門(改)

  • 1. 異常行動検出入門(改) - 行動データ時系列のデータマイニング - @yokkuns: 里 洋平 yohei0511@gmail.com 2012.05.11 機械学習 プログラミング勉強会 2012年5月12日土曜日
  • 2. 本日の内容 データマイニングによる異常検知 - 第5章 異常行動検出 - 2012年5月12日土曜日
  • 3. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 4. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 5. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中 2012年5月12日土曜日
  • 6. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年5月12日土曜日
  • 7. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2012年5月12日土曜日
  • 8. 活動例: 市場予測 Web上の情報から市場予測 2012年5月12日土曜日
  • 9. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年5月12日土曜日
  • 10. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 86 2012年5月12日土曜日
  • 11. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年5月12日土曜日
  • 13. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 14. 異常検知とは 大概のデータが従う規則的なパターンからずれた 異常や変化を見つけ出し活用する技術 セキュリティや障害検知、マーケティングなど応用範囲が広い 2012年5月12日土曜日
  • 15. セキュリティでの応用 トラフィック量の過去の時系列的な振る舞いを用いて 異常な振る舞いが始まったタイミングで検知する 2012年5月12日土曜日
  • 16. システム障害への応用 システムのログの中から異常なログを検出し 障害の原因調査及び対策に活用する 2012年5月12日土曜日
  • 17. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 18. 基本的な考え方 !"#$%&' 予測モデル と 異常スコアの算出 の2段階で考える !"#$%&' 訓練データ モデルからの乖離 モデルの 実績値 変化の度合い !" 予測モデル 2012年5月12日土曜日
  • 19. 時系列モデルの構築 訓練データを用いて、対象データの予測モデルを構築する 2012年5月12日土曜日
  • 20. 異常スコアの算出 予測モデルで予測した値と実際の乖離の度合いや 1ステップ前の予測モデルと今回の予測モデルの 確率分布の変化の度合いを異常スコアとして算出する モデルによる予測 乖離の度合いを 異常スコアにする 実績 2012年5月12日土曜日
  • 21. Rによる変化点検出の簡単な実行例 訓練データからARモデルを構築 どの程度モデルから乖離しているかを異常スコアとする ARモデルの構築と予測 過去の残差 2012年5月12日土曜日
  • 22. Rによる変化点検出の簡単な実行例 時系列データyを用意してシミュレーションする 51∼100個目のデータで異常検知を実行 学習データ 新しいデータ 結果をデータフレムに整形 2012年5月12日土曜日
  • 23. Rによる変化点検出の簡単な実行例 過去に比べて急激に下がった時点を検知 単純なしきい値設定では検知出来ない異常を検出する事が出来る 異常発生! 観測値 予測値 異常発生! 異常発生! 異常スコア 2012年5月12日土曜日
  • 24. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 25. 異常行動検出 大量のログから行動パターンを学習し 不正行為や不審行為を自動的に検出する技術 図: http://bit.ly/J4PrAf 2012年5月12日土曜日
  • 26. 静的な異常行動検出モデル 特定のユーザに関するセッションの発生確率が 他のユーザに比べて有為に小さくなったときにアラートを出す 2012年5月12日土曜日
  • 27. 動的な異常行動検出モデル 出現頻度では異常がなくても、時間的順序に異常がある場合もある 動きを確率モデルで表現し、動的な異常行動も検出する cp cp cd vi cd zip sendmail vi zip sendmail 2012年5月12日土曜日
  • 28. 異常行動検出の基本的な流れ 行動を複数の行動モデルの線形結合で表現 混合数は行動パターン数を意味しており、動的に決定する 2012年5月12日土曜日
  • 29. 混合隠れマルコフモデル 行動を複数の隠れマルコフモデルの線形結合で表現する 2012年5月12日土曜日
  • 30. オンライン忘却型学習: E-Step メンバーシップ確率の更新を行う j番目のセッションが k番目の成分で出力される確率 2012年5月12日土曜日
  • 31. オンライン忘却型学習: M-Step 各パラメータの更新を行う 2012年5月12日土曜日
  • 32. 混合数の決定 学習されたモデルの中で最適な混合数を持つものを選択 最適な混合数の時間的変化は行動パターンの構造的な変化を意味する 図: http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf 2012年5月12日土曜日
  • 33. 異常スコアの算出 1ステップまでのモデルでの発生確率を セッション長で割った値を異常スコアとして用いる 2012年5月12日土曜日
  • 34. しきい値の動的最適化 異常スコアのヒストグラムをオンライン忘却型学習 裾確率がρを超えない最大のスコアをしきい値として設定する 2012年5月12日土曜日
  • 35. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 36. なりすまし検出 UNIXコマンド列からなりすましユーザとそのタイミングを検出 図: http://bit.ly/J4PrAf 2012年5月12日土曜日
  • 37. なりすまし検出 なりすましのタイミングで行動パターン数が増える 図: http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf 2012年5月12日土曜日
  • 38. syslogからの障害検知 syslogからログの出力パターンを学習して異常検知を実施 システムロックアップの予兆を2日前に発見 図: http://bit.ly/J4PrAf 2012年5月12日土曜日
  • 39. syslogからの障害検知 システムロックアップの発生前にはログの出力パターンが増える 図: http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf 2012年5月12日土曜日
  • 40. AGENDA ◆ 自己紹介 ◆ 異常検知とは ◆ 基本的な考え方 ◆ 異常行動検出 ◆ 異常行動検出の応用例 2012年5月12日土曜日
  • 41. TokyoRの 発表者・LTを募集しています! 2012年5月12日土曜日
  • 44. Web上の参考資料 ◆ 統計的異常検出3手法 http://chishiki.t.u-tokyo.ac.jp/event/20060706/yamanishi.pdf ◆ ダイナミックマイニングと異常検出・CGMテキスト分析への応用 http://bit.ly/J4PrAf 2012年5月12日土曜日