2012/11/27
数理情報学特別講義Ⅰ
情報理工学系研究科 コンピュータ科学専攻
     本位田研究室 徐 聖博




                       1
発表論文

• タイトル:Incremental Local Outlier
  Detection for Data Streams (IEEE
  Symposium on Computational Intelligence
  and Data Mining, 2007)

• 著者:Dragoljub Pokrajec, Aleksandar
  Lazarevic,Longin Jan Latecki




                                            2
概容

• 背景:データ量の増大に伴い、外れ値検出
 (outlier, anomaly)の需要が高まっている。
 ➡ リアルタイムな検出が重要

• 提案・結果:動的な外れ値検出のアルゴリズ
 ムを新たに導入し、静的解析アルゴリズムと
 同等の外れ値検出精度・計算量削減を実現。




                                 3
背景(外れ値検出手法)
•   静的アプローチ
    •確率的分散を用いてモデリングする
•   距離ベースアプローチ
    •すべての次元や射影したものを使う
    •密度やクラスタリングの技術も使う
•   分析的アプローチ
    •データ・マイニング手法やヒューリスティックな手法
     を用いて、逸脱した点を割り出す
•   モデルベースアプローチ
    •予めモデルを仮定する




                                4
背景(local outlier factor)


• 各点に対して、外れ値と考えられる度
 合い(LOF)を与える。(近傍点との密度
 を計算することで得られる。)

• LOFの値が高いほど、外れ値である可
 能性が高い。




                           5
背景(LOFの利点)


• 大域モデルではなく、近傍点との密度
 によって検知される

• データ点の分散を仮定しないため、正
 常値との分散に関係なく検出される




                      6
背景(静的LOFの問題点1)
   Periodic LOF




 ※データの記録開始点に依存する。



                    7
背景(静的LOFの問題点2)
     Supervised LOF
• 事前に計算した値を用いてる
 ため、LOFが正確ではない。

• 新たな行動傾向をすべて異常
 値として検出してしまう。

• 虚偽(masquerading)データ
 (訓練データと分布が一致し
 てるもの)を見破れない


                        8
背景(静的LOFの問題点3)
   Iterated LOF

• 毎回、全データに対して計算を行うた
 め、データ点の増加とともに、計算量
 も増大する。

 ※オンラインでの処理には不適当




                      9
背景(提案手法の優位性)

• 毎回データの挿入時に計算されるため、
 独立な外れ値に加え、集団の性質が変化
 した場合にも対応できる。

• より正確なLOFを求めることができる。
• 計算効率がよく、オンラインシステムに
 適している。



                        10
手法(LOFの計算方法)
•   各点qの第k近傍点までの距離k-distance(q)を計算する。

•   到達可能距離(reachability distance)を計算する。



•   local reachability density(lrd)を計算する。




•   LOFを計算する。




                                            11
手法(挿入時のアルゴリズム)
     k=2の場合

2つの近傍
点における
k-distance
 を計算。




                 12
手法(挿入時のアルゴリズム)
      k=2の場合


k-distanceの
 影響を受け
reach-distを
  再計算。




                  13
手法(挿入時のアルゴリズム)
     k=2の場合


reach-distの
更新の影響を
受ける点のlrd
を再計算。




                 14
手法(挿入時のアルゴリズム)
      k=2の場合

reach-distと
lrdの変化の
影響を受ける
点のLOFを
  再計算




                  15
計算量に関して

• 計算量は、下記の式のようになる。

•          なるFを定義する
 と、Fはkに比例し、次元数Dの指数乗
 に比例する。



                      16
計算量に関して
•       に関して

•     に関して

•      に関して


               17
計算量に関して

既存研究を用いて




N点全て挿入するのにかかる計算量は




                    18
実験・評価

•   計算量に関する実験




•   振る舞いの学習に関する実験




•   ビデオを含む実データを用いた実験




                       19
1.計算量に関する実験
       実験に用いたデータ
•   データ点の数:{100,200,...,5000}

•   次元数:{2,3,4,5,10}

•   近傍点の数(k) :{5,10,15,20}

•   分布:ガウス分布(μ=0,σ=1.0)

•   1設定辺りの実験回数:100回




                                20
1.計算量に関する実験
               Nが十分
              大きいと、
              LOFの更新
              数は一定と
               なった




                   21
1.計算量に関する実験
N=2000に固定し、kに関する考察




※実際のデータは、最悪の場合であるO(k3)
ほど悪くなく、k2も行かない。
※※次元数の増加によって、爆発的に更新
回数が増えていないため、次元数はネック
とならないと考えられる。
                         22
2.振る舞いの学習に関する(1)
   実験に用いたデータ

 • 2種類のガウス分布

 • 各々500のデータ点を用意、500回目
  で切り替えて挿入し、外れ値検出の振
  る舞いを見る。



                         23
2.振る舞いの学習に関する(1)
   実験に用いたデータ

            510回目までは
            外れ値として認
            識したが、それ
            以降は正常値と
            して認識した。




                   24
2.振る舞いの学習に関する(2)
   実験に用いたデータ

 • 2種類のガウス分布

 • 各々500のデータ点を用意、500回目
  で切り替えて挿入し、外れ値検出の振
  る舞いを見る。



                         25
2.振る舞いの学習に関する(2)
    実験に用いたデータ


600回目以降
はLOFの最大
値が10を超
え、外れ値と
 して検出。



                    26
3.実データを用いた実験
  実験に用いたデータ


• 100フレームの動画データ
• 防犯カメラの動画
• TCP通信における割り込み検出


                    27
3.実データを用いた実験
     結果
         実データに
         おいても、
         適切に外れ
         値を検出で
         きていた。




                 28
結論

• incremental LOFを提案し、合成デー
 タ・実データを用いた実験をした。

• 実験を通し、静的解析と同等の外れ値検
 出性能を示し、計算の効率性も示した。

• 他の外れ値検出技法では検知できない、
 虚偽データ・新たな傾向を検出できた。



                             29

数理情報学特別講義ⅰ輪講