数理情報学特別講義ⅰ輪講

2012/11/27
数理情報学特別講義Ⅰ
情報理工学系研究科コンピュータ科学専攻
本位田研究室徐聖博

1

発表論文

• タイトル：Incremental Local Outlier
Detection for Data Streams (IEEE
Symposium on Computational Intelligence
and Data Mining, 2007)

• 著者：Dragoljub Pokrajec, Aleksandar
Lazarevic,Longin Jan Latecki

2

概容

• 背景：データ量の増大に伴い、外れ値検出
(outlier, anomaly)の需要が高まっている。
➡ リアルタイムな検出が重要

• 提案・結果：動的な外れ値検出のアルゴリズ
ムを新たに導入し、静的解析アルゴリズムと
同等の外れ値検出精度・計算量削減を実現。

3

背景（外れ値検出手法）
• 静的アプローチ
•確率的分散を用いてモデリングする
• 距離ベースアプローチ
•すべての次元や射影したものを使う
•密度やクラスタリングの技術も使う
• 分析的アプローチ
•データ・マイニング手法やヒューリスティックな手法
を用いて、逸脱した点を割り出す
• モデルベースアプローチ
•予めモデルを仮定する

4

背景（local outlier factor）

• 各点に対して、外れ値と考えられる度
合い(LOF)を与える。（近傍点との密度
を計算することで得られる。）

• LOFの値が高いほど、外れ値である可
能性が高い。

5

背景（LOFの利点）

• 大域モデルではなく、近傍点との密度
によって検知される

• データ点の分散を仮定しないため、正
常値との分散に関係なく検出される

6

背景（静的LOFの問題点１）
Periodic LOF

※データの記録開始点に依存する。

7

背景（静的LOFの問題点２）
Supervised LOF
• 事前に計算した値を用いてる
ため、LOFが正確ではない。

• 新たな行動傾向をすべて異常
値として検出してしまう。

• 虚偽(masquerading)データ
（訓練データと分布が一致し
てるもの）を見破れない

8

背景（静的LOFの問題点3）
Iterated LOF

• 毎回、全データに対して計算を行うた
め、データ点の増加とともに、計算量
も増大する。

※オンラインでの処理には不適当

9

背景（提案手法の優位性）

• 毎回データの挿入時に計算されるため、
独立な外れ値に加え、集団の性質が変化
した場合にも対応できる。

• より正確なLOFを求めることができる。
• 計算効率がよく、オンラインシステムに
適している。

10

手法（LOFの計算方法）
• 各点qの第k近傍点までの距離k-distance(q)を計算する。

• 到達可能距離(reachability distance)を計算する。

• local reachability density(lrd)を計算する。

• LOFを計算する。

11

手法（挿入時のアルゴリズム）
k=2の場合

２つの近傍
点における
k-distance
を計算。

12

k=2の場合

k-distanceの
影響を受け
reach-distを
再計算。

13

k=2の場合

reach-distの
更新の影響を
受ける点のlrd
を再計算。

14

k=2の場合

reach-distと
lrdの変化の
影響を受ける
点のLOFを
再計算

15

計算量に関して

• 計算量は、下記の式のようになる。

• なるFを定義する
と、Fはkに比例し、次元数Dの指数乗
に比例する。

16

• に関して

• に関して

• に関して

17


既存研究を用いて

N点全て挿入するのにかかる計算量は

18

実験・評価

• 計算量に関する実験

• 振る舞いの学習に関する実験

• ビデオを含む実データを用いた実験

19

１．計算量に関する実験
実験に用いたデータ
• データ点の数：｛100,200,...,5000｝

• 次元数：｛2,3,4,5,10｝

• 近傍点の数(k) ：｛5,10,15,20｝

• 分布：ガウス分布(μ=0,σ=1.0)

• １設定辺りの実験回数：100回

20

Nが十分
大きいと、
LOFの更新
数は一定と
なった

21

N=2000に固定し、kに関する考察

※実際のデータは、最悪の場合であるO(k3)
ほど悪くなく、k2も行かない。
※※次元数の増加によって、爆発的に更新
回数が増えていないため、次元数はネック
とならないと考えられる。
22

２．振る舞いの学習に関する(1)

• ２種類のガウス分布

• 各々500のデータ点を用意、500回目
で切り替えて挿入し、外れ値検出の振
る舞いを見る。

23


510回目までは
外れ値として認
識したが、それ
以降は正常値と
して認識した。

24


• ２種類のガウス分布

• 各々500のデータ点を用意、500回目
で切り替えて挿入し、外れ値検出の振
る舞いを見る。

25


600回目以降
はLOFの最大
値が10を超
え、外れ値と
して検出。

26

3．実データを用いた実験

• 100フレームの動画データ
• 防犯カメラの動画
• TCP通信における割り込み検出

27

3．実データを用いた実験
結果
実データに
おいても、
適切に外れ
値を検出で
きていた。

28

結論

• incremental LOFを提案し、合成デー
タ・実データを用いた実験をした。

• 実験を通し、静的解析と同等の外れ値検
出性能を示し、計算の効率性も示した。

• 他の外れ値検出技法では検知できない、
虚偽データ・新たな傾向を検出できた。

29

数理情報学特別講義ⅰ輪講

More Related Content

Viewers also liked

Similar to 数理情報学特別講義ⅰ輪講

More from Shengbo Xu

Recently uploaded

数理情報学特別講義ⅰ輪講