非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出2. 本⽇日紹介する論論⽂文
• “Statistical Outlier Detection Using
Direct Density Ratio Estimation”
直接密度度⽐比推定を⽤用いた統計的外れ値検出
• Shohei Hido (⽐比⼾戸 将平) et al.
元 IBM Researcher
現 PFN Chief Research Officer
• Knowledge and Information Systems 2011
2
3. この論論⽂文を選んだ理理由
• 井⼿手剛 杉⼭山将『異異常検知と変化検知』
• Chapter 11 密度度⽐比推定による異異常検知
– カルバック・ライブラー密度度⽐比推定法
• KLIEP (Sugiyama+ 2008)
– 最⼩小2乗密度度⽐比推定法
• LSIF (Kanamori+ 2009)
• ⾮非制約最⼩小⼆二乗密度度⽐比推定法
– uLSIF (Kanamori+ 2009)
➡︎ 本に載ってない最新⼿手法が!
3
7. Inlier-based Outlier Detection
• 外れ値を検出したい場合、外れ値を含ま
ない (inlier) データを持っている場合が
多い
• 例例:機器の正常データ
• 外れ値を含まないデータ (inlier) と外れ値
を含むデータ (contains outlier) を持って
いる場合に、外れ値を検出する問題を扱
う
7
14. 密度度⽐比を割り算で求めてはいけない
• xtr と xte それぞれの確率率率密度度を求め、
それを割り算する
⇨ 誤差が⼤大きい!
• バプニックの原理理(Vapnik's principle)
「ある問題を解くときにそれよりも⼀一般的な問
題を途中段階で得べきでない」
• 密度度⽐比 w(x) を直接推定する
14
17. ① KMM (Kernel Mean Matching)
• Huang et al. 2007
• 再⽣生核ヒルベルト空間上で ptr(x) と
w(x)pte(x) の期待値の差を最⼩小にする
• w(x) の関数形でなく xte における w を推定
• クロスバリデーションが使えないのが⽋欠点
17
18. ② Logistic Regression (LogReg)
• 左項 p(η=-1) / p(η=1) = nte / ntr で推定
• 右項の p(η | x) はそれぞれロジスティック
回帰で求める
18
25. 直接密度度⽐比推定法の⽐比較
• KMM ⇨ CV ができない
• LogReg & KLIEP ⇨ CV できるけど遅い
• LSIF ⇨ CV 可 & 速い、けど解が不不安定
• uLSIF ⇨ CV 可 & 速い & 安定
• 結論論: uLSIF 最強
25
29. USPS データセット
• U.S. Postal Service の⼿手書き数字データ
• 16 ✖ 16 = 256 次元
• ⼈人間に読みにくいものが検出された
29
32. ① Kernel Density Estimator (KDE)
• pnu(x) と pde(x) の密度度をそれぞれ推定
• 割り算した値を密度度⽐比として、外れ値スコ
アにする
• 次元の呪いにより⾼高次元でうまくいかない
32
35. 既存⼿手法との⽐比較
• 提案した uLSIF を使った⽅方法は、
• ①KDE には勝つだろう
• ②OSVM, ③LOF はパラメータ選択が必要
– OSVM ⇨ ガウスカーネルの σ
– LOF ⇨ k-近傍の k
• uLSIF は、LOOCV で最適なパラメータ選
択ができるのが強み。あと速い。
35
38. 実験①
• R ̈atsch’s Benchmark Repository
• ⼆二値分類データセット (12個)
• 訓練データから負例例を全部消去
• テストデータには⽐比率率率 ρ で負例例を⼊入れる
• 検出率率率(true positive) と 検出精度度(false
positive) で ROC 曲線が描かれるので、
その AUC で評価する
38
42. • KMM と OSVM は σ に全サンプル間の距
離離の中央値を使った
• 遅すぎて使い物にならない
42
43. • LOF は k を⼤大きくすれば AUC が⾼高くなる。
• しかし、最適な k を決める⽅方法はない。
• KDE もたまに良良いが遅い
43
45. 実験②
• SMART データ
• ハードディスクのセルフモニタリング
• 369 サンプル中 178 “good”, 191 “failed”
• 59 変数中 25 個を使う (Murray+2005)
• “good” だけの訓練データ
• ρ だけ “failed” を混ぜたテストデータ
45
46. • AUC は k を⼤大きくした LOF が良良いが、
めっちゃ遅いので uLSIF が良良い
46
47. 実験③
• Real Finance データ
• ローン顧客の7ヶ⽉月間⾏行行動データ(11変数)
• 6ヶ⽉月後にリスク “high”, “low” か判定
• これが正解データになる
• 訓練 “low” のみ、テスト ρ だけ “high”
• 7ヶ⽉月間のデータでリスク “high” を検出
• 4ヶ⽉月間のデータでリスク “high” を検出
47
48. • AUC は LOF に勝利利!
• uLSIF 最強!
48
50. おまけ
50
• R で実装してみた (densratioパッケージ)
>
install.packages("densratio")
>
vignette("densratio")
52. 参考⽂文献
• KLIEP
Sugiyama, M., Suzuki, T., Nakajima, S.,
Kashima, H., von Bünau, P. & Kawanabe, M.
Direct importance estimation for covariate
shift adaptation. AISM 2008.
• OSVM, LOF
「異異常検知技術のビジネス応⽤用最前線」
http://www.slideshare.net/shoheihido/fit2012
52