20130318 統計手法勉強会 外れ値検出 FRaC

879 views

Published on

外れ値検出法の紹介
FRaC法

Published in: Technology, Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
879
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

20130318 統計手法勉強会 外れ値検出 FRaC

  1. 1. FRaC: A Feature-Modeling Appraoch for Semi-Supervised and Unsupervised Anomaly Detection. Anomaly Detection Using an Ensemble of Feature Models. FRaC: Feature Regression and Classification 20130318 Statistical Method Journal
  2. 2. Result UCI machine learning repository Rにも数多く収録されているデータセットの 図書館 iris R has many data set from this library such as data(iris). FRaCを用いた学習が一番いい性能である場 合が多かった。 The number of the situations where FRaC was the best performance method.
  3. 3. 機械学習 Machine learning 手元のデータ(訓練データ)からパターンを抽 出し、新たなデータ(テストデータ)の回帰・ 分類をすること。 To extract patterns from existed data (train) and perform regression or classification of new data (test).
  4. 4. 教師 (あり / 半あり / なし) 学習 Supervised / Semi-supervised / Unsupervised ML 教師あり学習 Supervised ML 真偽のラベルがわかるtrainで学習する Learning from train data whose labels T/F are known. 半教師あり学習 Semi-supervised ML 真偽の片方のラベルだけがあるtrainで学習する Learning from train data whose labels are either only T/F. 教師なし学習 Unsupervised ML 真偽のラベルがわからないtrainで学習する Learning from train data whose labels T/F are unknown. Anomaly detection
  5. 5. 手法 algorithm 距離 distance-based SVM Support Vector Machine K-nearest neighbor K-means clustering 密度 density-based LOF Local Outlier Factor 他 etc PCA Principal Component Analysis Decision tree Random Forest 特徴 feature model approach CFA Cross-Feature Analysis FRaC Feature Regression and Classification オススメ!! Recommend!!
  6. 6. Example data set n Dimension vector → one anomaly score [1,] 69.613 129.070 52.111 → a1 [2,] 70.670 128.161 52.446 → a2 [3,] 72.303 128.450 52.853 → a3 …
  7. 7. SVM Support Vector Machine 超平面を引き、各点との距離を最大化す る。 Make hyperplane to maximize distance from each data point.
  8. 8. SVM Support Vector Machine kernlab, e1071 教師なし学習なら、超平面 をひいたときに最も離れて いる点をスコア化する(と思 う)。 On unsupervised ML, we quantify the distance from the hyperplane as anomaly score.
  9. 9. SVM classification 何も考えずに分類したと するとこうなる。たぶん 半分がT/Fと勝手に設定 されている。 If we classify the test data as default settings, result is like this. The half of data are T/F. Kernel? Tuning?
  10. 10. K-nearest neighbor FNN ある点に近いk個の点と の距離を考える。 Compute the distance from k points around a certain point.
  11. 11. K-means clustering kmeans K個のクラスターを作る。 似ているものを集めるの で、厳密には外れ値検出 ではない。 Make k clusters. Clustering is a method gathering looking- same samples. This is not anomaly detection.
  12. 12. 主成分分析 PCA Principal Component Analysis prcomp もとの変数を相関のない別の 変数にする手続き。 an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables.
  13. 13. 決定木 decision tree 分岐した図。 maps observations about an item to conclusions about the item's target value.
  14. 14. Random Forest randomForest 決定木をたくさん作る分類器 A classifier to make many decision trees.
  15. 15. LOF Local Outlier Factor Rlof ある点のまわりMinPts個の点の密度を計算する。 Compute the density of MinPts points around a certain point. MinPts = 3
  16. 16. LOF Local Outlier Factor MinPts = 3 1 付近は同一集団 Nomal data are around 1. Anomaly scoreが大きいと外れ値 しかし閾値はわからない Anomal data has large anomaly score but threshold is unknown.
  17. 17. Feature model approach 色々な外れ値検出法から算出されるanomaly scoreを利用する(?) Combine many anomaly scores computed from other anomaly detection analysis (?). CFA Cross-Feature Analysis (?) FRaC Feature Regression and Classification
  18. 18. n Dimension vector → one anomaly score [1,] 69.613 129.070 52.111 → a1 [2,] 70.670 128.161 52.446 → a2 [3,] 72.303 128.450 52.853 → a3 … 尺度でも連続値でもいい Nominal or continuous i 番目を他のデータで予測する Prdict ith data from the others p番目の予測モデルでの特徴(?) predictor of type 実データと予測との誤差 The total error of a test set
  19. 19. nominal continuous Anomaly score
  20. 20. FRaC 色々な手法をパクるのが一番精度がいい(黒) Decision tree, SVM, decision stump
  21. 21. SVM LOF KNN

×