Your SlideShare is downloading. ×

20130318 統計手法勉強会 外れ値検出 FRaC

398

Published on

外れ値検出法の紹介 …

外れ値検出法の紹介
FRaC法

Published in: Technology, Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
398
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. FRaC: A Feature-Modeling Appraoch for Semi-Supervised and Unsupervised Anomaly Detection. Anomaly Detection Using an Ensemble of Feature Models. FRaC: Feature Regression and Classification 20130318 Statistical Method Journal
  • 2. Result UCI machine learning repository Rにも数多く収録されているデータセットの 図書館 iris R has many data set from this library such as data(iris). FRaCを用いた学習が一番いい性能である場 合が多かった。 The number of the situations where FRaC was the best performance method.
  • 3. 機械学習 Machine learning 手元のデータ(訓練データ)からパターンを抽 出し、新たなデータ(テストデータ)の回帰・ 分類をすること。 To extract patterns from existed data (train) and perform regression or classification of new data (test).
  • 4. 教師 (あり / 半あり / なし) 学習 Supervised / Semi-supervised / Unsupervised ML 教師あり学習 Supervised ML 真偽のラベルがわかるtrainで学習する Learning from train data whose labels T/F are known. 半教師あり学習 Semi-supervised ML 真偽の片方のラベルだけがあるtrainで学習する Learning from train data whose labels are either only T/F. 教師なし学習 Unsupervised ML 真偽のラベルがわからないtrainで学習する Learning from train data whose labels T/F are unknown. Anomaly detection
  • 5. 手法 algorithm 距離 distance-based SVM Support Vector Machine K-nearest neighbor K-means clustering 密度 density-based LOF Local Outlier Factor 他 etc PCA Principal Component Analysis Decision tree Random Forest 特徴 feature model approach CFA Cross-Feature Analysis FRaC Feature Regression and Classification オススメ!! Recommend!!
  • 6. Example data set n Dimension vector → one anomaly score [1,] 69.613 129.070 52.111 → a1 [2,] 70.670 128.161 52.446 → a2 [3,] 72.303 128.450 52.853 → a3 …
  • 7. SVM Support Vector Machine 超平面を引き、各点との距離を最大化す る。 Make hyperplane to maximize distance from each data point.
  • 8. SVM Support Vector Machine kernlab, e1071 教師なし学習なら、超平面 をひいたときに最も離れて いる点をスコア化する(と思 う)。 On unsupervised ML, we quantify the distance from the hyperplane as anomaly score.
  • 9. SVM classification 何も考えずに分類したと するとこうなる。たぶん 半分がT/Fと勝手に設定 されている。 If we classify the test data as default settings, result is like this. The half of data are T/F. Kernel? Tuning?
  • 10. K-nearest neighbor FNN ある点に近いk個の点と の距離を考える。 Compute the distance from k points around a certain point.
  • 11. K-means clustering kmeans K個のクラスターを作る。 似ているものを集めるの で、厳密には外れ値検出 ではない。 Make k clusters. Clustering is a method gathering looking- same samples. This is not anomaly detection.
  • 12. 主成分分析 PCA Principal Component Analysis prcomp もとの変数を相関のない別の 変数にする手続き。 an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables.
  • 13. 決定木 decision tree 分岐した図。 maps observations about an item to conclusions about the item's target value.
  • 14. Random Forest randomForest 決定木をたくさん作る分類器 A classifier to make many decision trees.
  • 15. LOF Local Outlier Factor Rlof ある点のまわりMinPts個の点の密度を計算する。 Compute the density of MinPts points around a certain point. MinPts = 3
  • 16. LOF Local Outlier Factor MinPts = 3 1 付近は同一集団 Nomal data are around 1. Anomaly scoreが大きいと外れ値 しかし閾値はわからない Anomal data has large anomaly score but threshold is unknown.
  • 17. Feature model approach 色々な外れ値検出法から算出されるanomaly scoreを利用する(?) Combine many anomaly scores computed from other anomaly detection analysis (?). CFA Cross-Feature Analysis (?) FRaC Feature Regression and Classification
  • 18. n Dimension vector → one anomaly score [1,] 69.613 129.070 52.111 → a1 [2,] 70.670 128.161 52.446 → a2 [3,] 72.303 128.450 52.853 → a3 … 尺度でも連続値でもいい Nominal or continuous i 番目を他のデータで予測する Prdict ith data from the others p番目の予測モデルでの特徴(?) predictor of type 実データと予測との誤差 The total error of a test set
  • 19. nominal continuous Anomaly score
  • 20. FRaC 色々な手法をパクるのが一番精度がいい(黒) Decision tree, SVM, decision stump
  • 21. SVM LOF KNN

×