S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"

머신 러닝(machine learning) 기반
이상 탐지(anomaly detection)
-DataIntelligenceLab-
2023.07.25. 이상명

2
❑ 연구실 소개
❑ 이상 탐지 란
❑ 이상 탐지의 기본 원리
❑ 이상 탐지 알고리즘
❑ 샘플 복잡도
목차

3
❑ DataIntelligenceLab( DILab)
연구실 소개

4
연구실 소개
❑ DataIntelligenceLab( DILab)

6
❑ 시계열 데이터
❑ 시간적 순서를 갖는 관측치로 구성됨
❑ 주가 데이터 . 센서 데이터 , …
Input data type
Sliding window

8
Sensorexample.
Anomaly Pattern
Noised Data

10
❑ 시계열 이상탐지의 어려움
❑ 이상 유형이 다양함
❑ 라벨링 비용
1. 도메인 지식 필요
2. 정상과 이상의 경계가 불분명
❑ 데이터 불균형

11
Machinelearning
준지도학습
(Semi-supervised Learning)
• 소수의 labeled data를 학습에 이용
이상탐지는 Imbalanced dataset이기 때문에 주로 비지도 학습

12
Imbalanceddatasets
1. Labeling cost
2. Real scenario
Normal data only
비지도학습이 선호됨

13
❑ Statisticalmodel
❑ 이전 시점의 데이터로 미래 시점을 예측해서 예측 값과 관측 값의 불일치 정도를 anomaly score로
정량화
▪ ARIMA(Autoregressive Integrated Moving Average)
▪ STL (Seasonal Trend Decomposition using Loess )
▪ ETS (Exponential Smoothing State Space Model)
▪ VAR (Vector Autoregressive)
❑ Clusteringmodel
❑ Data를 clustering 하고 cluster의 중심으로부터 떨어진 거리를 통해 anomaly score 정량화
• K-means clustering
• One-classSVM
• GMM(gaussian mixture model)
• DBSCAN(density based spatial clustering of applications with noise)
Classical approach

14
❑ Reconstructionbasedapproach
➢ 모델이 복원한 값과 관측값의 차이를 통해 anomaly score 정량화
▪ Autoencoder
❑ Forecastingbasedapproach
➢ 모델이 예측한 값과 관측값의 차이를 통해 anomaly score 정량화
▪ LSTM
❑ Hybridapproach
Deeplearning-basedapproach

15
SVM(supportvectormachine)
Hard margin SVM
Soft margin SVM
Non - linearly
separable

16
➢ 비선형 분류 문제를 풀기 위해 선형 분리가 가능한 고차원 공간(reproducing kernel Hilbert
space, RKHS) 으로 mapping
KernelSVM

20
Supportvectordatadescription (SVDD)

21
➢ Featuremap𝜙(⋅) 를 신경망을 통해 찾기
DeepSVDD
Anomaly score :
Objective :

23
❑ Autoencoder
Deeplearning-basedapproach
1. 정상 데이터로만 학습
2. Anomaly score = 입력 데이터 – 복원 데이터
3. Anomaly score > threshold : 이상으로 탐지

25
❑ AE1 : generator
❑ Phase 1 : reconstruction error 최소화
❑ Phase 2 : 실제 데이터 W와 AE2의 생성 데이터 간의 reconstruction error 최소화
❑ AE2 : discriminator
❑ Phase 1 : reconstruction error 최소화
❑ Phase 2 : 실제 데이터 W와 AE2의 생성 데이터 간의 reconstruction error 최대화
Two – phasetraining
Phase 1 Phase 2

27
GNN foranomalydetection
Sensor간의 dependency를 고려

31
❑ 평가 방법의 한계
❑ F1 : best F1
❑ AUC : 모든 임계 값에 대한 성능의 평균
❑ 이상치의 영향력 고려
❑ 임계 값 문제
❑ Attack data에 대한 정보 없이 임계 값 추정
Limitation

학습 데이터에 따른 제어시스템 이상탐지 AI모델의 영향성 연구

33
❑ Background
❑ Related work
❑ Problem definition
목차

34
❑ 관련 연구 키워드 :Samplecomplexity
Background and related work
Sample complexity : 머신러닝 모델이 성공적으로 학습하기 위해서는 데이터가 얼마나 필요한지
Optimal performance
Optimal Model complexity
Performance
(Generalization Error)
Model complexity Train data size

35
❑ Classical learningtheory의 PAC(Probablyapproximatelycorrect) - learning
❑ 학습 알고리즘이 학습 데이터를 기반으로 새로운 데이터에 대해 어떻게 예측할지 가늠
❑ 학습 알고리즘이 특정 함수를 근사하기 위해서는 “학습데이터가 얼마나 필요한지” Generalization
bound 에 대한 연구
❑ Generalization bound는 주로 다음과 같은 식의 형태를 띰
| train error – test error| ≤ O( Model complexity, Data size, Confidence level )

36
❑ VC(Vapnik-Chervonenkis) - dimension
➢ 대표적이고 고전적인 model complexity 척도
➢ 분류(classification)문제에서 머신러닝 모델이 학습데이터 포인트를 나눌 수 있는 경우의 수와 연관
➢ 머신러닝 모델이 만들 수 있는 가설 함수 공간(𝐻)의 크기를 정량화
➢ 최적의 성능을 위해서는 적절한 model- complexity가 요구된다

37
❑ 하지만, Deep learning model의 경우 여러 이론들(e.g., Universal approximation theorem,
… )이 말해주듯이 model이 만들 수 있는 함수 공간이 매우 크고 함수 표현력이 뛰어남.
❑ 최근 연구동향에서 sample complexity와 관련된 주제의 예시는 다음과 같음
❑ Theoretical analysis
➢ 기존의 learning theory 이외에 정보 이론을 통한 접근법이나 새로운 이론적인 접근법을 통해
학습 곡선 예측과 추정
❑ Active learning
➢ 한정된 자원내에서 성능 향상에 큰 의미를 갖는 데이터에 우선적으로 labelling, annotation
하기 위해 데이터의 가치 판단 및 선별
❑ Transfer learning , Meta learning , few-shot learning
➢ Pre-trained model이 있을 때, 적은 데이터로 효율적으로 목표 성능을 달성하기 위해
고전적인 머신러닝 모델에는 기존의 model complexity가 잘 적용되지만
딥러닝 모델에 대해서는 실제 성능과 이론의 차이가 큼

38
❑ “AMeta-LearningApproachto PredictingPerformanceandDataRequirements“ byAchin Jainetal.
➢ Meta learning에서 어림짐작으로 Data size에 따른 Learning curve 추정 하는 power law와
비교해서 개선된 piecewise power law 를 제안
➢ Learning curve에서 double descent, and saturation를 고려하지 않았다는 한계가 존재

39
❑ "How muchmoredatado i need? estimatingrequirementsfordownstreamtasks.“(Mahmood,
Rafid, etal. ,CVPR, 2022)
➢ 일부 데이터셋에 대해서 반복적인 모델평가를 하고 성능 추정 함수
의 파라미터를 추정

40
❑ "TooLarge; DataReduction forVision-LanguagePre-Training.“(Wang,AlexJinpeng, etal., preprint,
2023)
➢ large-scale Vision-Language Pre-Training (VLP) datasets에 대하여 효과적인 압축방안을 제시
➢ 이미지- 텍스트 데이터의 특성(high redundancy, misalignment )때문에 적절한 선택과
정제(refinement)를 통해 더 적은 데이터수로도 목표 성능을 달성할 수 있음을 보임
➢ Figure1.을 통해서 알 수 있듯이 단순히 data size 뿐 만 아니라 data complexity 역시 sample
complexity 고려에 중요한 요소
ITM : image – text matching

41
❑ “ATheoretical-EmpiricalApproachto EstimatingSampleComplexityof DNNs”(Bisla, Devanshet
al.,CVPR,2021)
❑ 학습데이터 수에 따른 딥러닝 모델의 일반화 오류(generalization error)의 함수를 이론적으로 추정
❑ test point ො
𝑥 가 error를 만들어낼 확률을 feature space에서 ො
𝑥 의 nearest neighbor인 x(ො
𝑥) 와의
거리에 비례하는 Φ ො
𝑥 로 정의
Nearest neighbor : train data point
Test data point ො
𝑥
[ Feature space (D dim.)]
“radius” : Empirically 추정
최종적으로 Error 함수를 계산하기
위해서 Empirically 추정
“radius” : Empirically 추정

42
❑ EffectivedimensionalityD를 찾기 위해Featureextractor부분에 Bottleneckstructure를 추가함
❑ Pre-trained model의 성능(accuracy)을 대부분( ≈ 90%) 보존하는 압축을 통해 D를 찾고 D차원의
feature space에서 Φ ො
𝑥 적분을 통해 error 기대값을 계산함
ATheoretical-EmpiricalApproachto EstimatingSampleComplexityof DNNs
Pre-trained model Bottleneck
structure
Bottleneck
structure
D = 2

43
❑ 최종적으로Traindata의 분포 𝒇𝒕𝒓𝒂𝒊𝒏 ,Testdata의 분포 𝒇𝒕𝒆𝒔𝒕 를 통해, 다음 적분 식을 계산(by
MonteCarlomethod)함으로써 datasize N에 따른 error의 기대값 𝑬𝒇𝒕𝒆𝒔𝒕
[𝚽]를 추정함
➢ 최종적으로 D-차원의 적분을 함으로써 데이터 수(N)에 따른 error의 기대 값 함수가 유도됨

44
Hyperparameter : Empirically 추정
➢ D-차원의 feature space에서
가우시안 분포를 가정함
➢ Maximum likelihood approach를 통해
가우시안의 파라미터(𝜇, 𝛴)를 추정

45
❑ 학습 데이터 복잡도(entropy)와 시계열 이상탐지 AI 모델의 성능 변화의 상관 관계 연구
❑ 데이터 복잡도 : sampling rate에 따른 시계열 데이터의 복잡도를 entropy-based metric을 통해
정량화
❑ Base AI 모델 : “USAD: UnSupervised Anomaly Detection on Multivariate Time Series” by Julien
Audibert et al.
❑ 성능 : F1, AUC , 이상치 점수, 확률 분포 거리 metric(e.g., Jensen-Shannon divergence, Total
variance distance, … )
➢ 각각의 이상 탐지 성능 metric은 한계를 갖고 있기 때문에 여러가지 metric에 대해서
종합적으로 평가
❑ Entropy analysis
❑ 생물학에서 EEG(Electro Encephalo Graphy,뇌파), ECG(electrocardiogram, 심전도)같이 복잡한 시계열
생체신호의 동적 특성을 분석하고 이상상태(질병)를 파악하기 위해 여러가지 entropy-based
metric을 사용함
❑ 마찬가지로, 물리학의 비선형 동역학에서 시계열로부터 시스템의 동적 특성이나 복잡성, 초기 조건의
민감성 등을 entropy를 통해 정량화하고 혼돈계(Chaos system)을 분석함
Problemdefinition

46
❑ 연구를 통한 이점
① 이상탐지 성능 최적화 : Entropy가 높으면 불필요한 정보(noise)에 의해 모델이 과적합 될 수 있고
낮으면 데이터의 중요한 정보를 잃을 수 있기 때문에 적절한 entropy에 따른 최적의 모델 성능을
제시
② 학습 시간, 자원 단축
③ 최적의 모델 성능을 보장하는 entropy를 통해 down sampling rate 가이드라인을 제시할 수 있음
❑ 더 나아가서,
➢ Entropy와 성능의 변화를 이해함으로써 효과적인 윈도우 크기(window size)에 대한 연구,
적절한 데이터 수(time step)에 대한 연구로 이어질 수 있음
➢ 이상 탐지 뿐만 아니라 시계열 도메인의 다른 task에도 유용할 수 있음
Problemdefinition

❑ “Time Series Complexities and Their Relationship to Forecasting Performance”(Ponce-
Flores, Mirna, et al., Entropy, 2020)
❑ Entropy를 통해 정량화된 시계열 데이터의 특성(time series complexity)과 통계 모델(e.g., ARIMA,
ETS, …) 예측 성능과의 PCA를 통한 상관관계 연구
❑ 데이터 수(time step)에 따른 entropy값들과 예측 성능과의 분석
❑ 딥러닝 모델이 아니라 통계 모델이라는 차이점이 존재
47
Comparing method

48
❑ Shannon entropy
➢ Y값의 분포
❑ Spectral entropy
➢ Frequency의 분포
❑ Bubble entropy
➢ Pattern(상승과 하강) 출현에 대한 분포
❑ Phase entropy
➢ Slope angle에 대한 분포
Entropybasedmeasure
➢ Entropy based measure를 통해 시계열 데이터의
예측가능성, 무작위성을 정량화 할 수 있음

❑ 학습데이터의 데이터 수(time step length)를 늘리면서 각각의 센서에 대해 4가지
entropy들을 측정한 결과
49
Dataratio 10%~ 100% (SWaT)
데이터 수(time step length)에 대해서 entropy가 대체로 flat하기 때문에 성능과 상관관계
연구에서 뚜렷한 경향성을 찾기 힘들 수 있음

50
❑ 적절한 Sampling rate미만이라면 신호가 왜곡되기 때문에 모델 성능에 결정적
➢ Noise가 포함 되어있는 sensor 시계열의 경우 sampling rate에 의한 왜곡이 심함
Motivatingexample

51
Motivatingexample
Sine data Noised - Sine data
➢ Frequency의 분포를 계산하는 spectral entropy 의 경우, noise에 민감한 것을 확인할 수 있음
➢ Y값의 분포를 계산하는 shannon entropy의 경우, sampling rate에 민감한 것을 확인할 수 있음
Down sampling rate

52
Motivatingexample
Logistic map :
Bifurcation : 시간이 충분히 흐른 뒤 반복되어 나타나는 점의 개수를 나타냄
Logistic map을 통해 생성되는 시계열 데이터를 통해 선정한 entropy들이 시계열의 복잡성을
표현하는지 확인할 수 있음

53
Motivatingexample
시계열의 일부 복잡한 성질을 선정한 entropy들이 나타냄을 확인할 수 있음

54
❑ 각 센서에 대한 4가지 entropy measure
Down sampling rate 1-500 (SWaT)
1. down sampling rate에 따라 시계열의 특성이 변화함을 확인할 수 있음
2. 단, model complexity와 data complexity의 고려를 위해 fine-tuning을 통한 effective
dimension에서 분석되어야 함

S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"

Recommended

Recommended

More Related Content

Similar to S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"

Similar to S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection" (20)

More from Network Science Lab, The Catholic University of Korea

More from Network Science Lab, The Catholic University of Korea (20)

S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"