34. 34
❑ 관련 연구 키워드 :Samplecomplexity
Background and related work
Sample complexity : 머신러닝 모델이 성공적으로 학습하기 위해서는 데이터가 얼마나 필요한지
Optimal performance
Optimal Model complexity
Performance
(Generalization Error)
Model complexity Train data size
35. 35
❑ Classical learningtheory의 PAC(Probablyapproximatelycorrect) - learning
❑ 학습 알고리즘이 학습 데이터를 기반으로 새로운 데이터에 대해 어떻게 예측할지 가늠
❑ 학습 알고리즘이 특정 함수를 근사하기 위해서는 “학습데이터가 얼마나 필요한지” Generalization
bound 에 대한 연구
❑ Generalization bound는 주로 다음과 같은 식의 형태를 띰
Background and related work
| train error – test error| ≤ O( Model complexity, Data size, Confidence level )
36. 36
❑ VC(Vapnik-Chervonenkis) - dimension
➢ 대표적이고 고전적인 model complexity 척도
➢ 분류(classification)문제에서 머신러닝 모델이 학습데이터 포인트를 나눌 수 있는 경우의 수와 연관
➢ 머신러닝 모델이 만들 수 있는 가설 함수 공간(𝐻)의 크기를 정량화
Background and related work
➢ 최적의 성능을 위해서는 적절한 model- complexity가 요구된다
37. 37
❑ 하지만, Deep learning model의 경우 여러 이론들(e.g., Universal approximation theorem,
… )이 말해주듯이 model이 만들 수 있는 함수 공간이 매우 크고 함수 표현력이 뛰어남.
❑ 최근 연구동향에서 sample complexity와 관련된 주제의 예시는 다음과 같음
❑ Theoretical analysis
➢ 기존의 learning theory 이외에 정보 이론을 통한 접근법이나 새로운 이론적인 접근법을 통해
학습 곡선 예측과 추정
❑ Active learning
➢ 한정된 자원내에서 성능 향상에 큰 의미를 갖는 데이터에 우선적으로 labelling, annotation
하기 위해 데이터의 가치 판단 및 선별
❑ Transfer learning , Meta learning , few-shot learning
➢ Pre-trained model이 있을 때, 적은 데이터로 효율적으로 목표 성능을 달성하기 위해
Background and related work
고전적인 머신러닝 모델에는 기존의 model complexity가 잘 적용되지만
딥러닝 모델에 대해서는 실제 성능과 이론의 차이가 큼
38. 38
❑ “AMeta-LearningApproachto PredictingPerformanceandDataRequirements“ byAchin Jainetal.
Background and related work
➢ Meta learning에서 어림짐작으로 Data size에 따른 Learning curve 추정 하는 power law와
비교해서 개선된 piecewise power law 를 제안
➢ Learning curve에서 double descent, and saturation를 고려하지 않았다는 한계가 존재
39. 39
❑ "How muchmoredatado i need? estimatingrequirementsfordownstreamtasks.“(Mahmood,
Rafid, etal. ,CVPR, 2022)
Background and related work
➢ 일부 데이터셋에 대해서 반복적인 모델평가를 하고 성능 추정 함수
의 파라미터를 추정
40. 40
❑ "TooLarge; DataReduction forVision-LanguagePre-Training.“(Wang,AlexJinpeng, etal., preprint,
2023)
Background and related work
➢ large-scale Vision-Language Pre-Training (VLP) datasets에 대하여 효과적인 압축방안을 제시
➢ 이미지- 텍스트 데이터의 특성(high redundancy, misalignment )때문에 적절한 선택과
정제(refinement)를 통해 더 적은 데이터수로도 목표 성능을 달성할 수 있음을 보임
➢ Figure1.을 통해서 알 수 있듯이 단순히 data size 뿐 만 아니라 data complexity 역시 sample
complexity 고려에 중요한 요소
ITM : image – text matching
41. 41
❑ “ATheoretical-EmpiricalApproachto EstimatingSampleComplexityof DNNs”(Bisla, Devanshet
al.,CVPR,2021)
❑ 학습데이터 수에 따른 딥러닝 모델의 일반화 오류(generalization error)의 함수를 이론적으로 추정
❑ test point ො
𝑥 가 error를 만들어낼 확률을 feature space에서 ො
𝑥 의 nearest neighbor인 x(ො
𝑥) 와의
거리에 비례하는 Φ ො
𝑥 로 정의
Background and related work
Nearest neighbor : train data point
Test data point ො
𝑥
[ Feature space (D dim.)]
“radius” : Empirically 추정
최종적으로 Error 함수를 계산하기
위해서 Empirically 추정
“radius” : Empirically 추정
42. 42
❑ EffectivedimensionalityD를 찾기 위해Featureextractor부분에 Bottleneckstructure를 추가함
❑ Pre-trained model의 성능(accuracy)을 대부분( ≈ 90%) 보존하는 압축을 통해 D를 찾고 D차원의
feature space에서 Φ ො
𝑥 적분을 통해 error 기대값을 계산함
ATheoretical-EmpiricalApproachto EstimatingSampleComplexityof DNNs
Pre-trained model Bottleneck
structure
Bottleneck
structure
D = 2
43. 43
❑ 최종적으로Traindata의 분포 𝒇𝒕𝒓𝒂𝒊𝒏 ,Testdata의 분포 𝒇𝒕𝒆𝒔𝒕 를 통해, 다음 적분 식을 계산(by
MonteCarlomethod)함으로써 datasize N에 따른 error의 기대값 𝑬𝒇𝒕𝒆𝒔𝒕
[𝚽]를 추정함
ATheoretical-EmpiricalApproachto EstimatingSampleComplexityof DNNs
➢ 최종적으로 D-차원의 적분을 함으로써 데이터 수(N)에 따른 error의 기대 값 함수가 유도됨
45. 45
❑ 학습 데이터 복잡도(entropy)와 시계열 이상탐지 AI 모델의 성능 변화의 상관 관계 연구
❑ 데이터 복잡도 : sampling rate에 따른 시계열 데이터의 복잡도를 entropy-based metric을 통해
정량화
❑ Base AI 모델 : “USAD: UnSupervised Anomaly Detection on Multivariate Time Series” by Julien
Audibert et al.
❑ 성능 : F1, AUC , 이상치 점수, 확률 분포 거리 metric(e.g., Jensen-Shannon divergence, Total
variance distance, … )
➢ 각각의 이상 탐지 성능 metric은 한계를 갖고 있기 때문에 여러가지 metric에 대해서
종합적으로 평가
❑ Entropy analysis
❑ 생물학에서 EEG(Electro Encephalo Graphy,뇌파), ECG(electrocardiogram, 심전도)같이 복잡한 시계열
생체신호의 동적 특성을 분석하고 이상상태(질병)를 파악하기 위해 여러가지 entropy-based
metric을 사용함
❑ 마찬가지로, 물리학의 비선형 동역학에서 시계열로부터 시스템의 동적 특성이나 복잡성, 초기 조건의
민감성 등을 entropy를 통해 정량화하고 혼돈계(Chaos system)을 분석함
Problemdefinition
46. 46
❑ 연구를 통한 이점
① 이상탐지 성능 최적화 : Entropy가 높으면 불필요한 정보(noise)에 의해 모델이 과적합 될 수 있고
낮으면 데이터의 중요한 정보를 잃을 수 있기 때문에 적절한 entropy에 따른 최적의 모델 성능을
제시
② 학습 시간, 자원 단축
③ 최적의 모델 성능을 보장하는 entropy를 통해 down sampling rate 가이드라인을 제시할 수 있음
❑ 더 나아가서,
➢ Entropy와 성능의 변화를 이해함으로써 효과적인 윈도우 크기(window size)에 대한 연구,
적절한 데이터 수(time step)에 대한 연구로 이어질 수 있음
➢ 이상 탐지 뿐만 아니라 시계열 도메인의 다른 task에도 유용할 수 있음
Problemdefinition
47. ❑ “Time Series Complexities and Their Relationship to Forecasting Performance”(Ponce-
Flores, Mirna, et al., Entropy, 2020)
❑ Entropy를 통해 정량화된 시계열 데이터의 특성(time series complexity)과 통계 모델(e.g., ARIMA,
ETS, …) 예측 성능과의 PCA를 통한 상관관계 연구
❑ 데이터 수(time step)에 따른 entropy값들과 예측 성능과의 분석
❑ 딥러닝 모델이 아니라 통계 모델이라는 차이점이 존재
47
Comparing method
48. 48
❑ Shannon entropy
➢ Y값의 분포
❑ Spectral entropy
➢ Frequency의 분포
❑ Bubble entropy
➢ Pattern(상승과 하강) 출현에 대한 분포
❑ Phase entropy
➢ Slope angle에 대한 분포
Entropybasedmeasure
➢ Entropy based measure를 통해 시계열 데이터의
예측가능성, 무작위성을 정량화 할 수 있음
49. ❑ 학습데이터의 데이터 수(time step length)를 늘리면서 각각의 센서에 대해 4가지
entropy들을 측정한 결과
49
Dataratio 10%~ 100% (SWaT)
데이터 수(time step length)에 대해서 entropy가 대체로 flat하기 때문에 성능과 상관관계
연구에서 뚜렷한 경향성을 찾기 힘들 수 있음
50. 50
❑ 적절한 Sampling rate미만이라면 신호가 왜곡되기 때문에 모델 성능에 결정적
➢ Noise가 포함 되어있는 sensor 시계열의 경우 sampling rate에 의한 왜곡이 심함
Motivatingexample
51. 51
Motivatingexample
Sine data Noised - Sine data
➢ Frequency의 분포를 계산하는 spectral entropy 의 경우, noise에 민감한 것을 확인할 수 있음
➢ Y값의 분포를 계산하는 shannon entropy의 경우, sampling rate에 민감한 것을 확인할 수 있음
Down sampling rate
54. 54
❑ 각 센서에 대한 4가지 entropy measure
Down sampling rate 1-500 (SWaT)
1. down sampling rate에 따라 시계열의 특성이 변화함을 확인할 수 있음
2. 단, model complexity와 data complexity의 고려를 위해 fine-tuning을 통한 effective
dimension에서 분석되어야 함