220825 지승현 ERM-based regularization.pptx

Soongsil Univ. DSAI Lab.
ERM-based Regularizations
Ishida et al. (Tokyo univ.), Do We Need Zero Training Loss After Achieving
Zero Training Error?, ICML 2020
Zheng et al., (Beihang univ), Regularizing Neural Networks via Adversarial
Model Perturbation, CVPR 2021
1
지승현 발표
22.08.25.

목차
1. ERM과 일반화의 어려움
2. Flooding in ER (Ishida et al. proposed)
3. Finding flat minima on ER space (Zheng et al. proposed)
4. Conclusion
2

1. ERM과 일반화의 어려움 (1)
– Empirical Risk Minimization
– 현대의 딥러닝 방법은 Empirical Risk Minimization (ERM) 의 원리로 학습
𝑱 = 𝔼 𝒙,𝒚 ~𝑷𝒅𝒂𝒕𝒂
𝑳 𝒇 𝒙 , 𝒚 ≈
𝟏
𝑵
𝒊
𝑵
𝑳 𝒇 𝒙𝒊 , 𝒚𝒊 → (𝑴𝒐𝒏𝒕𝒆 𝑪𝒂𝒓𝒍𝒐 𝒎𝒆𝒕𝒉𝒐𝒅)
– 현실에 존재하는 모든 데이터에 대해 𝑳 을 0으로 만들면 모든 데이터에 대한 정확한 추론 가능 (좌)
– 하지만 이는 현실적으로 불가능하므로 N개 학습 데이터에 대해 L을 최소화하는 방향으로 학습 (우)
 현실세계 𝑷𝒅𝒂𝒕𝒂에서 아주 이상적인 데이터 샘플링이 가능하다면, ERM으로 충분
 그러나 그럴 확률은 매우 낮음
3

– Training != Generalization
– 이미지, 텍스트등의 데이터는 초고차원에 매우 방대한 용량으로 구성
– 따라서 아무리 많은 데이터를 𝑷𝒅𝒂𝒕𝒂에서 샘플링해도, ERM만으로 일반화가 불가능
– 일반적으로 딥러닝에선 {𝑫𝒕𝒓𝒂𝒊𝒏 , 𝑫𝒕𝒆𝒔𝒕} ~ 𝑷𝒅𝒂𝒕𝒂 를 각각 샘플링하여 𝑫𝒕𝒓𝒂𝒊𝒏으로 학습 후 𝑫𝒕𝒆𝒔𝒕로
테스트하여, 𝑫𝒕𝒆𝒔𝒕에 대해 성능이 가장 뛰어난 checkpoint (per n epoch) 를 선택
 그러나 딥러닝은 어떤 checkpoint가 𝑫𝒕𝒆𝒔𝒕에 대한 성능이 제일 좋은지 명확하게 밝혀지지 않음
 심지어 𝑫𝒕𝒆𝒔𝒕에 대한 성능이 좋더라도 또다른 𝑫(~𝑷𝒅𝒂𝒕𝒂) 에 대해 성능이 좋다는 보장이 없음
 애초에 MLE를 통해 𝑫𝒕𝒓𝒂𝒊𝒏과 𝑫𝒕𝒆𝒔𝒕 로 추산한 pdf가 𝑷𝒅𝒂𝒕𝒂와 유사할 확률조차 매우 작음
4

– 여러 현실적인 문제 정리
1. 이미지, 텍스트 데이터는 초고차원이다.
 𝑷𝒅𝒂𝒕𝒂를 추정하는데 매우 많은 데이터가 필요하다.
2. 현실에는 발생확률 자체가 낮은 데이터가 존재한다. 이는 샘플링을 통해 얻기 어렵다.
 발생확률이 낮은 데이터를 많이 샘플링해야 하므로, 𝑷𝒅𝒂𝒕𝒂를 알 확률은 매우 낮다.
3. 여전히 ERM을 완벽히 수행하더라도 모델 성능이 낮을 수 있다.
 𝑷𝒅𝒂𝒕𝒂자체의 Entropy가 높을 경우 정확한 추론이 어렵다.
5

– 많은 규제기법의 등장
– ERM을 통한 학습은 overfitting을 유발하기 쉽기 때문에, 다음과 같이 학습을 어렵게 만들자.
– Dropout : 신경망 내 노드들이 서로 ensemble 효과를 내도록 하자 -> 학습 시 일부 가중치를 제거
– Label smoothing : 𝑷𝒅𝒂𝒕𝒂는 one-hot vector가 아닐 것이다 -> 학습 시 정답 레이블의 확률을
1 미만으로 설정
– mixup : 𝑷𝒅𝒂𝒕𝒂에서는 희귀하게 발생하는 데이터를 샘플링하기 어렵고, 학습 과정에서 𝑷𝒅𝒂𝒕𝒂가 높은
엔트로피 (불확정성)를 지닐 때를 고려하지 못한다. -> 두 데이터를 섞어서 data augmentation
 그러나 이 규제기법들은 ERM을 직접 활용하지 않으므로, 결국 training loss를 0으로 만들게 된다.
 training loss를 0으로 만드는 것이 좋은지 나쁜지는 아직 불분명
6

– Training loss를 0으로 못 만들게 하자
(flooding)
– training loss를 최소화하기 어렵게 만들어도
결국 학습을 반복하면 0이 된다.
– 그렇다면 아예 0으로 만들지 못하게 하자!
7

– 제안 방법의 수식
– Empirical Risk를 다음과 같이 정의할 때 (좌), Flooded Empirical Risk는 (우)
– Empirical Risk가 b보다 크다면 Gradient descent
– Empirical Risk가 b보다 작다면 Gradient ascent (부력 효과)
– ascent는 즉 training data를 더 못 맞추도록 학습하는 것을 의미
– 이 때 b는 통상적인 hyperparameter search를 통해 결정
8

– 본 방법은 Train data를 memorize하지 못하게 함
– training loss가 0이 된다는 것은 data를 외웠다는 것
– 본 저자는 loss 대신 error를 사용하여 “training error” 측정
– 그 결과 여러 데이터셋에 대해 flood level (b in Flooded
Empirical Risk) 을 높힐수록 Training error는 0으로 수렴되
지 못한다는 것을 확인
 그러나 memorization과 overfitting의 관계는 명확하지 않음
* 혹은 적절한 b를 결정한다면, 최적 validation error를 나타내는
파라미터 범위에서 추가적인 탐색을 수행하는 효과 발휘
(타 연구원 의견)
9
(Training error)

– 약간의 차이로 더 좋은 성능을 보임
– w/o early stopping은 training epoch=100 일때의 모델을 선정
10

– Given loss에서 Flat minima의 𝜽는 더 좋은 일반화 성능을 보인다.
– 그렇다면 그냥 flat minima를 찾으면 안될까?  𝑳𝑨𝑴𝑷를 제안
– Flooding과 비교하면 다음과 같다 (우)
11
(Training error)

– Adversarial Model Perturbation
– ERM이 다음과 같이 주어질 때, AMP는 𝜽에 perturbation (값 변동) 을 준다.
– 이 때 perturbation ∈ −𝝐, 𝝐 (𝝐는 하이퍼파라미터) 이자 given loss를 최대화하는 값
– 이는 가우시안 ER space를 가정할 때, 반지름이 𝝐인 구 범위 내 최대 loss를 선택하는 상황
 이를 통해 자연스럽게 flat minima를 찾을 수 있으며, 상세 증명은 논문에 기술
12

3. Find flat minima on ER space (Zheng et al. proposed)
– Flat minima는 decision boundary와 datapoint를 떨어트린다.
– Sharp minima는 decision boundary (made by 𝜽) 가 약간만 변화해도 성능이 변화
– 반면 Flat minima는 그렇지 않음
– 이는 즉 decision boundary와 datapoint를 떨어트려 놓는 효과를 가진다.
13

– 여러 데이터셋 및 Regularization 기법들과 비교한 결과 성능이 제일 우수
14

4. Conclusion
– 딥러닝은 주어진 목적함수(Loss)를 최소화하는 것을 통해 학습
– 이 때 Loss가 0이 되면 모델은 더이상 학습하지 못한다
– Loss에 다양한 규제기법을 통해 일반화 성능을 향상
15

References (not on title)
– Nakkiran, Preetum, et al. "Deep Double Descent: Where Bigger Models and More Data Hurt." International
Conference on Learning Representations. 2019.
– Zhang, Chiyuan, et al. "Understanding deep learning (still) requires rethinking generalization." Communications
of the ACM 64.3 (2021): 107-115.
16

220825 지승현 ERM-based regularization.pptx

Recommended

Recommended

More Related Content

Featured

Featured (20)

220825 지승현 ERM-based regularization.pptx