SlideShare a Scribd company logo
1 of 16
Soongsil Univ. DSAI Lab.
ERM-based Regularizations
Ishida et al. (Tokyo univ.), Do We Need Zero Training Loss After Achieving
Zero Training Error?, ICML 2020
Zheng et al., (Beihang univ), Regularizing Neural Networks via Adversarial
Model Perturbation, CVPR 2021
1
지승현 발표
22.08.25.
Soongsil Univ. DSAI Lab.
목차
1. ERM과 일반화의 어려움
2. Flooding in ER (Ishida et al. proposed)
3. Finding flat minima on ER space (Zheng et al. proposed)
4. Conclusion
2
Soongsil Univ. DSAI Lab.
1. ERM과 일반화의 어려움 (1)
– Empirical Risk Minimization
– 현대의 딥러닝 방법은 Empirical Risk Minimization (ERM) 의 원리로 학습
𝑱 = 𝔼 𝒙,𝒚 ~𝑷𝒅𝒂𝒕𝒂
𝑳 𝒇 𝒙 , 𝒚 ≈
𝟏
𝑵
𝒊
𝑵
𝑳 𝒇 𝒙𝒊 , 𝒚𝒊 → (𝑴𝒐𝒏𝒕𝒆 𝑪𝒂𝒓𝒍𝒐 𝒎𝒆𝒕𝒉𝒐𝒅)
– 현실에 존재하는 모든 데이터에 대해 𝑳 을 0으로 만들면 모든 데이터에 대한 정확한 추론 가능 (좌)
– 하지만 이는 현실적으로 불가능하므로 N개 학습 데이터에 대해 L을 최소화하는 방향으로 학습 (우)
 현실세계 𝑷𝒅𝒂𝒕𝒂에서 아주 이상적인 데이터 샘플링이 가능하다면, ERM으로 충분
 그러나 그럴 확률은 매우 낮음
3
Soongsil Univ. DSAI Lab.
1. ERM과 일반화의 어려움 (2)
– Training != Generalization
– 이미지, 텍스트등의 데이터는 초고차원에 매우 방대한 용량으로 구성
– 따라서 아무리 많은 데이터를 𝑷𝒅𝒂𝒕𝒂에서 샘플링해도, ERM만으로 일반화가 불가능
– 일반적으로 딥러닝에선 {𝑫𝒕𝒓𝒂𝒊𝒏 , 𝑫𝒕𝒆𝒔𝒕} ~ 𝑷𝒅𝒂𝒕𝒂 를 각각 샘플링하여 𝑫𝒕𝒓𝒂𝒊𝒏으로 학습 후 𝑫𝒕𝒆𝒔𝒕로
테스트하여, 𝑫𝒕𝒆𝒔𝒕에 대해 성능이 가장 뛰어난 checkpoint (per n epoch) 를 선택
 그러나 딥러닝은 어떤 checkpoint가 𝑫𝒕𝒆𝒔𝒕에 대한 성능이 제일 좋은지 명확하게 밝혀지지 않음
 심지어 𝑫𝒕𝒆𝒔𝒕에 대한 성능이 좋더라도 또다른 𝑫(~𝑷𝒅𝒂𝒕𝒂) 에 대해 성능이 좋다는 보장이 없음
 애초에 MLE를 통해 𝑫𝒕𝒓𝒂𝒊𝒏과 𝑫𝒕𝒆𝒔𝒕 로 추산한 pdf가 𝑷𝒅𝒂𝒕𝒂와 유사할 확률조차 매우 작음
4
Soongsil Univ. DSAI Lab.
1. ERM과 일반화의 어려움 (3)
– 여러 현실적인 문제 정리
1. 이미지, 텍스트 데이터는 초고차원이다.
 𝑷𝒅𝒂𝒕𝒂를 추정하는데 매우 많은 데이터가 필요하다.
2. 현실에는 발생확률 자체가 낮은 데이터가 존재한다. 이는 샘플링을 통해 얻기 어렵다.
 발생확률이 낮은 데이터를 많이 샘플링해야 하므로, 𝑷𝒅𝒂𝒕𝒂를 알 확률은 매우 낮다.
3. 여전히 ERM을 완벽히 수행하더라도 모델 성능이 낮을 수 있다.
 𝑷𝒅𝒂𝒕𝒂자체의 Entropy가 높을 경우 정확한 추론이 어렵다.
5
Soongsil Univ. DSAI Lab.
1. ERM과 일반화의 어려움 (4)
– 많은 규제기법의 등장
– ERM을 통한 학습은 overfitting을 유발하기 쉽기 때문에, 다음과 같이 학습을 어렵게 만들자.
– Dropout : 신경망 내 노드들이 서로 ensemble 효과를 내도록 하자 -> 학습 시 일부 가중치를 제거
– Label smoothing : 𝑷𝒅𝒂𝒕𝒂는 one-hot vector가 아닐 것이다 -> 학습 시 정답 레이블의 확률을
1 미만으로 설정
– mixup : 𝑷𝒅𝒂𝒕𝒂에서는 희귀하게 발생하는 데이터를 샘플링하기 어렵고, 학습 과정에서 𝑷𝒅𝒂𝒕𝒂가 높은
엔트로피 (불확정성)를 지닐 때를 고려하지 못한다. -> 두 데이터를 섞어서 data augmentation
 그러나 이 규제기법들은 ERM을 직접 활용하지 않으므로, 결국 training loss를 0으로 만들게 된다.
 training loss를 0으로 만드는 것이 좋은지 나쁜지는 아직 불분명
6
Soongsil Univ. DSAI Lab.
2. Flooding in ER (Ishida et al. proposed)
– Training loss를 0으로 못 만들게 하자
(flooding)
– training loss를 최소화하기 어렵게 만들어도
결국 학습을 반복하면 0이 된다.
– 그렇다면 아예 0으로 만들지 못하게 하자!
7
Soongsil Univ. DSAI Lab.
2. Flooding in ER (Ishida et al. proposed)
– 제안 방법의 수식
– Empirical Risk를 다음과 같이 정의할 때 (좌), Flooded Empirical Risk는 (우)
– Empirical Risk가 b보다 크다면 Gradient descent
– Empirical Risk가 b보다 작다면 Gradient ascent (부력 효과)
– ascent는 즉 training data를 더 못 맞추도록 학습하는 것을 의미
– 이 때 b는 통상적인 hyperparameter search를 통해 결정
8
Soongsil Univ. DSAI Lab.
2. Flooding in ER (Ishida et al. proposed)
– 본 방법은 Train data를 memorize하지 못하게 함
– training loss가 0이 된다는 것은 data를 외웠다는 것
– 본 저자는 loss 대신 error를 사용하여 “training error” 측정
– 그 결과 여러 데이터셋에 대해 flood level (b in Flooded
Empirical Risk) 을 높힐수록 Training error는 0으로 수렴되
지 못한다는 것을 확인
 그러나 memorization과 overfitting의 관계는 명확하지 않음
* 혹은 적절한 b를 결정한다면, 최적 validation error를 나타내는
파라미터 범위에서 추가적인 탐색을 수행하는 효과 발휘
(타 연구원 의견)
9
(Training error)
Soongsil Univ. DSAI Lab.
2. Flooding in ER (Ishida et al. proposed)
– 약간의 차이로 더 좋은 성능을 보임
– w/o early stopping은 training epoch=100 일때의 모델을 선정
10
Soongsil Univ. DSAI Lab.
3. Finding flat minima on ER space (Zheng et al. proposed)
– Given loss에서 Flat minima의 𝜽는 더 좋은 일반화 성능을 보인다.
– 그렇다면 그냥 flat minima를 찾으면 안될까?  𝑳𝑨𝑴𝑷를 제안
– Flooding과 비교하면 다음과 같다 (우)
11
(Training error)
Soongsil Univ. DSAI Lab.
– Adversarial Model Perturbation
– ERM이 다음과 같이 주어질 때, AMP는 𝜽에 perturbation (값 변동) 을 준다.
– 이 때 perturbation ∈ −𝝐, 𝝐 (𝝐는 하이퍼파라미터) 이자 given loss를 최대화하는 값
– 이는 가우시안 ER space를 가정할 때, 반지름이 𝝐인 구 범위 내 최대 loss를 선택하는 상황
 이를 통해 자연스럽게 flat minima를 찾을 수 있으며, 상세 증명은 논문에 기술
12
3. Finding flat minima on ER space (Zheng et al. proposed)
Soongsil Univ. DSAI Lab.
3. Find flat minima on ER space (Zheng et al. proposed)
– Flat minima는 decision boundary와 datapoint를 떨어트린다.
– Sharp minima는 decision boundary (made by 𝜽) 가 약간만 변화해도 성능이 변화
– 반면 Flat minima는 그렇지 않음
– 이는 즉 decision boundary와 datapoint를 떨어트려 놓는 효과를 가진다.
13
Soongsil Univ. DSAI Lab.
3. Finding flat minima on ER space (Zheng et al. proposed)
– 여러 데이터셋 및 Regularization 기법들과 비교한 결과 성능이 제일 우수
14
Soongsil Univ. DSAI Lab.
4. Conclusion
– 딥러닝은 주어진 목적함수(Loss)를 최소화하는 것을 통해 학습
– 이 때 Loss가 0이 되면 모델은 더이상 학습하지 못한다
– Loss에 다양한 규제기법을 통해 일반화 성능을 향상
15
Soongsil Univ. DSAI Lab.
References (not on title)
– Nakkiran, Preetum, et al. "Deep Double Descent: Where Bigger Models and More Data Hurt." International
Conference on Learning Representations. 2019.
– Zhang, Chiyuan, et al. "Understanding deep learning (still) requires rethinking generalization." Communications
of the ACM 64.3 (2021): 107-115.
16

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

220825 지승현 ERM-based regularization.pptx

  • 1. Soongsil Univ. DSAI Lab. ERM-based Regularizations Ishida et al. (Tokyo univ.), Do We Need Zero Training Loss After Achieving Zero Training Error?, ICML 2020 Zheng et al., (Beihang univ), Regularizing Neural Networks via Adversarial Model Perturbation, CVPR 2021 1 지승현 발표 22.08.25.
  • 2. Soongsil Univ. DSAI Lab. 목차 1. ERM과 일반화의 어려움 2. Flooding in ER (Ishida et al. proposed) 3. Finding flat minima on ER space (Zheng et al. proposed) 4. Conclusion 2
  • 3. Soongsil Univ. DSAI Lab. 1. ERM과 일반화의 어려움 (1) – Empirical Risk Minimization – 현대의 딥러닝 방법은 Empirical Risk Minimization (ERM) 의 원리로 학습 𝑱 = 𝔼 𝒙,𝒚 ~𝑷𝒅𝒂𝒕𝒂 𝑳 𝒇 𝒙 , 𝒚 ≈ 𝟏 𝑵 𝒊 𝑵 𝑳 𝒇 𝒙𝒊 , 𝒚𝒊 → (𝑴𝒐𝒏𝒕𝒆 𝑪𝒂𝒓𝒍𝒐 𝒎𝒆𝒕𝒉𝒐𝒅) – 현실에 존재하는 모든 데이터에 대해 𝑳 을 0으로 만들면 모든 데이터에 대한 정확한 추론 가능 (좌) – 하지만 이는 현실적으로 불가능하므로 N개 학습 데이터에 대해 L을 최소화하는 방향으로 학습 (우)  현실세계 𝑷𝒅𝒂𝒕𝒂에서 아주 이상적인 데이터 샘플링이 가능하다면, ERM으로 충분  그러나 그럴 확률은 매우 낮음 3
  • 4. Soongsil Univ. DSAI Lab. 1. ERM과 일반화의 어려움 (2) – Training != Generalization – 이미지, 텍스트등의 데이터는 초고차원에 매우 방대한 용량으로 구성 – 따라서 아무리 많은 데이터를 𝑷𝒅𝒂𝒕𝒂에서 샘플링해도, ERM만으로 일반화가 불가능 – 일반적으로 딥러닝에선 {𝑫𝒕𝒓𝒂𝒊𝒏 , 𝑫𝒕𝒆𝒔𝒕} ~ 𝑷𝒅𝒂𝒕𝒂 를 각각 샘플링하여 𝑫𝒕𝒓𝒂𝒊𝒏으로 학습 후 𝑫𝒕𝒆𝒔𝒕로 테스트하여, 𝑫𝒕𝒆𝒔𝒕에 대해 성능이 가장 뛰어난 checkpoint (per n epoch) 를 선택  그러나 딥러닝은 어떤 checkpoint가 𝑫𝒕𝒆𝒔𝒕에 대한 성능이 제일 좋은지 명확하게 밝혀지지 않음  심지어 𝑫𝒕𝒆𝒔𝒕에 대한 성능이 좋더라도 또다른 𝑫(~𝑷𝒅𝒂𝒕𝒂) 에 대해 성능이 좋다는 보장이 없음  애초에 MLE를 통해 𝑫𝒕𝒓𝒂𝒊𝒏과 𝑫𝒕𝒆𝒔𝒕 로 추산한 pdf가 𝑷𝒅𝒂𝒕𝒂와 유사할 확률조차 매우 작음 4
  • 5. Soongsil Univ. DSAI Lab. 1. ERM과 일반화의 어려움 (3) – 여러 현실적인 문제 정리 1. 이미지, 텍스트 데이터는 초고차원이다.  𝑷𝒅𝒂𝒕𝒂를 추정하는데 매우 많은 데이터가 필요하다. 2. 현실에는 발생확률 자체가 낮은 데이터가 존재한다. 이는 샘플링을 통해 얻기 어렵다.  발생확률이 낮은 데이터를 많이 샘플링해야 하므로, 𝑷𝒅𝒂𝒕𝒂를 알 확률은 매우 낮다. 3. 여전히 ERM을 완벽히 수행하더라도 모델 성능이 낮을 수 있다.  𝑷𝒅𝒂𝒕𝒂자체의 Entropy가 높을 경우 정확한 추론이 어렵다. 5
  • 6. Soongsil Univ. DSAI Lab. 1. ERM과 일반화의 어려움 (4) – 많은 규제기법의 등장 – ERM을 통한 학습은 overfitting을 유발하기 쉽기 때문에, 다음과 같이 학습을 어렵게 만들자. – Dropout : 신경망 내 노드들이 서로 ensemble 효과를 내도록 하자 -> 학습 시 일부 가중치를 제거 – Label smoothing : 𝑷𝒅𝒂𝒕𝒂는 one-hot vector가 아닐 것이다 -> 학습 시 정답 레이블의 확률을 1 미만으로 설정 – mixup : 𝑷𝒅𝒂𝒕𝒂에서는 희귀하게 발생하는 데이터를 샘플링하기 어렵고, 학습 과정에서 𝑷𝒅𝒂𝒕𝒂가 높은 엔트로피 (불확정성)를 지닐 때를 고려하지 못한다. -> 두 데이터를 섞어서 data augmentation  그러나 이 규제기법들은 ERM을 직접 활용하지 않으므로, 결국 training loss를 0으로 만들게 된다.  training loss를 0으로 만드는 것이 좋은지 나쁜지는 아직 불분명 6
  • 7. Soongsil Univ. DSAI Lab. 2. Flooding in ER (Ishida et al. proposed) – Training loss를 0으로 못 만들게 하자 (flooding) – training loss를 최소화하기 어렵게 만들어도 결국 학습을 반복하면 0이 된다. – 그렇다면 아예 0으로 만들지 못하게 하자! 7
  • 8. Soongsil Univ. DSAI Lab. 2. Flooding in ER (Ishida et al. proposed) – 제안 방법의 수식 – Empirical Risk를 다음과 같이 정의할 때 (좌), Flooded Empirical Risk는 (우) – Empirical Risk가 b보다 크다면 Gradient descent – Empirical Risk가 b보다 작다면 Gradient ascent (부력 효과) – ascent는 즉 training data를 더 못 맞추도록 학습하는 것을 의미 – 이 때 b는 통상적인 hyperparameter search를 통해 결정 8
  • 9. Soongsil Univ. DSAI Lab. 2. Flooding in ER (Ishida et al. proposed) – 본 방법은 Train data를 memorize하지 못하게 함 – training loss가 0이 된다는 것은 data를 외웠다는 것 – 본 저자는 loss 대신 error를 사용하여 “training error” 측정 – 그 결과 여러 데이터셋에 대해 flood level (b in Flooded Empirical Risk) 을 높힐수록 Training error는 0으로 수렴되 지 못한다는 것을 확인  그러나 memorization과 overfitting의 관계는 명확하지 않음 * 혹은 적절한 b를 결정한다면, 최적 validation error를 나타내는 파라미터 범위에서 추가적인 탐색을 수행하는 효과 발휘 (타 연구원 의견) 9 (Training error)
  • 10. Soongsil Univ. DSAI Lab. 2. Flooding in ER (Ishida et al. proposed) – 약간의 차이로 더 좋은 성능을 보임 – w/o early stopping은 training epoch=100 일때의 모델을 선정 10
  • 11. Soongsil Univ. DSAI Lab. 3. Finding flat minima on ER space (Zheng et al. proposed) – Given loss에서 Flat minima의 𝜽는 더 좋은 일반화 성능을 보인다. – 그렇다면 그냥 flat minima를 찾으면 안될까?  𝑳𝑨𝑴𝑷를 제안 – Flooding과 비교하면 다음과 같다 (우) 11 (Training error)
  • 12. Soongsil Univ. DSAI Lab. – Adversarial Model Perturbation – ERM이 다음과 같이 주어질 때, AMP는 𝜽에 perturbation (값 변동) 을 준다. – 이 때 perturbation ∈ −𝝐, 𝝐 (𝝐는 하이퍼파라미터) 이자 given loss를 최대화하는 값 – 이는 가우시안 ER space를 가정할 때, 반지름이 𝝐인 구 범위 내 최대 loss를 선택하는 상황  이를 통해 자연스럽게 flat minima를 찾을 수 있으며, 상세 증명은 논문에 기술 12 3. Finding flat minima on ER space (Zheng et al. proposed)
  • 13. Soongsil Univ. DSAI Lab. 3. Find flat minima on ER space (Zheng et al. proposed) – Flat minima는 decision boundary와 datapoint를 떨어트린다. – Sharp minima는 decision boundary (made by 𝜽) 가 약간만 변화해도 성능이 변화 – 반면 Flat minima는 그렇지 않음 – 이는 즉 decision boundary와 datapoint를 떨어트려 놓는 효과를 가진다. 13
  • 14. Soongsil Univ. DSAI Lab. 3. Finding flat minima on ER space (Zheng et al. proposed) – 여러 데이터셋 및 Regularization 기법들과 비교한 결과 성능이 제일 우수 14
  • 15. Soongsil Univ. DSAI Lab. 4. Conclusion – 딥러닝은 주어진 목적함수(Loss)를 최소화하는 것을 통해 학습 – 이 때 Loss가 0이 되면 모델은 더이상 학습하지 못한다 – Loss에 다양한 규제기법을 통해 일반화 성능을 향상 15
  • 16. Soongsil Univ. DSAI Lab. References (not on title) – Nakkiran, Preetum, et al. "Deep Double Descent: Where Bigger Models and More Data Hurt." International Conference on Learning Representations. 2019. – Zhang, Chiyuan, et al. "Understanding deep learning (still) requires rethinking generalization." Communications of the ACM 64.3 (2021): 107-115. 16