SlideShare a Scribd company logo
Soongsil Univ. DSAI Lab.
About Ensemble Distillation
Nam et al., (KAIST), Improving Ensemble Distillation With Weight
Averaging and Diversifying Perturbation, ICML 2022
Nam et al., (KAIST), Diversity Matters When Learning From Ensembles, Ne
urIPS 2021
1
지승현 발표
22.07.07.
Soongsil Univ. DSAI Lab.
목차
1. Deep Ensemble, Fitting and Distillation
2. Diversifying Students with Input Perturbation
3. Averaging Students (LatentBE)
4. Experiment
5. Reviewer’s comments
6. Conclusion
2
Soongsil Univ. DSAI Lab.
1. Deep Ensemble, Fitting and Distillation
– Ensemble
– Ensemble이란 동일 데이터에 대해 학습된 여러 모델을 취합하여 더 좋은 결과를 내는 방법
– 이는 마치 ‘다수결의 원리’와 같이 작동 (aggregating predictions)
– 딥러닝 모델들을 취합한 경우 Deep Ensemble이라 부름
– Deep Ensemble은 일반적으로 성능이 향상되는 방법으로 알려짐 (Lakshminarayanan et al., 2017)
– 이 때 각 모델들이 서로 다양(Diverse)할 경우 성능이 증대되는 것으로 알려짐 (Fort et al., 2019)
3
Soongsil Univ. DSAI Lab.
1. Deep Ensemble, Fitting and Distillation
– Interpretation as Fitting
– Input data 차원에서 Ensemble을 해석하자면 다음과 같다.
– Training data = {𝑥1, 𝑥2, 𝑥3, 𝑥4}, Test data = {𝑥𝑡} 라고 할 때,
– Training data에 대해 학습한 경우 (좌)와 같이 다양한 모델이 만들어질 수 있다.
– 이를 취합할 경우(중), 학습된 각 모델 보다 성능이 높아질 수 있다.(우)
4
Y
Soongsil Univ. DSAI Lab.
1. Deep Ensemble, Fitting and Distillation
– Ensemble Distillation
– 거대한 모델을 여러 개 Ensemble하는 것은 과다한 비용을 초래한다.
→ Knowledge Distillation을 통해 이를 해결하자.
• 거대 모델을 Teacher, 목표 모델을 Student로 놓으면
• Student가 Teacher의 prediction을 정답으로 하여 Supervised 학습하는 방법
– Ensemble Distillation : 여러 Teacher로 여러 Student를 각각 학습하여 Ensemble하는 방법
5
Soongsil Univ. DSAI Lab.
1. Deep Ensemble, Fitting and Distillation
– Problem of Ensemble Distillation
– 딥러닝은 training error을 0으로 만드는 함수를 Modeling 한다.
– 따라서 training data에 대해서 학습된 Teacher들은 training data
에 대해 모두 동일한 output을 predict한다. (상)
– 각 Student들이 학습할 정답은 모두 동일해진다 (하)
→ 따라서 training data에 대해 Distillation할 경우 Student들은
충분히 Diverse하지 않다.
→ Ensemble은 각 모델이 Diverse할 때 효과적이므로, 본 방법으론
Ensemble이 잘 기능하는 Students를 학습할 수 없다.
6
Y
Y
Soongsil Univ. DSAI Lab.
2. Diversifying Students with Input Perturbation
– Naï
ve approach
– Students가 Teacher’s same prediction으로 학습하는 것이 문제
– 그렇다면 Input data에 Perturbation을 주면 어떨까?
– Perturbed input 𝑥 + 𝜖 에 대해 Teacher은 서로 다른 prediction (상)
– 따라서 Students가 서로 다른 정답으로 Supervised learning (하)
– 𝜖 가 너무 커지면 Input data와 아예 다른 분포를 띌 수도 있음
→ 적절한 크기의 Perturbation 𝜖 를 설정해야 한다.
7
Y
𝑓𝜃1
𝑥 + 𝜖 ≠ 𝑓𝜃2
𝑥 + 𝜖 ≠ 𝑓𝜃3
𝑥 + 𝜖
𝑓𝜃1
𝑥 = 𝑓𝜃2
𝑥 = 𝑓𝜃3
𝑥
Teacher’s loss : σ𝑖(𝑦𝑖 − 𝑓𝜃𝑇𝑒𝑎𝑐ℎ
𝑥𝑖 )
Student’s loss : σ𝑖(𝑓𝜃𝑇𝑒𝑎𝑐ℎ
(𝑥𝑖) − 𝑓𝜃𝑆𝑡𝑢𝑑𝑒𝑛𝑡
𝑥𝑖 )
Soongsil Univ. DSAI Lab.
2. Diversifying Students with Input Perturbation
– Diverse datapoints matters
– 특정 값 범위 내에서 최적의 데이터포인트 𝑥 + 𝜖 를 찾는 것으로 문제전환
– 이 때 𝑥 + 𝜖 의 조건:
1) Teachers가 서로 다양하게 predict하는 지점 (diverse)
2) Students’ Ensemble이 잘 기능하지 않는 지점 (not diverse)
– 𝐷𝑖𝑣(∙) 가 모델들의 Diversity (KL divergence의 크기에 비례) 를 측정할 수
있는 함수라고 한다면,
𝐷𝑖𝑣 𝑇𝑒𝑎𝑐ℎ𝑒𝑟𝑠, 𝑥 − 𝐷𝑖𝑣 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑠, 𝑥
– 를 통해 𝑥 + 𝜖 이 좋은 조건인지 판별할 수 있다.
– 𝜖 는 다음과 같은 Gradient based method로 탐색할 수 있다.
𝜖 ∝ ∇𝑥(𝐷𝑖𝑣 𝑇𝑒𝑎𝑐ℎ𝑒𝑟𝑠, 𝑥 − 𝐷𝑖𝑣 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑠, 𝑥 )
8
Y
Soongsil Univ. DSAI Lab.
3. Averaging Students (LatentBE)
– Averaging weights
– 기존의 Ensemble distillation은 Students를 각각 학습하고 이들을 취합하여 Ensemble 수행
– 그러나 이는 Students들을 모두 inference에 사용하여 여전히 느림
→ 따라서 Students의 가중치를 평균을 내어 하나의 Averaged Student를 만든다.
– 본 논문의 제안방법인 LatentBE의 전신 BE는 다음과 같이 Student를 만든다.
– 𝜽가 Student를 학습할 ‘Seed weight’라고 한다면, 각 Student weight 𝜽𝒎은
𝜽𝒎 = 𝜽 ∘ 𝒓𝒎𝒔𝒎
– 이 때 Averaged weight는 다음과 같다.
𝜽𝑨𝒗𝒈 = 𝜽 ∘
𝟏
𝒎
෍
𝒊
𝒎
𝒓𝒊𝒔𝒊
9
Soongsil Univ. DSAI Lab.
3. Averaging Students (LatentBE)
– 기존에 Averaging method가 없었던 이유
– Students를 단순히 Averaging 하게되면 성능이 크게 하락함 (우, BE-2)
– 기존에는 Students가 제각기 local minima를 형성하며 서로의 연관성이 존재하지 않음 (좌, BE-2)
– LatentBE에서는 이를 방지하기 위해 모델별 𝒓, 𝒔를 모두 동일하게 초기화
→ 𝜽 ∘ 𝒓𝒎𝒔𝒎들은 단일 point에서 출발하여 제각기 학습
→ 따라서 이들은 학습되더라도 동일 subspace에 존재하여 Averaging할 수 있게 된다.
10
Soongsil Univ. DSAI Lab.
4. Experiment
– Ensemble Distillation에서는 SOTA 달성
– KD + LatentBE는 KD에 비해 메모리를 현저히 적게 쓰는 방법
– 그럼에도 KD + LatentBE 방법을 통해 KD와 유사 성능 달성
– Diversifying method를 통해 추가 성능 향상
11
Soongsil Univ. DSAI Lab.
5. Reviewer’s comments
– Diversity에 대한 의문
– 만약 Teachers가 Ensemble을 위해 잘 구성되어 있다면, 이미 Diversified member일 것이다.
– a perturbation maximumly change one teacher's decision may not change another’s.
→ 동일 training data로 학습된 Teachers는 서로 그다지 diverse하지 않다.
→ Test data에 대해 발생하는 minor한 class probability가 robustness를 만드므로,
Perturbation은 Distillation에 도움이 된다.
12
Soongsil Univ. DSAI Lab.
6. Conclusion
– 요약
– Ensemble Distillation은 Teachers의 지식을 Student에게 잘 전달하는 것이 핵심
– Distillation을 위해 Input data에 Perturbation을 적절히 주입
– Students가 서로 Diverse 해야하므로, Perturbation은 이들이 not Diverse한 지점을 공략
– 각 Students가 동일 가중치로 Initialize되면 Averaging이 원활
– 발표자의 사견
– Ensemble을 Stochastic process로 해석하고, Ensemble의 중요 조건을 이에 잘 적용
– Perturbation 개념을 정확하게 사용, Student’s Diversity 조건을 정확하게 Objective로 사용
– Residual connection behave like Ensemble이라는 주장이 있는데, (Veit et al., 2016) 각 레
이어별로 점진적인 학습 혹은 레이어별 점진적인 Distillation이 효과적일 수도 있을 것으로 사료
13

More Related Content

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

220707 지승현 About Ensemble Distillation.pdf

  • 1. Soongsil Univ. DSAI Lab. About Ensemble Distillation Nam et al., (KAIST), Improving Ensemble Distillation With Weight Averaging and Diversifying Perturbation, ICML 2022 Nam et al., (KAIST), Diversity Matters When Learning From Ensembles, Ne urIPS 2021 1 지승현 발표 22.07.07.
  • 2. Soongsil Univ. DSAI Lab. 목차 1. Deep Ensemble, Fitting and Distillation 2. Diversifying Students with Input Perturbation 3. Averaging Students (LatentBE) 4. Experiment 5. Reviewer’s comments 6. Conclusion 2
  • 3. Soongsil Univ. DSAI Lab. 1. Deep Ensemble, Fitting and Distillation – Ensemble – Ensemble이란 동일 데이터에 대해 학습된 여러 모델을 취합하여 더 좋은 결과를 내는 방법 – 이는 마치 ‘다수결의 원리’와 같이 작동 (aggregating predictions) – 딥러닝 모델들을 취합한 경우 Deep Ensemble이라 부름 – Deep Ensemble은 일반적으로 성능이 향상되는 방법으로 알려짐 (Lakshminarayanan et al., 2017) – 이 때 각 모델들이 서로 다양(Diverse)할 경우 성능이 증대되는 것으로 알려짐 (Fort et al., 2019) 3
  • 4. Soongsil Univ. DSAI Lab. 1. Deep Ensemble, Fitting and Distillation – Interpretation as Fitting – Input data 차원에서 Ensemble을 해석하자면 다음과 같다. – Training data = {𝑥1, 𝑥2, 𝑥3, 𝑥4}, Test data = {𝑥𝑡} 라고 할 때, – Training data에 대해 학습한 경우 (좌)와 같이 다양한 모델이 만들어질 수 있다. – 이를 취합할 경우(중), 학습된 각 모델 보다 성능이 높아질 수 있다.(우) 4 Y
  • 5. Soongsil Univ. DSAI Lab. 1. Deep Ensemble, Fitting and Distillation – Ensemble Distillation – 거대한 모델을 여러 개 Ensemble하는 것은 과다한 비용을 초래한다. → Knowledge Distillation을 통해 이를 해결하자. • 거대 모델을 Teacher, 목표 모델을 Student로 놓으면 • Student가 Teacher의 prediction을 정답으로 하여 Supervised 학습하는 방법 – Ensemble Distillation : 여러 Teacher로 여러 Student를 각각 학습하여 Ensemble하는 방법 5
  • 6. Soongsil Univ. DSAI Lab. 1. Deep Ensemble, Fitting and Distillation – Problem of Ensemble Distillation – 딥러닝은 training error을 0으로 만드는 함수를 Modeling 한다. – 따라서 training data에 대해서 학습된 Teacher들은 training data 에 대해 모두 동일한 output을 predict한다. (상) – 각 Student들이 학습할 정답은 모두 동일해진다 (하) → 따라서 training data에 대해 Distillation할 경우 Student들은 충분히 Diverse하지 않다. → Ensemble은 각 모델이 Diverse할 때 효과적이므로, 본 방법으론 Ensemble이 잘 기능하는 Students를 학습할 수 없다. 6 Y Y
  • 7. Soongsil Univ. DSAI Lab. 2. Diversifying Students with Input Perturbation – Naï ve approach – Students가 Teacher’s same prediction으로 학습하는 것이 문제 – 그렇다면 Input data에 Perturbation을 주면 어떨까? – Perturbed input 𝑥 + 𝜖 에 대해 Teacher은 서로 다른 prediction (상) – 따라서 Students가 서로 다른 정답으로 Supervised learning (하) – 𝜖 가 너무 커지면 Input data와 아예 다른 분포를 띌 수도 있음 → 적절한 크기의 Perturbation 𝜖 를 설정해야 한다. 7 Y 𝑓𝜃1 𝑥 + 𝜖 ≠ 𝑓𝜃2 𝑥 + 𝜖 ≠ 𝑓𝜃3 𝑥 + 𝜖 𝑓𝜃1 𝑥 = 𝑓𝜃2 𝑥 = 𝑓𝜃3 𝑥 Teacher’s loss : σ𝑖(𝑦𝑖 − 𝑓𝜃𝑇𝑒𝑎𝑐ℎ 𝑥𝑖 ) Student’s loss : σ𝑖(𝑓𝜃𝑇𝑒𝑎𝑐ℎ (𝑥𝑖) − 𝑓𝜃𝑆𝑡𝑢𝑑𝑒𝑛𝑡 𝑥𝑖 )
  • 8. Soongsil Univ. DSAI Lab. 2. Diversifying Students with Input Perturbation – Diverse datapoints matters – 특정 값 범위 내에서 최적의 데이터포인트 𝑥 + 𝜖 를 찾는 것으로 문제전환 – 이 때 𝑥 + 𝜖 의 조건: 1) Teachers가 서로 다양하게 predict하는 지점 (diverse) 2) Students’ Ensemble이 잘 기능하지 않는 지점 (not diverse) – 𝐷𝑖𝑣(∙) 가 모델들의 Diversity (KL divergence의 크기에 비례) 를 측정할 수 있는 함수라고 한다면, 𝐷𝑖𝑣 𝑇𝑒𝑎𝑐ℎ𝑒𝑟𝑠, 𝑥 − 𝐷𝑖𝑣 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑠, 𝑥 – 를 통해 𝑥 + 𝜖 이 좋은 조건인지 판별할 수 있다. – 𝜖 는 다음과 같은 Gradient based method로 탐색할 수 있다. 𝜖 ∝ ∇𝑥(𝐷𝑖𝑣 𝑇𝑒𝑎𝑐ℎ𝑒𝑟𝑠, 𝑥 − 𝐷𝑖𝑣 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑠, 𝑥 ) 8 Y
  • 9. Soongsil Univ. DSAI Lab. 3. Averaging Students (LatentBE) – Averaging weights – 기존의 Ensemble distillation은 Students를 각각 학습하고 이들을 취합하여 Ensemble 수행 – 그러나 이는 Students들을 모두 inference에 사용하여 여전히 느림 → 따라서 Students의 가중치를 평균을 내어 하나의 Averaged Student를 만든다. – 본 논문의 제안방법인 LatentBE의 전신 BE는 다음과 같이 Student를 만든다. – 𝜽가 Student를 학습할 ‘Seed weight’라고 한다면, 각 Student weight 𝜽𝒎은 𝜽𝒎 = 𝜽 ∘ 𝒓𝒎𝒔𝒎 – 이 때 Averaged weight는 다음과 같다. 𝜽𝑨𝒗𝒈 = 𝜽 ∘ 𝟏 𝒎 ෍ 𝒊 𝒎 𝒓𝒊𝒔𝒊 9
  • 10. Soongsil Univ. DSAI Lab. 3. Averaging Students (LatentBE) – 기존에 Averaging method가 없었던 이유 – Students를 단순히 Averaging 하게되면 성능이 크게 하락함 (우, BE-2) – 기존에는 Students가 제각기 local minima를 형성하며 서로의 연관성이 존재하지 않음 (좌, BE-2) – LatentBE에서는 이를 방지하기 위해 모델별 𝒓, 𝒔를 모두 동일하게 초기화 → 𝜽 ∘ 𝒓𝒎𝒔𝒎들은 단일 point에서 출발하여 제각기 학습 → 따라서 이들은 학습되더라도 동일 subspace에 존재하여 Averaging할 수 있게 된다. 10
  • 11. Soongsil Univ. DSAI Lab. 4. Experiment – Ensemble Distillation에서는 SOTA 달성 – KD + LatentBE는 KD에 비해 메모리를 현저히 적게 쓰는 방법 – 그럼에도 KD + LatentBE 방법을 통해 KD와 유사 성능 달성 – Diversifying method를 통해 추가 성능 향상 11
  • 12. Soongsil Univ. DSAI Lab. 5. Reviewer’s comments – Diversity에 대한 의문 – 만약 Teachers가 Ensemble을 위해 잘 구성되어 있다면, 이미 Diversified member일 것이다. – a perturbation maximumly change one teacher's decision may not change another’s. → 동일 training data로 학습된 Teachers는 서로 그다지 diverse하지 않다. → Test data에 대해 발생하는 minor한 class probability가 robustness를 만드므로, Perturbation은 Distillation에 도움이 된다. 12
  • 13. Soongsil Univ. DSAI Lab. 6. Conclusion – 요약 – Ensemble Distillation은 Teachers의 지식을 Student에게 잘 전달하는 것이 핵심 – Distillation을 위해 Input data에 Perturbation을 적절히 주입 – Students가 서로 Diverse 해야하므로, Perturbation은 이들이 not Diverse한 지점을 공략 – 각 Students가 동일 가중치로 Initialize되면 Averaging이 원활 – 발표자의 사견 – Ensemble을 Stochastic process로 해석하고, Ensemble의 중요 조건을 이에 잘 적용 – Perturbation 개념을 정확하게 사용, Student’s Diversity 조건을 정확하게 Objective로 사용 – Residual connection behave like Ensemble이라는 주장이 있는데, (Veit et al., 2016) 각 레 이어별로 점진적인 학습 혹은 레이어별 점진적인 Distillation이 효과적일 수도 있을 것으로 사료 13