220707 지승현 About Ensemble Distillation.pdf

Soongsil Univ. DSAI Lab.
About Ensemble Distillation
Nam et al., (KAIST), Improving Ensemble Distillation With Weight
Averaging and Diversifying Perturbation, ICML 2022
Nam et al., (KAIST), Diversity Matters When Learning From Ensembles, Ne
urIPS 2021
1
지승현 발표
22.07.07.

목차
1. Deep Ensemble, Fitting and Distillation
2. Diversifying Students with Input Perturbation
3. Averaging Students (LatentBE)
4. Experiment
5. Reviewer’s comments
6. Conclusion
2

– Ensemble
– Ensemble이란 동일 데이터에 대해 학습된 여러 모델을 취합하여 더 좋은 결과를 내는 방법
– 이는 마치 ‘다수결의 원리’와 같이 작동 (aggregating predictions)
– 딥러닝 모델들을 취합한 경우 Deep Ensemble이라 부름
– Deep Ensemble은 일반적으로 성능이 향상되는 방법으로 알려짐 (Lakshminarayanan et al., 2017)
– 이 때 각 모델들이 서로 다양(Diverse)할 경우 성능이 증대되는 것으로 알려짐 (Fort et al., 2019)
3

– Interpretation as Fitting
– Input data 차원에서 Ensemble을 해석하자면 다음과 같다.
– Training data = {𝑥1, 𝑥2, 𝑥3, 𝑥4}, Test data = {𝑥𝑡} 라고 할 때,
– Training data에 대해 학습한 경우 (좌)와 같이 다양한 모델이 만들어질 수 있다.
– 이를 취합할 경우(중), 학습된 각 모델 보다 성능이 높아질 수 있다.(우)
4
Y

– Ensemble Distillation
– 거대한 모델을 여러 개 Ensemble하는 것은 과다한 비용을 초래한다.
→ Knowledge Distillation을 통해 이를 해결하자.
• 거대 모델을 Teacher, 목표 모델을 Student로 놓으면
• Student가 Teacher의 prediction을 정답으로 하여 Supervised 학습하는 방법
– Ensemble Distillation : 여러 Teacher로 여러 Student를 각각 학습하여 Ensemble하는 방법
5

– Problem of Ensemble Distillation
– 딥러닝은 training error을 0으로 만드는 함수를 Modeling 한다.
– 따라서 training data에 대해서 학습된 Teacher들은 training data
에 대해 모두 동일한 output을 predict한다. (상)
– 각 Student들이 학습할 정답은 모두 동일해진다 (하)
→ 따라서 training data에 대해 Distillation할 경우 Student들은
충분히 Diverse하지 않다.
→ Ensemble은 각 모델이 Diverse할 때 효과적이므로, 본 방법으론
Ensemble이 잘 기능하는 Students를 학습할 수 없다.
6
Y
Y

– Naï
ve approach
– Students가 Teacher’s same prediction으로 학습하는 것이 문제
– 그렇다면 Input data에 Perturbation을 주면 어떨까?
– Perturbed input 𝑥 + 𝜖 에 대해 Teacher은 서로 다른 prediction (상)
– 따라서 Students가 서로 다른 정답으로 Supervised learning (하)
– 𝜖 가 너무 커지면 Input data와 아예 다른 분포를 띌 수도 있음
→ 적절한 크기의 Perturbation 𝜖 를 설정해야 한다.
7
Y
𝑓𝜃1
𝑥 + 𝜖 ≠ 𝑓𝜃2
𝑥 + 𝜖 ≠ 𝑓𝜃3
𝑥 + 𝜖
𝑓𝜃1
𝑥 = 𝑓𝜃2
𝑥 = 𝑓𝜃3
𝑥
Teacher’s loss : σ𝑖(𝑦𝑖 − 𝑓𝜃𝑇𝑒𝑎𝑐ℎ
𝑥𝑖 )
Student’s loss : σ𝑖(𝑓𝜃𝑇𝑒𝑎𝑐ℎ
(𝑥𝑖) − 𝑓𝜃𝑆𝑡𝑢𝑑𝑒𝑛𝑡
𝑥𝑖 )

– Diverse datapoints matters
– 특정 값 범위 내에서 최적의 데이터포인트 𝑥 + 𝜖 를 찾는 것으로 문제전환
– 이 때 𝑥 + 𝜖 의 조건:
1) Teachers가 서로 다양하게 predict하는 지점 (diverse)
2) Students’ Ensemble이 잘 기능하지 않는 지점 (not diverse)
– 𝐷𝑖𝑣(∙) 가 모델들의 Diversity (KL divergence의 크기에 비례) 를 측정할 수
있는 함수라고 한다면,
𝐷𝑖𝑣 𝑇𝑒𝑎𝑐ℎ𝑒𝑟𝑠, 𝑥 − 𝐷𝑖𝑣 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑠, 𝑥
– 를 통해 𝑥 + 𝜖 이 좋은 조건인지 판별할 수 있다.
– 𝜖 는 다음과 같은 Gradient based method로 탐색할 수 있다.
𝜖 ∝ ∇𝑥(𝐷𝑖𝑣 𝑇𝑒𝑎𝑐ℎ𝑒𝑟𝑠, 𝑥 − 𝐷𝑖𝑣 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑠, 𝑥 )
8
Y

– Averaging weights
– 기존의 Ensemble distillation은 Students를 각각 학습하고 이들을 취합하여 Ensemble 수행
– 그러나 이는 Students들을 모두 inference에 사용하여 여전히 느림
→ 따라서 Students의 가중치를 평균을 내어 하나의 Averaged Student를 만든다.
– 본 논문의 제안방법인 LatentBE의 전신 BE는 다음과 같이 Student를 만든다.
– 𝜽가 Student를 학습할 ‘Seed weight’라고 한다면, 각 Student weight 𝜽𝒎은
𝜽𝒎 = 𝜽 ∘ 𝒓𝒎𝒔𝒎
– 이 때 Averaged weight는 다음과 같다.
𝜽𝑨𝒗𝒈 = 𝜽 ∘
𝟏
𝒎
෍
𝒊
𝒎
𝒓𝒊𝒔𝒊
9

– 기존에 Averaging method가 없었던 이유
– Students를 단순히 Averaging 하게되면 성능이 크게 하락함 (우, BE-2)
– 기존에는 Students가 제각기 local minima를 형성하며 서로의 연관성이 존재하지 않음 (좌, BE-2)
– LatentBE에서는 이를 방지하기 위해 모델별 𝒓, 𝒔를 모두 동일하게 초기화
→ 𝜽 ∘ 𝒓𝒎𝒔𝒎들은 단일 point에서 출발하여 제각기 학습
→ 따라서 이들은 학습되더라도 동일 subspace에 존재하여 Averaging할 수 있게 된다.
10

4. Experiment
– Ensemble Distillation에서는 SOTA 달성
– KD + LatentBE는 KD에 비해 메모리를 현저히 적게 쓰는 방법
– 그럼에도 KD + LatentBE 방법을 통해 KD와 유사 성능 달성
– Diversifying method를 통해 추가 성능 향상
11

5. Reviewer’s comments
– Diversity에 대한 의문
– 만약 Teachers가 Ensemble을 위해 잘 구성되어 있다면, 이미 Diversified member일 것이다.
– a perturbation maximumly change one teacher's decision may not change another’s.
→ 동일 training data로 학습된 Teachers는 서로 그다지 diverse하지 않다.
→ Test data에 대해 발생하는 minor한 class probability가 robustness를 만드므로,
Perturbation은 Distillation에 도움이 된다.
12

6. Conclusion
– 요약
– Ensemble Distillation은 Teachers의 지식을 Student에게 잘 전달하는 것이 핵심
– Distillation을 위해 Input data에 Perturbation을 적절히 주입
– Students가 서로 Diverse 해야하므로, Perturbation은 이들이 not Diverse한 지점을 공략
– 각 Students가 동일 가중치로 Initialize되면 Averaging이 원활
– 발표자의 사견
– Ensemble을 Stochastic process로 해석하고, Ensemble의 중요 조건을 이에 잘 적용
– Perturbation 개념을 정확하게 사용, Student’s Diversity 조건을 정확하게 Objective로 사용
– Residual connection behave like Ensemble이라는 주장이 있는데, (Veit et al., 2016) 각 레
이어별로 점진적인 학습 혹은 레이어별 점진적인 Distillation이 효과적일 수도 있을 것으로 사료
13

220707 지승현 About Ensemble Distillation.pdf

Recommended

Recommended

More Related Content

Featured

Featured (20)

220707 지승현 About Ensemble Distillation.pdf