Residual Learning

Deep Residual Learning
for Image Recognition
김완수

더 Deep하면 DATA의 특징을 더 잘 추출
문제도 있음

Vanishing Gradient Problem
Too many Parameters
더 많은 데이터셋으로 해결 가능
근데 이건 데이터셋으로도 해결이 힘듬

기존 해결방법
Activation Function
BatchNorm
Dropout
Weight Init
Auxiliary Classifier
Not Enough

100층 이상으로 깊게 하면서, VG 문제를 해결할 수 있을까?

Residual Learning
𝐻(𝑥)가 아닌 𝐻(𝑥)– 𝑥를 목표로 해보자
입력 𝑥를 받으면 Layer를 거쳐 𝐻(𝑥)를 출력

Residual Learning
𝐹(𝑥) = 𝐻(𝑥) − 𝑥라면 출력 𝐻(𝑥)는 𝐻(𝑥) = 𝐹(𝑥) + 𝑥
1. 깊은 Layer도 쉽게 Optimization이 가능
2. 늘어난 깊이로 인해 정확도 개선 가능

Skip Connection을 사용하면…
1. Deep한 Layer를 쉽게 최적화 시킬 수 있음 (Vanishing/Exploding Gradient를 해결)
2. Skip Layer의 개수를 난수로 설정하면 Ensemble Model을 만들기 좋음

Residual한게 왜 잘 작동될까?

Recommended