GoogLenet

Going deeper with convolutions
인연준

GoogLeNet : Inception models
2014년 ILSVRC에서 top-5 test error 6.7%로 우승!

1. Introduction
GoogLeNet 의 motivation
아주 단순하게도 image recognition model 의 성능을 높여보자
가장 쉬운 방법
NN의 depth와 width를 늘리는 것
문제
1. Parameter 개수 증가
2. computing resource 증가
→ overfitting

1. Introduction
GoogLeNet 은 이전 모델들 보다 더 deep하고 wide한 모델을 만들었는데
어떻게 더 좋은 성능을 얻을 수 있었을까?

2. Inception network의 아이디어
28 x 28 x 192
input
1 x 1 x 192 filter
3 x 3 x 192 filter
5 x 5 x 192 filter
Max pooling
32
128
64
32
output
28 x 28 x 256

가장 기본적인 아이디어는 한 레이어 안에서 여러 종류의 필터를 병렬적으로 사용해서
네트워크가 알아서 parameter나 필터 크기의 조합을 학습하는 것

1. 그냥
여러 크기의 필터를 병렬적으로 한번에 사용하게된 계기
1 x 1이 가장 좁은 scope
3 x 3이 약간 넓어진 scope
5 x 5이 더 넓어진 scope
얘네를 한번에 써볼까? 하는 아이디어
2. 어떤 크기의 필터를 고르는 것도 하나의 hyper-parameter
어떤 크기의 필터를 쓸지 고민하지 말고 그냥 한번에 다 써보자!

가장 기본적인 아이디어는 한 레이어 안에서 여러 종류의 필터를 병렬적으로 사용해서
네트워크가 알아서 parameter나 필터 크기의 조합을 학습하는 것
근데 여기에 큰 문제가 하나 있다

일반적인 ConvNet 보다 parameter가 엄청나게 많아짐
그래서 성능이 후졌다.
저 architecture를 유지하면서 연산량을 줄여야한다…
일반적인 ConvNet
inceptionNetwork의 Naive한 접근

이 녀석이 추가가 됐다
어떤 역할을 하는지 살펴보자
그래서

3. 1 x 1 filter의 연산
* =
1 2 3 6 5 8
3 5 5 1 3 4
2 1 3 4 9 3
4 7 8 5 7 9
1 5 3 7 4 8
5 4 9 8 3 5
6 x 6
2 4 6 12 10 16
6 10 ,,, ,,, ,,, ,,,
,,, ,,, ,,, ,,, ,,,
6 x 6 x 32
*
1 x 1 x 32
=

3. 1 x 1 filter의 연산
* =
1 2 3 6 5 8
3 5 5 1 3 4
2 1 3 4 9 3
4 7 8 5 7 9
1 5 3 7 4 8
5 4 9 8 3 5
6 x 6
2 4 6 12 10 16
6 10 ,,, ,,, ,,, ,,,
,,, ,,, ,,, ,,, ,,,
* =
6 x 6 x 32 1 x 1 x 32
ReLU

3. 1 x 1 filter의 역할
1 x 1 filter를 사용함으로써 얻을 수 있는 이점
1. 채널 수 조절
2. 계산량 감소
3. 비선형성

3. 1 x 1 filter의 역할 – 채널 수 감소
높이, 너비, 채널 다 줄어든다
convolution
높이, 너비만 줄어든다
pooling
채널만 줄이고 싶다면?
?????

채널만 줄이고 싶다면?
1 x 1 filter가 유용하다
3. 1 x 1 filter의 역할 – 채널 수 감소

3. 1 x 1 filter의 역할 – 계산량 감소
5 x 5 filter로 Convolution 연산을 할 때의 계산량을 구해보자
192 x 5 x 5 x 28 x 28 x 32 = 1억 2천만
채널 수로 인한 연산

1 x 1 filter로 채널수를 줄이고 5 x 5 convolution 연산을 할 때의 연산량은
192 x 1 x 1 x 28 x 28 x 16 16 x 5 x 5 x 28 x 28 x 32+
= 240만 = 1천만
1240만 / 1억2천만 = 0.1
채널 수로 인한 연산

3 x 3, 5 x 5 같은 연산량이 많은 convolution 연산을 하기 전에
전처리 식으로 1 x 1 filter를 먼저 거쳐서 채널 수를 줄여준다
동일한 인풋 으로 5 x 5 convolution layer를 거치고 동일한 아웃풋이 나왔지만
1억 2천만 1240만
연산량은 10배 차이

3. 1 x 1 filter의 역할 – 비선형성
동일한 input과 동일한 output이지만
1 x 1 filter를 사용한 경우에는 ReLU를 두번 거치기 때문에 더 강한 비선형성
더 강하고 좋은 representation 학습 가능

4. GoogLeNet 파헤치기
Previous
Activation
28 x 28 x 192
1 x 1
CONV
5 x 5
CONV
16개
Output: 28 x 28 x 32
1 x 1
CONV
3 x 3
CONV96개
Output: 28 x 28 x 128
1 x 1
CONV
1 x 1
CONV
MAXPOOL
3 x 3
28 x 28 x 192
192가 너무 많아서 1 x 1 거친다

Previous
Activation
28 x 28 x 192
1 x 1
CONV
5 x 5
CONV
16개
1 x 1
CONV
3 x 3
CONV96개
1 x 1
CONV
1 x 1
CONV
MAXPOOL
3 x 3
28 x 28 x 192
192가 너무 많아서 1 x 1 거친다
Channel
Concat
Output: 28 x 28 x 256

이런 곁가지 들도 있다

처음에 이렇게 곁가지가 없는 형태였는데
네트워크가 워낙 깊다보니 ReLU를 사용했음에도
Gradient가 효과적으로 backprop되지 못하는 문제 발생
Given the relatively large depth of the network, the
ability to propagate gradients back through all the
layers in an effective manner was a concern.

그래서 중간에 이런 곁가지들을 만들었다
잘 안 보이는데 끝단의 FC net, softmax와 output layer랑 같은 구조다
즉 중간에 예측을 하는 곁가지들이다
신기하게도 중간 곁가지들이 strong performance를 보였고
얘네들도 학습에 이용한다.

저 곁가지들도 똑같이 Backprop을 하고,
loss 에 0.3이라는 가중치를 붙여서 전체 네트워크의 총 loss에 추가된다
이 구조가 regularization 효과를 가져왔다.

자세한 설명은 없었지만 뇌피셜로 생각해보면
1번 곁가지를 학습하면서 생기는 weight, 2번에서 생기는 weight, 끝단에서 생기는 weight가
합쳐지면서
끝단에서 overfitting을 유발했던 weight를 중화시키는 효과
1
2
최종 예측을 할때는 곁가지는 제거하고 사용

5. GoogLeNet In ILSVRC ILSVRC 2014 competition
…
1000개의 class label
120만개 training data
5만개 validation data
10만개 test data
metric
보통 Top-1 error rate, Top-5 error rate
data
이 두 가지를 많이 쓰는데
ILSVRC 2014에서는 Top-5 error만 사용
Top-5 error : 예측할 때 5개의 class label을 제시하고
그것 중 하나라도 맞으면 correct
Top-1 error : 예측할 때 1개의 class label을 제시하고
그것이 맞으면 correct

이것이 GoogLeNet 으로 인셉션네트워크의 첫 시작이었다
이후에 인셉션 네트워크를 발전시킨 인셉션 v2 v3 v4 등이 나왔으니
다음에 다뤄보자!!

GoogLeNet 을 Keras로 구현한 깃헙 코드
https://gist.github.com/joelouismarino/a2ede9ab3928f99
9575423b9887abd14

reference
1. Andrew Ng 의 C4W2L05 강의
2. PR-034 : Inception and Xception
3. Going Deeper with Convolutions paper

GoogLenet

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to GoogLenet

Similar to GoogLenet (20)

More from KyeongUkJang

More from KyeongUkJang (20)

GoogLenet