Ch6.학습관련기술들

O P T I M I Z A T I O N
CHAPTER 6
학습관련기술들
SUBJECT 신경망학습효율,정확도높이기
확률적 경사 하강법
신경망학습의목적은손실함수의값을가능한한낮추는매개변수를찾
는것이었다.이는곧최적매개변수를찾는문제이며,이러한문제를
READ MORE
R E G U L A R I Z T I O N
드롭 아웃 drop out
:오버피팅을 억제하는 정규화 기법
드롭아웃은뉴런을임의로삭제하면서학습하는방
법입니다. 복잡한신경망모델에효과적입니다.
H Y P E R P A R A M E T E R
O P T I M I Z A T I O N

매개변수 갱신: 최적화
가중치의 초깃값
배치정규화
오버피팅 억제 기술
하이퍼파라미터 값 탐색
© SOFTWARE CAMPUS COMMUNITY 2017

손실함수의값을최소화시키는매개변수를찾는것
= 오차를최소화하는최적의가중치(weight)를찾는것
최적화
Optimization
경사 하강법
모멘텀 AdaGrad
RMSProp
Adam
CHAPTER 6-1
매개변수갱신:최적화

배치정규화
확률적경사하강법
모멘텀
AdaGrad
Adam
MNIST로 비교

경사 하강법
Gradient descent method
CHAPTER 6-1
현재위치에서음의기울기방향으로조금씩움직이는것을여러번반복하면서가중치를갱신하는방법
모든훈련데이터에대해계산되는손실함수를최적화하는방식
A
B
서있는곳을기준으로가장크게기울어진방향으로

Stochastic Gradient Descent
CHAPTER 6-1
미니배치를통해무작위로선정한샘플데이터의손실함수값을줄이는방식
[미니배치기울기산출매개변수갱신]을반복하면서손실함수최적화
갱신할
가중치매개변수
*학습률
W에대한손실함수의기울기
*학습률(learningrate):갱신하는양

CHAPTER 6-1
Gradient Descent Optimization at Long Valley Gradient Descent Optimization at Saddle Point Gradient Descent Optimization at Beale's Function
[SGD의한계]

CHAPTER 6-1
[SGD의한계]
비등방성(anisotropy)함수에서탐색경로가비효율적
[SGD에의한최적화갱신경로:최솟값인(0,0)까지지그재그로이동하여비효율적이다.]

CHAPTER 6-1
모멘텀은물리학에서운동량을의미
기울기의방향으로힘을받아물체가가속된다는물리법칙
모멘텀
Momentum
손실함수 경사하강법
모멘텀

CHAPTER 6-1
모멘텀
Momentum
모멘텀은과거의기울기가지속적으로누적되어현재이동방식에영향을준다.
모멘텀에서기울기는물체에가해지는힘(F)이며힘은속도(방향+속력)를변화시킨다(가속도의법칙)
현재기울기(gradient)
모멘트효과에 대한
가중치(=마찰계수)
경사하강법+속도
′

CHAPTER 6-1
모멘텀은과거의기울기를기억했다가그기울기가지향하는방향으로현재기울기를보정하는방식
관성(가던방향으로계속가려는성질)이나가속도(힘이가해지면속도가변하는개념)로이해하면편리함
모멘텀
Momentum
actualstep momentum
step
누적된지향방향
현재의기울기방향
보정된방향

CHAPTER 6-1
[SGD에속도의개념이더해진모멘텀은움직임의효율이상대적으로더좋다]
모멘텀
Momentum

CHAPTER 6-1
모멘텀
Momentum
Avoiding Local Minima

CHAPTER 6-1
모멘텀
Momentum

CHAPTER 6-1
매개변수별 맞춤형 학습률 조정
AdaGrad
기울기를제곱하여누적한다
학습률을직접조정
학습이진행될수록학습률을낮춤
많이 변화한 변수들은 최적값에 가까이 있을 확률이 높기 때문에 작은 크기로 이동하면서 세밀한 값을 조정,
적게 변화한 변수들은 최적값에 도달하기 위해 많이 이동해야할 확률이 높기 때문에 빠르게 크게 이동하는 방식
대개0.01로시작,
이후자동조정됨

CHAPTER 6-1
RMSProp
Momentum+EMA
RMSProp는Adagrad의learningrate가급격히줄어드는단점을보완하고자나온방법
지수이동평균(EMA)-과거gradient를어느정도무시하고최신gradient를더반영하는방식
하이퍼파라미터,
0.9,0.99,0.999를많이사용

CHAPTER 6-1
AdaGrad & RMSProp

CHAPTER 6-1
Adam
모멘텀처럼 기울기(의 지수이동평균)를 누적하면서 이동 방향을 조정하고
RMSProp처럼 기울기의 제곱값의 지수이동평균으로 학습률을 조정한다
← +
⟵ + (1 − )
모멘텀의 마찰계수
하이퍼파라미터(0.5/ 0.9/ 0.95/ 0.99)
← + (1 − ) ⨀
RMSProop의
하이퍼파라미터(0.9/ 0.99/ 0.999)
Momentum
RMSProp
RMSProp

CHAPTER 6-1
최적화 기법 비교
공통 코드
, = + 의 미분식 df
‘x’ ‘y’
0.0 0.0




‘x’ ‘y’
-7.0 2.0
params grads
optimizers





“SGD”
SGD(lr=0.95)
“Momentum”
Momentum(lr=0.1)
“AdaGrad”
AdaGrad(lr=1.5)
“Adam”
Adam(lr=0.3)

CHAPTER 6-1
공통 코드
optimizers
“SGD”
SGD(lr=0.95)
“Momentum”
Momentum(lr=0.1)
“AdaGrad”
AdaGrad(lr=1.5)
“Adam”
Adam(lr=0.3)


x_history


params
‘x’ ‘y’
-7.0 2.0
-7.0


grads
‘x’ ‘y’
-0.7 4.0

# Р져촘 차굇핸

CHAPTER 6-1
SGD 코드
optimizers
“SGD”
SGD(lr=0.95)
“Momentum”
Momentum(lr=0.1)
“AdaGrad”
AdaGrad(lr=1.5)
“Adam”
Adam(lr=0.3)



params
‘x’ ‘y’
-7.0 2.0
grads
‘x’ ‘y’
-0.7 4.0
params[key] = params[key] – self.lr * grads[key]
params[‘x’]=-7.0 - 0.95 X (-0.7) = -0.035

-0.035
⟵ −
params[‘y’]= 2.0 - 0.95 X 4.0 = -1.8
-1.8

CHAPTER 6-1
SGD 코드

params grads
‘x’
-0.035
‘y’
-1.8
‘x’ ‘y’
-0.7 4.0
x_history
-7.0 -0.035

X 30

 key
 val
‘y’
0
‘y’
2.0
CHAPTER 6-1
모멘텀 코드
 params
v






optimizers
“SGD”
SGD(lr=0.95)
“Momentum”
Momentum(lr=0.1)
“AdaGrad”
AdaGrad(lr=1.5)
“Adam”
Adam(lr=0.3)
grads
‘x’ ‘y’
-0.7 4.0
‘x’
00.07

‘x’
-7.0-6.93
⟵ −
⟵ +



 params[‘x’] = params[‘x’] + self.v[‘x’]
= -7.0 + 0.07 = -6.93

v[‘x’] = 0.9 X 0 – 0.1 X (-0.7) = 0.07

CHAPTER 6-1
AdaGrad 코드
optimizers
“SGD”
SGD(lr=0.95)
“Momentum”
Momentum(lr=0.1)
“AdaGrad”
AdaGrad(lr=1.5)
“Adam”
Adam(lr=0.3)
ℎ ← ℎ + ⨀
← +
1
ℎ
h = 학습률을 조정하는 역할

-7.0 -0.7, 4.0



‘y’
0
h
‘x’
0






h[‘x’] = h[‘x’] + grads[‘x’] X grads[‘x’]
h[‘x’] = 0 + (-0.7) X (-0.7) = 0.49

0.49
params[‘x’]
= params[‘x’] - lr / sqrt(h[‘x’]) X grads[‘x’]
= -7.0 – 1.5 / 0.7 X (-0.7) = -5.5

, 2.0-5.5
16
, 0.5

CHAPTER 6-1
Adam 코드
optimizers
“SGD”
SGD(lr=0.95)
“Momentum”
Momentum(lr=0.1)
“AdaGrad”
AdaGrad(lr=1.5)
“Adam”
Adam(lr=0.3)
← +
⟵ + (1 − )
← + (1 − ) ⨀
 m
‘x’ ‘y’
0 0
v
‘x’ ‘y’
0 0





CHAPTER 6-1
SGD<Momentum<Adam<AdaGrad

CHAPTER 6-1
MNIST 데이터셋으로 본 갱신 방법 비교
[실험] 4개 층, 각 층별 100개의 뉴런, 활성화함수 ReLU

CHAPTER 6-1
MNIST 데이터셋으로 본 갱신 방법 비교
SGD<Momentum<Adam<AdaGrad

배치정규화
초깃값을0으로하면?
은닉층의활성화값분포
ReLU 특화 - He초깃값
MNIST로 비교하기

CHAPTER 6-2
가중치의초깃값
가중치 초깃값을 모두 0으로 하면 오차역전파
법에서 모든 가중치의 값이 똑같이 갱신된다.
초깃값을 똑같이 두고 시작하면 갱신을 거쳐도
가중치는 같은 값을 유지하게 된다. 이는 가중
치를 여러개 갖는 의미를 사라지게 한다. 따라
서 초깃값은 0이나 모두 동일한 값이 아닌
무 작 위 로 설 정 해 야 한 다 .
초깃값을 0으로 하면?

가중치 초깃값에 따라 은닉층 활성화 함수가 변화하는 양상 확인
[실험1] 5개 층, 각 층별 100개의 뉴런, 입력데이터 1000개(정규분포), 활성화함수 시그모이드
CHAPTER 6-2
은닉층의 활성화값 분포
[가중치를 표준편차 1인 정규분포로 초기화할 때 활성화값 분포]
모든 층의 활성화값들이 0과 1에 치우쳐 분포 시그모이드 함수 시그모이드의 편미분 함수
기울기 소실 문제

CHAPTER 6-2
[가중치를 표준편차 0.01인 정규분포로 초기화할 때 활성화값 분포]
표현력 제한 문제
모든 층의 활성화값들이 0.5 부근에 집중됨
= 다수의 뉴런이 거의 같은 값을 출력
가중치 초깃값에 따라 은닉층 활성화 함수가 변화하는 양상 확인
[실험1] 5개 층, 각 층별 100개의 뉴런, 입력데이터 1000개(정규분포), 활성화함수 시그모이드

CHAPTER 6-2
앞 계층의 노드가 개라면 표준편차가 1/ 인 정규분포로 초기화
Xavier초깃값
[가중치의 초깃값으로 ‘Xavier 초깃값’을 이용할 때의 각 층의 활성화값 분포]
각 층에 흐르는 데이터가 충분히 퍼져있어 학습이 효율적으로 이뤄질 것으로 기대됨

CHAPTER 6-2
Xavier 초깃값: 활성화함수가 선형함수일 때(ex. Sigmoid, tanh) He초깃값: 활성화함수가 ReLU함수일 때
앞 계층의 노드가 개라면 표준편차가 1/ 인 정규분포로 초기화
2/

CHAPTER 6-2
[활성화 함수 ReLU 사용시 가중치 초깃값별 활성화값 분포 변화 비교]
학습이 거의 이루어지지 않음
기울기 소실 문제

CHAPTER 6-2
MNIST 데이터셋으로 본 가중치 초깃값 비교
[실험2] 5개 층, 각 층별 100개의 뉴런, 활성화함수 ReLU
표준편차 0.01일 때, Xavier일 때, He일 때

CHAPTER 6-2
MNIST 데이터셋으로 본 가중치 초깃값 비교
[실험2] 5개 층, 각 층별 100개의 뉴런, 활성화함수 ReLU
He
Xavier

배치정규화
배치정규화알고리즘
배치정규화의효과

신경망 학습단계에서 활성화값이 표준정규분포를 갖도록 강제하는 기법
CHAPTER 6-3
배치정규화
배치정규화 알고리즘
Batch normalization
학습 속도 개선
초깃값에 의존하지 않음
오버피팅 억제: 드롭아웃 등 필요성 감소
배치정규화의 강점

미니배치를 단위로 데이터 분포가 평균이 0, 분산이 1이 되도록 정규화
CHAPTER 6-3
배치정규화
Batch normalization
M개의 입력데이터 집합(미니배치) B = { , , …, }
←
1
←
1
−
←
−
+
미니배치 B의 평균
미니배치 B의 분산
평균0, 분산1로 정규화
작은 값(ex. 10e-7)
0으로 나누는 상황 예방
확대 역할
초깃값 1
이동 역할
초깃값 0
확대와 이동 변환 ⟵ +

CHAPTER 6-3
배치정규화
Batch normalization
Affine
Batch
Norm
ReLUinput Affine
Batch
Norm
ReLU
행렬의 내적 배치정규화 활성화함수
1-Layer 2-Layer

CHAPTER 6-3
배치정규화
배치정규화의 효과

배치정규화
오버피팅
가중치감소
드롭아웃

CHAPTER 6-4
오버피팅억제기술
훈련데이터에만지나치게적응되어그외의데이터에는제대로대응하지못하는상태
오버피팅
Overfitting
주요발생원인
매개변수가많고표현력이높은모델인경우
훈련데이터가적은경우

CHAPTER 6-4
오버피팅
Overfitting
[실험] 층 별 100개 뉴런, 총 7층(Layer)의 복잡한 네트워크, 300개의 적은 훈련데이터(1/200), 활성화함수 ReLU

CHAPTER 6-4
오버피팅
Overfitting
[실험] 층 별 100개 뉴런, 총 7층(Layer)의 복잡한 네트워크, 300개의 적은 훈련데이터(1/200), 활성화함수 ReLU
 
Overfitting

CHAPTER 6-4
큰 가중치에 큰 패널티 부과하여 오버피팅 억제
L2 정규화 법칙: 가중치제곱법칙(L2법칙)을손실함수에더함
가중치 감소
weight decay
= + + ⋯+
= +
2
= − −
L2법칙에따른가중치감소
손실함수
(costfunction)
cf. L1법칙:각원소의절대값의합
L∞법칙:각원소의절대값중가장큰값(Max법칙)
SGD 가중치 갱신 수식
* : 정규화세기조절하이퍼파라미터
Weight 벡터

CHAPTER 6-4
가중치 감소
weight decay
[실험] 앞의 오버피팅 실험에서 =0.1로 가중치 감소 적용
Train 정확도가 전체적으로 낮아짐
Train과 Test 정확도 Gap이 줄어듦
오버피팅억제성공





CHAPTER 6-4
드롭아웃
Dropout
뉴런을 임의로 삭제하면서 학습하는 방법
TRAIN - (b)
데이터를 흘릴 때마다 은닉층의 뉴런을 무작위로 골라 삭제
삭제된 뉴런은 신호 전달하지 않게 됨
TEST
모든 뉴런에 신호를 전달
단, 각 뉴런의 출력에 훈련 때 삭제한 비율을 곱하여 출력

CHAPTER 6-4
Dropout과 앙상블
앙상블이란 개별적으로 학습시킨 여러 모델의 출력을
평균 내어 추론하는 방법 (voting등 다른 방법도 사용)이다.
Dropout의 경우 매번 무작위로 뉴런을 삭제하므로,
매 번 다른 모델을 학습시키는 것으로 볼 수 있다.
Neural Network에 앙상블을 직접 쓰지 않는 이유
앙상블은 일반화 에러를 줄이는데 강력한 기법이지만,
거대한 Neural Network이면 각각의 네트워크를 학습
시 키는 데 많은 메 모 리와 많 은 시 간 이 필 요 하 기 때 문
앙상블의 여러 모델의 평균
= Dropout의 출력에 삭제한 비율의 곱

CHAPTER 6-4
[실험] 각 100개 뉴런을 가진 7층 신경망, 활성화함수 ReLU
드롭아웃
Dropout

CHAPTER 6-4
[실험] 각 100개 뉴런을 가진 7층 신경망, 활성화함수 ReLU
드롭아웃
Dropout
그림6-23 왼쪽은 드롭아웃 없이, 오른쪽은 드롭아웃을 적용한 결과(dropout_rate = 0.15)
Train 정확도가 전체적으로 낮아짐
Train과 Test 정확도 Gap이 줄어듦


 

배치정규화
검증데이터
하이퍼파라미터최적화
하이퍼파라미터 최적화 구현

CHAPTER 6-5
하이퍼파라미터값탐색
하이퍼파라미터의 성능 평가 전용 데이터
(하이퍼파라미터의 예: 각 층 뉴런 수, 배치 크기, 학습률, 가중치 감소 등등)
검증데이터
Validation data
훈련데이터
매개변수학습
검증데이터
하이퍼파라미터성능평가
시험데이터
신경망의범용성능평가
시험데이터를 사용하지 않는 이유: 시험데이터에 오버피팅 되기 때문

CHAPTER 6-5
검증데이터가 따로 분리되어 있지 않은 경우(MNIST Data),
훈련 데이터에서 특정 비율만큼 sampling한다.
검증데이터
Validation data

CHAPTER 6-5
하이퍼파라미터 최적화
Hyperparameter Optimization
‘최적값’이 존재하는 범위 줄여나가기
 ‘대략적인’ 범위 설정(10의 계승 단위 = 로그 스케일)
 범위 내에서 무작위로 하이퍼파라미터 값 sampling
 검증 데이터로 정확도 평가 (단, 에폭은 작게 설정)
 위의 과정을 반복하여 범위 좁힌다

기타 참고 자료 출처
http://aikorea.org/cs231n/neural-networks-3/#sgd
http://aikorea.org/cs231n/optimization-1/#gd
https://tensorflow.blog/2017/03/22/momentum-nesterov-momentum/comment-page-1/
http://shuuki4.github.io/deep%20learning/2016/05/20/Gradient-Descent-Algorithm-Overview.html
CHAPTER 6
도서 [밑바닥부터 시작하는 딥러닝]의 CHAPTER 6 내용을 기반으로 구성하였습니다.

CHAPTER 6
END
https://www.facebook.com/groups/softwarecamp
이혜승 & 김음화

Ch6.학습관련기술들

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Ch6.학습관련기술들

Similar to Ch6.학습관련기술들 (9)

Ch6.학습관련기술들