ch4. 오차 역전파법
딥러닝 제대로 시작하기
아꿈사
Cecil
미분을 사용한 기울기 계산
출력층 활성화 함수(항등 함수): y(x)
제곱거리 오차함수:
하나의 기울기:
심층 신경망의 일반적 구조:
기울기 계산이 까다롭고, 계산 비용이 큼.
오차 역전파법
(Backward propagation of errors)
기울기를 효율적으로 계산하기 위한 방법
예제 2계층 신경망의 기울기 계산
오차함수: 제곱오차
출력층 함수: 항등함수
입력: X = [x1, x2, ..]T
z: 각 계층의 출력
u: 입력 x 가중치의 합
f: 임의의 활성화 함수
중간층 출력
출력층 출력
오차 함수
오차 함수 미분: w(3)
오차 함수 미분: w(3)
dy/dwji
(3) 의 계산
결국,
w(3)
오차 함수 미분: w(2)
결국,
???
w(2)
u(2)
오차 함수 미분: w(2)
결국…
u(2)
다층 신경망으로 일반화
델타 정의
결국 델타는
역전파 최초값
결국
경사 하강법의 전체 알고리즘
출력층의 델타(제곱오차)
출력층 활성화 함수가 항등함수일 경우
임으로,
출력층의 델타(이진 분류: 로지스틱 회귀)
시그모이드 함수의 미분
결과적으로,
출력층의 델타(크로스엔트로피, 소프트맥스)
결과적으로,
A로 가정
A를 uj
(L) 로 미분
나머지 내용들..
•차분근사
•오차역전파법은 계산이 복잡하기 때문에 차분근사를 계산하여 이를 검증함
•기울기 소실
•역전파는 선형 계산이므로 계층이 깊을 경우 기울기가 발산되거나 0이 됨
•이를 해결하기 위해 가중치의 초기값을 잘 정해야함: 사전훈련
References
•김성훈. 모두를 위한 머신러닝/딥러닝 강의, https://hunkim.github.io/ml
•오카타니 타카유키. 딥러닝 제대로 시작하기(심효섭 옮김). 경기도 파주시
회동길 제이펍, 2016.

딥러닝 제대로시작하기 Ch04