8. IMCLOUD Technology Documents
Feed Forward Network
Backpropagation
<경사 하강법>
• error과 W간의 관계를 함수 도출
• 이 함수를 미분하여
기울기가 최소가 되도록 W를 조정
• 실제로는 신경망이 다층이므로,
여러 W에 대한 합성함수를 미분
(Chain Rule, 연쇄 법칙)
9. IMCLOUD Technology Documents
Feed Forward Network
Backpropagation
• Learning rate가 너무 작으면
학습이 오래 걸린다.
• Learning rate가 너무 크면
최소 지점을 찾지 못한다.
10. IMCLOUD Technology Documents
Feed Forward Network
Overfitting & Dropout
<Overfitting> <Dropout>
학습 데이터에 완벽하게 적합한 학습의 경우
오히려 실제 분류 시에 오차율이 높아짐
임의의 몇몇 뉴런의 출력 값을
0으로 고정시킴
11. IMCLOUD Technology Documents
Feed Forward Network
Vanishing gradient & ReLU
<Vanishing gradient>
<ReLU>
역전파 결과가 첫 계층까지
전달되지 못하는 현상
Sigmoid 함수가 원인이 밝혀지고
ReLU함수가 등장하게 됨.
12. IMCLOUD Technology Documents
Unsupervised Feed Forward Network
Deep Auto-encoder
• Auto-encode를 여러 layer 쌓으면 Deep Auto-
encode
• Greedy layer-wise 트레이닝
• Deep Neural Network를 pre-train할 수 있음
-> Overfitting 방지하는 것이 가능
13. IMCLOUD Technology Documents
Unsupervised Feed Forward Network
Deep Belief Network
• 제한된 볼츠만 머신(RBM)를 여러 layer 쌓고
Greedy layer-wise 트레이닝
• RBM은 방향성 없이 완전 연결된 두 계층을
가지며,
확률을 이용하여 출력 값을 계산한다.
• Auto-encode와 마찬가지로, Deep Neural
Network를
pre-train할 수 있음
• 이 구조를 시작으로 Deep learning의
부흥기가 시작됨
->지금은 Unsupervised pretraining 방법들은
거의 쓰이지 않는다.
17. IMCLOUD Technology Documents
Convolutional Neural Network
Basic concept
• 이미지의 특징점을 추출하고, 추출된 특징점에서 다시 의미 있는 픽셀만 추출
-> 각 레이어를 통과할 때 마다, 이미지의 크기가 작아지고 의미 있는 특징점만 남는다.
• 마지막에 최종적인 이미지를 Fully connected layer에 입력하여 분류 학습
• 오류 역전파를 통해서, 커널 계수와 FC의 가중치를 조정
• 망의 깊이가 깊을 수록, 그리고 너비가 넓을 수록 성능이 좋아짐
-> Overfitting 등의 문제가 발생할 가능성도 높아짐
18. IMCLOUD Technology Documents
Convolutional Neural Network
Fully convolutional network
• Fully connected layer를 1 X 1 convolution layer로 대체 한 것.
• 더 이상 이미지의 크기에 구애 받지 않고 학습이 가능하다.
• Fully connected layer와 달리 찾아진 object의 위치 정보가 소실되지 않는다.
22. IMCLOUD Technology Documents
Convolutional Neural Network
Faster R-CNN
1. 미리 학습된 CNN의 Conv Layer에 Fully convolutional layer를 구성
2. 이를 이용해서 이미지 내의 객체 위치를 판별
3. 찾아진 위치를 바탕으로 FC를 이용해 객체를 분류
Selective search 기반 = 2초 가량
Faster R-CNN = 0.2초 월등한 성능
객체의 위치 판별이 CNN 알고리즘의 일부를 공유하기 때문