Chapter 6 Deep feedforward networks - 1

Deep Feedforward Networks
하인준 이화용
6

목표는 어떤 함수를 근사하는것
feedforward인 이유는 한 방향으로만 가면서 최종 출력 y에 도달하기 때문
feedback을 도입하여 확장한 모형을 recurrent neural network(순환 신경망 10장)
f(x) ≈ f*(x)

네트워크는 그물처럼 엮인 형태로 표현
세 함수의 연쇄구조. 가 각각 1층 2층
사슬구조의 길이는 깊이(또는 심도)
마지막 층( )을 출력층이라고 부른다
신경망을 훈련한다는것은 이 f들을 목적함수에 적합시키는 것을 의미.
중간층의 출력을 보여주지 않기 때문에 hidden layer라고 한다.
f(1)
, f(2)
f(3)
(f(2)
(f(1)
(x))) ≈ f*(x)
f(3)

perceptron 선형모형의 한계를 어떻게 극복할 수 있을까
선형모형은 모형의 수용력이 선형함수로만 국한됨. 이 결함 때문에 선형모형은 임의의 두 입력변수 사이의 상호작용을 이해할 수 없음
선형모형을 x의 비선형 함수들로 확장하는 방법은 선형모형을 x자체가 아니라 변환된 에 적용하는 것이다.
kernel의 개념과 유사!
ϕ(x)

Example : XOR case
x1
x2
̂yS
̂y = σ(X * weight + bias)

Example : XOR case
x1
x2
̂yS
x1
x2
̂yS
x1
x2
̂yS

Example : XOR case
XOR
0 0 0 1 0 0
0 1 1
1 0 1
1 1 0
x1 x2 y1 y2 ̂y
x1
x2
y1S
x1
x2
y2S
y1
y2
̂yS
W =
[
5
5]
, b = − 8 W = [
−7
−7], b = 3 W =
[
−11
−11]
, b = 6

Example : XOR case
XOR
0 0 0 1 0 0
0 1 0 0 1 1
1 0 1
1 1 0
x1 x2 y1 y2 ̂y
x1
x2
y1S
x1
x2
y2S
y1
y2
̂yS
W = [
−7
−7], b = 3 W =
[
−11
−11]
, b = 6W =
[
5
5]
, b = − 8

Example : XOR case
XOR
0 0 0 1 0 0
0 1 0 0 1 1
1 0 0 0 1 1
1 1 0
x1 x2 y1 y2 ̂y
x1
x2
y1S
x1
x2
y2S
y1
y2
̂yS
W = [
−7
−7], b = 3 W =
[
−11
−11]
, b = 6W =
[
5
5]
, b = − 8

Example : XOR case
XOR
0 0 0 1 0 0
0 1 0 0 1 1
1 0 0 0 1 1
1 1 1 0 0 0
x1 x2 y1 y2 ̂y
x1
x2
y1S
x1
x2
y2S
y1
y2
̂yS
W = [
−7
−7], b = 3 W =
[
−11
−11]
, b = 6W =
[
5
5]
, b = − 8

Example : XOR case
+
-
-
x1
x2
y1
y2
선형모형을 x의 비선형 함수들로 확장하는 방법은 선형모형을 x자체가 아니라 변환된 에 적용하는 것이다.
kernel의 개념과 유사!
ϕ(x)

Example : XOR case
x1
x2
̂y
다른 W와 b 구할수 있을까?
S
S
S
W = [
−7
−7], b = 3
W =
[
−11
−11]
, b = 6
W =
[
5
5]
, b = − 8

Example : XOR case
̂YX
W1 =
[
5 −7
5 −7]
B1 =
[
−8
3 ]
W2 =
[
−11
−11]
b2 = 6
XW1 + B1 XW2 + b2S S
k(X) = σ(XW1 + B1)
̂Y = H(X) = σ(k(X)W2 + b2)
K
f(3)
(f(2)
(f(1)
(x))) ≈ f*(x)

Gradient-Based Learning
최적의 모델?
개선? 학습?

Cost Function의
Global optimum을 찾기는 어렵다!

딥러닝에서는 layer가 쌓이면서
추정해야 할 모수들이 기하급수적으로 늘어나므로
수치적 추정은 거의 불가능하다.
적절한 Local optimum을 목표로 한다.

Cost Function
딥 뉴럴 네트워크의 비용함수도 선형 모델과 별다르지 않다!

Output Units
Binary Multinomial
Algorithm Logistic Softmax
cost function Logistic cost function Cross Entropy
formula C : (H(x), y) = − y log(H(x)) − (1 − y)log(1 − H(x)) C : (H(X), Y) = −
∑
i
Yi log(H(Xi))

Hidden Units
Vanishing Gradient

Hidden Units
̂YX S S SS
Sigmoid !

Hidden Units
̂YX R R SR
g(x) = max(0,x)
ReLU !

https://en.wikipedia.org/wiki/Activation_function
Hidden Units

Chapter 6 Deep feedforward networks - 1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Chapter 6 Deep feedforward networks - 1

Similar to Chapter 6 Deep feedforward networks - 1 (7)

More from KyeongUkJang

More from KyeongUkJang (20)

Chapter 6 Deep feedforward networks - 1