산포된 데이터를 정합하는 직선을 찾는 것으로 이해해도 무방합니다. 주어진 데이터를 이용해 기울기와 절편을 구하는 방법입니다.
먼저 행렬연산을 통해 구하는 방법을 설명합니다. 그리고 퍼셉트론에 사용된 것과 같은 방법을 다시 설명하므로 선택적으로 듣기 바랍니다.
설명된 예제에 대한 C 언어 코드를 제공합니다. Tensorlow 코드는 정합 과정을 시각화하여 보여줍니다.
산포된 데이터를 정합하는 직선을 찾는 것으로 이해해도 무방합니다. 주어진 데이터를 이용해 기울기와 절편을 구하는 방법입니다.
먼저 행렬연산을 통해 구하는 방법을 설명합니다. 그리고 퍼셉트론에 사용된 것과 같은 방법을 다시 설명하므로 선택적으로 듣기 바랍니다.
설명된 예제에 대한 C 언어 코드를 제공합니다. Tensorlow 코드는 정합 과정을 시각화하여 보여줍니다.
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
퍼셉트론의 한계를 극복하는 방법입니다. 퍼셉트론은 나오자 마자 한계에 봉착했는데, 이를 해결하기 위해 구조적인 확장을 하게 됩니다. 그러나 정작 중요한 것은 이 확장된 구조에서의 학습 방법을 오랫 동안 찾지 못한 것입니다. 여기서 소개하는 신경망 학습방법은 신경망 학습방법의 거의 전부라고 할 수 있습니다.
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
퍼셉트론의 한계를 극복하는 방법입니다. 퍼셉트론은 나오자 마자 한계에 봉착했는데, 이를 해결하기 위해 구조적인 확장을 하게 됩니다. 그러나 정작 중요한 것은 이 확장된 구조에서의 학습 방법을 오랫 동안 찾지 못한 것입니다. 여기서 소개하는 신경망 학습방법은 신경망 학습방법의 거의 전부라고 할 수 있습니다.
3. 평균 변화율의 정의
직선의 기울기
y
O x
평균 변화율
(x1, y1)
(x2, y2)
△ y
△ x
=
y2 − y1
x2 − x1
y = f(x)
y = f(x) 에서 x 가 x1 에서 x2 까지 변할 때
라 하고 이 값을 평균변화율 또는 직선의 기울기라고 한다.
4. 함수의 극한 정의
한 없이 한 점에 가까워질때
y
O x
a
lim
x→a
f(x) = p
y = f(x) f(x)
라고 하고
x 가 a 에 한 없이 가까워지면
좌극한
우극한
는 한 없이 p 에 가까워진다를
lim
x→a−0
f(x) = lim
x→a+0
f(x) = lim
x→a
f(x) = f(a) = p 일 때
함수는 연속이다.
5. y
O x
미분 계수의 정의
평균 변화율의 극한 = 순간 변화율
f′

(a) = lim
b→a
f(b) − f(a)
b − a
b − a = h 라 하면
평균 변화율
a
b → a
y = f(x)
b
순간 변화율
b = a + h 가 되고
b → a 일 때 h → 0 이므로 다음과 같이 표현 가능하다.
f′

(a) = lim
h→0
f(a + h) − f(a)
h
f′

(a) 를 미분 계수라 하고
x = a 에서의 접선의 기울기이다.
7. 도함수를 나타내는 여러 가지 방법
y = x2
⇒ y′

= 2x
뉴턴 표기법
라이프니치 표기법
f′

(x) = lim
h→0
Δy
Δx
=
dy
dx
=
δy
δx
라이프니치 표기법의 의의
분수는 아니지만, 분수처럼 계산해도 문제 없다! ☞ Chain Rule
8. 체인 룰 (미분의 연쇄 법칙)
y = e3x2
t = 3x2
= et
δy
δx
=
δy
δt
⋅
δt
δx
= (et
) ⋅ (6x) = (e3x2
) ⋅ (6x)
합성 함수의 미분
9. z = f(x, y) = x2
+ xy + y2
편미분 정의
이변 함수의 미분
δz
δx
=
δf(x, y)
δx
= 2x + y
δz
δy
=
δf(x, y)
δy
= x + 2y
변수가 2개 이상일 때는 한 변을 제외하고 나머지 변을 상수 취급한 뒤 미분을 한다.
δz
δx
(1,2) = 4
δz
δy
(1,2) = 5
δz
δx
(1,1) = 3 은 y = 1 일 때 곡면의 절단면에서 접선의 기울기
10. 수치 미분 (Numerical Differentiation)
근사치를 이용하여 미분을 계산한다
• 필요성
• 사람이 손으로 미분하기 어려울 경우
• 컴퓨터를 이용하여 미분을 할 경우
• 예측치(오차 허용)를 계산할 경우
11. 중심 차분의 정의
두 직선의 기울기의 평균
y
O x
x0 x0 + h
x0 − h
전향 차분
y
O x
x0 x0 + h
x0 − h
전향 차분과 후향 차분의 평균
후향 차분
f(a + h) − f(a − h)
2h
12. 중심 차분의 극한 => 에서의 미분 계수
수치 미분의 오차를 줄인다
y
O x
x0 x0 + h
x0 − h
lim
h→0
f(a + h) − f(a)
h
= lim
h→0
f(a + h) − f(a − h)
2h
수치 미분에서 오차가 발생할 수 밖에 없는데,
중심 차분을 이용하면 오차가 더 적다는 것이
알려져있다.
x = x0