DL from scratch(1~3)

밑바닥부터 시작하는 딥러닝
박성현 zkfthfl123@naver.com

목차
1. 파이썬 기본 (생략)
2. 퍼셉트론
3. 신경망

퍼셉트론
• 다수의 신호를 입력으로 받아 하나의 신호를 출력한다.
• 뉴런에서 보내온 신호의 총합이 정해진 한계를 넘어설 때만 1을 출력한다.
𝑥1
𝑥2
𝑦
𝑤1
𝑤2
𝑦 = ቊ
0 (𝑤1 𝑥1 + 𝑤2 𝑥2 ≤ 𝜃)
1(𝑤1 𝑥1 + 𝑤2 𝑥2 > 𝜃)

퍼셉트론을 이용한 단순 논리 회로
𝒙 𝟏 𝒙 𝟐 𝒚
0 0 0
1 0 0
0 1 0
1 1 1
𝑥1
𝑥2
𝑦
𝑤1 = 0.5
𝑤2 = 0.5
𝑦 = ቊ
0 (0.5 ∗ 𝑥1 + 0.5 ∗ 𝑥2 ≤ 0.7)
1(0.5 ∗ 𝑥1 + 0.5 ∗ 𝑥2 > 0.7)
이 외에도 조건을 만족하는 매개변수 조합은 무한히 많다.
AND 게이트의 진리표
𝜃 = 0.7
AND 게이트 외에 NAND, OR 게이트도 퍼셉트론의 매개변수의 값만 적절히 조절하면 만들 수 있다.

퍼셉트론 구현 (AND)
𝑦 = ቊ
0 (𝑤1 𝑥1 + 𝑤2 𝑥2 ≤ 𝜃)
1(𝑤1 𝑥1 + 𝑤2 𝑥2 > 𝜃)
𝑦 = ቊ
0 (𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2 ≤ 0)
1(𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2 > 0)
theta 가 −𝑏 (편향) 으로
𝑤1, 𝑤2 (가중치) : 입력신호의 영향력을 조절
𝑏 (편향) : 뉴런이 얼마나 쉽게 활성화 하는지 조정

퍼셉트론의 한계
𝒙 𝟏 𝒙 𝟐 𝒚
0 0 0
1 0 1
0 1 1
1 1 0
XOR 게이트의 진리표
퍼셉트론으로는 XOR 게이트를 표현할 수 없다.
하지만 기존의 게이트를 조합하면?

다층 퍼셉트론
𝒙 𝟏 𝒙 𝟐 𝒔 𝟏 𝒔 𝟐 𝒚
0 0 1 0 0
1 0 1 1 1
0 1 1 1 1
1 1 0 1 0
NAND 게이트 OR 게이트 AND 게이트

다층 퍼셉트론
𝑥1
𝑥2
𝑠1
𝑠2
𝑦
NAND 게이트
OR 게이트
AND 게이트

정리
• 퍼셉트론은 입출력을 갖춘 알고리즘이다.
입력을 주면 정해진 규칙에 따른 값을 출력한다.
• 퍼셉트론에서는 ‘가중치’와 ‘편향’을 매개변수로 설정한다.
• 퍼셉트론으로 간단한 논리 회로를 표현할 수 있다.
• 다층 퍼셉트론은 단층 퍼셉트론의 한계를 극복하였다.

신경망
• 퍼셉트론으로 복잡한 함수를 표현할 수 있다.
• 하지만 가중치를 설정하는 작업은 사람이 입력해야 한다.
• 신경망은 가중치 매개변수의 적절한 값을
데이터로부터 자동으로 학습한다.

신경망의 예
입력층
은닉층
출력층

활성화 함수
𝑦 = ቊ
0 (𝑤1 𝑥1 + 𝑤2 𝑥2 ≤ 𝜃)
1(𝑤1 𝑥1 + 𝑤2 𝑥2 > 𝜃)
𝑦 = ቊ
0 (𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2 ≤ 0)
1(𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2 > 0)
ℎ(𝑥) = ቊ
0 (𝑥 ≤ 0)
1(𝑥 > 0)
𝑦 = ℎ(𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2)
퍼셉트론 편향 도입
𝒉 𝒙 와 같이 입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 활성화 함수라고 한다.
활성화 함수 도입

활성화 함수
𝑥1
𝑥2
ℎ()
𝑤1
𝑤2
1
𝑏
𝑎 𝑦
𝑎 = 𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2
𝑦 = ℎ(𝑎)

활성화 함수
계단 함수 시그모이드 함수 ReLU 함수
ℎ 𝑥 =
1
1 + 𝑒−𝑥
ℎ(𝑥) = ቊ
0 (𝑥 ≤ 0)
1(𝑥 > 0)
ℎ(𝑥) = ቊ
0 (𝑥 ≤ 0)
𝑥(𝑥 > 0)

활성화 함수
• 퍼셉트론에서는 계단 함수를 이용했다면
신경망에서는 시그모이드 함수나 ReLU 함수를 이용한다.
• Why?
• 계단함수를 이용하면 신경망의 학습이 잘 이뤄지지 않는다.
• 4장에서 자세히 설명하겠습니다.

활성화 함수 구현 (sigmoid)

신경망 계산
𝑥1
𝑥2
𝑦1
𝑦2
𝑦3
행렬의 내적을 이용해 빠르고 효율적으로 구현이 가능하다.
𝑋 ∙ 𝑊 = 𝑌
𝑥1
𝑥2
∙
𝑤11 𝑤12 𝑤13
𝑤21 𝑤22 𝑤23
=
𝑦1
𝑦2
𝑦3
𝑤11
𝑤12
…

신경망 구현
입력 - 은닉(1)
은닉(1) - 은닉(2)
은닉(2) - 출력

출력층 함수
항등 함수 소프트 맥스 함수
𝑦 𝑘 =
𝑒 𝑎𝑘
σ𝑖=1
𝑛
𝑒 𝑎𝑖
* 회귀에 사용 * 분류에 사용

출력층 함수
𝑦 𝑘 =
𝑒 𝑎𝑘
σ𝑖=1
𝑛
𝑒 𝑎𝑖
=
𝑒 𝑎𝑘+𝐶
σ𝑖=1
𝑛
𝑒 𝑎𝑖+𝐶
오버플로를 막기 위해 x의 최대값을 빼서 대입

손글씨 숫자 인식 예제 (MNIST)
데이터 가져오기
학습된 가중치 매개변수 가져오기

배치 처리
1 X 784 784 X 50 50 X 100 100 X 10 = 1 X 10
W1 W2 W3 Y
100 X 784 784 X 50 50 X 100 100 X 10 = 100 X 10
W1 W2 W3 Y
하나의 이미지에 대한 결과값
전체 이미지에 대한 결과값
이미지 묶음
100 개
I/O 를 통해 데이터를 읽는 횟수가 줄어, 빠른 CPU 나 GPU로 순수 계산을 수행하는 비율이 높아진다!

배치 처리 구현
추가됨

정리
• 신경망의 활성화 함수 (시그모이드, ReLU…)
• 기계학습 문제는 회귀와 분류로 나뉜다.
• 출력층의 활성화 함수 (회귀 : 항등 함수 / 분류 : 소프트맥스 함수 …)
• 배치 처리를 하면 결과를 훨씬 빠르게 얻을 수 있다.

DL from scratch(1~3)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DL from scratch(1~3)

Similar to DL from scratch(1~3) (20)

DL from scratch(1~3)