인공지능, 기계학습 그리고 딥러닝

인공지능, 기계학습
그리고 딥러닝
Dec 26, 2016
이진원 / Seoul National University

2
살펴볼 것들…
• 인공지능이란 무엇인가?
• 기계학습은 어떻게 할까?
• 딥러닝은 무엇이고 왜 필요한가?
• Convolutional Neural Network
• 유명한 CNN들(ILSVRC winners)
• Tensorflow를 이용한 CNN 구현방법
• CNN 응용 사례

3
자세히 다루지 않는 것들
• 어려운 수학
• Unsupervised Learning
• Reinforcement Learning
• RNN 계열의 딥러닝 알고리즘

5
Nicolaus Copernicus(1473-1543)

6
• 왜 사람들은 처음에 천동설부터
생각했을까?
• 왜 사람은 만물의 영장인가?
• 지능은 사람만 가질 수 있는가?
우리는 세상의 중심?

7
1, 2, 3, 4차 산업혁명
Steam Engine Electricity, Automobile
PC, Internet Artificial Intelligence
사람의
육체노동을
대체
사람의
지적노동을
대체?
1 2
3 4

8
인공지능, 기계학습, 딥러닝
Credit : Nvidia blog

9
인공지능(Artificial Intelligence)
• 1956년 다트머스 회의에서 처음 사용
• From Wikipedia:
Artificial intelligence (AI) is intelligence exhibited
by machines. In computer science, an ideal "intelligent"
machine is a flexible rational agent that perceives its
environment and takes actions that maximize its chance
of success at some goal
 AI Translation:
인공 지능 (AI)은 기계가 나타내는 지능입니다. 컴퓨터 과학
에서 이상적인 ＂지능형＂기계는 환경을 인식하고 목표 달
성의 기회를 극대화하는 유연하고 합리적인 에이전트입니다.

10
쉬운 것과 어려운 것
• 여우와 두루미
• 사람과 컴퓨터?

11
컴퓨터에게 쉬운 것과 어려운 것
• 컴퓨터가 잘하는 것은 명확하게 정의된 일, 즉 알고리즘에
대한 수행이다.
• 사람이 진화과정에서 자연스럽게 터득한 것들이 컴퓨터에
게는 어렵다.
• 언어의 해상도가 인식의 해상도보다 낮기 때문이다
vs
Easy Hard

12
규칙 기반 학습의 부작용(?)

13
어떻게 학습할 것인가?
Credit : MBC 기계 인간의 탄생

14
기계학습(Machine Learning)
• 기계학습(Machine Learning)
Machine learning is the subfield of computer science that
"gives computers the ability to learn without being explicitly
programmed“
기계 학습은 "컴퓨터에 명시적으로 프로그래밍하지 않고 학습 할
수 있는 능력을 부여하는“ 컴퓨터 과학의 하위 분야입니다.
Computer
inputs
program
outputs
Computer
inputs
outputs
program
일반적인 programming
기계학습
기계가 program을 직접 작성!

15
Quiz
• □와 △에 들어갈 정수는?
 3 x □ + 2 x △ = 1
 1 x □ + 4 x △ = -3
 5 x □ + 5 x △ = 0
 8 x □ + 3 x △ = 5
• □ = 1, △ = -1
• (3, 2), (1, 4), (5, 5), (8, 3) 은 input data, 1, -3, 0, 5 는 label
이다
• □와 △를 weight라고 하며 이 weight 값을 기계가 스스로
학습을 통해 찾아내도록 하는 것이 기계학습이 하는 일

16
기계학습의 종류
• Supervised Learning(지도학습)
 Input 과 labels을 이용한 학습
 분류(classification), 회귀(regression)
• Unsupervised Learning(비지도학습)
 Input만을 이용한 학습
 군집화(clustering), 압축(compression)
• Reinforcement Learning(강화학습)
 Label 대신 reward가 주어짐
 Action selection, policy learning

17
Reinforcement Learning
https://youtu.be/Q70ulPJW3Gk
https://youtu.be/SuoouILpjDo

18
뉴런과 사람의 학습
이전 뉴런과 연결 다음 뉴런으로 전달
수상돌기 축삭돌기
시각
신경
청각
신경
침샘
분비
강
함
약
함
강
함
학습
파블로프의 개 실험

19
Perceptron(Artificial Neural Network)
𝑦 = 𝑓(𝐰𝐱 + b)
𝒘 = [𝑤1 𝑤2 𝑤3 … 𝑤 𝑛]
𝒙 = [𝑥1 𝑥2 𝑥3 … 𝑥 𝑛] 𝑇
𝑦𝑓
𝑏
<Perceptron>
sigmoid activation function
𝑓 𝑥 =
1
1 + 𝑒−𝑥

20
Example of ANN(logical AND)
0
1
1
ℎ 𝑥 = 0
ℎ 𝑥 =1
𝑥1
𝑥2
학습이란 이러한 weight 값(-30, 20, 20)을
기계 스스로 찾을 수 있도록 해주는 과정!

21
아파트 가격 예측(Regression)
• 아파트 가격을 예측하는 프로그램을 작성해보자
 평수(평)
 층수(층)
 가장 가까운 지하철 역까지의 거리(km)
 해당 지역의 1인당 소득 평균(천만원)
평수 층수
지하철
역까지의 거리
(km)
해당지역
1인당 소득
(천만원)
아파트가격
(천만원)
34 15 1 4 72
32 4 5 3.3 60
18 9 2 2.5 34
42 3 2.5 5 100
21 10 1.5 3 42

22
일반적인 방법
• 기존의 data와 경험을 바탕으로 한 정보
 평수는 클수록 비싸다
 층수는 높은 층이 낮은 층보다 비싸다
 지하철 역까지의 거리는 가까울수록 비싸다
 그 지역의 소득수준이 높을수록 비싸다
• 위 정보들 간의 중요도에 따라 가중치를 주어서 최종 가격
을 추론한다
 평수가 가장 중요함
 층 수는 평수에 비해서 덜 중요함
 지하철 역까지의 거리는 중요하지만 거리값이 작을수록 가격이 비
싸짐
 그 지역의 소득수준은 아파트 가격 결정에 가장 덜 중요함 등
• 예) 평수 x 2 + 층수 x 0.3 + 지하철 역까지 거리 x (-1) + 소득
수준 x 0.1 = 아파트 가격(천만원)

23
기계학습을 이용하는 방법
• 기존의 data를 이용하여 각 항목별로 □,△,○,☆에 들어갈 값을
기계 스스로 학습하게 한다.
 평수 x □ + 층수 x △ + 지하철 역까지 거리 x ○ + 소득수준 x ☆
= 아파트 가격(천만원)
• 어떻게?
 맨 처음 □,△,○,☆ 값을 random으로 정한 후 실제 가격과 비교하여
그 (차이값)2의 평균 계산한다
 □,△,○,☆를 모두 1로 했을 경우, (실제가격 – 추론가격)2 의 평균 = 287.524
 이제 □,△,○,☆를 기계 스스로 조금씩 조정하여 (차이값)2의 평균이 0
이 되게 할 수 있다면, 프로그램이 완성된다
평수 층수
지하철
역까지의 거리
(km)
해당지역
1인당 소득
(천만원)
아파트가격
(천만원)
추론한
아파트 가격
(천만원)
34 15 1 4 72 54
32 4 5 3.3 60 44.3
18 9 2 2.5 34 31.5
42 3 2.5 5 100 52.5
21 10 1.5 3 42 35.5

24
Multi Layer Perceptron(MLP)
• 아파트 가격 결정에 소득수준이 높은 지역에서는 낮은 지역보다
지하철 역까지의 거리가 덜 중요하다면?
• 아파트 가격을 우선 여러가지로 예측하고 그 예측한 값들을 다시
잘 조합하여 더 잘 예측해보자(regression)
• 선을 잘 긋고 input 공간을 잘 왜곡하고 합하는 과정을 반복해서
데이터들을 잘 구분해보자(classification)
• 이렇게 perceptron을 여러층으로 쌓으면 더 복잡한 문제를 풀 수
있다
• Linear fitting과 Non-linear transform의 반복

26
딥러닝(Deep Learning)
• 딥러닝은 deep neural network를 통하여 학습하는 것을
의미함
• Hidden layer의 수 <= 1  shallow network
• Hidden layer의 수 >= 2  deep network
• 이렇게 많은 weight 값들을 어떻게 학습시킬 것인가??

27
Back Propagation
• 학습과정 : back propagation of error
 Output layer에서 error(cost)를 계산
 Error의 미분값을 back propagation
 미분값에 𝛼를 곱한 만큼 w를 보정(학습!)
 𝛼는 learning rate를 의미함
gradient descent

28
딥러닝을 어렵게 하는 것들
• Vanishing gradient problem
• Overfitting problem
• Get stuck in local minima

29
Vanishing Gradient Problem
• Gradient 값이 뒤로 전달될 수록 점점 작아짐
• Sigmoid 사용으로 인하여(미분값의 최대 : ¼)
아래쪽 layer는 학습이 이루어지지 않음

30
Overfitting Problem
• Data가 많지 않은 경우에 발생할 수 있음
• 학습한 data에만 최적화되어서, 학습하지 않은 data(test
data)에 대한 추론 성능이 악화되는 현상

31
Local Minima
• 어디서 시작하느냐에 따라서 잘못하면 local minima에 빠
질 위험이 존재

32
어떻게 해결할까?
• Vanishing gradient problem
 Sigmoid 말고 ReLU를 쓰자
• Overfitting problem
 Regularization method를 쓰자(예 : dropout)
• Get stuck in local minima
 Local minima에 빠져도 괜찮다

33
ReLU : Rectified Linear Unit
• ReLU를 activation function으로 사용  sparse activation
• ReLU는 미분값이 0 아니면 1  vanishing gradient 해결

34
ReLU의 의미
• Piece-wise linear tiling : locally linear mapping

35
Dropout(Regularization Method)
• 각 학습 단계마다, 특정 확률로(예 : 50%) random하게
hidden layer에 있는 unit들을 없애고 학습하는 방법
• Ensemble 개념을 적용
 여러 개의 model을 사용하여 평균값을 쓰면 하나의 model을 쓰
는 경우보다 좋음
 하나의 model로 비슷한 효과를 낼 수 있는 방법

36
Local Minima에 대하여
• minimum이라고 하는 것은 현재
차원에서 이동할 수 있는 모든
방향으로의 gradient 값이 증가
하는 방향이어야 하는데 이런 경
우는 확률적으로 희박함
• DNN과 같은 고차원 구조에서는
대부분은 local minima가 아니라
saddle point일 가능성이 높음
• 만약 실제 local minima가 존재
한다면 그것은 global minimum
과 거의 차이가 없을 가능성이
높음(neural network의 대칭성)
saddle point

38
Convolutional Neural Network
• 이미지 인식에 가장 널리 사용됨
• 일반적으로 convolution layer, pooling layer, fully-
connected layer로 구성
• Parameter(weight) sharing
• Convolution과 pooling layer는 feature를 추출하고 fully-
connected layer는 어떤 class에 속하는지 판단하는 역할
을 수행
Picture Credit : The Data Science blog

39
CNN의 동작원리
• 이미지를 작은 tile로 나
누고, 작은 network를 통
해 tile에서 특정 feature
를 추출(예: 귀)
• Newtork가 다음 tile로 이
동하면서 같은 방법으로
feature를 추출(동일한
weight 사용)
• 다른 feature(예: 눈)를 추
출하는 network를 추가
로 만들고 위와 같은 방
법으로 tile을 하나씩
network에 적용
• 추출된 모든 feature들을
잘 조합하여 최종적으로
이미지를 판단

40
Convolution
1 1 1 0 0
0 1 1 1 0
0 0 1 1 1
0 0 1 1 0
0 1 1 0 0
1 0 1
0 1 0
1 0 1
4 3 4
2 4 3
2 3 4
=
convolution
1 1 1 0 0
0 1 1 1 0
0 0 1 1 1
0 0 1 1 0
0 1 1 0 0
1 0 1
0 1 0
1 0 1
4
=convolution
filter feature map
Input or feature map
filter feature map
Input or feature map
• Convolution 연산 : 같은 위치에 있는 숫자끼리 곱한 후 모
두 더함
 1x1 + 1x0 + 1x1 + 0x0 + 1x1 + 1x0 + 0x1 + 0x0 + 1x1 = 4
• Filter가 옆으로 이동 후 같은 연산 수행
• 옆으로 모두 이동한 이후에는 아래로 이동 후 같은 연산
수행

41
Convolution
Credit : Leonardo’s gitbook

42
Feature Extractor
Credit : Adit Deshpande’s blog

43
Feature Extractor
Credit : Adit Deshpande’s blog

44
Convolution
(Multi Channel, Many Filters)
1 1 1 1 0
1 1 1 1 0
0 0 0 1 1
0 1 1 1 0
0 1 1 0 0
0 1 1 0 1
0 1 1 0 0
0 0 1 1 0
0 0 1 1 1
1 1 1 0 0
1 1 1 0 0
0 1 1 1 0
0 0 1 1 1
0 0 1 1 0
0 1 1 0 0
-1 0 0
0 1 0
0 0 -1
0 -1 0
-1 1 -1
0 -1 0
1 0 1
0 1 0
1 0 1
-1 0 -1
0 1 0
0 0 -1
0 -1 0
-1 1 0
0 -1 0
1 0 1
0 -1 0
1 0 1
1 -1 1
0 -1 -1
3 1 0
3 0 1
-2 0 2
0 2 3
=
convolution
Input channel : 3 Output channel : 2# of filters : 2

45
Convolution
(Multi Channel, Many Filters)
1 1 1 1 0
1 1 1 1 0
0 0 0 1 1
0 1 1 1 0
0 1 1 0 0
0 1 1 0 1
0 1 1 0 0
0 0 1 1 0
0 0 1 1 1
1 1 1 0 0
1 1 1 0 0
0 1 1 1 0
0 0 1 1 1
0 0 1 1 0
0 1 1 0 0
-1 0 0
0 1 0
0 0 -1
0 -1 0
-1 1 -1
0 -1 0
1 0 1
0 1 0
1 0 1
3 0 1
-2 0 2
0 2 3
1 -1 1
0 -1 -1
3 1 0
-1 0 -1
0 1 0
-1 0 -1
0 1 0
-1 -1 0
0 1 0
1 0 1
0 -1 0
1 0 1
Input channel : 3
Output channel : 2
# of filters : 2
convolution
convolution
convolution
convolution
convolution
convolution

46
Visualization of a Convolution Layer
Picture Credit : fundamentals of deep learning by Nikhil

47
ReLU
3 0 1
-2 0 2
0 2 3
1 -1 1
0 -1 -1
3 1 0
𝑓
3 0 1
0 0 2
0 2 3
𝑓
1 0 1
0 0 0
3 1 0
ReLU
ReLU

48
Pooling Layer
• Max pooling을 많이 사용함

49
2x2 Max Pooling with Stride=1
3 0 1
0 0 2
0 2 3
1 0 1
0 0 0
3 1 0
3 2
2 3
1 1
3 1
max pooling
max pooling

50
Fully-Connected Layer
3 2
2 3
1 1
3 1
3
2
2
3
1
1
3
1
2
1
softmax
0.8
0.2
Cat
Dog

51
Convolutional Neural Network
• 하위 layer에서는 선, 곡선, 색과 같은 feature들을 추출, 상
위 layer로 갈수록 점점 추상화된 feature 생성

52
Large Scale Image Classification
• ImageNet
 Over 15
• ImageNet
 Over 15 million labeled high-
resolution images
 Roughly 22,000 categories
 Collected from the web
 Labeled by human labelers using
Amazon’s Mechanical Turk crowd-
sourcing tool
• ImageNet Large-Scale Visual
Recognition Challenge (ILSVRC)
 Uses a subset of ImageNet
 1,000 categories
 1.2 million training images
 50,000 validation images
 150,000 test images
 Report two error rates:
 Top-1 and top-5

53
ImageNet Classification Results
<2012 Result>
• Krizhevsky et al. – 16.4% error(top-5)
• Next best (non-convnet) – 26.2%
error
<2013 Result>
• All rankers use deep
learning(Convnet)
Revolution of Depth!
AlexNet

54
AlexNet(2012 winner)
• 7 hidden layers, 650,000 neurons, 60M parameters
• 2대의 GPU로 1주일간 학습진행
“ImageNet Classification with Deep Convolutional Neural Networks “

55
AlexNet Result
“ImageNet Classification with Deep Convolutional Neural Networks “

56
GoogLeNet(2014 winner)
• Inception modul을 반복하여 사용
• 1x1 convolution을 사용하여 channel 수를 조절
• Fully connected layer 대신 global average pooling 사용
• 5M parameters, 1.5B operations/evaluation
Inception module
“Going Deeper With Convolutions”

57
VGG(2nd place in 2014)
• 3x3 filter만 반복해서 사용
• Why??
 Convolution filter를 stack하면 더
큰 receptive field를 가질 수 있음
 2개의 3x3 filter = 5x5 filter
 3개의 3x3 filter = 7x7 filter
 Parameter수는 큰 filter 사용하는
경우에 비하여 감소 
regularization 효과
“Very Deep Convolutional Networks for Large-Scale Image Recognition”

58
Inception-v3
• Factorization of filters
“Rethinking the Inception Architecture for Computer Vision”

59
Residual Net(2015 winner)
• Revolution of Depth
“Deep Residual Learning for Image Recognition”

60
ResNet
• Layer수가 많을수록 항상 좋을까?
• 56개의 layer를 사용하는 경우가 20개의 layer를 사용하는
경우에 비해 training error가 더 큰 결과가 나옴

61
ResNet
• 더 deep한 model은 training error가
더 낮아야 함
 Shallow model의 parameter를 deeper
model에 copy
 Extra layers가 identity function의 역할
만 해도 동일한 결과가 나올 수 있음
• Deep한 model은 optimization이 쉽
지 않다는 것을 발견(identity도 힘들
다)
A shallower model
(18 layers)
A deeper model
(34 layers)

62
Deep Residual Learning
• Identity는 그대로 상위 layer로 전달하고, 나머지 부분만
학습

63
ResNet Result
• ImageNet experiments

64
Inception-ResNet
• Inception + ResNet
“Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”

66
Tensorflow를 이용한 구현
• Tensorflow
 Google에서 개발, 2015년 11월에 open source로 공개된 딥러닝
framework
 Python기반, computational graph를 이용(theano와 비슷함)
 CPU, GPU, multi-GPU를 모두 지원
 https://tensorflow.org

67
Tensorflow 동작 개념
• 어떤 구슬을 넣을 것인지 : variable,
placeholder 선언
 a = tf.placeholder(“float”)
• 못의 개수, 위치를 선정 : network 설
계
 y = tf.mul(a, b)
• Insert coin : session 생성
 sess = tf.Session()
• 구슬을 넣음 : network 실행
 sess.run(y, feed_dict={a: 3, b: 3}

68
Global Average Pooling
Class Activation Map
• Global average pooling을 사용하면, parameter 수를 획기
적으로 줄일 수 있음(CNN parameter의 대부분은 fc layer
에 있음)
• Class activation map을 이용하여, 컴퓨터가 각 class를 어
떻게 판단했는지 확인, 해당 class의 대략적 위치도 찾을
수 있음
“Learning Deep Features for Discriminative Localization”

69
Fully Connected Layer
3 2
2 3
1 1
3 1
3
2
2
3
1
1
3
1
2
1
softmax
0.8
0.2
Cat
Dog

70
Global Average Pooling
3 2
2 3
1 1
3 1
2.5
1.5
2
1
softmax
0.8
0.2
Cat
Dog
average
average

71
PPMI Dataset
• http://ai.stanford.edu/~bangpeng/ppmi.html

73
Detection
“SSD: Single Shot MultiBox Detector

74
Segmentation
“Learning Deconvolution Network for Semantic Segmentation

75
Super Resolution
“Deeply-Recursive Convolutional Network for Image Super-Resolution”

76
Texture Synthesis
“Texture Synthesis Using Convolutional Neural Networks”

77
Artistic Style Transfer
“Image Style Transfer Using Convolutional Neural Networks”

79
Visual QnA
Q: What is the boy holding?
DPPnet: surfboard DPPnet: bat
Q: What is the animal doing?
DPPnet: resting (relaxing) DPPnet: swimming (fishing)
“Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction”

80
Generative Adversarial Network
“StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks ”

83
Summary & Conclusion
• 지능의 핵심은 학습이고, 기계학습은 사람의 학습과정을
모방하여 만들어졌다
• 기계학습(딥러닝)은 기계가 스스로 프로그램을 만들어내는
과정이다
• 기계학습(딥러닝)을 이용하면, 비슷한 유형의 문제의 경우
새로 network를 만들지 않고 data만 바꿔주면 그에 맞는
학습이 진행되어 문제를 풀 수 있다는 장점이 있다
• 딥러닝의 발달로 인하여 수많은 분야에서 딥러닝을 활용
하여 놀라운 성과를 얻어내고 있다
• 딥러닝을 이용하면 전문지식을 갖추지 않아도 그와 관련
된 많은 문제들을 해결할 수 있다

84
인공지능, 딥러닝은 만능?
• 동유럽국가 몬테네그로의 수도는 어
디인가?
• 바둑판을 1줄씩 늘려서 20x20으로 만
들고 지금 당장 이세돌과 알파고가 대
결한다면?
• 의료 data를 분석하여, 수명을 예측해
봅시다
 평생 한번도 담배를 안피운 사람
 현재 흡연을 하고 있는 사람
 과거에 흡연을 했다가 끊은 사람
• 인공지능은 인류의 지능 향상에 도움
이 되는가?
• 인공지능의 능력이 커질수록 법적, 도
덕적 문제에 대한 해결이 필요

85
QnA
Thank You
jwlee@capp.snu.ac.kr

인공지능, 기계학습 그리고 딥러닝

More Related Content

What's hot

Viewers also liked

Similar to 인공지능, 기계학습 그리고 딥러닝

More from Jinwon Lee

인공지능, 기계학습 그리고 딥러닝