Deep Learning by JSKIM (Korean)

%ìÝ(Deep Learning)X í¬@ ¬, ø¬à
ôtYX ©
@Ä-
2014D 10Ô 8|
” }
ü ‰X” 0ÄYµ(Machine Learning) )•x %ìÝ(Deep Learning)Ð t LDôà ôtY
X © ¥1Ð t Ðtøä.
1 `
0ÄYµ(Machine Learning)@ ôè0 ¤¤ YµXì !¨D X” xõÀ¥X „|tp,
%ìÝ(Deep Learning)@ xX à½ÝX Ð¬| t© ì5à½Ý(Deep Neural Network)t`D t©
0ÄYµ)•tä. %ìÝ 0 @ tø l, ˜t¤, DÈt ñ Œ IT0ÅäÐ ”XŒ t©
à ˆ” 0 tp ¹ˆ, (4xÝt˜ ¬Ä, L1 ñX xÝ, 0Äˆí ñX ð¸´˜¬(Natural Language
Processing)Ð ‹@ 1¥D X” ƒ L$8 ˆ”p, MIT 2013DD [¼ 10 à0 X˜
Xà ¸(Gartner, Inc.) 2014 8Ä IT Ü¥ 10 ü” !0 ¸ X” ñ ü ¥ (p´
tˆ à ˆä[34, 6]. %ìÝt 0tX µÄYt˜ äx 0ÄYµ )•ü äx p (t@ xX Ì|
0Xì $ÄÈä” tä. x@ ôè0 Dü ç@ ÜÐ ` ˆ” Ä°Ä }Œ t¼ Æ”
t, ôè0” xt }Œ xÀX” ¬Ät˜ L1D tXÀ »X”p t” xX Ì Äœ X
tðü ÜÅ¤X Ñ,ð° tè´8 ˆ0 L8tä. X tð@ 0¥t ô˜ƒ ÆÀÌ Î@ tðät
õ¡XŒ ð°´ Ñ,ð°D ‰h ôè0 XÀ »X” L1, ÁxÝD ÔXŒ ` ˆ”
ƒtp %ìÝ@ t Î@ tðü ÜÅ¤X Ñ,ð°D ôè0 ¬X” )•x ƒtä. tƒt Œ IT
0Åät %ìÝD ü©X” t | ƒtä. tÐ ø Ð” xõà½Ý t`X í¬€0 ¬ ÁiLÀ|
µˆ ¬ðt ü ƒtp t )•t õôtD ¥ÁÜ¤”p ´»Œ t© ˆD ƒxÀ Ýt ôÄ]
X ä.
2 %ìÝX í¬
%ìÝX í¬” lŒ 3Ü0 ˜X´À”p 18” X x½àõÝx |I¸`(Perceptron), 28”
ä5(Multilayer) |I¸`, ø¬à ¬X %ìÝD 38|à ` ˆD ƒtä.
1

2.1 18: Perceptron
xõà½Ý(Neural Network)X 0Ð@ 1958DÐ Rosenblatt H |I¸`t Ü‘t| ` ˆä[25].
nX inputü 1X outputÐ Xì X inputX weight| wi| Ä |I¸`D Ý ˜À´t
äLü ä(ø¼ 1)[14].
y = '(
Xn
i=1
wixi + b) (1)
(b: bias, ': activation function(e.g: logistic or tanh)
ø¼ 1: Concept of Perceptron
‰ nX inputX °i(Linear Combination)Ð Activation h| ©Xì 01 ¬tX U`
yD õX” ƒtp, U` @ ÄÐ” ¸XÐ 0| 0| 0 eventÐ DÈÐ(1 VS -1)|
èä.
tƒt xõà½Ý ¨X Ü‘tä. È˜ t ¨@ Dü è XOR problemÈ YµXÀ »X”
ñ, ì 8 ˆ”p(ø¼ 2) t L8Ð ÙH Æt ìXŒ ä[9].
2.2 28: Multilayer Perceptron
XORñ è ƒÄ YµXÀ »X” |I¸`X èD t°X0 )•@ Xx èX”p Input
layer@ output layer¬tÐ X˜ tÁX hidden layer| ”Xì YµX” ƒt øƒtp t| ä5 |I
¸`(Multilayer perceptron)t| ä. ø¼ 5| ôt hidden layer `] „X%t ‹DÀ” ƒD
Ux` ˆä. È˜ t )•@ hidden layerX / `] weightX /Ä Ä XŒ
´ Yµ(Traning)t ´5ä” èt ˆ”p Rumelhartñ@ Ðìí

Là¬˜(Error Backpropagation
Algorithm)D Xì ä5 |I¸`X YµD ¥XŒ Xä[26]. Ðìí

Là¬˜X 8 …@
8à8Ìt˜ x07D Dô0 |p ì0” 0¥ 0x $…t ô ä.
2

ø¼ 2: XOR problem in Perceptron
: LÝX © Þ”0[9] à0(

(a) Large Gradient (b) Small Gradient
(c) Small Learning Rate (d) Large Learning Rate
ø¼ 4: Example: Gradient Descent Algorithm
4

ø¼ 5: Multilayer Perceptron
ü 5, © 3X ´ ©@ 500Ðt ä. ¸ Ðìh| wiÐ t ø„Xt,
@E
@wi
=
@y
@wi
dE
dy
(3)
à E = 1
2 (t y)2, y = xfishwfish + xchipswchips + xketchupwketchupD …Xt
@E
@wi
=
@y
@wi
dE
dy
= xi(t y) (4)
à Learning rate| H wiX ÀTÉ@
wi =
@E
@wi
= xi(t y) (5)
t ä.
…tôt t=850, y=500, wfish = wchips = wketchup=50 tà è Ä°D t = 1
35 Xt
wfish=20, wchips=50, wchips=30t à t| ©Xt äÜ ltÄ weight” 70, 100, 80t
p t| ” ©@ 880t ä. t 880ü 850D Àà X üD Ä õXt 8Ð
L´ D »D ˆD ƒtä.
À $… ƒ@ ¥ 0x Là¬˜D $… ƒtp ä $Xí

Là¬˜@ 0 weight|
ä5 hidden layer| pÐ X˜X !D lXà ø !ü äX (t| í
weightäD t ˜Œ ä(ø¼ 6)[15].
Ðìí

Là¬˜ ä5|I¸`D Yµ` ˆŒ È˜ tƒD ä ¬Œät t©X0Ð”
Î@ ´$Àt 0”p ø t ä@ äLü ä.
5

(a) Forward Propagation (b) Back Propagation
ø¼ 6: Backpropagation algorithm
1. Î@ Labeled data D”Xä.
2. YµD Xt `] 1¥t ¨´Ää(Vanishing gradient problem).
3. Over

tting problem
4. Local minimaÐ `È ¥1
X˜) ´´ô. ”t| X” ¨ Î0 L8Ð pt0 Ît D”Xà ø ÐÄ labeled data
Ît D”Xä. È˜ °¬ à ˆ” pt0” unlabeled data è, Îp ä xX ÌX Yµ
Î@ €„t unlabeled data| t© Unsupervised Learningtp, @ ‘X labeled data ä5|I¸`
D YµXt …… hidden layer 1x ½°ôä 1¥t ¨´À” ½°| 0` ˆp tƒt üi
(Over

tting)X Ütä.
äL Activation functionD ´´ôt logistic functiontà tanh functiontà ´p €„ôä ‘ ]
t ˆ 0¸0X ÀT ‘@ ƒD ¬` ˆä(ø¼ 7). L8Ð Yµt Ä‰ ] Ä 0¸0D
0Ð LÌ8 ˜Ð” pX Gradient descent |´˜À JD Yµt À J” èt ˆä[2].
ÈÀÉ Œñ”Ét˜ ¥Ä”Éñ Á ŒD lX” )•D t©XÀ »X
à Là¬˜D t©Xì ŒÐ LÌÀŒ ˆ0 L8Ð YµÐ ˜( Œt üð ÄÜ Œ(Global
minima)x? mŒ Œ(Local minima)” DÌ..Ð X8t €¬À JŒ ä. Ü‘D ´»Œ
PÐÐ 0| Local minimaÐ `È Ä ˆ0 L8tä (ø¼ 8)[15]. tð 8ä L8Ð ä Neural
Network@ ÀÀ¡08à(Support Vector Machine)ñÐ $ 2000D LÀ ©À »Xä.
2.3 38: Unsupervised Learning - Boltzmann Machine
^ ¸ èä L8Ð xõà½Ý t`t ˜ t©À »Xä, 2006D ü Ì 8àD t© Yµ)
•t ¬p…t xõà½Ý t`t äÜ YÄX ü©D Œ È”p t ü Ì 8àX uì Dt´”
Unsupervised Learning, ‰ labelt Æ” pt0 ø¬ ©„ YµD ä” ƒtp ø ÄÐ ^Ð ˜(
6

ø¼ 7: Sigmoid functions
ø¼ 8: Global and Local Minima
í

Là¬˜ ñD µt 0tX supervised learningD ‰ä[28, 12]. ø¼ 9Ð µx ¬
´ ˆ”p D0ä@ è´˜ L, 8¥X ;D ¨t” ÁÜ YµD Ü‘XŒ à LŒ(phoneme), è´
(word), 8¥(sentence) Unsupervised learningD ‰XŒ p ø ÄÐ õD Àà supervised
learningD ‰XŒ ä[15]. tð )•D µt ^ ¸ ä |I¸`X èät Ît t°”p,
Unlabeled data| t©` ˆà t| t©t unsupervised pre-trainingD ‰h vanishing gradient
problem, over

tting problemt ùõ ˆp, pre-trainingt ,x 0 ÐÄ ÄÀD ü´ local
minima problemÄ t°` ˆD ƒt| ì¨Àà ˆä[1]. tÐ ø Ð” ¥ x )•x Deep
Belief Network(DBN)ü t| ‰X0 t D” Restrict Boltzmann Machine(RBM)Ð Xì èˆ
$…X0 X ä.
7

ø¼ 9: Description of Unsupervised Learning
Restricted Boltzmann Machine(RBM) ü Ì 8à@ visible layer@ 1X hidden layer tè´Ä
)¥t Æ” ø˜(undirected graph) tè´8 ˆä. tƒX ¹Õ@ Energy based modelt|” xp
Energy based modelt|” ƒ@ ´¤ ÁÜ ˜, U`Ä h| ÐÀX Ü ˜À´ ä” ƒtp
visible unitX ¡0| v, hidden unitX ¡0| h| Xt(v,h: binary vector- 0 or 1) ü Ì 8àX ø˜@
U`Äh” äLü ä(ø¼ 10)[18, 19].
ø¼ 10: Diagram of a Restricted Boltzmann[32]
P(v; h) =
1
Z
expE(v;h) (6)
(Z: Normalized Constant)
ø¼ 10D ôt v|¬” t ð°´ ˆÀ Jà h|¬Ä È,Àxp tƒt RestrictedX Xøtp
t ptt Æt øå Boltmann Machinetp RBMÜX ø˜| t„ø˜(bipartite graph)| ä.
8

øå Boltzmann Machine@ 4 õ¡t Yµt ´$Ì ø H ˜( ƒt RBMx ƒtä. ¸ Ý
6| ôt ø˜X ÐÀ ÁÜ ®D] U`t ‘DÀ” ƒD L ˆ”p t @ ¬YX ôíY
2•YD ðÁÜ¨ä. t RBMX Energy functionD ´´ôt
E(v; h) =
X
i
aivi
X
j
bjhj
X
i
X
j
hjwi;jvi = aTv bTh hTWv (7)
(ai: oset of visible variable, bj : oset of hidden variable, wi;j : weight between vi and hj)
P
ÐÀÐ ÝÐ ì¨ ôD| ` €„t
j hjwi;jvixp, vi, hj 1x óÐ weight t] Ð
Àh t ‘DÀà °ü U`ÄhX t ’DÄä. t” xX ÜÅ¤Ð |´˜” |ü
D·p, t À” ót ÜÅ¤ ð° ¥1t ’0 L8tä(ø¼ 11).
ø¼ 11: Hebb's Law[21, 15]
t °¬ ÐX” ƒ@ P(v) =
P
h P(v; h) X D lX” ƒxp RBM@ t„ø˜ v|¬,
h|¬” € Å½tÀ
P(vjh) =
mY
i=1
P(vijh) (8a)
P(hjv) =
Yn
j=1
P(hj jv) (8b)
èˆ „¬` ˆp, tÐ 0x individual activation probabilities”
p(hj = 1jv) =

bj +
Xm
i=1
wi;jvi
!
(9a)
p(vi = 1jh) =
0
@ai +
Xn
j=1
wi;jhj
1
A (9b)
` ˆä(: activation function). t ¥D t©Xì Gibbs samplingD ðt weight| t
˜t èˆ logP(v)X ü øLX weightäD l` ˆ”p t )•Ð t µˆ LDô ä.
9

Deep Learning by JSKIM (Korean)

More Related Content

What's hot

Viewers also liked

Similar to Deep Learning by JSKIM (Korean)

More from Jinseob Kim

Recently uploaded

Deep Learning by JSKIM (Korean)