深層学習（岡本孝之著）Deep learning Chap.4_2

深層学習
著:岡本孝之　
NAIST
Computational Linguistic Lab
D1 Masayoshi Kondo
4章 –後半-‐‑‒

00: はじめに
【⽬目的と狙い】
•  Deep Learningに興味があるけど詳しくは分からない理理系修⼠士学⽣生向け
•  実⽤用的なことよりも基礎的知識識を重視
•  今後論論⽂文を読んで⾏行行く上での基礎体⼒力力を滋養し、各学⽣生の理理解速度度の向上が狙い
【ガイドライン】
•  「深層学習（講談社 : 岡本貴之著）」の本をまとめる形で発表
•  全８章の165ページから構成
•  本の内容に準拠（本に記載されていない内容・表現を知っている場合でも原則的
には記載を控える。あくまでも本の内容に忠実。）
•  ただし、適宜、参考⽂文献や関連論論⽂文等はあれば記載していくつもり
•  理理系(情報⼯工学系)の⼤大学学部４年年⽣生が理理解できるくらいをイメージしてまとめる
今回：第４章

XX: 緑のスライドとは？
書籍(本書)には記載されていないが、必要箇所の説明に際し
補助・追記として個⼈人的に記載が必要と思われた場合には、
緑⾊色のページに適宜載せることとする.
•  本には載っていないけど、あえて追加説明したい場合は、
緑スライドに書くことにする.
•  緑スライドに書かれる内容は本には記載されていない.

00: はじめに
全８章
•  【第１章】はじめに
•  【第２章】順伝搬型ネットワーク
•  【第３章】確率率率的勾配降降下法
•  【第４章】誤差逆伝搬法
•  【第５章】⾃自⼰己符号化器
•  【第６章】畳込みニューラルネット(CNN)
•  【第７章】再帰型ニューラルネット(RNN)
•  【第８章】ボルツマンマシン

00: はじめに – これまでのまとめ (１・２章) -‐‑‒
深層学習(Deep Learning) / ニューラルネットを使って分析するとは
•  ネットワークの構造を決める
•  活性化関数を決める
•  学習⽅方法(誤差関数と最適化法) を決める
の３つを⾏行行うことである

00: はじめに – これまでのまとめ (3章) -‐‑‒
深層学習・ニューラルネットワークを使⽤用することは、
•  学習時の過適合(overﬁtting)
•  学習にかかる膨⼤大な計算時間
との戦い.
過適合を緩和する⽅方法と計算時間を縮⼩小する⼿手法を組み合わせて
現実的に解決可能な問題へ落落とし込む

ニューラルネットワークの学習
誤差関数を最⼩小(極⼩小)にするパラメータ
(重み・バイアス)を求める作業
•  誤差関数に対するユニットの影響
•  ユニットに対する重み・バイアスの影響
複雑な構造を持つニューラルネットに対して
誤差関数に対するパラメータの影響(微分)を求めるために
00: はじめに（今回まとめ）
の２段形式で考える
微分!!

第4章　誤差逆伝搬法
　4.1 勾配計算の難しさ
　4.2 ２層ネットワークでの計算
　4.3 多層ネットワークへの⼀一般化
　4.4 勾配降降下法の完全アルゴリズム
　4.5 勾配消失問題
前回(前編)!!
今回(後編)

前回まとめ

【学習】
ニューラルネットの出⼒力力が正解ラベルと
近くなるようにパラメータを調整すること
ニューラルネット
パラメータ：重み・バイアス
⼊入⼒力力
(ベクトル)
出⼒力力
(⼆二値 or ベクトル)
-‐‑‒: これまでのお話(第1章〜～第3章) とここからのお話
ニューラルネットと計算の流流れ
誤差関数を⼩小さくするように
関数の極値を求める
関数の「微分」!!
ーここからのお話ー
Q : 誤差逆伝搬法とは？？
Ans: この「微分」を効率率率よく計算する⽅方法
ニューラルネット
パラメータ：重み・バイアス
⼊入⼒力力
(ベクトル)
出⼒力力
(⼆二値 or ベクトル)
順伝搬：⼊入⼒力力から出⼒力力値の計算の流流れ
逆伝搬：出⼒力力値と正解ラベルとの誤差修正の計算 (パラメータ更更新)の流流れ

DNNの学習(最適化)
∇E ≡
∂E
∂w
=
∂E
∂w1
!!
∂E
∂wM
"
#
$
%
&
'
t
w(t+1)
= w(t)
−ε∇E
勾配降降下法（第３章＜前半＞参照）
重みWに対する
を求めれば良良いのね．
∂E
∂w
誤差逆伝搬法 (RNNは、BPTT法)
∂E
∂w
~∼ [誤差]
[誤差]t ← h（[誤差]t+１）
[誤差]は、モデルの出⼒力力値と正解
ラベルの差から求めることが出来
そう．
データを最も良良く表現する
重みWを求めること
-‐‑‒: DNNの学習⼿手続き
どうやって
求めんの？
　　が求まれば、重みWを
更更新できる．
∇E
どうやって
求めんの？

1. 【順伝搬】z(1)=xnとして、各層lのユニット⼊入出⼒力力u(l)及びz(l)を順に計算.
2. 出⼒力力層でのδj
(L)を求める.
3. 【逆伝搬】中間層l(=L-‐‑‒1, L-‐‑‒2, L-‐‑‒3,…,4 ,3, 2)でのδj
(L)を、出⼒力力側から
下記の式に従って計算.
4. 各層l(=2, 3, 4,…,L-‐‑‒2 ,L-‐‑‒1 ,L)のパラメータwji
(l)に関する微分を下記の式に
　従って計算.
δj
(l)
= δk
(l+1)
wkj
(l+1)
!f (uj
(l)
)( )
k
∑
∂En
∂wji
(l)
=δj
(l)
zi
(l−1)
＜誤差逆伝搬による誤差勾配の計算⼿手順＞
•  これを伝搬
•  ⼊入れ⼦子を回避
δj
(l)
≡
∂En
∂uj
(l)
#
$
%%
&
'
((
-‐‑‒: 1分で分かる誤差逆伝搬法 (back propagation)
【３⾏行行まとめ】：誤差逆伝搬法
いちいち更更新パラメータの変化分(誤差)を計算しようとしたら、
ニューラルネットの⼊入⼒力力層に近いパラメータは活性化関数が⼊入れ⼦子になって怠いので、
隣隣接層の変化分(誤差)を利利⽤用して楽に計算できるようにした

ミニバッチ等の複数の訓練サンプルに対する
誤差関数（誤差の総和）の勾配の求め⽅方
-‐‑‒: ミニバッチ等の複数の訓練サンプルの場合(まとめ)
ミニバッチの誤差関数＝各訓練サンプルの誤差関数の総和
E = En
n
∑
前スライドの誤差勾配に関する計算⼿手順を各訓練サンプル毎に平⾏行行に計算し、
得られる各勾配を下記の式が⽰示す和として求める.
∂E
∂wji
(l)
=
∂En
∂wij
(l)
n
∑

01: 勾配下降降法の完全アルゴリズム
4.4.1 　出⼒力力層でのデルタ
逆伝搬計算の起点は、出⼒力力層でのδ.
δの計算は、使⽤用する誤差関数と出⼒力力層の活性化関数に依存.
【代表例例】
[ 回帰 ]
[ ⼆二値分類 ]
•  誤差関数：⼆二乗誤差（　　　　　　　）
•  出⼒力力層の活性化関数：恒等写像（　　　　　　）
En =
1
2
yj − dj( )
j
∑
2
yj = zj
(L)
= uj
(L)
δj
(L)
= yj − dj
•  誤差関数：
•  出⼒力力層の活性化関数：ロジスティック関数（　　　　　　　　）
En = d log y +(1− d)log(1− y)
y =
1
1+exp(−u)
δ(L)
= d − y

4.4.1 　出⼒力力層でのデルタ
【代表例例】
•  誤差関数：交差エントロピー　( 　　　) 　　　　　　
•  出⼒力力層の活性化関数：ソフトマックス関数（　　　　　　　　　）
En = − dk log yk
k
∑
δj
(L)
= yj − dj
yk =
exp(uk
(L)
)
exp(ui
(L)
)
i
∑
[ 多クラス分類 ]
回帰・⼆二値分類・多クラス分類のいずれにおいても、
出⼒力力層のユニットδは、ネットワークの出⼒力力と⽬目標出⼒力力の差で
計算可能

4.4.2 　順伝搬と逆伝搬の⾏行行列列計算
ミニバッチを⽤用いた確率率率的勾配降降下法の全計算を⾏行行列列を⽤用いて表記
【記号⼀一覧】
X = x1,!, xN[ ]
b
Z(l)
= z1
(l)
,!, zN
(l)!" #$
D = d1,!,dN[ ]
U(l)
= u1
(l)
,!,uN
(l)!" #$
W
Y = y1,!, yN[ ]
: サンプルを列列ベクトルに持つ⾏行行列列
: サンプルに対応する⽬目標出⼒力力
: サンプルxnを⼊入⼒力力した時の第l層の各ユニットにおける
総⼊入⼒力力を成分に並べたベクトルun
(j)を列列ベクトルとする⾏行行列列
: un
(l)に活性化関数を作⽤用させた各ユニットの出⼒力力の成分を
並べたベクトルzn
（l）を列列ベクトルとする⾏行行列列
: i≧1の重みwijを(j, i)成分に持つ⾏行行列列
: サンプルに対する出⼒力力
: バイアスのベクトル

＜順伝搬計算＞
U(l)
= W(l)
Z(l−1)
+ b(l)
1N
t
順伝搬計算は、　　　　　として　　　　　　　について、
上記の２つの式の計算を反復復することで実現.
Z(l)
= f (l)
(U(l)
)
U(1)
≡ X l =1,2,!, L

＜逆伝搬計算＞
Δ(l)
Δ(l)
= !f (l)
(U(l)
)• W(l+1)!" #$
t
Δ(l+1)
( )
: 第l層の各ユニットのデルタ δj
(l) を要素に持つ⾏行行列列
(⾏行行：第l層の各ユニット,列列：ミニバッチのサンプルn=1,2,…,Nに対応)
Δ(L)
= D −Y
(ドット積は、⾏行行列列の各成分毎の積)
-‐‑‒ 活性化関数の微分について
活性化関数 f(u) fʼ’(u)
ロジスティック関数
双曲線正接関数
正規化線形関数
(出⼒力力層の誤差計算)
(中間層の誤差計算)
!f (u) =
1 (u ≥ 0)
0 (u < 0)
#
$
%
&
%
f (u) = tanh(u)
f (u) = max(u,0)
f (u) =
1
1+e−u
!f (u) =1− tanh2
(u)
!f (u) = f (u)(1− f (u))
1. デルタ（誤差）の計算Δ(l)

Δ(l)
2. 　　を⽤用いて誤差関数の勾配を計算
∂W(l)
=
1
N
Δ(l)
Z(l−1)$% &'
t
∂W(l)
∂b(l)
: 重みwji
(l)に関する誤差関数の微分を(j,i)成分に持つ⾏行行列列
: バイアスbj
(l)についての微分をj成分に持つベクトル
∂b(l)
=
1
N
Δ(l)
1N
t
ΔW(l)
= −ε∂W(l)
Δb(l)
= −ε∂b(l)
　　　, 　　は、各層l＝1,2,…,L
について平⾏行行に計算できる.
∂b(l)
∂W(l) 勾配降降下⽅方向に更更新するための更更新量量
を上記のように決定する.
(εは定数 / 　　, 　　は前回更更新量量)
ΔW(l)
= µΔW(l ")
−ε(∂W(l)
+ λW(l)
)
Δb(l)
= µΔb(l ")
−ε∂b(l)
[ 重み減衰・モメンタム有り ]
ΔW(l ")
Δb(l ")

3. パラメータ(重み・バイアス)の更更新を⾏行行う
W(l)
← W(l)
+ ΔW(l)
b(l)
← b(l)
+ Δb(l)

勾配を数値微分で計算・両者を⽐比較
誤差関数Eの勾配の差分近似(diﬀerence approximation)
•  ε→０の極限をとると、偏微分　　　の定義に⼀一致.
•  εの値は近似の精度度が良良くなるように⼗十分⼩小さな値を選択する必要がある.
•  εの値があまり⼩小さすぎても、打ち切切り誤差や丸め誤差が⽣生じ、逆に誤差
が⼤大きくなる.
∂E
∂wji
(l)
=
E(!,wij
(l)
+ε,!)− E(!,wij
(l)
,!)
ε
4.4.2 　勾配の差分近似計算
ネットワークの構造や活性化関数によってはプログラムがかなり複雑になる
誤差関数の勾配が正しく計算されているかを検証したい
∂E(w)
∂wji
(l)
E(!,wij
(l)
+ε,!)
という表記は、変数
wのうち　　だけに
εを加算するという
意味.
wji
(l)

誤差関数Eの勾配の差分近似(diﬀerence approximation)
⼀一般的にεの値は、
ε ≡ ε0 wji
と選ぶことが多い.
(ε０は計算機イプシロン.計算機イプシロンとは、「計算機の浮動⼩小数点数で表現しうる
１より⼤大きい最⼩小の数と１との差のこと.)
上記の式の右辺を評価した際にε=0となる場合は、
ε ≡ ε0
4.4.2 　勾配の差分近似計算
と設定し直す.

多層ネットワークでは特に深刻な問題となり、学習する上で最⼤大の障害
•  各層の重みが⼤大きいとΔは各層を伝搬する過程で急速に⼤大きくなる(発散).
•  逆に、重みが⼩小さいとΔは急速に消失し０になる.
Δ(l)
= !f (l)
(U(l)
)• W(l+1)!" #$
t
Δ(l+1)
( )
10: 勾配消失問題(Vanishing gradient problem)
順伝搬と逆伝搬の違い
順伝搬：　⾮非線形計算
逆伝搬：　線形計算
Δの計算は出⼒力力層から⼊入⼒力力層に向かって全体が線形の計算となる.
重みの更更新が上⼿手く⾏行行えなくなり、学習が困難
【解決】：事前学習(pretraining)

深層学習（岡本孝之著）Deep learning Chap.4_2

Recommended

Recommended

More Related Content

Similar to 深層学習（岡本孝之著）Deep learning Chap.4_2

Similar to 深層学習（岡本孝之著）Deep learning Chap.4_2 (20)

More from Masayoshi Kondo

More from Masayoshi Kondo (7)