深層学習(岡本孝之著) - Deep Learning chap.3_1

深層学習
著:岡本孝之　
NAIST
Computational Linguistic Lab
D1 Masayoshi Kondo
3章 -‐‑‒前半-‐‑‒

00: はじめに
【⽬目的と狙い】
•  Deep Learningに興味があるけど詳しくは分からない理理系修⼠士学⽣生向け
•  実⽤用的なことよりも基礎的知識識を重視
•  今後論論⽂文を読んで⾏行行く上での基礎体⼒力力を滋養し、各学⽣生の理理解速度度の向上が狙い
【ガイドライン】
•  「深層学習（講談社 : 岡本貴之著）」の本をまとめる形で発表
•  全８章の165ページから構成
•  本の内容に準拠（本に記載されていない内容・表現を知っている場合でも原則的
には記載を控える。あくまでも本の内容に忠実。）
•  ただし、適宜、参考⽂文献や関連論論⽂文等はあれば記載していくつもり
•  理理系(情報⼯工学系)の⼤大学学部４年年⽣生が理理解できるくらいをイメージしてまとめる
今回：第３章

XX: 緑のスライドとは？
書籍(本書)には記載されていないが、必要箇所の説明に際し
補助・追記として個⼈人的に記載が必要と思われた場合には、
緑⾊色のページに適宜載せることとする.
•  本には載っていないけど、あえて追加説明したい場合は、
緑スライドに書くことにする.
•  緑スライドに書かれる内容は本には記載されていない.

00: はじめに
全８章
•  【第１章】はじめに
•  【第２章】順伝搬型ネットワーク
•  【第３章】確率率率的勾配降降下法
•  【第４章】誤差逆伝搬法
•  【第５章】⾃自⼰己符号化器
•  【第６章】畳込みニューラルネット(CNN)
•  【第７章】再帰型ニューラルネット(RNN)
•  【第８章】ボルツマンマシン

00: はじめに – これまでのまとめ (１・２章) -‐‑‒
深層学習(Deep Learning) / ニューラルネットを使って分析するとは
•  ネットワークの構造を決める
•  活性化関数を決める
•  学習⽅方法(誤差関数と最適化法) を決める
の３つを⾏行行うことである

00: はじめに（今回まとめ）
深層学習・ニューラルネットワークを使⽤用することは、
•  学習時の過適合(overﬁtting)
•  学習にかかる膨⼤大な計算時間
との戦い.
過適合を緩和する⽅方法と計算時間を縮⼩小する⼿手法を組み合わせて
現実的に解決可能な問題へ落落とし込む

第3章　確率率率的勾配降降下法
3.1 勾配降降下法
3.2 確率率率的勾配降降下法
3.3 「ミニバッチ」の利利⽤用
3.4 汎化性能と過適合
3.5 過適合の緩和
3.6 学習のトリック
＜前編＞　今回
＜後編＞　次回！

3.6 学習のトリック

代わりに、誤差関数の局所的な極⼩小点を求めることを考える
順伝搬型ネットワークにおける学習とは？
与えられた訓練データを元に計算される誤差関数をネットワークの
パラメータ(重みとバイアス)について最⼩小化すること
01: 3.1 勾配降降下法
＜学習のゴール＞
　　選択した誤差関数に対し最⼩小値を与える重みとバイアスを求めること
⼀一般的に、誤差関数は凸関数ではないため
⼤大域的な最⼩小解を直接得られない
何らかの初期値を出発点にパラメータ(重みとバイアス)を繰り返し
更更新する反復復計算によって求める
最も簡単な⽅方法：
　　→ 　勾配降降下法(Gradient Descent Method)
＜⽅方針・戦略略＞

02: 3.1 勾配降降下法
【勾配降降下法(Gradient Descent Method)】
勾配降降下法の勾配(gradient)は、
∇E ≡
∂E
∂w
=
∂E
∂w1
!!
∂E
∂wM
"
#
$
%
&
'
t
というベクトルで表現される.
勾配降降下法は現在のwを負の勾配⽅方向( 　　　)に少し動かし、これを何度度も繰り返す
ことでwを更更新. すなわち、
−∇E
w(t+1)
= w(t)
−ε∇E
としてwを更更新する. また、εはwの更更新量量の⼤大きさを決める学習係数.
E
w
M
!
"
#
$
#
: 誤差関数
: 重みパラメータ
: wの成分数
⼀一覧：⾮非線形関数の最適化⼿手法
•  勾配降降下法
•  ニュートン法　（⽬目的関数の⼆二次微分を利利⽤用）
•  準ニュートン法

＜確率率率的勾配降降下法の⻑⾧長所＞
03: 3.2 確率率率的勾配降降下法
【確率率率的勾配降降下法(Stochastic Gradient Descent Method)】
誤差関数E(w)は、各サンプル1つだけについて計算される誤差En(w)の和として
E(w) = En (w)
n=1
N
∑
　また、次のw（n+1）の更更新の時は、別のサンプルnʼ’を取り出して再度度上記の計算
を⾏行行い、繰り返し更更新を⾏行行うことで⽬目的のパラメータを最適化.
　確率率率的勾配降降下法とは、サンプルの⼀一部(最も極端な場合はサンプル1つのみ)
を使ってパラメータ更更新を⾏行行う⽅方法. この場合、wの更更新は１つのサンプルnにつ
いて計算される誤差関数En(w)の勾配を計算し、∇En
w(t+1)
= w(t)
−ε∇En
としてwを更更新.
として表現され、E(w)を⽤用いて勾配計算し学習することをバッチ学習という.
•  訓練データに冗⻑⾧長性がある場合、計算効率率率が向上し学習が早い
•  反復復計算が “望まない局所的な極⼩小解”にトラップされてしまうリスクを低減できる
•  パラメータの更更新が⼩小刻みに⾏行行われるので学習の途中経過より細かく監視できる
•  訓練データの収集と最適化の計算を同時並⾏行行で⾏行行えること(オンライン学習への対応)

誤差関数を各サンプルで計算　→ 　最後に合算
サンプル⼩小集合D1
サンプル全体
サンプル⼩小集合D2
サンプル⼩小集合Dn
・
・
・
サンプル⼩小集合DN
・
・
・
E2(w)
E1(w)
EN(w)
・
・
・
・
・
・
ランダムに選択 En
(t)
(w) =
1
Dn
Ei (w)
i∈Dn
∑
(t : t回⽬目の更更新を⽰示すパラメータ)
分割
•  通常、ミニバッチは学習開始前に事前に作成し、固定
•  ミニバッチのサイズを決める系統的な⽅方法は無いが、概ね10~∼100サンプル前後
(確率率率的勾配降降下法のメリットと並列列計算資源の有効利利⽤用のバランスの観点から)
サンプル⼩小集合Dnに含まれる各サンプル
について並列列計算
En(w)
重みの更更新をサンプル１つ単位で⾏行行うのではなく、少数のサンプルの
集合をひとまとめにした単位(ミニバッチ)で重みの更更新を⾏行行う
規模の⼤大きなニューラルネットの学習は計算コストが⼤大きい
04: 3.3 「ミニバッチ」の利利⽤用
数値計算を効率率率化するために並列列計算の利利⽤用が必要不不可⽋欠

【訓練時の理理想】テスト誤差が汎化誤差をよく近似できている
　　　　　　　　場合、テスト誤差が最⼩小となるような状態
パラメータの更更新に伴ってテスト誤差が増加＝学習の阻害
-‐‑‒ 汎化誤差は統計的な期待値であり訓練誤差のように計算できない
-‐‑‒  このため、訓練データとは別のサンプル集合を⽤用意し、訓練誤差と同じ⽅方法で
計算される誤差を汎化誤差の⽬目安とする
-‐‑‒  この⽬目的で⽤用意するデータをテストデータと呼び、テストデータに関する誤差
をテスト誤差(test error)と呼ぶ
【過適合(overﬁtting) or 過剰適合・過学習(overlearning)】:
　訓練誤差と汎化誤差が乖離離した状態のこと
05: 3.4 汎化性能と過適合
解決策 >>【早期終了了(early stopping)】 :
パラメータの更更新に伴いテスト誤差が増加する場合、その時点で学習を終了了すること
・訓練誤差(training error) 　　　 : 訓練データに対する誤差
・汎化誤差(generalization error) : まだ⾒見見ぬサンプルx に対する誤差

【正規化(regularization)】 : 学習時の重みの⾃自由度度を制約すること
06: 過適合の緩和
3.5.1 正規化
【過適合】: 学習時に誤差関数の浅い局所解にトラップされた状況
-‐‑‒ ネットワーク(モデル)の⾃自由度度(主に重みの数)が⼤大きいほど、可能性が
⾼高くなる
ネットワークの⾃自由度度は、表現能⼒力力に直結
-‐‑‒ 単純にネットワークの⾃自由度度を減らすことは好ましくない
そこで・・・
「減らす」ではなく「制約する」
•  重み減衰(weight decay)
　 -‐‑‒ 誤差関数に重みの⼆二乗和(ノルム)項を導⼊入し、重みを制約
•  重み上限
　 -‐‑‒ 重みの⼤大きさの上限を制約

3.5.1 正規化の続き
正則化の種類テストデータの分類誤差(％)
重み減衰 1.62
重み上限 1.35
ドロップアウト＋重み減衰 1.25
ドロップアウト＋重み上限 1.05
異なる正則化使用時の手書き数字認識-MNISTの分類精度の比較
(Dropout: A simple way to prevent neural networks from overfitting. /Hinton+, 2014 より抜粋)

3.5.2 重みの制約
＜重み上限＞：重みの⼤大きさの上限を制約
-‐‑‒ 各ユニットの⼊入⼒力力側結合の重みの⼆二乗和の上限を制約
l層のユニットjが、(l−1)層のユニットi=1,2,…,I からの出⼒力力を受け取るとすると
その間の結合重みwjiが
wji
2
< c
i
∑
を満たすように重みを制約. 不不等式が満たされていない場合は、１以下の定数を
掛けて、満たされるように修正. (cは定数)
•  重み減衰を上回る効果
•  ドロップアウトを併⽤用すると⾼高い効果が発揮
＜重み減衰＞：誤差関数に重みの⼆二乗和（ノルム）項を導⼊入し、重みを制約
En
(t)
(w) ≡
1
Dn
Ei (w)+
λ
2
w
2
i∈Dn
N
∑
w(t+1)
= w(t)
−ε
1
Dn
∇Ei (w)
i∈Dn
∑ + λw(t)
%
&
'
'
(
)
*
*
重み⾃自体の⼤大きさに⽐比例例した早さで
常に減衰するように修正
•  λは正則化の強さを制御するパラメータで、⼀一般的には 10-‐‑‒5 ≦λ≦ 10-‐‑‒2
•  重み減衰はネットワークの重みwだけに適⽤用し、バイアスbには適⽤用しない

3.5.3 ドロップアウト
-‐‑‒ 多層ネットワークのユニットを確率率率的に選別して学習する⽅方法
-‐‑‒ 多くの場⾯面で⼤大変良良い結果を得ることができ、広く使⽤用
•  ⼊入⼒力力層及び中間層のユニットを決まった確率率率(p=0.5程度度)でランダムに選出
•  選出されたユニットで繋がれるネットワークの重みを更更新
•  ユニットの選出は重みの更更新毎にやり直す
•  学習終了了後の推論論(=モデルの利利⽤用時)には、全てのネットワークを繋いで計算
•  CNNやRBMなどの学習でもドロップアウトは有効に機能
⼀一定の確率率率で
ユニットを停⽌止
ドロップアウトの狙いは、学習時にネットワークの⾃自由度度を強制的に⼩小さくし
過適合を避けること

3.6 学習のトリック　→＜後編＞へ

深層学習(岡本孝之 著) - Deep Learning chap.3_1

More Related Content

What's hot

Similar to 深層学習(岡本孝之 著) - Deep Learning chap.3_1

More from Masayoshi Kondo