Deep learning chapter4 ,5

「ゼロから作るDeepLearning」
4、5章まとめ
Twitterアカウント : @dar_kuma_san
1

講座の流れ
【講座の目的】
・ニューラルネットワークの理論を理解し、説明できるようになる
・基本的な動作をPythonで実装できるようになる
・ライブラリ活用時のパラメータの意味が理解できる
回分野章キーワード
第1回推論 2、3 ニューラルネットワーク、
活性化関数、行列計算
第2回学習 4、5 損失関数、数値微分、
勾配法、誤差逆伝搬
第3回学習 6 SDG、Adam、過学習、
ハイパーパラメータ
全3回を予定
2

1. 「学習」とは？ ⇒推論と学習の違い
2. どうやって学習させるか？ ⇒勾配法
3. 「傾き」の求め方 ⇒数値微分
4. 効率的な「傾き」の求め方 ⇒誤差逆伝播法
5. 学習方法について ⇒オンライン、ミニバッチ、バッチ
6. 手書き文字画像から学習 ⇒Pythonで実装
7. まとめ
第2回の目標
• 学習のアルゴリズム「勾配法」を理解する
• 勾配の効率的な求め方「誤差逆伝播法」を理解する
講座の流れ
3

学習がなぜ必要か？(1/2）
• 「推論」は、未知のデータを入れて予測値を取り出す操作
• 「学習」は、正解が出るように重み(W)とバイアス(B)を調整する操作
推論
未知のデータXを入力して、予測値Yを出す
0
1
2
3
𝑋𝑊 + 𝐵 = 𝑌
入力出力重みバイアス
学習
0
1
2
3
3
2 ✕
3 ○
Xを入力したら、Yが出るように
WとBを調整する
未知のデータ
既知のデータ正解/不正解を教える
5

学習がなぜ必要か？(2/2）
学習の簡単な例では、
パーセプトロンの重みとバイアスを機械に決めさせる
ゲート AND OR NAND
式
閾値
真理値
(w1, w2, 𝑏)=(0.5, 0.5, −0.7) (w1, w2, 𝑏)=(−0.5, −0.5,0.7)(w1, w2, 𝑏)=(0.5, 0.5, −0.2)
6

どうやって学習させるか？
7

どうやって学習させるか?（1/9）
どのくらい正解から外れているかの指標：損失関数
名称 2乗和誤差交差エントロピー誤差
式
用途回帰問題 2クラス分類多クラス分類
損失関数の種類
損失関数を最小にすることで、
「予測値」を「正解値」を近づける！
1
2
(y − t)2 − t log y +(1 − t)log(1 − 𝑦) − i=0
k
ti log yi
y：予測値、t：正解値、k：クラス数
8

2乗和誤差：
予測確率確率と正解ラベルの差の2乗和
どうやって学習させるか？（2/9）
国語の点
（予測値）
80点
数学の点
地理の点
英語の点
国語の点
（実際）
75点
差
分
を
取
る
L =
1
2
(y − t)2
=
1
2
(80 − 75)2
(𝑦:予測値、 t ∶正解値)
9

𝐿 = − t log y +(1 − t)log(1 − 𝑦)
= −log 0.87=0.14 （Survived(実際）＝1の時）
= −log 0.13=2.0 （Survived(実際）＝0の時）
2クラス分類の交差エントロピー誤差：
-(予測確率の対数と正解ラベルの対数尤度)
Survived
（予測値）
0.87
Sex
Survived
（実際）
1
差
分
を
取
る
Age
Pclass
Survived
（実際）
0
(𝑦:予測値、 t ∶正解ラベル)
10

「2クラス分類の交差エントロピー誤差」の性質
t（正解ラベル）、y（予測確率）の対数尤度にマイナスをかけたものに等しい
つまり、「誤差を最小にする」 ≒ 「最大尤度になるyを求める」
𝐿 = − t log y +(1 − t)log(1 − 𝑦)
𝑦 𝑡 (1 − 𝑦)(1−𝑡)
対数を取って、マイナスをかける
t : 0（失敗） or 1（成功）
y：成功確率
11

出典：https://ml4a.github.io/ml4a/jp/looking_inside_neural_nets/
28
28
L = − i=0
9
ti log yi
= − log 0.6
0 100 200
0 120 255
0 89 180
正解
y0(0.1)
y1(0.05)
y2(0.0)
y3(0.0)
y4(0.05)
y5(0.1)
y6(0.0)
y7(0.1)
y8(0.6)
y9(0.0)
0
1
2
3
4
5
6
7
8
9
(𝑦𝑖 :予測確率、 𝑡𝑖 ∶正解ラベル)
t0(0)
t1(0)
t2(0)
t3(0)
t4(0)
t5(0)
t6(0)
t7(0)
t8(1)
t9(0)
交差エントロピー誤差 :
予測確率の対数と正解ラベルの積の和の符号を変えたもの
one-hot
label
12

L = − log y8
L
y8
「多クラス分類の交差エントロピー誤差」の性質
“正解”の予測確率を低く見積もると急激に増える
“正解”の予測確率を1に見積もると0になる
正解の予測確率
交差エントロピー誤差
13

損失関数は重み(W)とバイアス(B)の関数である。
損失関数の傾きと逆方向に動かして”谷底”を目指せば良い
L
重みW 、
バイアスB
損失関数
初期位置
谷底
傾き>0傾き<0
動かす方向
重みの更新：W ← W − ρ
𝜕L
𝜕W
バイアスの更新：B ← B − ρ
𝜕L
𝜕B
傾き
𝜌は「学習率」と言って
ハイパーパラメーターの一種である
傾きを利用して、関数が最小値を
取るように変数を最適化する
手法を「勾配法」という
更新後位置ゴール
14

1 . 重み（W）、バイアス（B）を”適当に”に決める
2. 訓練データを入れて、推論させる（誤差を求める）
3. 誤差から傾きを求める
4. 重み（W）、バイアス（B）を更新する
2～4を繰り返す
𝜕L
𝜕W
W ← W − ρ
𝜕L
𝜕W
学習の流れ
ループ
15

この操作を全てのWとBについて、
繰り返し実施すれば、
いつか予測値と正解が一致するはず
どうやって「傾き」を求めるか？
16

どうやって「傾き」を求めるか？
17

どうやって「傾き」を求めるか？（1/5）
機械は解析的に傾きを求められないので、「数値微分」によって近似的に求める
重みW
L(W)
損失関数
2h
現在位置
𝜕L(W)
𝜕W
≅
L W+h −L(W−h)
2h
傾き
前後に微小量 ℎ 移動させて変化を求める
これが傾きの近似値
L W + h
−L(W − h)
𝜕L
𝜕W
18

勾配法で、損失関数が減少する様子を確認する
𝜕L(W, B)
𝜕W
𝜕L(W, B)
𝜕B
𝐿
W
B
W
B
損失関数を以下と仮定する
L W, B = W2 + B2
傾きの方向
ゴール
ゴール
19

重み、バイアスが更新される過程を可視化する
W, B = −10 , 10 からスタート、繰り返し回数：20回
学習率＝0.01 学習率＝0.1 学習率＝0.8 学習率＝1.0
𝜕L(W, B)
𝜕W
𝜕L(W, B)
𝜕B
20

数値微分の問題点：
ニューラルネットが巨大になるとパラメータ数が膨大になり、
現実的な時間で「傾き」を求められない！
28
28
予測確率
𝑦0(0.1)
𝑦1(0.05)
𝑦2(0.0)
𝑦3(0.0)
𝑦4(0.05)
𝑦5(0.1)
𝑦6(0.0)
𝑦7(0.1)
𝑦8(0.6)
𝑦9(0.0)
入力層(784) 中間層(50) 出力層(10)
教科書記載の「手書き文字分類（MNIST）」のニューラルネットワーク
必要な重みWの数：39,700
必要なバイアスの数：60
（1,784）の行列
21

学習の流れ
ループ
数値微分を使った学習を細かく見ると、、
𝜕L(𝑊)
𝜕𝑊
≅
𝐋 𝐖+𝐡 −𝐋(𝐖−𝐡)
2h
1つのパラメータの傾きを求める際に2回「推論」させる必要がある！
つまり、２～4を1回実施する度に (39,700+60)×2 + 1 = 79401回
推論動作が必要になる
10000回ループさせると、 7,940,000,001回、、、終わるだろうか（反語）
22

効率的に「傾き」を求める
23

効率的に「傾き」を求める（1/12）
t1
t2
L = − i=1
2
ti log yi
交差エントロピー誤差
入力層中間層1層目中間層2層目出力層
「傾き」をもっと簡単に計算できないか、3層のニューラルネットワークで考える
中間層1層目の第1ニューロンから中間層2層目の第1ニューロンにかかる
重みを ”効率的に”求めることを考える。𝒘 𝟏𝟏
(𝟐)
24

微分の連鎖律
誤差逆伝播の説明で多用します
𝑦 = 𝑓 𝑢
u =g(x)
𝑑𝑦
𝑑𝑥
=
𝑑𝑦
𝑑𝑢
𝑑𝑢
𝑑𝑥
𝑦 = 𝑓 𝑢, 𝑣
u =g(q,r)
v =h(q,r)
𝜕𝑦
𝜕𝑞
=
𝜕𝑦
𝜕𝑢
𝜕𝑢
𝜕𝑞
+
𝜕𝑦
𝜕𝑣
𝜕𝑣
𝜕𝑞
𝜕𝑦
𝜕𝑟
=
𝜕𝑦
𝜕𝑢
𝜕𝑢
𝜕𝑟
+
𝜕𝑦
𝜕𝑣
𝜕𝑣
𝜕𝑟
25

微分の連鎖律から以下が成り立つ
の関係があるから、
1 2 3
それぞれの項を求めて掛ければ良い
𝐿 = 𝐿 𝑧1
2
, 𝑧1
2
= 𝑧1
2
(𝑎1
2
) , 𝑎1
2
= 𝑎1
2
(𝑤11
2
)
26

3の部分を求める
の関係から、
27

活性化関数で変換しているから、
＝
28

の関係があるから、
と変形できる
29

さらに変形していく、
の関係から、
𝒘 𝟏𝟏
(𝟑)
𝒘 𝟐𝟏
(𝟑)
30

前半部分を求める
softmax関数を右の式に代入する
代入
-
31

さらに変形していく、
代入
この変形は、
以下の関係を使っている
32

なんと！
予測確率と正解ラベルの差分
という単純な形で表される！
代入
1 2 3
これで、1、2、3 が揃いました
33

予測確率と正解ラベルの差分を含
む、簡単に求められる項の積
(青字のルートに関係する項）
だけで表すことができた！
このようにして、重みWとバイア
スBの傾きを求める手法を
「誤差逆伝播法」という
活性化関数の微分が入っていること
に注目!
𝒘 𝟏𝟏
(𝟑)
𝒘 𝟐𝟏
(𝟑)
34

1. 非線形であること ⇒ 多層化のメリットを活かす！
2. 推論動作での減衰が小さい ⇒ 多層化のメリットを活かす！
3. 傾きが0の領域がないこと ⇒ 勾配消失を防ぐ
4. 傾きが一定であること ⇒ 学習速度が早い
名前 step sigmoid tanh ReLU Leaky
ReLU
特徴 0 or 1を返す・0～1を返す
・中心が0.5
・-1～1を返す
・中心が0
・入出力が比例
・a≦0で傾き=0
・入出力が比例
・a≦0で傾き≠0
式
グラフ
𝑎
ℎ𝑎
𝑎
ℎ𝑎
𝑎
ℎ𝑎
𝑎
ℎ𝑎
(𝑎 0)
(𝑎 0) 1
1 + 𝑒−𝑎
𝑒 𝑎 − 𝑒−𝑎
𝑒 𝑎 + 𝑒−𝑎 (𝑎 0)
(𝑎 0)
𝑎 (𝑎 0)
(𝑎 0)
𝑎
𝑎
進化の過程
𝑎
ℎ𝑎
中間層で使う活性化関数：
𝜕L
𝜕W
傾きが0だと
更新されない !
35

出典：https://ml4a.github.io/ml4a/jp/looking_inside_neural_nets/
28
28
実は今まで、1個のデータ（1文字）について説明していました。
実際の学習では、多数の訓練データを使います。
訓練データが多数の場合について説明します。
0 100 200
0 120 255
0 89 180
正解
y0(0.1)
y1(0.05)
y2(0.0)
y3(0.0)
y4(0.05)
y5(0.1)
y6(0.0)
y7(0.1)
y8(0.6)
y9(0.0)
0
1
2
3
4
5
6
7
8
9
(𝑦𝑖 :予測確率、 𝑡𝑖 ∶正解ラベル)
t0(0)
t1(0)
t2(0)
t3(0)
t4(0)
t5(0)
t6(0)
t7(0)
t8(1)
t9(0)
学習方法（1/7）
この「8」だけに最適化
しても、、
37

学習方法には、「オンライン学習」、「ミニバッチ学習」、「バッチ学習」があり、
それぞれ性質が異なる。
名称オンライン学習ミニバッチ学習バッチ学習
エントロピー誤差
更新のタイミング 1文字毎 1バッチ毎全データ毎
メリット・計算コストが小さい
・データ全て保管して
おかなくて良い
・データの性質の変化
に機敏に対応できる
・局所最適解に陥りに
くい
くい
・バッチ学習に対して
計算コストが小さい
・外れ値の影響を受け
にくい
デメリット・外れ値の影響を受け
やすい
・局所最適解に陥りや
すい
・新データを入れると、
全データで計算しなお
す必要がある
− i=0
k
ti log yi −
1
𝐵
𝑛=1
𝐵
𝑖=0
𝑘
𝑡𝑖 log 𝑦𝑖
−
1
𝑁
𝑛=1
𝑁
𝑖=0
𝑘
k：クラス数、B：1バッチの文字数、N：全文字数
38

オンライン学習
1文字の交差エントロピー誤差を計算する
1文字ごとに重み、バイアスを更新する
正解
y0(0.1)
y1(0.05)
y2(0.0)
y3(0.0)
y4(0.05)
y5(0.1)
y6(0.0)
y7(0.1)
y8(0.6)
y9(0.0)
0
1
2
3
4
5
6
7
8
9
t0(0)
t1(0)
t2(0)
t3(0)
t4(0)
t5(0)
t6(0)
t7(0)
t8(1)
t9(0)
L = − i=0
9
ti log yi交差エントロピー誤差
ランダムに選択
39

ミニバッチ学習
1バッチ（ex.100文字）の交差エントロピー誤差を計算する
交差エントロピー誤差を1文字あたりに変換する
1バッチごとに重み、バイアスを更新する
正解
y0(0.1)
y1(0.05)
y2(0.0)
y3(0.0)
y4(0.05)
y5(0.1)
y6(0.0)
y7(0.1)
y8(0.6)
y9(0.0)
0
1
2
3
4
5
6
7
8
9
t0(0)
t1(0)
t2(0)
t3(0)
t4(0)
t5(0)
t6(0)
t7(0)
t8(1)
t9(0)
𝐿 = −
1
4
𝑛=1
4
𝑖=0
9
𝑡𝑖 log 𝑦𝑖交差エントロピー誤差 N:全文字数
1バッチ=4文字の場合
全ての文字を使い切ることを「epoch」と言う。1epoch = 48/4 =12バッチ
ランダムに選択
40

バッチ学習
全文字一括で入れる
𝐿 = −
1
𝑁
𝑛=1
𝑁
𝑖=0
9
正解
y0(0.1)
y1(0.05)
y2(0.0)
y3(0.0)
y4(0.05)
y5(0.1)
y6(0.0)
y7(0.1)
y8(0.6)
y9(0.0)
0
1
2
3
4
5
6
7
8
9
t0(0)
t1(0)
t2(0)
t3(0)
t4(0)
t5(0)
t6(0)
t7(0)
t8(1)
t9(0)
全文字の交差エントロピー誤差を計算する
交差エントロピー誤差を1文字あたりに変換する
全文字ごとに重み、バイアスを更新する
交差エントロピー誤差 N:全文字数
41

さて、問題です
60,000個ある訓練データを、
1バッチ=100個として、
10,000バッチ学習させると、
何epochに相当するでしょうか？
【Answer】
全データは60,000/100 = 600バッチ
よって、全データは10,000/600 = 16.7 epochs になります 42

予測確率
𝑦0(0.1)
𝑦1(0.05)
𝑦2(0.0)
𝑦3(0.0)
𝑦4(0.05)
𝑦5(0.1)
𝑦6(0.0)
𝑦7(0.1)
𝑦8(0.6)
𝑦9(0.0)
入力層(784) 中間層(50) 出力層(10)
3層ニューラルネットワークで、60,000文字の手書き文字認識のミニバッチ学習
を行う。「数値微分」と「誤差逆伝播法」の速度差を体感する
60,000文字
ミニバッチ学習
100文字/バッチ
10000バッチ学習させる
43

発表の補足
（誤解を招きやすい箇所。。）
44

補足(1/6)
「学習」とは、正解が出るように重み(W)とバイアス(B)を調整する操作であり、
損失関数の傾きと逆方向に更新することで調整する（勾配法）
学習 𝑋𝑊 + 𝐵 = 𝑌
0
1
2
3
2 ✕
3 ○
Xを入力したら、Yが出るように
WとBを調整する
既知のデータ正解/不正解を教える
勾配法
45

補足(2/6)
パラメーターの「更新」のタイミングについて誤解させている恐れがあるので補足します
𝜕L
𝜕W
W ← W − ρ
𝜕L
𝜕W
学習の流れ
ループ
46

補足(3/6)
「オンライン学習」と「ミニバッチ学習」を例に再度説明します
名称オンライン学習ミニバッチ学習バッチ学習
エントロピー誤差
更新のタイミング 1文字毎 1バッチ毎全データ毎
メリット・計算コストが小さい
・データ全て保管して
おかなくて良い
・データの性質の変化
に機敏に対応できる
くい
くい
・バッチ学習に対して
計算コストが小さい
・外れ値の影響を受け
にくい
デメリット・外れ値の影響を受け
やすい
・局所最適解に陥りや
すい
・新データを入れると、
全データで計算しなお
す必要がある
− i=0
k
ti log yi −
1
𝐵
𝑛=1
𝐵
𝑖=0
𝑘
−
1
𝑁
𝑛=1
𝑁
𝑖=0
𝑘
k：クラス数、B：1バッチの文字数、N：全文字数 47

✖️：1つのデータ（1文字）で谷底まで更新する
損失関数Lは動かない
L
初期位置
谷底
動かす方向
L
1回目更新後位置
谷底
𝑊
𝑊
L
谷底
𝑊
補足(4/6)
1回目の更新
2回目の更新
48

L
谷底
○：1つのデータ（1文字）ではあくまでも1回しか更新しない
損失関数Lが頻繁に変動する
L
初期位置
谷底
動かす方向
L
谷底
𝑊
𝑊
補足(5/6)
1回目の更新
2回目の更新
49

L
谷底
ミニバッチ学習の場合は、バッチごとに更新する
入力データが（バッチ数、784）の行列になることに注意！
L
初期位置
谷底
動かす方向
L
1バッチ目更新後位置
谷底
𝑊
𝑊
補足(6/6)
1バッチ目の更新
2バッチ目の更新
2バッチ目更新後位置
28
28
(1,784)×(784,784)
オンライン学習の場合
ミニバッチ学習の場合
(9,784)×(784,784)
50

第2回まとめ（1/2）
• ディープラーニングの学習方法
傾きと逆方向にパラメータを更新して「谷底」を目指す
（勾配法）
・傾きの効率的な求め方
推論で求めている値を使って、高速に傾きを求める
（誤差逆伝播法）
・パラメータ更新のタイミング
学習法によってパラメーター更新のタイミングが異なる
（オンライン学習、ミニバッチ学習、バッチ学習）
W ← W − ρ
𝜕L
𝜕W
52

第2回まとめ（2/2）
第3回は、以下を説明します
「第6章学習に関するテクニック」
・最適な重みパラメータを探索する手法（勾配方の進化形）
・パラメーターの初期値をどうするか？
・ハイパーパラメータの設定方法
・過学習の対応策
局所最適解に陥ることがある
53

名
前
identity sigmoid softmax
特
徴
入力値をそのまま返す・0～1を返す
・中心が0.5
総和が1になる
役
割
回帰問題 2クラス分類多クラス分類
式
グ
ラ
フ
ℎ 𝑎 = 𝑎 ℎ 𝑎 𝑘 =
𝑒 𝑎 𝑘
𝑖=1
𝑛
𝑒 𝑎 𝑖
𝑎
ℎ𝑎
𝑎
ℎ𝑎
h(𝑎) =
1
1+𝑒−𝑎
出力層で使う活性化関数：
𝑎 𝑘
ℎ𝑎𝑘
softmax関数
55

ℎ 𝑎 𝑘 =
𝑒 𝑎 𝑘
𝑖=1
𝑛
𝑒 𝑎 𝑖
softmax関数
softmax関数：出力の総和は1になる。入/出力で大小関係は変わらない。
𝑘=1
𝑛
ℎ(𝑎 𝑘) = 1
定義式
特徴
確率変数の定義を満たしている！
𝑎1 𝑦1
ℎ( )
𝑎2 𝑦2
ℎ( )
𝑎3 𝑦3
ℎ( )
𝑎 𝑘
ℎ𝑎𝑘
入力に対して
確率差が付きやすい
入力
他のニューロン
への入力が、
他のニューロン
の出力に影響する
56

0.06 0.82 0.12
82%
6% “human”
“cat”
softmax関数を使うと、入力値を確率に変換できる。
𝑎1 𝑦1
ℎ( )
𝑎2 𝑦2
ℎ( )
𝑎3 𝑦3
ℎ( )
12% “dog”
0.3 2.9 1.0
𝑎1 𝑎2 𝑎3 𝑦1 𝑦2 𝑦3
入力出力
softmax関数
softmax関数
57

Deep learning chapter4 ,5

Recommended

Recommended

More Related Content

Similar to Deep learning chapter4 ,5

Similar to Deep learning chapter4 ,5 (20)

Deep learning chapter4 ,5