Dnnday1&2

高澤大希
1
深層学習 day1&2
入力層～中間層
𝑧 = 𝑓(𝑢)
𝑢 = 𝑤1𝑥1 + 𝑤2𝑥2 +∙∙∙ +𝑤𝑛 𝑥𝑛 + 𝑏
𝑧:出力
𝑓(𝑥):活性化関数
𝑢:総入力
𝑤:重み
𝑥:入力
𝑛:特徴量の数
𝑏:バイアス
入力層から中間層は、入力値𝑥に重み𝑤をかけたものの総和𝑢を活性化関数𝑓に代入し、
その出力𝑧を次の中間層に送るという流れになっている。
重み𝑤は 1 次関数でいう傾き、バイアス𝑏は切片を表す。

高澤大希
2
活性化関数

高澤大希
3
活性化関数とは、ニューラルネットワークにおいて、次の層への出力の大きさを決める
非線形の関数である。入力値の値によって、次の層への信号の ON/OFF や強弱を定める
働きを持つ。
中間層用の活性化関数
ステップ関数:信号の ON/OFF のみを伝えるため、0~1 の間を表現できず、線形分離可
能なものしか学習できない
𝑓(𝑢) = {
1(𝑥 ≥ 0)
0(𝑥 < 0)
シグモイド関数:0~1 の間を緩やかに変化する関数で、ステップ関数では、ON/OFF し
かない状態に対して信号の強弱を伝えられるようになったが、大きな値では、出力の変化
が微小なため、勾配消失問題を引き起こしてしまう。
𝑓(𝑢) =
1
1 + 𝑒−𝑢

高澤大希
4
ＲeLU 関数:勾配消失問題の回避とスパース化に貢献していることで、今最も使われてい
る活性化関数
𝑓(𝑢) = {
𝑥(𝑥 > 0)
0(𝑥 ≤ 0)

高澤大希
5
出力層
出力層では、中間層から来る出力𝑦と正解値𝑑との誤差(𝑦 − 𝑑)を誤差関数𝐸(𝑤)に代入
し、勾配降下法を用いて、次の重みやバイアスを求める。
誤差関数の例(最小二乗法)
𝐸(𝑤) =
∑ (𝑦 − 𝑑)2
𝐼
𝑖=1
2
出力層用の活性化関数：出力層の活性化関数は、信号の大きさをそのままに変換するた
め、中間層とは異なる活性化関数を用いる。
回帰二値分類多クラス分類
活性化関数恒等写像シグモイド関数ソフトマックス関数
活性化関数の式 𝑓(𝑢) = 𝑢
𝑓(𝑢) =
1
1 + 𝑒−𝑢
𝑓(𝑖, 𝑢) =
𝑒𝑢𝑖
∑ 𝑒𝑢𝑘
𝐾
𝑘=1
誤差関数二乗誤差交差エントロピー
誤差関数の式
𝐸(𝑤) =
∑ (𝑦 − 𝑑)2
𝐼
𝑖=1
2
𝐸(𝑤) = − ∑ 𝑑𝑖 log 𝑦𝑖
𝐼
𝑖=1
学習サイクルあたりの誤差：𝐸(𝑤) = ∑ 𝐸𝑛
𝑁
𝑛=1

高澤大希
8
勾配降下法
誤差を最小にする最適なパラメータ𝑤を求めるために勾配降下法を用いてパラメータ𝑤
を更新する

高澤大希
9
バッチ勾配降下法（勾配降下法）
：全てのサンプルの平均誤差を計算し、次のパラメータ
を更新する。そのため、パラメータの数に比例して計算コストが高くなる。
𝑤𝑘+1 = 𝑤𝑘 − 𝜀𝛻𝐸
𝛻𝐸 =
𝜕𝐸
𝜕𝒘
= [
𝜕𝐸
𝜕𝑤1
,
𝜕𝐸
𝜕𝑤2
,∙∙∙,
𝜕𝐸
𝜕𝑤𝑚
]
𝜀:学習率
学習率𝜀は、大きすぎると最小値にいつまでもたどり着かず発散してしまい、逆に小さす
ぎると発散することはないが、小さすぎると収束するまでに時間がかかる。
確率的勾配降下法；ランダムに抽出したサンプルの誤差を計算し、次のパラメータを更新
する。そのため、バッチ勾配降下法よりも計算コストが少なく、局所最適解に収束するリ
スクを軽減でき、パラメータの更新を逐次行うオンライン学習ができる。
𝑤𝑘+1 = 𝑤𝑘 − 𝜀𝛻𝐸𝑛
ミニバッチ勾配降下法；ランダムに分割したデータの集合（ミニバッチ）𝐷𝑡に属するサン
プルの平均誤差を計算し、次のパラメータを更新する。確率的勾配降下法のメリットをそ
のままに CPU を利用したスレッド並列化や GPU を利用した SIMD 並列化などの計算機
の計算資源を有効活用できる。
𝑤𝑘+1 = 𝑤𝑘 − 𝜀𝛻𝐸𝑡
𝐸𝑡 =
∑ 𝐸𝑛
𝑛∈𝐷𝑡
𝑁𝑡
𝑁𝑡 = |𝐷𝑡|

高澤大希
12
誤差逆伝搬法
𝜕𝐸
𝜕𝑤𝑚
≈
𝐸(𝑤𝑚 + ℎ) − 𝐸(𝑤𝑚 − ℎ)
2ℎ
誤差勾配𝛻𝐸の計算は 2 種類あり、1 つは数値微分であるが、数値微分は、各パラメータ
それぞれについて𝐸(𝑤𝑚 + ℎ)や𝐸(𝑤𝑚 − ℎ)を計算するために順伝搬の計算を繰り返し行う必
要があり負荷が大きい。
𝜕𝐸
𝜕𝑤𝑚
=
𝜕𝐸
𝜕𝑎
∙
𝜕𝑎
𝜕𝑏
∙∙∙
𝜕(𝑛 − 1)
𝜕𝑛
∙
𝜕𝑛
𝜕𝑤𝑚
2 つ目は、誤差逆伝搬法で、誤差勾配𝛻𝐸を連鎖律を用いて解析的に出力層側から順に微
分し最小限の計算で説く方法であり、誤差から微分を逆算することで、不要な再帰的計算

高澤大希
13
を避けて微分を算出できる。

高澤大希
16
勾配消失問題
勾配消失問題は、誤差逆伝搬法が下位層に進んでいくにつれて勾配がどんどん緩やかに
なっていくため下位層のパラメータはほとんど変わらず訓練は最適値に収束しなくなる。
解決法
活性化関数の変更：シグモイド関数のような微分値の絶対値が１未満の場合、勾配がか
き消されてしまうため、ReLU 関数のような微分値が 1 以上の関数
を用いる。
初期値の設定方法：標準正規分布に従った値を初期値にすると０と１に値が偏るため勾
配消失問題が起こるためシグモイド関数の場合、Xavier という重み
の要素を前の層のノード数の平方根で除算した値にする。ReLU 関
数の場合√
2
𝑛
（𝑛:前の層のノード数）を正規分布の重みの標準偏差の
分布にする
バッチ正規化：ミニバッチ単位で入力値のデータの偏りを抑制する方法で、活性化関数

高澤大希
17
に値を渡す前後にバッチ正規化の処理をはらんだ層を加える。学習デー
タのばらつきが抑えられ、過学習を抑え、中間層の学習が安定し、速度
も上がる。
𝜇𝑡 =
∑ 𝑥𝑛𝑖
𝑁𝑡
𝑖=1
𝑁𝑡
𝜎𝑡
2
=
∑ (𝑥𝑛𝑖
− 𝜇𝑡)2
𝑁𝑡
𝑖=1
𝑁𝑡
𝑥𝑛𝑖
̂ =
𝑥𝑛𝑖
− 𝜇𝑡
√𝜎𝑡
2 + 𝜃
𝑦𝑛𝑖
= 𝛾𝑥𝑛𝑖
+ 𝛽
𝜇𝑡:ミニバッチ全体の平均
𝜎𝑡
2
:ミニバッチ全体の標準誤差
𝑁𝑡:ミニバッチのインデックス
𝑥𝑛𝑖
̂ :0 に近づける計算（0 に近づけるセンタリング）と正規化を施した値
𝛾:スケーリングパラメータ
𝛽:シフトパラメータ
𝑦𝑛𝑖
:ミニバッチのインデックス値とスケーリングの積にシフトを加算した値(バッチ正規化
値)

高澤大希
23
学習率最適化手法
モメンタム:誤差をパラメータで微分したものと学習率の積を減算した後、現在の重みに前
回の重みを減算した値と慣性の積を加算する。局所的最適解にはならず、大域
的最適解となる。谷間についてから最も低い位置(最適値)にいくまでの時間が
早い。
𝑤𝑘+1 = 𝑤𝑘 − 𝜀𝛻𝐸 + 𝜇(𝑤𝑘 − 𝑤𝑘−1)

高澤大希
24
AdaGrad:誤差をパラメータで微分したものと再定義した学習率の積を減算する。勾配の緩
やかな斜面に対して、最適値に近づけるが、学習率が徐々に小さくなるので、鞍
点問題を引き起こす事があった。
𝑤𝑘+1 = 𝑤𝑘 − 𝜀
1
√ℎ𝑡 + 𝜃
𝛻𝐸𝑡
ℎ𝑡 = ℎ𝑡−1 + (𝛻𝐸)2
(ℎ0 = 𝜃)
RMSprop:誤差をパラメータで微分したものと再定義した学習率の積を減算する。局所的
最適解にはならず、大域的最適解となる。ハイパーパラメータの調整が必要な
場合が少ない。
𝑤𝑘+1 = 𝑤𝑘 − 𝜀
1
√ℎ𝑡 + 𝜃
𝛻𝐸𝑡
ℎ𝑡 = 𝛼ℎ𝑡−1 + (1 − 𝛼)(𝛻𝐸)2
Adam:モメンタムの、過去の勾配の指数関数的減衰平均と RMSprop の、過去の勾配の 2
乗の指数関数的減衰平均をそれぞれ孕んだ最適化アルゴリズムである。モメンタム
および RMSProp のメリットを孕んだアルゴリズムである。

高澤大希
28
過学習
過学習とは、テスト誤差と訓練誤差で学習曲線が乖離すること
原因：パラメータの数が多い、パラメータの値が適切でない、ノードが多いなどネットワ
ークの自由度が高いことが原因
解決法
正則化：ネットワークの自由度を下げる方法。パラメータの値が大きすぎる（過大評
価）と過学習が起こるため誤差に対して正則化法を加算し、重みを抑制
←過学習が起こりそうな重みの大きさ以下で重みをコントロールしつつ重み
の大きさにばらつきをだす必要がある。
𝐸𝑛 (𝑤) +
𝜆||𝑥||𝑝
𝑝
（正規化項）
||𝑤(1)
||
𝑝
= (|𝑤1
(1)|
𝑝
+∙∙∙ +|𝑤𝑛
(1)|
𝑝
)
1
𝑝
||𝑤(2)
||
𝑝
= (|𝑤1
(2)|
𝑝
+∙∙∙ +|𝑤𝑛
(2)|
𝑝
)
1
𝑝
||𝑥||
𝑝
= ||𝑤(1)
||
𝑝
+ ||𝑤(2)
||
𝑝
(p=1 のとき L1 正則化、p=2 のとき L2 正則化)
𝜆:ハイパーパラメータ

高澤大希
29
L１正則化は、重みを 0 にし、L2 正則化は０に近づける。
ドロップアウト：ランダムにノードを削除して学習させる。
（データにバリエーション
を増やす）ノードを削除させることでデータ量を変化させずに異なる
モデルを学習させていると解釈できる。

高澤大希
35
畳み込みニューラルネットワークの概念
CNN は、画像だけでなく次元間でつながりのあるデータを扱える。
畳み込み層

高澤大希
36
画像の場合、縦、横、チャンネルの 3 次元のデータをそのまま学習し、次に伝えること
ができる。上図のように畳み込み層では、入力画像に対して、青枠のようにフィルターと
いうものを重ね、重なった数字同士の積の和にバイアスを加えたものを出力画像の一つの
要素にし、フィルターを上下左右に動かし、残りの要素も同様に計算していく。
パティングとは、上図のように入力画像のまわりに新たに数（０や最も近い位置にある
数）を追加することで出力画像のサイズを変更する方法である。
ストライドとは、フィルターが移動する量を表していて、パティングと同様に出力画像
のサイズを変更できる方法である。
チャンネルとは、フィルターの数を表していて、１つの重みに対してどれだけ重みを用
意するかという意味も持ち合わせている。
出力画像のサイズの公式

高澤大希
37
OH:出力画像のサイズの高さ
Ow:出力画像のサイズの横幅
プーリング層：決められた処理でデータを圧縮する層
上図のように決められた領域の最大値（MAX プーリング）または平均値（AVE プーリ
ング）を出力値として、データを圧縮する層である。
全結合層：通常のニューラルネットの処理を行う。

高澤大希
39
最新の CNN
AlexNet：5 層の畳み込み層とプーリング層と 3 層の全結合層から構成され、全結合層にド
ロップアウトを配置することで過学習を抑制している。
Fratten:高次元のデータ全てを 1 列のベクトルに並び変え、全結合層に送る
GlobalMaxPooling:高次元の 1 つの要素の中で Max プーリングをして全結合層に送る。
例）13×13×256 のとき 13×13 の中の最大値を 256 個を全結合層に送る。
GlobalAvePooling: GlobalMaxPooling の平均値バージョン

高澤大希
43
確認テストの考察
１．ディープラーニングとは、明示的なプログラムの代わりに多数の中間層を持つニュー

高澤大希
44
ラルネットワークを用いて入力値から目的とする出力値に変換する数学モデルを構築する
こと
最適化の最終目的は、数学モデルの重みやバイアスを求めることで、データの特性を表す
ことである。
２. 入力層︓2 ノード 1 層中間層︓３ノード 2 層出力層︓1 ノード 1 層の図は、
このようになり、ノードは、その層からどれだけ、データを入力および出力するかを表
していて、層の数は、どれだけ複雑な計算をするかを表している。
３.入力層から中間層に動物分類の実例は、
このようになっていて、各入力値に重みをかけたものの総和を活性化関数に代入したもの
を次の層に伝搬する。
４．𝑢 = 𝑊𝑥 + 𝑏のプログラムは、u = np.dot(x, W) + b であり、numpy の中にある dot 関
数を用いて、x と W をかけて b を足すということをしている。
５．1-1 の中から中間層の出力を定義しているソースを抜き出すと、
u2 = np.dot(z1,W2) + b2

高澤大希
45
z2 = functions.relu(u2)
６．線形な関数と非線形な関数の違いは、
直線であるかそうでないかの違いで、図のように加法性と斎次性を持ち、非線形な関数は
そうでない。
７．配布されたソースコードより該当する箇所を抜き出すと、
z1 = functions.sigmoid(u)となる。
８．𝐸𝑛 (𝑤) =
∑ (𝑦𝑗−𝑑𝑗)2
𝐽
𝑗=1
2
=
1
2
||(𝑦 − 𝑑)||2
がなぜ 2 乗するのかは、誤差が＋の値とマイナスの
値の 2 種類があったとき、それらを足してしまうと誤差が打ち消しあって、認識すべき誤
差がなくなってしまう。
なぜ２で割っているのかは、𝐸𝑛 (𝑤)を w で偏微分したときに(𝑦 − 𝑑)というきれいな形にす
るためである。
９.𝑓(𝑖, 𝑢) =
𝑒𝑢𝑖
∑ 𝑒𝑢𝑘
𝐾
𝑘=1
の数式に該当するソースコードは、
𝑓(𝑖, 𝑢)は、softmax(x)であり、
𝑒𝑢𝑖は、np.exp(x)で e の ui 乗、
∑ 𝑒𝑢𝑘
𝐾
𝑘=1 は、np.sum(np.exp(x))で、𝑒𝑢𝑘の総和を表している。
１０．𝐸𝑛 (𝑤) = − ∑ 𝑑𝑖 log 𝑦𝑖
𝐼
𝑖=1 の数式に該当するソースコードは、
𝐸𝑛 (𝑤)は、cross_entropy_error(d,y)であり、
− ∑ 𝑑𝑖 log𝑦𝑖
𝐼
𝑖=1 は、-np.sum(np.log(y[np.arange(batch_size), d] + 1e-7))である。1e-7
は𝐸𝑛 (𝑤)が０にならないよう足されている。
１１．𝑤(𝑡+1)
= 𝑤(𝑡)
− 𝜀𝛻𝐸のコードは、network[key] -= learning_rate* grad[key]
𝛻𝐸 =
𝜕𝐸
𝜕𝑤
= [
𝜕𝐸
𝜕𝑤1
⋯
𝜕𝐸
𝜕𝑤𝑀
]のコードは、grad = backward(x, d, z1, y)
１２．オンライン学習とは、学習データが入ってくるたびに都度パラメータの更新をし学
習することである。

高澤大希
46
１３． 𝑤(𝑡+1)
= 𝑤(𝑡)
− 𝜀𝛻𝐸𝑡の意味は、
上図のように現在の重みに誤差関数を重みで偏微分したもの（どれだけ誤差があるか）に
学習率を掛けたものを引くことで最適な重みにしていくということである。
１４.誤差逆伝搬法のソースコードは、
functions.d_mean_squared_error(d, y)
１５．
𝜕𝐸
𝜕𝑦
𝜕𝑦
𝜕𝑢
のソースコードは、delta2 = functions.d_mean_squared_error(d, y)
𝜕𝐸
𝜕𝑦
𝜕𝑦
𝜕𝑢
𝜕𝑢
𝜕𝑤𝑗𝑖
(2)
のソースコードは、grad['W2'] = np.dot(z1.T, delta2)
１６．𝑧 = 𝑡2
,𝑡 = 𝑥 + 𝑦のとき、
𝑑𝑧
𝑑𝑥
=
𝑑𝑧
𝑑𝑡
∙
𝑑𝑡
𝑑𝑥
= 2𝑡 ∙ 1 = 2𝑡となる。
１７．シグモイド関数を微分したときの０の値は、
𝑑𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑥)
𝑑𝑥
= 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑥)(1 −
𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑥))より
𝑑𝑠𝑖𝑔𝑚𝑜𝑖𝑑(0)
𝑑𝑥
= 0.5(1 − 0.5) = 0.25となる。
１８．重みの初期値に 0 を設定すると、すべての重みが同一な更新をしてしまい、重みを
複数用意する意味がなくなってしまう。
１９．一般的なバッチ正規化の効果は、学習データのばらつきが抑えられ、過学習を抑え
ることと、中間層の学習が安定し、学習速度が上がる。
２０．モメンタムは、局所的最適解にはならず、大域的最適解にいき、谷間についてから
最も低い位置(最適値)にいくまでの時間が早い。
AdaGrad は、勾配の緩やかな斜面に対して、最適値に近づけ、学習率が徐々に小さ
くなるので、鞍点問題を引き起こす事があった。
RMSprop は、局所的最適解にはならず、大域的最適解となり、ハイパーパラメー
タの調整が必要な場合が少ないという特徴を持つ。
２１．リッジ回帰の特徴は、重みを０に近づけることであり、リッジ回帰のハイパーパラ

高澤大希
47
メータを大きくすることで、より０に近づくことになるので、(a)
２２.L1 正則化は、重みを 0 にするので右のラッソ推定量が L1 正則化である。
２３．サイズ 6×6 の入力画像を、サイズ 2×2 のフィルターで畳み込んだ時の出力画像の
サイズ（パティング、ストライドともに１）は、
𝑂𝐻 =
画像の高さ + 2 × パティングの高さ − フィルター高さ
ストライド
=
6 + 2 × 1 − 2
1
= 6
𝑂𝑤 =
画像の幅 + 2 × パティングの幅 − フィルター幅
ストライド
=
6 + 2 × 1 − 2
1
= 6

Dnnday1&2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Dnnday1&2

Similar to Dnnday1&2 (20)

Recently uploaded

Recently uploaded (20)

Dnnday1&2

Dnnday1&amp;2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Dnnday1&amp;2

Similar to Dnnday1&amp;2 (20)

Recently uploaded

Recently uploaded (20)

Dnnday1&amp;2

Dnnday1&2

Similar to Dnnday1&2

Similar to Dnnday1&2 (20)

Dnnday1&2