深層学習の基礎と誤差逆伝播法

深層学習前半
Tatsunori Ueno

Section１：入力層～中間層
◦ ニュートラルネットワークは、入力層、中間層（隠れ層）、出力層の３つの分類できる。
◦ 入力層とは、ニュートラルネットワーク全体の入力を受け取る層である。
◦ 中間層とは、入力層と出力層の間にある複数の層である。
◦ 入力層から出力層に向けて情報が伝わることを順伝播といい、出力層から入力層に向けて遡って情報が伝わることを逆伝播という。
import numpy as np
#x:入力 w:重み b:バイアス
u = np.dot(x,w)+b
入力層
中間層
出力層

確認テスト
◦ １．与えられた図式に動物分類の実例を入れてみよう。
◦ ２．以下の数式をPythonで書け。
◦ ３．1-1のファイルから中間層を定義しているソースを抜き出せ。
解答：
# 2層の総入力 u2 = np.dot(z1, W2) + b2 # 2層の総出力 z2 =
functions.relu(u2)
解答：
u = np.dot(x, W) + b
u z
z=f(u)
10
300
300
15
50
1.8
20

Section２：活性化関数
◦ ステップ関数
◦ ０か１でシンプルに表現する。
◦ シグモイド関数
◦ ０～１で滑らかに変化する。
◦ tanh関数
◦ ー１～１で滑らかに変化する。
◦ ReLU
◦ 負の場合は０，正の場合は入力を返す。
◦ Leaky ReLU
◦ ReLUを改良した関数。負でもわずかに出力する。
◦ 恒等関数
◦ 入力をそのまま返す関数。
◦ ソフトマックス関数
◦ 分類問題を扱う関数
#ステップ関数
import numpy as np
import matplotlib.pyplot as plt
def step_function(x):
return np.where(x<=0,0,1)
x = np.linspace(-5,5)
y = step_function(x)
plt.plot(x,y)
plt.show()
#シグモイド関数
import numpy as np
def sigmoid_function(x):
return 1/(1+np.exp(-x))
x = np.linspace(-10,10)
y = sigmoid_function(x)
plt.plot(x,y)
plt.show()

確認テスト
◦ 1.線形と非線形の違いを図に書いて簡易に説明せよ。 ◦ 2.配布されたソースコードより、「順伝播（3層・複数ユニッ
ト）」から、活性化関数に該当する箇所を抜き出せ。
線形は入力を出力にそのまま返す。
非線形は入力データを関数によって一定の範囲の値にして返す。
解答：
# 1層の総出力 z1 = functions.relu(u1) # 2層の総出力 z2 = functions.relu(u2)

Section３：出力層
◦ ニュートラルネットワークは、入力層、中間層（隠れ層）、出力層の３つの分類できる。
◦ 出力層の活性化関数で、回帰モデルにも分類モデルにすることもできる。
◦ 恒等関数を出力層の活性化関数にすると、回帰モデルになり、ソフトマックス関数にすると分類モデルとなる。
恒等関数ソフトマックス関数
出力層
出力層

確認テスト
◦ 1.誤差関数（２乗和誤差、残差平方和）において、
• なぜ、引き算するのみではなく、二乗するのか述べよ
• 1/2はどういう意味を持つか述べよ
◦ 2.以下の数式に該当するソースコードを示し、一行づつ処理の説明をせよ。
解答：
•全体でどれ位誤差があったかを知りたいとき、
引き算したものの総和はゼロになる。各々を二乗
したものを足し合わせる事によって、それを防ぐ
事ができる。
•誤差逆伝播の計算で、誤差関数を微分する必要
があるのだが、その際に1/2があると係数が相殺
される計算式が簡単になるため。
np.exp(x) / np.sum(np.exp(x))
# 出力層の活性化関数
# ソフトマックス関数
def softmax(x):
if x.ndim == 2:
x = x.T
x = x - np.max(x, axis=0)
y = np.exp(x) / np.sum(np.exp(x), axis=0)
return y.T
x = x - np.max(x)
# オーバーフロー対策
return np.exp(x) / np.sum(np.exp(x))
◦ 3.以下の数式に該当するソースコードを示し、一行づつ処理の説明をせよ。
-np.sum(np.log(y[np.arange(batch_size), d] + 1e-7))
# クロスエントロピー
def cross_entropy_error(d, y):
if y.ndim == 1:
d = d.reshape(1, d.size)
y = y.reshape(1, y.size)
# 教師データがone-hot-vectorの場合、正解ラベルのインデックスに変換
if d.size == y.size:
d = d.argmax(axis=1)
batch_size = y.shape[0]
return -np.sum(np.log(y[np.arange(batch_size), d] + 1e-7)) /
batch_size

Section４：勾配降下法
◦ 勾配降下法とは、勾配を元に重みとバイアスを少しずつ調整し、誤差が最小になるようにネットワークを最適化する方法である。
◦ 主な手法として下記の方法がある。
◦ 確率的勾配降下法（SGD）
◦ Momentum
◦ AdaGrad
◦ RMSProp
◦ Adam

確認テスト
◦ 1.以下の勾配降下法に該当するソースコードを探してみよう。
◦ 2.深層学習にとって大切なオンライン学習を定義しなさい。
◦ 3.以下の数式の意味を図に書いて説明せよ。
解答：
network[key] -= learning_rate * grad[key]
grad = backward(x, d, z1, y)
# 勾配降下の繰り返し
for dataset in random_datasets:
x, d = dataset['x'], dataset['d']
z1, y = forward(network, x)
grad = backward(x, d, z1, y)
# パラメータに勾配適用
for key in ('W1', 'W2', 'b1', 'b2'):
network[key] -= learning_rate * grad[key]
# 誤差
loss = functions.mean_squared_error(d, y)
losses.append(loss)
print("##### 結果表示 #####")
lists = range(epoch)
解答：
オンライン学習とは学習データが入ってくる度に都度パラ
メータ（重み）を更新し、学習を進めていく方法。一方、
バッチ学習では一度にすべての学習データを使用してパラ
メータ更新を行う。最近の深層学習ではオンライン学習と
いうのがかなり重要な要素になっている。
W(t)
W(t+1)
W(t+2)
-ε∇Et+1
-ε∇Et

Section５：誤差逆伝播法
• 誤差勾配の計算する方法である。
• 数値微分は、計算量が非常に大きくなる。
• 誤差逆伝播法は、算出される誤差を、出力側から順に微分し、前の層へと伝播。最小限の計算で各パラメータで
の微分値を解析的に計算する方法である」。
• 計算結果から微分を逆算することで、不要な再帰的計算を避けて微分を算出できる手法である。

確認テスト
◦ 1.誤差逆伝播法では不要な再帰的処理を避ける事が出来る。既に行った計算結果を保持しているソースコードを抽出せよ。
◦ 2.以下のそれぞれに該当するソースコードを探せ。
解答：
# 出力層でのデルタ
delta2 = functions.d_mean_squared_error(d, y)
解答：
elta2 = functions.d_mean_squared_error(d, y)
delta1 = np.dot(delta2, W2.T) * functions.d_sigmoid(z1)
grad['W1'] = np.dot(x.T, delta1)

Section１：勾配消失問題
◦ 逆伝播の際に、層を遡るにつれて勾配が０に近づいてしまう問題を勾配消失問題という。
◦ 勾配消失問題は、層が深くなるほど顕著になる。
◦ 対策としては、下記の方法がある。
◦ バッチサイズの最適化
◦ ハイパーパラメータの最適化
◦ 正則化
◦ 重みの初期値の最適化
◦ 早期終了
◦ データの拡張
◦ ドロップアウト
◦ データの前処理

確認テスト
◦ 1.連鎖率の原理を使い、dz/dx を求めよ
◦ 2.シグモイド関数を微分した時、入力値が０の時に最大値をとる。そ
の値として正しいものを選択肢から選べ。
正解は (2) 0.25
𝜕𝑧
𝜕𝑡
= 2𝑡
𝜕𝑡
𝜕𝑥
= 1
𝜕𝑧
𝜕𝑡
𝜕𝑡
𝜕𝑥
= 2𝑡
𝜕𝑧
𝜕𝑥
= 2(𝑥 + 𝑦)
◦ 3.重みの初期値に０を設定すると、どのような問
題が発生するか。簡潔に説明せよ。
解答：
重みを０で初期化すると正しい学習が行えな
い。全ての重みの値が均一に更新されるため、
多数の重みを持つ意味がなくなる。
◦ 4.一般的に考えられるバッチ正規化の効果を２点挙げよ。
解答：
1.バッチ正規化を行う事で、ニューラルネットワークの学習中
に、中間層の重みの更新が安定化されます。その結果として
学習がスピードアップします。
2.過学習を押さえる事ができます。バッチ正規化はミニバッチ
の単位でデータの分布を正規化します。学習データの極端な
ばらつきが抑えられます。この状態でニューラルネットワー
クを学習できますので、過学習が起きにくく調整が行われて
いきます。

Section２：学習率最適化手法
◦ モメンタム
◦ SDGのジグザグ運転に対して株価の移動平均のような動きをする。
◦ AdaGrad
◦ 緩やかな斜面に強い。
◦ RMSProp（AdaGradを改良）
◦ AdaGradのようにハイパーパラメータの調整が必要な場合が少ない。
◦ Adam
◦ 優秀な最適化手法（Optimizer）モメンタム及びRMSPropのメリットを学んだアルゴリズムである。

確認テスト
◦ 1.モメンタム・AdaGrad・RMSPropの特徴をそれぞれ簡潔に説明せよ。
解答：
モメンタムのメリット
局所的最適解にはならず、大域的最適解となる。
谷間についてから最も低い位置(最適値)にいくまでの時間が早い。
AdaGradのメリット
勾配の緩やかな斜面に対して、最適値に近づける。
RMSPropのメリット
局所的最適解にはならず、大域的最適解となる。
ハイパーパラメータの調整が必要な場合が少ない。

Section３：過学習
◦ 訓練データに過剰の適合し、未知の入力のデータに対して正しく推定できなくなる現象。
◦ 過学習になると、汎化誤差が大きくなる。
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
def true_fun(X):
return np.cos(1.5 * np.pi * X)
np.random.seed(0)
n_samples = 30
degrees = [5, 10, 15]
X = np.sort(np.random.rand(n_samples))
y = true_fun(X) + np.random.randn(n_samples) * 0.1
plt.figure(figsize=(14, 5))
for i in range(len(degrees)):
ax = plt.subplot(1, len(degrees), i + 1)
plt.setp(ax, xticks=(), yticks=())
polynomial_features = PolynomialFeatures(degree=degrees[i],
include_bias=False)
linear_regression = LinearRegression()
pipeline = Pipeline([("polynomial_features", polynomial_features),
("linear_regression", linear_regression)])
pipeline.fit(X[:, np.newaxis], y)
# Evaluate the models using crossvalidation
scores = cross_val_score(pipeline, X[:, np.newaxis], y,
scoring="neg_mean_squared_error", cv=10)
X_test = np.linspace(0, 1, 100)
plt.plot(X_test, pipeline.predict(X_test[:, np.newaxis]), label="Model")
plt.plot(X_test, true_fun(X_test), label="True function")
plt.scatter(X, y, edgecolor='b', s=20, label="Samples")
plt.xlabel("x")
plt.ylabel("y")
plt.xlim((0, 1))
plt.ylim((-2, 2))
plt.legend(loc="best")
plt.title("Degree {}nMSE = {:.2e}(+/- {:.2e})".format(
degrees[i], -scores.mean(), scores.std()))
plt.show()
◦ 図より、過学習になると、学習データに対する誤差はなくなるが、
未知のデータに対する誤差は大きくなることがわかる。

確認テスト
◦ 1.機械学習で使われる線形モデル(線形回帰、主成分分析・・・etc)の正則化は、モデルの重みを制限することで可能となる。
前述の線形モデルの正則化手法の中にリッジ回帰という手法があり、その特徴として正しいものを選択しなさい。
解答：(a)
◦ 2.下図について、L1正則化を表しているグラフはどちらか答えよ。
正解 : 右のLasso推定量。

Section４：畳み込みニューラルネットワークの
概念
◦ 畳み込みニュートラルネットワーク（CNN）は、人の視覚のように画像認識を得意とする。
◦ CNNは、画像を入力とした分類問題でよく扱われる。
◦ CNNには、畳み込み層、プーリング層、全結合層がある。
◦ 畳み込み層では、複数のフィルタを用いて特徴の検出が行われる。
◦ プーリング層では、畳み込み層の直後に配置され、区切られた領域の代表値を抽出する。
◦ 全結合層は、畳み込み層とプーリング層の後に配置され、抽出された特徴量に基づき、演算を行い、出力する。

確認テスト
◦ 1.サイズ6×6の入力画像を、サイズ2×2のフィルタで畳み込んだ時の出力画像のサイズを答えよ。なおストライドとパディングは1とする。
解答：
６＋１＊２－２＋１＝７
よって7x7である。

Section５：最新のＣＮＮ
• AlexNet：比較的初期の小さなニューラルネット
• モデルの構造：５層の畳み込み層、及びプーリング層等、それに続く３層の全結合層から構成される。
• 畳み込み演算の部分から全結合層に至る部分について：
• [13, 13, 256]の画像
• Flatten：横１列にずらっと並べるだけ[43264]。初期のニューラルネットワークでの１列の並べ替えでは非常に良く行わ
れている。
• Global Max Pooling：[13*13]をあたかも１つのフィルターのように見立て、Maxを使用する。[256]にまで圧縮される。
• Global Avg Pooling：上と同様、Avg。
• 後２つは何故か非常に上手くいく。一気に数値を減らせる割に非常に効率的に特徴量を抽出して認識精度の向上
をはかる事ができる。

深層学習の基礎と誤差逆伝播法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層学習の基礎と誤差逆伝播法

Similar to 深層学習の基礎と誤差逆伝播法 (20)

Recently uploaded

Recently uploaded (20)

深層学習の基礎と誤差逆伝播法