Tatsunori Ueno
◦ ニュートラルネットワークは、入力層、中間層(隠れ層)、出力層の3つの分類できる。
◦ 入力層とは、ニュートラルネットワーク全体の入力を受け取る層である。
◦ 中間層とは、入力層と出力層の間にある複数の層である。
◦ 入力層から出力層に向けて情報が伝わることを順伝播といい、出力層から入力層に向けて遡って情報が伝わることを逆伝播という。
import numpy as np
#x:入力 w:重み b:バイアス
u =,w)+b
◦ 1.与えられた図式に動物分類の実例を入れてみよう。
◦ 2.以下の数式をPythonで書け。
◦ 3.1-1のファイルから中間層を定義しているソースを抜き出せ。
# 2層の総入力 u2 =, W2) + b2 # 2層の総出力 z2 =
u =, W) + b
u z
◦ ステップ関数
◦ 0か1でシンプルに表現する。
◦ シグモイド関数
◦ 0~1で滑らかに変化する。
◦ tanh関数
◦ ー1~1で滑らかに変化する。
◦ ReLU
◦ 負の場合は0,正の場合は入力を返す。
◦ Leaky ReLU
◦ ReLUを改良した関数。負でもわずかに出力する。
◦ 恒等関数
◦ 入力をそのまま返す関数。
◦ ソフトマックス関数
◦ 分類問題を扱う関数
import numpy as np
import matplotlib.pyplot as plt
def step_function(x):
return np.where(x<=0,0,1)
x = np.linspace(-5,5)
y = step_function(x)
import numpy as np
import matplotlib.pyplot as plt
def sigmoid_function(x):
return 1/(1+np.exp(-x))
x = np.linspace(-10,10)
y = sigmoid_function(x)
◦ 1.線形と非線形の違いを図に書いて簡易に説明せよ。 ◦ 2.配布されたソースコードより、「順伝播(3層・複数ユニッ
# 1層の総出力 z1 = functions.relu(u1) # 2層の総出力 z2 = functions.relu(u2)
◦ ニュートラルネットワークは、入力層、中間層(隠れ層)、出力層の3つの分類できる。
◦ 出力層の活性化関数で、回帰モデルにも分類モデルにすることもできる。
◦ 恒等関数を出力層の活性化関数にすると、回帰モデルになり、ソフトマックス関数にすると分類モデルとなる。
恒等関数 ソフトマックス関数
◦ 1.誤差関数(2乗和誤差、残差平方和)において、
• なぜ、引き算するのみではなく、二乗するのか述べよ
• 1/2はどういう意味を持つか述べよ
◦ 2.以下の数式に該当するソースコードを示し、一行づつ処理の説明をせよ。
引き算したものの総和はゼロになる。 各々を二乗
np.exp(x) / np.sum(np.exp(x))
# 出力層の活性化関数
# ソフトマックス関数
def softmax(x):
if x.ndim == 2:
x = x.T
x = x - np.max(x, axis=0)
y = np.exp(x) / np.sum(np.exp(x), axis=0)
return y.T
x = x - np.max(x)
# オーバーフロー対策
return np.exp(x) / np.sum(np.exp(x))
◦ 3.以下の数式に該当するソースコードを示し、一行づつ処理の説明をせよ。
-np.sum(np.log(y[np.arange(batch_size), d] + 1e-7))
# クロスエントロピー
def cross_entropy_error(d, y):
if y.ndim == 1:
d = d.reshape(1, d.size)
y = y.reshape(1, y.size)
# 教師データがone-hot-vectorの場合、正解ラベルのインデックスに変換
if d.size == y.size:
d = d.argmax(axis=1)
batch_size = y.shape[0]
return -np.sum(np.log(y[np.arange(batch_size), d] + 1e-7)) /
◦ 勾配降下法とは、勾配を元に重みとバイアスを少しずつ調整し、誤差が最小になるようにネットワークを最適化する方法である。
◦ 主な手法として下記の方法がある。
◦ 確率的勾配降下法(SGD)
◦ Momentum
◦ AdaGrad
◦ RMSProp
◦ Adam
# データのランダム抽出
random_datasets = np.random.choice(data_sets, epoch)
# 勾配降下の繰り返し
for dataset in random_datasets:
x, d = dataset['x'], dataset['d']
z1, y = forward(network, x)
grad = backward(x, d, z1, y)
# パラメータに勾配適用
for key in ('W1', 'W2', 'b1', 'b2'):
network[key] -= learning_rate * grad[key]
# 誤差
loss = functions.mean_squared_error(d, y)
◦ 1.以下の勾配降下法に該当するソースコードを探してみよう。
◦ 2.深層学習にとって大切なオンライン学習を定義しなさい。
◦ 3.以下の数式の意味を図に書いて説明せよ。
network[key] -= learning_rate * grad[key]
grad = backward(x, d, z1, y)
# 勾配降下の繰り返し
for dataset in random_datasets:
x, d = dataset['x'], dataset['d']
z1, y = forward(network, x)
grad = backward(x, d, z1, y)
# パラメータに勾配適用
for key in ('W1', 'W2', 'b1', 'b2'):
network[key] -= learning_rate * grad[key]
# 誤差
loss = functions.mean_squared_error(d, y)
print("##### 結果表示 #####")
lists = range(epoch)
• 誤差勾配の計算する方法である。
• 数値微分は、計算量が非常に大きくなる。
• 誤差逆伝播法は、算出される誤差を、出力側から順に微分し、前の層へと伝播。
• 計算結果から微分を逆算することで、不要な再帰的計算を避けて微分を算出でき
# 誤差逆伝播
# 「ソフトマックス + クロスエントロピー誤差」が逆伝播する値は「結果- 正解」になる
# 学習データ毎の誤差をあとで合算するため、事前に誤差をデータ数で割る
gosa = (softmax_result - t_value) / data_count
# 重みとバイアスの微分
dw2 =, gosa)
db2 = np.sum(gosa, axis = 0)
gosa =, w2.T)
# ReLU で値が 0 になっていた場合は、誤差を0 にします
gosa[v2_org <= 0] = 0
# 重みとバイアスの微分
dw1 =, gosa)
db1 = np.sum(gosa, axis = 0)
# gosa =, w1.T)
# 重みとバイアスの更新
learning_rate = 0.01 # 学習率
w1 -= dw1 * learning_rate
w2 -= dw2 * learning_rate
b1 -= db1 * learning_rate
b2 -= db2 * learning_rate
return (w1, b1, w2, b2)
# グラフの描画
def draw_graph(w1, b1, w2, b2):
plt.grid() # グリッド表示
plt.xlim([-1.5, 1.5]) # グラフ描画範囲(X軸)
plt.ylim([-1.5, 1.5]) # グラフ描画範囲(Y軸)
# グラフ描画
x_list = np.arange(-1, 1.6, 0.1) # x軸
y_list = np.arange(-1, 1.6, 0.1) # y軸
for y in y_list:
for x in x_list:
p = predict(np.array([x, y]), w1, b1, w2, b2)
if p == 1:
plt.scatter(x, y, c = 'b')
print("{0} {1} {2} {3}".format(
predict(np.array([0, 0]), w1, b1, w2, b2),
predict(np.array([0, 1]), w1, b1, w2, b2),
predict(np.array([1, 0]), w1, b1, w2, b2),
predict(np.array([1, 1]), w1, b1, w2, b2)))
◦ 1.誤差逆伝播法では不要な再帰的処理を避ける事が出来る。既に行った計算結果を保持しているソースコードを抽出せよ。
◦ 2.以下のそれぞれに該当するソースコードを探せ。
# 出力層でのデルタ
delta2 = functions.d_mean_squared_error(d, y)
elta2 = functions.d_mean_squared_error(d, y)
delta1 =, W2.T) * functions.d_sigmoid(z1)
grad['W1'] =, delta1)
◦ 逆伝播の際に、層を遡るにつれて勾配が0に近づいてしまう問題を勾配消失問題という。
◦ 勾配消失問題は、層が深くなるほど顕著になる。
◦ 対策としては、下記の方法がある。
◦ ReLU
◦ バッチサイズの最適化
◦ ハイパーパラメータの最適化
◦ 正則化
◦ 重みの初期値の最適化
◦ 早期終了
◦ データの拡張
◦ ドロップアウト
◦ データの前処理
◦ 1.連鎖率の原理を使い、dz/dx を求めよ
◦ 2.シグモイド関数を微分した時、入力値が0の時に最大値をとる。そ
正解は (2) 0.25
= 2𝑡
= 1
= 2𝑡
= 2(𝑥 + 𝑦)
◦ 3.重みの初期値に0を設定すると、どのような問
い。 全ての重みの値が均一に更新されるため、
◦ 4.一般的に考えられるバッチ正規化の効果を2点挙げよ。
◦ モメンタム
◦ SDGのジグザグ運転に対して株価の移動平均のような動きをする。
◦ AdaGrad
◦ 緩やかな斜面に強い。
◦ RMSProp(AdaGradを改良)
◦ AdaGradのようにハイパーパラメータの調整が必要な場合が少ない。
◦ Adam
◦ 優秀な最適化手法(Optimizer)モメンタム及びRMSPropのメリットを学んだアルゴリズムである。
◦ 1.モメンタム・AdaGrad・RMSPropの特徴をそれぞれ簡潔に説明せよ。
◦ 訓練データに過剰の適合し、未知の入力のデータに対して正しく推定できなくなる現象。
◦ 過学習になると、汎化誤差が大きくなる。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
def true_fun(X):
return np.cos(1.5 * np.pi * X)
n_samples = 30
degrees = [5, 10, 15]
X = np.sort(np.random.rand(n_samples))
y = true_fun(X) + np.random.randn(n_samples) * 0.1
plt.figure(figsize=(14, 5))
for i in range(len(degrees)):
ax = plt.subplot(1, len(degrees), i + 1)
plt.setp(ax, xticks=(), yticks=())
polynomial_features = PolynomialFeatures(degree=degrees[i],
linear_regression = LinearRegression()
pipeline = Pipeline([("polynomial_features", polynomial_features),
("linear_regression", linear_regression)])[:, np.newaxis], y)
# Evaluate the models using crossvalidation
scores = cross_val_score(pipeline, X[:, np.newaxis], y,
scoring="neg_mean_squared_error", cv=10)
X_test = np.linspace(0, 1, 100)
plt.plot(X_test, pipeline.predict(X_test[:, np.newaxis]), label="Model")
plt.plot(X_test, true_fun(X_test), label="True function")
plt.scatter(X, y, edgecolor='b', s=20, label="Samples")
plt.xlim((0, 1))
plt.ylim((-2, 2))
plt.title("Degree {}nMSE = {:.2e}(+/- {:.2e})".format(
degrees[i], -scores.mean(), scores.std()))
◦ 図より、過学習になると、学習データに対する誤差はなくなるが、
◦ 1.機械学習で使われる線形モデル(線形回帰、主成分分析・・・etc)の正則化は、モデルの重みを制限することで可能となる。
◦ 2.下図について、L1正則化を表しているグラフはどちらか答えよ。
正解 : 右のLasso推定量。
◦ 畳み込みニュートラルネットワーク(CNN)は、人の視覚のように画像認識を得意とする。
◦ CNNは、画像を入力とした分類問題でよく扱われる。
◦ CNNには、畳み込み層、プーリング層、全結合層がある。
◦ 畳み込み層では、複数のフィルタを用いて特徴の検出が行われる。
◦ プーリング層では、畳み込み層の直後に配置され、区切られた領域の代表値を抽出する。
◦ 全結合層は、畳み込み層とプーリング層の後に配置され、抽出された特徴量に基づき、演算を行い、出力する。
from common import optimizer
# データの読み込み
(x_train, d_train), (x_test, d_test) = load_mnist(flatten=False)
# 処理に時間のかかる場合はデータを削減
x_train, d_train = x_train[:5000], d_train[:5000]
x_test, d_test = x_test[:1000], d_test[:1000]
network = SimpleConvNet(input_dim=(1,28,28), conv_param = {'filter_num': 30,
'filter_size': 5, 'pad': 0, 'stride': 1},
hidden_size=100, output_size=10, weight_init_std=0.01)
optimizer = optimizer.Adam()
iters_num = 1000
train_size = x_train.shape[0]
batch_size = 100
train_loss_list = []
accuracies_train = []
accuracies_test = []
for i in range(iters_num):
batch_mask = np.random.choice(train_size, batch_size)
x_batch = x_train[batch_mask]
d_batch = d_train[batch_mask]
grad = network.gradient(x_batch, d_batch)
optimizer.update(network.params, grad)
loss = network.loss(x_batch, d_batch)
if (i+1) % plot_interval == 0:
accr_train = network.accuracy(x_train, d_train)
accr_test = network.accuracy(x_test, d_test)
print('Generation: ' + str(i+1) + '. 正答率(トレーニング) = ' + str(accr_train))
print(' : ' + str(i+1) + '. 正答率(テスト) = ' + str(accr_test))
lists = range(0, iters_num, plot_interval)
plt.plot(lists, accuracies_train, label="training set")
plt.plot(lists, accuracies_test, label="test set")
plt.legend(loc="lower right")
plt.ylim(0, 1.0)
# グラフの表示
◦ 1.サイズ6×6の入力画像を、サイズ2×2のフィルタで畳み込んだ時の出力画像のサイズを答えよ。なおストライドとパディングは1とする。
• AlexNet:比較的初期の小さなニューラルネット
• モデルの構造:5層の畳み込み層、及びプーリング層等、それに続く3層の全結合層から構成される。
• 畳み込み演算の部分から全結合層に至る部分について:
• [13, 13, 256]の画像
• Flatten:横1列にずらっと並べるだけ[43264]。初期のニューラルネットワークでの1列の並べ替えでは非常に良く行わ
• Global Max Pooling:[13*13]をあたかも1つのフィルターのように見立て、Maxを使用する。[256]にまで圧縮される。
• Global Avg Pooling:上と同様、Avg。
• 後2つは何故か非常に上手くいく。一気に数値を減らせる割に非常に効率的に特徴量を抽出して認識精度の向上
deep convolution network
(x_train, d_train), (x_test, d_test) = load_mnist(flatten=False)
# 処理に時間のかかる場合はデータを削減
x_train, d_train = x_train[:5000], d_train[:5000]
x_test, d_test = x_test[:1000], d_test[:1000]
network = DeepConvNet()
optimizer = optimizer.Adam()
iters_num = 1000
train_size = x_train.shape[0]
batch_size = 100
train_loss_list = []
accuracies_train = []
accuracies_test = []
for i in range(iters_num):
batch_mask = np.random.choice(train_size, batch_size)
x_batch = x_train[batch_mask]
d_batch = d_train[batch_mask]
grad = network.gradient(x_batch, d_batch)
optimizer.update(network.params, grad)
loss = network.loss(x_batch, d_batch)
if (i+1) % plot_interval == 0:
accr_train = network.accuracy(x_train, d_train)
accr_test = network.accuracy(x_test, d_test)
print('Generation: ' + str(i+1) + '. 正答率(トレーニング) = ' + str(accr_train))
print(' : ' + str(i+1) + '. 正答率(テスト) = ' + str(accr_test))
lists = range(0, iters_num, plot_interval)
plt.plot(lists, accuracies_train, label="training set")
plt.plot(lists, accuracies_test, label="test set")
plt.legend(loc="lower right")
plt.ylim(0, 1.0)
# グラフの表示

