社内機械学習勉強会 #5

機械学習勉強会
第５回
SRA 鈴木真吾

今回の内容
詳解ディープラーニング 4.5 高度なテクニック

データ・パラメタは学習の結果に影響を与える。
ではどのようなデータ・パラメタを取るのがよいか？
データセット
重み
学習率
学習回数

データセット
重み
学習率
学習回数

データセットに関するテクニック
正規化
Batch Normalization (後半で説明)

正規化
X = X - X.mean(axis=1).reshape(len(X), 1)
値域が一定の範囲に収まるようにする
任意のデータで同じアプローチを取りたい
処理しやすいデータにする
平均は0になるようにする
特に次の場合は白色化という
平均が0
分散が1.0

どういう重みだとうれしいか？
前提としてデータセットに偏りがない
→ 重みにも偏りは少ないはず
すべて 0 にしたらどうなるか？
→ 誤差逆伝播の際に勾配の値も同じになって学習
が進まなくなってしまう
小さい標準偏差で分布させれば？
→ 小さいとやはり学習が進まない

結論
標準偏差はσ = 1.0で分布させて、適当な係数aをか
けて初期化しよう
python コードとしては
a * np.random.normal(size=shape)

活性化される前の値=次の層の入力となる
p = w xj
i=1
∑
n
ij i (4.2)

V ar[p ] =j
=
=
V ar [ w x
i=1
∑
n
ij i]
V ar
i=1
∑
n
[w xij i]
i=1
∑
n
⎩
⎨
⎧
+
+
(E[w ]) V ar[x ]ij
2
i
(E[x ]) V ar[w ]i
2
ij
V ar[w ]V ar[x ]ij i
⎭
⎬
⎫
(4.43)
(4.44)
(4.45)

補足
確率変数の期待値の積（４．４４から4.45の変形に
使用)
E[XY ] =
=
=
=
P (X = x, Y = y)xy
x,y
∑
P (X = x)P (Y = y)xy
x
∑
y
∑
P (X = x)x P (Y = y)xy
x
∑
y
∑
E[X]E[Y ]

補足
確率変数の分散
確率変数の分散の積
V ar[X] =E[X ] − E[X]2 2
V ar[XY ] =
=
=
=
E[X Y ] − E[X] E[Y ]2 2 2 2
E[X ]E[Y ] − E[X] E[Y ]2 2 2 2
(V ar[X] + E[X] )(V ar[Y ] + E[Y ] )2 2
− E[X] E[Y ]2 2
V ar[X]V ar[Y ]
+ V ar[X]E[Y ] + V ar[Y ]E[X]2 2

(4.45) は
[x ] = 0とデータを正規化している
E[w ] = 0 と仮定する
すると次のようになる
i
ij
V ar[p ]j =
=
V ar[w ]V ar[x ]
i=1
∑
n
ij i
nV ar[w ]V ar[x ]ij i
(4.46)
(4.47)

p =j
V ar[p ] =j
w x
i=1
∑
n
ij i
nV ar[w ]V ar[x ]ij i
(4.2)
(4.47)

pの分散をxの分散に合わせたい場合、
V ar[p ] = V ar[x ]とすると、
V ar[w ] = 、V ar[aX] = a V ar[X]なので
とすればよい
j i
ij n
1 2
a = √
n
1
(4.48)

Pythonの式だと
np.sqrt(1.0 / n) * np.random.normal(size=shape)
V ar[P ]を決めるまでにあった仮定のとりかたによっ
て、初期化手法はいくつか考えられる
ij

LeCun et al. 1988
入力数の平方根でスケーリングした一様分布による初
期化
np.random.uniform(low=-np.sqrt(1.0 / n),
high=np.sqrt(1.0 / n),
size=shape)

Glorot and Bengio 2010
fan_in + fan_out でスケーリングした一様分布による
初期化
np.random.uniform(low=-np.sqrt(6.0 / (n_in + n_out)),
high=np.sqrt(6.0 / (n_in + n_out)),
size=shape)

He et al. 2015
ReLU を使った初期化
np.sqrt(2.0 / n) * np.random.normal(size=shape)

学習率に関するテクニック
モメンタム
Nesterov モメンタム
Adagrad
Adadelta
Adam

モメンタム
これまでは学習率は定数だったが、効率的に学習をすす
めるには
最初は大きく学習をすすめる
徐々に学習率を少なくする
モメンタムの考え方
学習率は一定
モメンタム項という調整用の項を追加して上記を表現
する

モデルのパラメータθ
Eのθに対する勾配を∇ E
ステップをt
とした時のパラーメタ更新式は次のようになる
γΔθ がモメンタム項
係数γ(< 1.0)は通常0.5から0.9に設定する
θ
Δθ =(t)
− η∇ E(θ) + γΔθθ
(t−1)
(4.49)
(t−1)

TensorFlow
def training(loss):
optimizer = tf.train.MomentumOptimizer(0.01, 0.9)
train_step = optimizer.minimize(loss)
return train_step
Keras
model.compile(loss='categorical_crossentropy',
optimizer=SGD(lr=0.01, momentum=0.9),
metrics=['accuracy'])

Nesterovモメンタム
(4.49)の変形
Δθ = θ − θ = υ と変形して
υ =(t)
θ =(t)
− η∇ E(θ) + γΔθθ
(t−1)
θ − υ(t−1) (t)
(4.51)
(4.52)
(t) (t) (t−1) (t)
υ =(t)
θ =(t)
− η∇ E(θ + γυ ) + γΔθθ
(t−1) (t−1)
θ − υ(t−1) (t)
(4.53)
(4.54)

TensorFlow
optimizer = tf.train.MomentumOptimizer(
0.01, 0.9, use_nesterov=True)
Keras
optimizer = SGD(lr=0.01, momentum=0.9, nesterov=True

Adagrad
効率的に学習をすすめるには
最初は大きく学習をすすめる
徐々に学習率を少なくする
Adagrad(adaptive gradient algorithm)の考え方
学習率の値そのものを更新する。

Adagraは次の式
ただし、
ϵは1.0 × 10 ∼ 1.0 × 10 程度の微小な項
0除算の回避用途
θ =i
(t)
θ − gi
(t−1)
√G + ϵii
(t)
η
i
(t)
(4.56)
gi
G ii
(t)
: =
=
∇ E(θ )θ i
g ⋅ g
τ =0
∑
t
i
(τ )
i
(τ )
(4.55)
(4.57)
−6 −8

Gは対角行列なので、(4.56)は要素積に置き換えられる
通常の勾配降下法ではθ = θ − ηg
G は、 t までの勾配の２乗和
直感的にはこれまでのステップで小さかった勾配の
成分が次のステップでは大きくなるように更新され
る
θ =i
(t)
θ − ⊙ gi
(t−1)
√G + ϵii
(t)
η
i
(t)
(4.56)
i
(t)
i
(t−1)
i
(t)
ii

Adadelta
Adagrad の問題点
G は勾配の2乗の累積和=単調増加
学習のステップが進む毎に勾配にかかる係数が急
激に小さくなり、学習がすすまなくなる
Adadelta では
→ ステップ 0 からの全ての和でなく、定数w のステッ
プ文の和に制限する
実装としては非効率なので、実際には減衰平均する
(t)

「勾配の2乗」(= g ⊙ g )の移動平均E[g ]は
(以降ではg はg と表記)
t t t
2
E[g ]2
t = ρE[g ] + (1 − ρ)g2
t−1 t
2
(4.59)
(t)
t

Adagradの式
このG_tをE[g ]で置は換える
さらにはRMS[g] に置き換えられて
θ =t+1 θ − ⊙ gt
√G + ϵt
η
t (4.60)
t
2
θ =t+1 θ − gt
√E[g ] + ϵ2
t
η
t (4.61)
√E[g ]2
t t
θ =t+1 θ − gt
RMS[g]t
η
t (4.62)

補足
RMSは2乗平均平方根 (root mean square)
RMS[x] =
⎷



x
N
1
i=1
∑
N
i
2
(C1)

さらに式変形すると(4.63)の式が得られる
ηに何が入るか考えた時、
左辺・右辺の「単位」は揃っているはず
Δθ はt − 1までのΔθ のRMSから近似できる
と考えて、Adadeltaの式が得られる
となって学習率ηが自動的に計算できることになる
Δθ =t − g
RMS[g]t
η
t (4.63)
t t
Δθ =t − g
RMS[g]t
RMS[Δθ]t−1
t (4.66)

元の論文読むと
このΔxが Δθのこと
∆x t for the current
time step is not known, so we assume the
curvature is locally
smooth and approximate ∆x t by compute the
exponentially
decaying RMS over a window of size w of
previous ∆x
“
“

RMSprop
RMSprop は Adadelta と同様に、Adagrad の学習率の
急激な減少を解決する手法
E[g 2]t = 0.9E[g 2] + 0.1g 2t−1 t (4.67)
θt+1 = θ − gt
√E[g 2] + ϵt
η
t (4.68)

Adam(adap ve moment es ma on)
つぎの２つをパラメータの更新式に使う方式
勾配の２乗の移動平均v := E[g ] の減衰平均
勾配の単純な移動平均m := E[g] の減衰平均
β , β ∈ [0, 1)はハイパーパラメタ
移動平均の減衰率を調整
t
2
t
t t
m =t
v =t
β m + (1 − β )g1 t−1 1 t
β v + (1 − β )g2 t−1 2 t
2
(4.69)
(4.70)
1 2

v ,m は真のモーメントから偏りがあるので、この偏りを0
にした推定値 , を求めたい。
について、v = 0で初期化した場合、v は
(1 − β ) β ⋅ g のような項もあるんじゃ
ないかと思うが、(1 − β ) ≪ 1として無視されてい
ると思われる
t t
vt^ mt^
v =t β v + (1 − β )g2 t−1 2 t
2
(4.70)
0 t
v =t (1 − β ) β ⋅ g2
i=1
∑
t
2
t−i
i
2
(4.71)
2
n
∑i=n
t
2
t−i
i
2
2
n

ここから2次モーメントの移動平均E[v ]と真の2次モー
メントE[g ]の関係を求めると
v =t (1 − β ) β ⋅ g2
i=1
∑
t
2
t−i
i
2
(4.71)
t
t
2
E[v ] =t
=
=
E [(1 − β ) β ⋅ g2
i=1
∑
t
2
t−i
i
2
]
E[g ] ⋅ (1 − β ) β + ζt
2
2
i=1
∑
t
2
t−i
E[g ] ⋅ (1 − β ) + ζt
2
2
t
(4.72)
(4.73)
(4.74)

補足
(4.73)から(4.47)の変形
=
=
=
(1 − β) β
i=1
∑
t
t−i
(1 − β)(β + β + ⋯ + β + 1)t−1 t−2
β + β + ⋯ + β + 1t−1 t−2
− β − β − β − ⋯ − βt t−1 t−2
− β + 1t

ζ = 0と近似できるようにハイパーパラメタの値を設定す
ると次のように推定できる。
m についても同様
以上から、パラメタの更新式は
=vt^
1 − β2
t
vt
(4.75)
t
=mt^
1 − β1
t
mt
(4.76)
θ =t θ −t−1
+ ϵ√vt^
α
mt^ (4.77)

Early Stopping
学習回数は
多いほど訓練データへの誤差は小さくなる
多すぎるとオーバーフィッティングが発生する
→ Early Stopping
手法としては「前のエポックの時と比べ誤差が増えたら
学習を打ち切る」

Early Stopping の擬似コード
for epoch in range(epochs):
loss = model.train()['loss']
if early_stopping(loss):
break

Batch Normaliza on
前処理としての正規化
学習の際にはネットワーク内部で分散がかたよる
Batch Normalization
正規化をミニバッチに対しても行う手法

ミニバッチB = {x , x , ..., x }に対して1 2 m
μ =B
σ =B
2
x
m
1
i=1
∑
m
i
2
(x − μ )
m
1
i=1
∑
m
i B
2
(4.79)
(4.80)

{y , y , ..., y } がBatch Normalization の出力
=xi^
y =i
√σ + ϵB
2
x − μi B
γ + βxi^
(4.81)
(4.82)
1 2 m

誤差関数Eに対して、γ、β、x の勾配を求めるi
∂γ
∂E
=
i=1
∑
m
∂yi
∂E
∂γ
∂yi
=
i=1
∑
m
∂yi
∂E
xi^
(4.83)
(4.84)
∂β
∂E
=
i=1
∑
m
∂yi
∂E
∂β
∂yi
=
i=1
∑
m
∂yi
∂E
(4.83)
(4.85)

=
∂xi
∂E
=
+ +
∂xi^
∂E
∂xi
∂xi^
∂σB
2
∂E
∂xi
∂σB
2
∂μB
∂E
∂xi
∂μB
(4.87)
+ +
∂xi^
∂E
√σ + ϵB
2
1
∂σB
2
∂E
m
2(x − μ )i B
∂μB
∂E
m
1
(4.88)

は既知。他の項は∂yi
∂E
=
∂xi^
∂E
=
∂yi
∂E
∂xi^
∂yi
⋅ γ
∂yi
∂E
(4.89)
(4.90)
=
∂σB
2
∂E
=
i=1
∑
m
∂xi^
∂E
σB
2
∂xi^
(4.91)
⋅ (x − μ ) ⋅ (σ + ϵ)
i=1
∑
m
∂xi^
∂E
i B
2
−1
B
2 − 2
3
(4.92)

前の層の勾配を現在の層の情報だけで求められるので、
誤差逆伝播法がつかえる。
=
∂μB
∂E
=
+
i=1
∑
m
∂xi^
∂E
μB
∂xi^
∂σB
2
∂E
μB
∂σB
2
i=1
∑
m
∂xi^
∂E
√σ + ϵB
2
−1
+
i=1
∑
m
∂σB
2
∂E
m
−2(x − μ )i B
(4.93)
(4.94)

これまでの層の活性化は
Batch Normalization では次のようになりバイアス項が
なくなる
h = f(W x + b) (4.95)
h = f(BN (W x))γ,β (4.96)

まとめ
初期化方法はいろいろあり、どれが最適とは必ずはい
えない
とはいえAdadelta とBatch Normalization は良い
らしい
問題によって最適な初期化を探すことになりそう

社内機械学習勉強会 #5

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 社内機械学習勉強会 #5

Similar to 社内機械学習勉強会 #5 (20)

More from shingo suzuki

More from shingo suzuki (15)

Recently uploaded

Recently uploaded (8)

社内機械学習勉強会 #5