More Related Content
More from ssuserf4860b (6)
ラビットチャレンジレポート 深層学習Day2
- 7. 02 学習率最適化
学習率最適化
重みの更新は以下で行っていたが、
W = W - Π∇E
するどいくぼみがあるとき、更新量が大きすぎて振動してしまうことがあるので、
これまでの∇Eの変化の状況に応じて変化させたい。
(急激な変化に左右されず移動平均で確認したい)
これを考慮した学習率最適化手法で、モメンタムというものがある。
W = W + Vt
Vt = μVt-1 – Π∇E
⇒ W = W – Π∇E + μVt-1
- 17. 01 勾配消失問題
Vashing sample(勾配消失(sigmoid関数)のサンプル)
下図のsigmoidを使用して勾配消失が発生しているも
のについて、右の図のようにそれぞれ活性化関数や初
期化方法を行うと明らかに性能が向上している
この結果だと、ReLu & Heが良さそう
ReLu
Sigmoid & Xavier
ReLu & He
- 27. 03 過学習
正則化( weight_decay_lambda = 0.05)
正則化( weight_decay_lambda = 0.005)
L2
L1
- 28. 03 過学習
正則化( weight_decay_lambda = 0.0005)
正則化( weight_decay_lambda = 0.001) L1
ここまで来るとL1はL2と変わらないようだ。
0.005あたりが良さそう。
L2は正則化が効いてそうなのは最初の0.1かな。