ラビットチャレンジレポート 深層学習Day2
- 5. Section1: 勾配消失問題
5
確認テスト
Q1. 連鎖律の原理を使い、dz/dxを求めよ。
A1.
𝑧 = 𝑡2
𝑡 = 𝑥 + 𝑦
𝑑𝑧
𝑑𝑥
=
𝑑𝑧
𝑑𝑡
𝑑𝑡
𝑑𝑥
= 2𝑡 × 1 = 2(𝑥 + 𝑦)
Q2. シグモイド関数を微分した時、入力値が0の時に最大値をとる。その値として正しいものを選択肢から選べ。
A2. (2)0.25
𝑓(𝑥) =
1
1 + 𝑒−𝑥 𝑓′
(𝑥) =
𝑒−𝑥
(1 + 𝑒−𝑥)2
微分
𝑓′ 0 =
1
1 + 1 2
=
1
4
= 0.25
0代入
Q3. 重みの初期値を0を設定すると、どのような問題が発生するか。簡潔に説明せよ。
A3. 全ての重みの値が均一に更新されるため、多数の重みをもつ意味がなくなってしまう。
Q4. 一般的に考えられるバッチ正規化の効果を2点挙げよ。
A4. 中間層の重みの更新が安定し学習が早まる。過学習を抑制できる。
- 8. Section2: 学習率最適化手法
8
概要
学習率最適化: 勾配降下法で誤差関数を最小化する際、学習率が大きいと発散する恐れがあったり逆に小さいと
収束するまでに時間がかかったりしてしまう。その問題の解消のため、学習率を学習の進み具合に応じて変更し
ていく手法。
モメンタム AdaGrad RMSProp Adam
概要
誤差をパラメータで微分し
たものと学習率の積を減算
した後、現在の重みに前回
の重みを現在した値と慣性
の積を加算する。
誤差をパラメータで微分し
たものと再定義した学習率
の積を減算する。
誤差をパラメータで微分し
たものと再定義した学習率
の積を減算する。
モメンタムの過去の勾配の
指数関数的減衰平均と
RMSPropの過去の勾配の2乗
の指数関数的減衰平均をあ
わせもつ。
メリット
局所的最適解にならず、大
域的最適解となる。
谷間についてから最も低い
位置にいくまでの時間が早
い。
勾配の緩やかな斜面に対し
て、最適値に近づける
局所的最適解にならず、大
域的最適解となる。
ハイパーパラメータの調整
が必要な場合が少ない。
モメンタムとRMSPropの両
方のメリットをあわせもつ。
課題
学習率が徐々に小さくなる
ので、鞍点問題を引き起こ
すことがある。
数式
𝑉𝑡 = 𝜇𝑉𝑡−1 − 𝜖𝛻𝐸
𝒘(𝑡+1)
= 𝒘(𝑡)
+ 𝑉𝑡
慣性: 𝜇
ℎ0 = 𝜃
ℎ𝑡 = ℎ𝑡−1 + (𝛻𝐸)2
𝒘(𝑡+1)
= 𝒘(𝑡)
− 𝜖
1
ℎ𝑡 + 𝜃
𝛻𝐸
ℎ𝑡 = 𝛼ℎ𝑡−1 + (1 − 𝛼)(𝛻𝐸)2
𝒘(𝑡+1)
= 𝒘(𝑡)
− 𝜖
1
ℎ𝑡 + 𝜃
𝛻𝐸