ラビットチャレンジレポート深層学習Day2

ラビットチャレンジレポート
深層学習day2
2022/1

目次
 Section1: 勾配消失問題
 Section2: 学習率最適化手法
 Section3: 過学習
 Section4: 畳み込みニューラルネットワークの概念
 Section5: 最新のCNN
2

Section1:
勾配消失問題
3

Section1: 勾配消失問題
4
概要
勾配消失問題: 誤差逆伝播法において微分した値を次々と掛け合わせていく際に、微分した値が小さいき勾配が0に
近づき学習が進まなくなってしまう現象。逆に勾配が大きすぎて発散してしまう現象を勾配爆発という。
勾配消失問題の解決策
・活性化関数の選択
シグモイド関数の導関数の最大値は0.25で小さな値であるため勾配消失を引き起こす恐れがある。代わりにReLU
関数などを用いることで改善される可能性がある。
・重みの初期値設定
Xavierの初期値: 重みの要素を、前の層のノード数の平方根で除算した値。(ReLU、シグモイド関数などに用いる)
Heの初期値: Xavierの初期値を 2倍したもの。(ReLU関数に用いる)
・バッチ正規化
ミニバッチ単位で、入力値のデータの偏りを抑制する方法。活性化関数に値を渡す前後で処理を行う。

5
確認テスト
Q1. 連鎖律の原理を使い、dz/dxを求めよ。
A1.
𝑧 = 𝑡2
𝑡 = 𝑥 + 𝑦
𝑑𝑧
𝑑𝑥
=
𝑑𝑧
𝑑𝑡
𝑑𝑡
𝑑𝑥
= 2𝑡 × 1 = 2(𝑥 + 𝑦)
Q2. シグモイド関数を微分した時、入力値が0の時に最大値をとる。その値として正しいものを選択肢から選べ。
A2. (2)0.25
𝑓(𝑥) =
1
1 + 𝑒−𝑥 𝑓′
(𝑥) =
𝑒−𝑥
(1 + 𝑒−𝑥)2
微分
𝑓′ 0 =
1
1 + 1 2
=
1
4
= 0.25
0代入
Q3. 重みの初期値を0を設定すると、どのような問題が発生するか。簡潔に説明せよ。
A3. 全ての重みの値が均一に更新されるため、多数の重みをもつ意味がなくなってしまう。
Q4. 一般的に考えられるバッチ正規化の効果を2点挙げよ。
A4. 中間層の重みの更新が安定し学習が早まる。過学習を抑制できる。

6
サンプルコードの実行
sigmoid - gauss ReLU - gauss
sigmoid - Xavier
勾配消失が発生し学習が進んでいない
ReLU - He
最も高速に学習が進んでいる

Section2:
学習率最適化手法
7

Section2: 学習率最適化手法
8
概要
学習率最適化: 勾配降下法で誤差関数を最小化する際、学習率が大きいと発散する恐れがあったり逆に小さいと
収束するまでに時間がかかったりしてしまう。その問題の解消のため、学習率を学習の進み具合に応じて変更し
ていく手法。
モメンタム AdaGrad RMSProp Adam
概要
誤差をパラメータで微分し
たものと学習率の積を減算
した後、現在の重みに前回
の重みを現在した値と慣性
の積を加算する。
たものと再定義した学習率
の積を減算する。
たものと再定義した学習率
の積を減算する。
モメンタムの過去の勾配の
指数関数的減衰平均と
RMSPropの過去の勾配の2乗
の指数関数的減衰平均をあ
わせもつ。
メリット
局所的最適解にならず、大
域的最適解となる。
谷間についてから最も低い
位置にいくまでの時間が早
い。
勾配の緩やかな斜面に対し
て、最適値に近づける
局所的最適解にならず、大
域的最適解となる。
ハイパーパラメータの調整
が必要な場合が少ない。
モメンタムとRMSPropの両
方のメリットをあわせもつ。
課題
学習率が徐々に小さくなる
ので、鞍点問題を引き起こ
すことがある。
数式
𝑉𝑡 = 𝜇𝑉𝑡−1 − 𝜖𝛻𝐸
𝒘(𝑡+1)
= 𝒘(𝑡)
+ 𝑉𝑡
慣性: 𝜇
ℎ0 = 𝜃
ℎ𝑡 = ℎ𝑡−1 + (𝛻𝐸)2
𝒘(𝑡+1)
= 𝒘(𝑡)
− 𝜖
1
ℎ𝑡 + 𝜃
𝛻𝐸
ℎ𝑡 = 𝛼ℎ𝑡−1 + (1 − 𝛼)(𝛻𝐸)2
𝒘(𝑡+1)
= 𝒘(𝑡)
− 𝜖
1
ℎ𝑡 + 𝜃
𝛻𝐸

9
確認テスト
Q1. モメンタム・AdaGrad・RMSPropの特徴を簡潔に説明せよ。
A1. モメンタム: 局所的最適解にならず大域的最適解となる。谷間についてから最適値にいくまでの時間が早い。
AdaGrad: 勾配の緩やかな斜面に対して、最適解に近づくことができる。
RMSProp: 局所的最適解にならず大域的最適解となる。ハイパーパラメータの調整が必要な場合が少ない。

10
SGD Momentum AdaGrad
RMSprop Adam
SGD/Momentum/AdaGradでは学習が進まず正解率の向上が見られない
RMSprop/Adamではともに学習がきちんと進み、テストデータに対しても90%以上の正解率となっている

Section3: 過学習
12
概要
過学習: モデルが過度に学習データに適合してしまい、未知データへの予測精度が低い状態。重みが大きい値をとることが
過学習の原因となることがある
正則化: 過学習抑制のためにネットワークの自由度(層数、ノード数、パラメータの値など)を制約すること。
L1正則化: 誤差関数に𝐿1ノルムを加えたものを最小化する。
L2正則化: 誤差関数に𝐿2ノルムを加えたものを最小化する。
ドロップアウト: ランダムにノードを削除し学習させる手法。データ量を変化させず異なるモデルを学習させていると解釈
することができる。

Section3: 過学習
13
確認テスト
Q1. 機械学習で使われている線形モデル(線形回帰、主成分分析…etc)の正則化は、モデルの重みを制限することが
可能となる。前述の線形モデルの正則化手法の中にリッジ回帰という手法があり、その特徴として正しいものを選択
しなさい。
A1. (a)ハイパーパラメータを大きな値に設定すると、すべての重みが限りなく0に近づく。
Q2. 下図について、L1正則化を表しているグラフはどちらか答えよ。
A2. 右のLasso推定量のグラフがL1正則化。左はL2正則化。

Section3: 過学習
14
overfitting weight decay: L2 weight decay: L1
Dropout Dropout+L1
学習データに対する正解率は100%に近づいているが、テストデータに対する正解率は80%未満となっている
weight decay: L1では振動が見られ学習が安定していない
Dropoutを行うとテストデータに対する正解率も向上し続けている

Section4:
畳み込みニューラルネット
ワークの概念
15

Section4: 畳み込みニューラルネットワークの概念
16
概要
畳み込みニューラルネットワーク: 画像データの扱いに適した縦横の位置関係の情報を失わずに学習する手法。
基本的に入力層、畳み込み層、プーリング層、全結合層、出力層から構成される。
畳み込み層: 入力データに対しフィルタのウインドウを一定間隔でスライドして適用させる。入力データとフィルタ
の値の積を足し合わせ、最後にバイアスを加えたものを出力する層。
パディング: 畳み込みを行うと出力のサイズが小さくなるため、入力データの周囲に値を追加すること。
ストライド: フィルタを適用する位置の間隔。
チャンネル: 縦、横、奥行きの3次元データについて奥行きの部分のこと。画像の場合は色(RGB)に相当する。
プーリング層: フィルタ適用後に対象とした領域の最大値、平均値を出力する層。それぞれMaxプーリング、
Averageプーリングと呼ぶ。
畳み込み演算の例
141 190
101 137

Section4:畳み込みニューラルネットワークの概念
17
確認テスト
Q1. サイズ6×6の入力画像を、サイズ2×2のフィルタ畳み込んだ時の出力画像のサイズを答えよ。なおストライド
とパディングは1とする。
A1. 7×7
パディングを行った入力画像
(着色部分が元画像)
2×2フィルタ
6×6の画像に対してサイズ1のパディングを行うと
8×8の画像となる。
8×8の画像に対し2×2フィルタをストライド1で適用
すると縦横方向にそれぞれ7ずつ移動できる。
従って7×7の画像が出力される。

18
サンプルコードの実行(1/5)

19

20

21

22
テストデータに対する正解率は、約96%であり
汎化性能の高いモデルを構築することができた。

Section5: 最新のCNN
24
概要
AlexNet: 2012年の画像認識精度を競うコンペティション(ILSVRC)で圧倒的な精度を誇ったモデル。
(畳み込み層+プーリング層)×2→畳み込み層×3→プーリング層→全結合層×3の構造をしている。
また過学習抑制のために全結合層の出力にドロップアウトを用いている。

ラビットチャレンジレポート深層学習Day2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)