Submit Search
Upload
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
•
12 likes
•
16,013 views
Z
zakktakk
Follow
ゼミ発表用に作成した機械学習プロフェッショナルシリーズ(MLP) 深層学習 第3章 「確率的勾配降下法」まとめスライドです.Deep learning初学者を対象としています.
Read less
Read more
Technology
Report
Share
Report
Share
1 of 21
Download now
Download to read offline
Recommended
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
Kenji Urai
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
PRML輪読#3
PRML輪読#3
matsuolab
Recommended
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
Kenji Urai
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
PRML輪読#3
PRML輪読#3
matsuolab
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
2 3.GLMの基礎
2 3.GLMの基礎
logics-of-blue
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
EMアルゴリズム
EMアルゴリズム
Sotetsu KOYAMADA(小山田創哲)
PRMLrevenge_3.3
PRMLrevenge_3.3
Naoya Nakamura
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
Katsuya Ito
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Deep Learning JP
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
Deep Learning JP
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFN
emakryo
金融テキストマイニング 研究事例紹介
金融テキストマイニング 研究事例紹介
zakktakk
『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章
y torazuka
More Related Content
What's hot
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
2 3.GLMの基礎
2 3.GLMの基礎
logics-of-blue
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
EMアルゴリズム
EMアルゴリズム
Sotetsu KOYAMADA(小山田創哲)
PRMLrevenge_3.3
PRMLrevenge_3.3
Naoya Nakamura
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
Katsuya Ito
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Deep Learning JP
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
Deep Learning JP
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFN
emakryo
What's hot
(20)
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
2 3.GLMの基礎
2 3.GLMの基礎
PRML第6章「カーネル法」
PRML第6章「カーネル法」
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
EMアルゴリズム
EMアルゴリズム
PRMLrevenge_3.3
PRMLrevenge_3.3
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
coordinate descent 法について
coordinate descent 法について
不均衡データのクラス分類
不均衡データのクラス分類
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Neural networks for Graph Data NeurIPS2018読み会@PFN
Neural networks for Graph Data NeurIPS2018読み会@PFN
Viewers also liked
金融テキストマイニング 研究事例紹介
金融テキストマイニング 研究事例紹介
zakktakk
『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章
y torazuka
PRML5
PRML5
Hidekazu Oiwa
Siamese networks
Siamese networks
Nicholas McClure
わかりやすいパターン認識_3章
わかりやすいパターン認識_3章
weda654
線形?非線形?
線形?非線形?
nishio
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
PRML 5.3-5.4
PRML 5.3-5.4
正志 坪坂
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Takashi J OZAKI
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
強化学習入門
強化学習入門
Shunta Saito
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Takami Sato
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
Deep Learning技術の今
Deep Learning技術の今
Seiya Tokui
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
tm_2648
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
Eiichi Matsumoto
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
Viewers also liked
(19)
金融テキストマイニング 研究事例紹介
金融テキストマイニング 研究事例紹介
『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章
PRML5
PRML5
Siamese networks
Siamese networks
わかりやすいパターン認識_3章
わかりやすいパターン認識_3章
線形?非線形?
線形?非線形?
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
PRML 5.3-5.4
PRML 5.3-5.4
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
強化学習入門
強化学習入門
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Deep Learning技術の今
Deep Learning技術の今
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
Recently uploaded
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
Recently uploaded
(8)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
1.
+ 深層学習 Chapter 3:確率的勾配降下法 @zakktakk
2.
+ ⽬次 1. 勾配降下法 2. ニュートン法 3.
確率的勾配降下法 4. ミニバッチ 5. 汎化性能と過適合 6. 過適合の緩和 i. 重み減衰 ii. 重み上限 iii. ドロップアウト 7. 学習のトリック i. データの正規化 ii. データ拡張 iii. 複数ネットの平均 iv. 学習係数の決め⽅ v. モメンタム vi. 重みの初期化 vii. サンプルの順序
3.
+ 勾配降下法 まずはアニメーションでざっくり理解… ←勾配降下法で最⼩値を求めたい関数 ←上の関数の微分 坂道を転がり落ち てるっぽい (http://qiita.com/kenmatsu4/items/d282054ddedbd68fecb0)
4.
+ 勾配降下法 ◯勾配降下法とは Ø ⽬的関数の局所的な最⼩値 (⼤域的な最⼩値とは限らない)
を反復計算 で求める⽅法 Ø 何らかの初期値𝑤(#) を出発点に𝑤(%) を以下の式で更新する 𝒘(%'() = 𝒘(%) − 𝜖𝛻𝐸 𝐸 : ⽬的関数 𝜖 : 学習係数 𝑤 : 𝐸の変数 ◯具体的に深層学習のどの場⾯で⽤いられるのか? Ø 順伝播型ネットワークの誤差関数𝐸 𝒘 を最⼩化する際に⽤いる Ø 𝒘はネットワークの重みとバイアス 𝛻𝐸 ≡ 𝜕𝐸 𝜕𝒘 = 𝜕𝐸 𝜕𝑤( … 𝜕𝐸 𝜕𝑤2 3 勾配 のとき
5.
+ ちなみに… Ø 勾配降下法は関数の最⼩化⼿法で最も単純な⼿法 Ø 最⼩化⼿法にはニュートン法もあるよ! ◯ニュートン法とは Ø
⽬的関数の2次のテーラー展開を最⼩化するように,パラメータの 修正量を各ステップごとに決定するアルゴリズム Ø 勾配降下法よりも極⼩解への収束が早い 𝒘(%'() = 𝒘(%) − 𝐻5( 𝛻𝐸 𝐸 : ⽬的関数 𝑤 : 𝐸の変数 ヘッセ⾏列(Hessian matrix) 𝐻 = 𝛻6 𝐸 ニュートン法の詳細は → http://www.dais.is.tohoku.ac.jp/~shioura/teaching/mp11/mp11-13.pdf ニュートン法は勾配降下法と違い,学習係数の決定に 学習が⼤きく左右されることがない ディープネットの学習では ⽬的関数の2次微分の計算が 難しいのでニュートン法は つらい
6.
+ 確率的勾配降下法 ◯確率的勾配降下法(stochastic gradient descent
: SGD)とは 𝒘(%'() = 𝒘(%) − 𝜖𝛻𝐸7 𝐸7 : サンプルnについての誤差関数 𝜖 : 学習係数 𝑤 : ネットワークの重みとバイアス ◯確率的勾配降下法のメリット Ø 計算効率が向上し,学習が速く実⾏できる Ø 望まない局所的な極⼩解にトラップされるリスクを低減 Ø 訓練データの収集と最適化の計算を同時並⾏で⾏える → オンライン学習 Ø 勾配降下法はすべてのサンプルを⽤いて重みを更新 → バッチ学習 Ø 訓練サンプルのうち1つのサンプルだけを使って以下のように パラメータの更新を⾏う⽅法 Ø 重みの更新に⽤いるサンプルは毎回取り替える
7.
+ ミニバッチ Ø 計算規模の⼤きいニューラルネットワークの学習では計算機 が持つ並列計算資源の利⽤が不可⽋ Ø 重みの更新を少数のサンプルからなる集合(ミニバッチ)単位で ⾏うと効率的 Ø
1つのミニバッチを𝐷%とすると,ミニバッチ単位の重み更新で⽤いる 誤差関数は以下の通り 𝐸%(𝒘) ≡ 1 𝑁% ; 𝐸7 𝒘 7∈=> 𝐸7 : サンプルnについての誤差関数 𝑁% : ミニバッチが含むサンプル数 Ø ミニバッチのサイズは10~100サンプル前後とすることが多い → サイズを⼤きくし過ぎると計算速度が低下 Ø 多クラス分類の場合はミニバッチに各クラスから1つ以上の サンプルを⼊れるとbetter
8.
+ 可視化して⽐較すると… (http://sinhrks.hatenablog.com/entry/2014/11/24/205305) ミニバッチ+SGDは 勾配降下法と確率的勾配降下法の いいところを両取りしている
9.
+ 汎化性能と過適合 Ø これまでは訓練データに対する誤差を最⼩化することを考えていた Underfitting Overfitting Ø
実際は「まだ⾒ぬ」サンプルに対して正しく推定を⾏いたい (汎化性能) Ø 訓練データに対する誤差→訓練誤差,テストデータに対する誤差→テスト誤差 学習が進むと,訓練誤差は単調減少するが テスト誤差は訓練誤差と乖離 or 増加 過適合(overfitting) 学習の進⾏のイメージ→ 過適合では外れ値に 対して過剰に反応
10.
+ 過適合の緩和 Ø 過適合 ↔ 学習時に誤差関数の浅い局所解にトラップされた状態 ネットワークの⾃由度(主に重みの数)が⼤きいほど 過適合のリスク
and ネットワークの表現能⼒が⾼くなる 学習時に重みの⾃由度を制約する正則化に よって過適合の問題を解決 単純にネットワークの⾃由度を減らすことは 過適合のリスクも下げるが,ネットワークの 表現能⼒も下げるため望ましくない
11.
+ 過適合の緩和法 ◯重み減衰 𝒘(%'() = 𝒘(%)
− 𝜖 1 𝑁% ; 𝛻𝐸7 + 𝜆 𝒘(%) 𝐸%(𝒘) ≡ 1 𝑁% ; 𝐸7 𝒘 + 𝜆 2 𝒘 6 7∈=> 𝜆 : 正則化パラメータ 通常𝜆=0.01~0.00001 Ø 以下のように誤差関数に重みの⼆乗和を加算し, これの最⼩化を⾏う Ø 最終項の追加により,学習時により⼩さい重みが選好される. 勾配降下法の更新式は以下の通り ※重み減衰は通常ネットワークの重みだけに適⽤し, バイアスには適⽤しない 重みは⾃⾝の⼤きさに⽐例した速さで常に減衰
12.
+ 過適合の緩和法 ◯重み上限 ; 𝑤CD 6 < 𝑐 D Ø
各ユニットの結合重みの⼆乗和に対し,上限を制約 Ø 上限を超える場合は重みに1以下の定数を掛け,制約を満たす ようにする Ø 重み減衰を上回る効果があり,特に後述のドロップアウトと 共に⽤いると⾼い効果を発揮 正則化の種類 テストデータ分類誤差(%) 重み減衰 1.62 重み上限 1.35 ドロップアウト+重み減衰 1.25 ドロップアウト+重み上限 1.05 表:各正則化⼿法ごとの⼿書き数字認識MNISTの分類精度の⽐較
13.
+ 過適合の緩和法 ◯ドロップアウト Ø 多層ネットワークのユニットを確率的に選別して学習する⽅法 Ø 学習時,中間層と⼊⼒層のユニットを確率𝑝(通常𝑝 =0.5程度)で ランダムに選出し,それら以外を無効化する 𝑖 𝑝𝑤(D
𝑧D 𝑝𝑤6D 𝑧D 𝑝𝑤JD 𝑧D 𝑝𝑤KD 𝑧D Ø 学習終了後の推論時にはドロップアウトで無効化 の対象とした層のユニットの全ての出⼒を𝑝倍する 左のネットワークの中間層,⼊⼒層のユニットを 確率𝑝でランダムに選出し,ネットワークの重みを更新
14.
+ 学習のトリック この世には学習時に実⾏することで 汎化性能を向上 or 学習を早く進められる ⽅法がいくつか存在する 以降のスライドでは本で紹介されている7つの⽅法を紹介します より詳しくは
→ https://www.cs.toronto.edu/~hinton/absps/guideTR.pdf その多くは 厳密な理論を伴わないノウハウのようなもの であるが,実際に効果が認められている
15.
+ データの正規化 𝑥7D ← 𝑥7D −
𝑥̅D 𝜎D 𝜎D : 学習データの標準偏差 𝑥̅D : 全学習データの平均 Ø 訓練データの偏りをなくすような前処理 Ø テストデータおよび推論時の各データにも同じ前処理を施す必要あり Ø 以下の変換を⾏い,サンプルの各成分の平均を0,分散を1にする (a) 元のサンプル集合 (b) 平均を0にする変換後 (c) 成分ごとの分散を1にする変換後 これもデータの偏りをなくす前処理の⼀つ (d) ⽩⾊化:成分間の相関を0にする変換 𝜎Dが超⼩さい場合は代わり にmax(𝜎,𝜖) (𝜖は⼩さな値) で割ったりする データの正規化
16.
+ データ拡張 Ø サンプルが画像データならば,平⾏移動・鏡像反転・回転変動・⾊の変動 などの処理を施し,サンプルに追加 Ø 訓練サンプルに何らかの加⼯を施し,量を⽔増しする処理 元データ
⾊の変動 鏡像反転 回転+拡⼤ Ø 訓練サンプルの量が⾜りないことは過適合の最⼤の原因 Ø しかし,⼤量のサンプルを集めることはコスト⼤ or 不可能 データの⽔増しをしよう! ◯データ拡張とは?
17.
+ 複数ネットの使⽤ Ø ドロップアウトは単⼀ネットワーク内で実質的にモデル平均を 実⾏している Ø 「モデル平均」と呼ばれ,機械学習全般で有効な⽅法 Ø
精度は向上するが,学習およびテスト時の計算量が増加してしまう という⽋点がある Ø 複数の異なるニューラルネットを組み合わせる(=複数のネット ワークから得られる出⼒の平均を答えとする)と⼀般に推定精度が 向上 n 具体的には構造の異なるネットワークや構造は同じだが 学習開始時の初期値が異なるネットワークなど
18.
+ 学習係数の決め⽅ Ø 学習係数を決める際,定番といえる考え⽅は以下の2つ n 学習の進捗とともに学習係数を⼩さくする n
層ごとに異なる値を⽤いる Ø 学習係数を⾃動的に定める(変化させる)⽅法はいくつか存在する n 本書では最もよく使われる⽅法としてAdaGradを紹介 その他の⽅法は → http://sebastianruder.com/optimizing-gradient-descent/ Ø 勾配法ではパラメータの更新量の⼤きさは学習係数により変化 n 誤差関数の勾配を𝒈% ≡ 𝛻𝐸%と書き,このベクトルの成分を𝑔%,D と書くと,重みの更新量の𝑖成分は以下の通り −𝜖𝑔%,D勾配降下法: − 𝜖 ∑ 𝑔%T,D 6% %TU( 𝑔%,DAdaGrad: 勾配の累積が⼤きいほど学習率を⼩さくする
19.
+ モメンタム Ø 重みの修正量に,前回の重みの修正量のいくばくかを加算する⽅法 Ø ミニバッチt-1に対する重みの修正量を∆𝒘(%5() ≡
𝒘 %5( − 𝒘(%56) と すると,ミニバッチtは以下のように重みを更新 ミニバッチ利⽤時の更新式 モメンタム 𝒘(%'() = 𝒘(%) − 𝜖𝛻𝐸% + 𝜇∆𝒘(%5() 𝜇 : モメンタム係数 通常0.5~0.9程度 Ø 誤差関数が深い⾕状であり,かつ⾕底が平らな時に特に有効 Ø 勾配降下法の収束性能を向上させる⽅法の⼀つ ←⾕状誤差関数の重み探索の様⼦ 左:モメンタム項なし 右:モメンタム項あり(𝜇=0.5) モメンタム項なしではジグザグと探索が進み効率が悪いが, モメンタム項ありでは⾕と直⾏⽅向の動きが平均化され,なくなる
20.
+ 重みの初期化 Ø ガウス分布から⽣成したランダム値を初期値とする⽅法が⼀般的 Ø ガウス分布の標準偏差𝜎は以下のようにするのがbetter 𝜎
= 𝜎X 𝑀 ( 6 𝜎X : ユニットの総⼊⼒の標準偏差 𝑀 : ユニットの⼊⼒側結合数 𝜎Xは定数ではなく パラメータです 𝑀は定数です Ø ガウス分布のパラメータ𝜎をどう選ぶかは学習の結果に影響を及ぼす n 例えば活性化関数がロジスティック関数の場合, 𝜎が⼩さすぎる → 等しく0を初期値とするのと同様 𝜎が⼤きすぎる → ユニットの出⼒が値域の上下限いずれかの 値に偏る
21.
+ サンプルの順序 Ø 確率的勾配降下法やミニバッチを⽤いる場合,提⽰する サンプル(集合)の順序には任意性がある ↔ 設計者が⾃由に決められる Ø
⼀般に,まだよく学習されていないサンプルから順に提⽰すると効果的 Ø ただし,ディープネットでは処理の効率性に重点が置かれるため あまり⽤いられない Ø 特にクラスごとのサンプル数に偏りがあるクラス分類問題で有効
Download now