SlideShare a Scribd company logo
PRML 5.5
ニューラルネットワークの正則化
B4 山岡大輝
1 / 25
目次
5.5 ニューラルネットワークの正則化
5.5.1 無矛盾なガウス事前分布
5.5.2 早期終了
5.5.3 不変性
5.5.4 接線伝播法
5.5.5 変換されたデータを用いた訓練
2 / 25
今回のテーマは「正則化」
ニューラルネットワーク(NN)の正則化
一般に
NNの入力・出力ユニットの数はデータ集合の次元で定まる
一方で
隠れユニットの数 M は調節可能な自由パラメータ
( ネットワーク内の重みパラメータの数は M に制御される)
したがって
最尤推定の枠組みでは,汎化性能を最良にする(適合不足と
過学習を防ぐ)最適な M が存在すると考えられる.
3 / 25
適合不足 過学習最適っぽい
正弦関数から
データ点を生成
最適なMを選ぶアプローチをここでは2つ紹介する
最適なMを選ぶアプローチ①
テスト集合に対しての誤差をグラフにプロットし,誤差が最小となる M を選ぶ
4 / 25
手順
1. ネットワーク内の重みベクトルの初期値
をN(0,10)からサンプル
2. 訓練データを用いてNNを学習
3. テスト誤差をプロット
4. 各Mに対して手順1〜3を30回繰り返す
・このアプローチではテスト誤差最小であるM=8が最適なMらしい(Bishop曰く)
(グラフを見ると誤差の最小値はほとんど変わらなさそうだから,個人的には分散の小さいM=4などが
良さそうな気もするが…)
𝐸(‫)ܟ‬
‫ܟ‬
手順4について
Mが大きいほど(パラメータ数は多いので)誤差関数は
複雑であり,パラメータ更新によって局所的極小値に
陥りやすいため,重みのランダムに初期化し,複数回
テスト誤差を検証する必要がある
𝐸(‫)ܟ‬
𝑀
最適なMを選ぶアプローチ②
最初に比較的大きなMを選んでおき,誤差関数に正則化項を加えることで最適なM
を得る
・荷重減衰(weight decay)
5 / 25
λが大きい → Mが小さい単純なモデルになりやすい
λが小さい → Mが大きい複雑なモデルになりやすい
正則化項は重みベクトル‫ܟ‬の平均ゼロのガウス事前分布の負の対数と解釈可能
しかし,荷重減衰にはいくつかの限界がある → 5.5.1 無矛盾なガウス事前分布
荷重減衰の効果
直感的には,荷重減衰の項は重みパラメータをできるだけ小さくするような効果
があるはず
簡単のため,誤差関数のある極小値𝐰0近傍だけに注目し,二次近似する
また,ヘッセ行列は𝑯 = 𝑑𝑖𝑎𝑔(ℎ𝑖)と仮定
6 / 25
これに荷重減衰を加えた誤差関数の極小値は以下の式を解けば求まる
したがってそのような重みパラメータは次のようになる
ヘッセ行列の成分が極めて小さなパラメータ方向ℎj<<αに対して
荷重減衰の限界
5.112式のような単純な荷重減衰は「ネットワーク写像のスケーリング(線形変
換)の性質と無矛盾でない(矛盾している)」という問題
例えば…
ネコの画像をNN(荷重減衰の誤差函数で学習)に入力して,出力は「ネコ」と答えさせたい!
7 / 25
NN
NN
input output
outputinput
「ネコ」
「イヌ」
5.112式の誤差関数
で学習
下の加工(スケーリング)した画像でも「ネコ」と答えさせたいが,単純な荷重減
衰が写像(NN)を変化させてしまう(かもしれない)
荷重減衰の限界
2層の重みと線形出力ユニットを持つ多層パーセプトロンネットワークを例に考えてみる
8 / 25
第1層の隠れユニットの出力
出力ユニットの出力
入力変数の線形変換(アフィン変換)
に対して,1層目を以下のように線形変換
重み
バイアス
目標変数の線形変換(アフィン変換)
に対して,2層目を以下のように線形変換
重み
バイアス
無矛盾性
9 / 25
入力データ 𝔁
パラメータ‫ܟ‬
入力データ 𝔁
パラメータ 𝐰
線形変換
線形変換
学
習
学
習 左図が成り立つ時,無矛盾である
どんな正則化項も無矛盾性をもつべきだが,荷重減衰はこの性質を持たない
(パラメータとバイアスを対等に扱うため)
⇨ 線形変換の下で不変である正則化項が知りたい
重みのリスケーリングとバイアスの移動に対して不変な正則化項は以下の式
第2層の重みの集合第1層の重みの集合
※バイアス項は除かれている
無矛盾なガウス事前分布
10 / 25
上記の正則化項は以下の形の事前分布に対応している
バイアスパラメータが制約されていないため変則事前分布
変則事前分布によりエビデンスが定義できないのでベイズモデル比較などが困難
無矛盾なガウス事前分布
11 / 25
通常はバイアスにも固有のハイパーパラメータを持つ別の事前分布を導入する
(移動の不変性は失われる)
一般的には重みを任意の個数のグループに分けた事前分布を考える
入力
出力
早期終了
12 / 25
・ネットワークの複雑さを制御する(過学習を防ぐ)方法
一般に
ネットワークの訓練誤差は反復回数の非増加関数
一方で
テスト誤差はネットワークが過学習し始めると増加する
したがって
過学習する直前(テスト誤差最小)で学習を打ち切ると良い汎化性能を得る
訓練誤差 テスト誤差
早期終了
13 / 25
具体的には
「テスト誤差を評価するのはパラメータ更新の何回に一度か」
「何ステップ数でテスト誤差が連続して増加し続けたら学習を打ち切るか」
という,ハイパーパラメータを決める必要がある
早期終了ではデータの一部を検証用に用いる
⇨ 全てのデータを訓練に使えないという欠点
通常は検証データも追加して訓練させる
・学習し直す
早期終了までにかかったステップ数を記憶しておき,一度パラメータを初期
化してから,同じステップ数学習させる
早期終了と荷重減衰の関係
14 / 25
早期終了は荷重減衰を用いた正則化と類似の挙動をする
早期終了荷重減衰
早期終了と荷重減衰の関係
荷重減衰の議論と同様,誤差関数のある極小値𝐰0近傍だけに注目し,二次近似す
る.また,ヘッセ行列は𝑯 = 𝑑𝑖𝑎𝑔(ℎ𝑖)と仮定
勾配降下法の更新式は以下で近似できる
この式を成分で書くと
15 / 25
簡単のため,初期値 として時刻Tでの早期終了は以下の重みパラメー
タを解として与える
早期終了と荷重減衰の関係
時刻Tでの早期終了のパラメータ
16 / 25
荷重減衰の最適なパラメータ
両者が等しいとすると となっているハズ
実際,もし なら,両辺の一次のテイラー展開は
となるため, とすればいい
つまり,早期終了は正則かパラメータ とした時の荷重減衰とみなせる
適応モデルの不変性
17 / 25
・パターン認識において多くの場合,入力が多少変換を受けても予測は変化し
ない(不変性)ことが求められる
例:平行移動不変性 尺度不変性
全て予測結果は「4」であってほしい
不変性の獲得は汎化性能の向上に大きく関わる
不変性を学習するには,様々な変換を受けた十分多くの例題が訓練集合に含まれ
ている必要がある
適応モデルの不変性
18 / 25
適応モデル (NN)に不変性を獲得させるアプローチ
1. 自分で訓練パターンを変換してデータを水増しする(データ拡張)
・実装が比較的容易
・計算コストが大きい
2.誤差関数に不変性が破られる度合いに対してペナルティを与える(5.5.4)
3.変換しても不変であるような特徴量を抽出する
・職人芸
4.NNの構造に不変性を取り込んだ形にする
・CNNなど
接線伝播法(tangent propagation)
19 / 25
誤差関数に不変性が破られる度合いに対してペナルティ(正則化項)を与える
・Ω:不変性の破れについてのペナルティ(正則化関数)
不変性が破られる ⇨ 入力の変換に対して出力が変化しているということ
入力ベクトル𝐱 𝑛の変換に対して,出力の変化量を調べたい
接線伝播法(tangent propagation)
20 / 25
簡単のため,不変性を持たせたい変換を1パラメータ𝜉で表示する
入力𝐱 𝑛を変換して得られるベクトル
( )
変換による入力の変化量(接線・接ベクトル)
変換による出力ユニットkの変化量
ヤコビ行列はNN上の逆伝播の式から計算できる
接線伝播法(tangent propagation)
21 / 25
出力の変化量を誤差関数を修正するのに利用する
・λは正則化係数
・𝑦 𝑛𝑘はn個目のデータ点でのユニットkの出力
実際の計算では入力を微小変化させることで近似計算できる
変換がL個の場合,対応する正則化項は各変換に対して正則化関数Ωが存在し,
それらの和で正則化項が与えられる
変換されたデータを用いた訓練
22 / 25
・1.5.5でデータ集合無限大の極限における二乗和誤差関数を最小化する関数は,
目標値tの条件付き期待値で与えられることを学んだ
・データが少ない場合,データ拡張を用いて擬似的に増やすことで上記の近似が
できないだろうか
接線伝播法とデータ拡張の関連性を示すことで理解できる!
二乗和誤差関数は以下のようになる
各データ点に対してデータを無限個コピーして,各々が確率p(𝜉)で定まる変換を
受けているとすると,二乗和誤差関数は以下のようにかける
p(𝜉)は平均ゼロ,小さい分散を仮定
変換されたデータを用いた訓練
23 / 25
小さい変換しか考えないので,変換された入力に対する出力をxの周りでテイ
ラー展開すると
また,変換sもxの周りでテイラー展開すると
sをyに代入すると以下のようになる
変換されたデータを用いた訓練
24 / 25
yを二乗和誤差関数に代入すると
p(𝜉)の平均はゼロと仮定している(つまり様々な微小変換を偏りなく行う)ので,
E[𝜉2
] =λとすると二乗和誤差関数は以下のようになる
これだと接線伝播法の誤差関数と同じ形に見えるが,Ωが違うように思える
変換されたデータを用いた訓練
25 / 25
正則化関数Ωについて
もとの二乗和誤差関数を最小にするyは, と分かっている
正則化項はO(𝜉2
)なので,正則化誤差を最小化するネットワーク関数は
の形になる
したがって正則化項の1項目はO(𝜉)でゼロとなるので
これは接線伝播法の式と同等
𝐱 → 𝐱 + 𝞷(乱数ノイズの付加)の時を考えると
ティホノフ正則化
※ 𝞷は多次元なので,今までの計算をそのまま適用できない

More Related Content

What's hot

Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
Yuki Matsubara
 
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1Len Matsuyama
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
Masahito Ohue
 
Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
Arata Honda
 
PRML Chapter5.2
PRML Chapter5.2PRML Chapter5.2
PRML Chapter5.2
Takuya Minagawa
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
Takashi Tamura
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
Itaru Otomaru
 
2014.02.20_5章ニューラルネットワーク
2014.02.20_5章ニューラルネットワーク2014.02.20_5章ニューラルネットワーク
2014.02.20_5章ニューラルネットワークTakeshi Sakaki
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
Akihiro Nitta
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
Akira Miyazawa
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
hiroki yamaoka
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
Hiroyuki Kato
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
Prunus 1350
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
Kohei Tomita
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
matsuolab
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
Akihiro Nitta
 
PRML chapter7
PRML chapter7PRML chapter7
Prml nn
Prml nnPrml nn
Prml nn
Shota Yasui
 
PRML 4.1.6-4.2.2
PRML 4.1.6-4.2.2PRML 4.1.6-4.2.2
PRML 4.1.6-4.2.2
kazunori sakai
 

What's hot (20)

Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
 
Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
 
PRML Chapter5.2
PRML Chapter5.2PRML Chapter5.2
PRML Chapter5.2
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
 
2014.02.20_5章ニューラルネットワーク
2014.02.20_5章ニューラルネットワーク2014.02.20_5章ニューラルネットワーク
2014.02.20_5章ニューラルネットワーク
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
Prml nn
Prml nnPrml nn
Prml nn
 
PRML 4.1.6-4.2.2
PRML 4.1.6-4.2.2PRML 4.1.6-4.2.2
PRML 4.1.6-4.2.2
 

More from hiroki yamaoka

PRML1.5
PRML1.5PRML1.5
PRML1.3
PRML1.3PRML1.3
DQN
DQNDQN
PRML6.4
PRML6.4PRML6.4
PRML9.3
PRML9.3PRML9.3
PRML4.3
PRML4.3PRML4.3
強化学習6章
強化学習6章強化学習6章
強化学習6章
hiroki yamaoka
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
hiroki yamaoka
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
hiroki yamaoka
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
hiroki yamaoka
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
hiroki yamaoka
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
hiroki yamaoka
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
hiroki yamaoka
 

More from hiroki yamaoka (13)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 

PRML5.5