PRML5.5

PRML 5.5
ニューラルネットワークの正則化
B4 山岡大輝
1 / 25

目次
5.5 ニューラルネットワークの正則化
5.5.1 無矛盾なガウス事前分布
5.5.2 早期終了
5.5.3 不変性
5.5.4 接線伝播法
5.5.5 変換されたデータを用いた訓練
2 / 25
今回のテーマは「正則化」

ニューラルネットワーク(NN)の正則化
一般に
NNの入力・出力ユニットの数はデータ集合の次元で定まる
一方で
隠れユニットの数 M は調節可能な自由パラメータ
（ネットワーク内の重みパラメータの数は M に制御される）
したがって
最尤推定の枠組みでは，汎化性能を最良にする(適合不足と
過学習を防ぐ)最適な M が存在すると考えられる．
3 / 25
適合不足過学習最適っぽい
正弦関数から
データ点を生成
最適なMを選ぶアプローチをここでは2つ紹介する

最適なMを選ぶアプローチ①
テスト集合に対しての誤差をグラフにプロットし，誤差が最小となる M を選ぶ
4 / 25
手順
1. ネットワーク内の重みベクトルの初期値
をN(0,10)からサンプル
2. 訓練データを用いてNNを学習
3. テスト誤差をプロット
4. 各Mに対して手順１〜３を30回繰り返す
・このアプローチではテスト誤差最小であるM＝8が最適なMらしい(Bishop曰く)
(グラフを見ると誤差の最小値はほとんど変わらなさそうだから，個人的には分散の小さいM＝4などが
良さそうな気もするが…)
𝐸(‫)ܟ‬
‫ܟ‬
手順4について
Mが大きいほど(パラメータ数は多いので)誤差関数は
複雑であり，パラメータ更新によって局所的極小値に
陥りやすいため，重みのランダムに初期化し，複数回
テスト誤差を検証する必要がある
𝐸(‫)ܟ‬
𝑀

最適なMを選ぶアプローチ②
最初に比較的大きなMを選んでおき，誤差関数に正則化項を加えることで最適なM
を得る
・荷重減衰(weight decay)
5 / 25
λが大きい → Mが小さい単純なモデルになりやすい
λが小さい → Mが大きい複雑なモデルになりやすい
正則化項は重みベクトル‫ܟ‬の平均ゼロのガウス事前分布の負の対数と解釈可能
しかし，荷重減衰にはいくつかの限界がある → 5.5.1 無矛盾なガウス事前分布

荷重減衰の効果
直感的には，荷重減衰の項は重みパラメータをできるだけ小さくするような効果
があるはず
簡単のため，誤差関数のある極小値𝐰0近傍だけに注目し，二次近似する
また，ヘッセ行列は𝑯 = 𝑑𝑖𝑎𝑔(ℎ𝑖)と仮定
6 / 25
これに荷重減衰を加えた誤差関数の極小値は以下の式を解けば求まる
したがってそのような重みパラメータは次のようになる
ヘッセ行列の成分が極めて小さなパラメータ方向ℎj<<αに対して

荷重減衰の限界
5.112式のような単純な荷重減衰は「ネットワーク写像のスケーリング(線形変
換)の性質と無矛盾でない(矛盾している)」という問題
例えば…
ネコの画像をNN(荷重減衰の誤差函数で学習)に入力して，出力は「ネコ」と答えさせたい！
7 / 25
NN
NN
input output
outputinput
「ネコ」
「イヌ」
5.112式の誤差関数
で学習
下の加工(スケーリング)した画像でも「ネコ」と答えさせたいが，単純な荷重減
衰が写像(NN)を変化させてしまう(かもしれない)

荷重減衰の限界
2層の重みと線形出力ユニットを持つ多層パーセプトロンネットワークを例に考えてみる
8 / 25
第1層の隠れユニットの出力
出力ユニットの出力
入力変数の線形変換(アフィン変換)
に対して，1層目を以下のように線形変換
重み
バイアス
目標変数の線形変換(アフィン変換)
に対して，2層目を以下のように線形変換
重み
バイアス

無矛盾性
9 / 25
入力データ 𝔁
パラメータ‫ܟ‬
入力データ 𝔁
パラメータ 𝐰
線形変換
線形変換
学
習
学
習左図が成り立つ時，無矛盾である
どんな正則化項も無矛盾性をもつべきだが，荷重減衰はこの性質を持たない
(パラメータとバイアスを対等に扱うため)
⇨ 線形変換の下で不変である正則化項が知りたい
重みのリスケーリングとバイアスの移動に対して不変な正則化項は以下の式
第2層の重みの集合第1層の重みの集合
※バイアス項は除かれている

無矛盾なガウス事前分布
10 / 25
上記の正則化項は以下の形の事前分布に対応している
バイアスパラメータが制約されていないため変則事前分布
変則事前分布によりエビデンスが定義できないのでベイズモデル比較などが困難

無矛盾なガウス事前分布
11 / 25
通常はバイアスにも固有のハイパーパラメータを持つ別の事前分布を導入する
(移動の不変性は失われる)
一般的には重みを任意の個数のグループに分けた事前分布を考える
入力
出力

早期終了
12 / 25
・ネットワークの複雑さを制御する(過学習を防ぐ)方法
一般に
ネットワークの訓練誤差は反復回数の非増加関数
一方で
テスト誤差はネットワークが過学習し始めると増加する
したがって
過学習する直前(テスト誤差最小)で学習を打ち切ると良い汎化性能を得る
訓練誤差テスト誤差

早期終了
13 / 25
具体的には
「テスト誤差を評価するのはパラメータ更新の何回に一度か」
「何ステップ数でテスト誤差が連続して増加し続けたら学習を打ち切るか」
という，ハイパーパラメータを決める必要がある
早期終了ではデータの一部を検証用に用いる
⇨ 全てのデータを訓練に使えないという欠点
通常は検証データも追加して訓練させる
・学習し直す
早期終了までにかかったステップ数を記憶しておき，一度パラメータを初期
化してから，同じステップ数学習させる

早期終了と荷重減衰の関係
14 / 25
早期終了は荷重減衰を用いた正則化と類似の挙動をする
早期終了荷重減衰

荷重減衰の議論と同様，誤差関数のある極小値𝐰0近傍だけに注目し，二次近似す
る．また，ヘッセ行列は𝑯 = 𝑑𝑖𝑎𝑔(ℎ𝑖)と仮定
勾配降下法の更新式は以下で近似できる
この式を成分で書くと
15 / 25
簡単のため，初期値として時刻Tでの早期終了は以下の重みパラメー
タを解として与える

時刻Tでの早期終了のパラメータ
16 / 25
荷重減衰の最適なパラメータ
両者が等しいとするととなっているハズ
実際，もしなら，両辺の一次のテイラー展開は
となるため，とすればいい
つまり，早期終了は正則かパラメータとした時の荷重減衰とみなせる

適応モデルの不変性
17 / 25
・パターン認識において多くの場合，入力が多少変換を受けても予測は変化し
ない(不変性)ことが求められる
例：平行移動不変性尺度不変性
全て予測結果は「4」であってほしい
不変性の獲得は汎化性能の向上に大きく関わる
不変性を学習するには，様々な変換を受けた十分多くの例題が訓練集合に含まれ
ている必要がある

適応モデルの不変性
18 / 25
適応モデル (NN)に不変性を獲得させるアプローチ
1. 自分で訓練パターンを変換してデータを水増しする(データ拡張)
・実装が比較的容易
・計算コストが大きい
2．誤差関数に不変性が破られる度合いに対してペナルティを与える(5.5.4)
3．変換しても不変であるような特徴量を抽出する
・職人芸
4．NNの構造に不変性を取り込んだ形にする
・CNNなど

接線伝播法(tangent propagation)
19 / 25
誤差関数に不変性が破られる度合いに対してペナルティ(正則化項)を与える
・Ω：不変性の破れについてのペナルティ(正則化関数)
不変性が破られる ⇨ 入力の変換に対して出力が変化しているということ
入力ベクトル𝐱 𝑛の変換に対して，出力の変化量を調べたい

20 / 25
簡単のため，不変性を持たせたい変換を1パラメータ𝜉で表示する
入力𝐱 𝑛を変換して得られるベクトル
( )
変換による入力の変化量(接線・接ベクトル)
変換による出力ユニットkの変化量
ヤコビ行列はNN上の逆伝播の式から計算できる

21 / 25
出力の変化量を誤差関数を修正するのに利用する
・λは正則化係数
・𝑦 𝑛𝑘はn個目のデータ点でのユニットkの出力
実際の計算では入力を微小変化させることで近似計算できる
変換がL個の場合，対応する正則化項は各変換に対して正則化関数Ωが存在し，
それらの和で正則化項が与えられる

変換されたデータを用いた訓練
22 / 25
・1.5.5でデータ集合無限大の極限における二乗和誤差関数を最小化する関数は，
目標値tの条件付き期待値で与えられることを学んだ
・データが少ない場合，データ拡張を用いて擬似的に増やすことで上記の近似が
できないだろうか
接線伝播法とデータ拡張の関連性を示すことで理解できる！
二乗和誤差関数は以下のようになる
各データ点に対してデータを無限個コピーして，各々が確率p(𝜉)で定まる変換を
受けているとすると，二乗和誤差関数は以下のようにかける
p(𝜉)は平均ゼロ，小さい分散を仮定

23 / 25
小さい変換しか考えないので，変換された入力に対する出力をxの周りでテイ
ラー展開すると
また，変換sもxの周りでテイラー展開すると
sをyに代入すると以下のようになる

24 / 25
yを二乗和誤差関数に代入すると
p(𝜉)の平均はゼロと仮定している(つまり様々な微小変換を偏りなく行う)ので，
E[𝜉2
] =λとすると二乗和誤差関数は以下のようになる
これだと接線伝播法の誤差関数と同じ形に見えるが，Ωが違うように思える

25 / 25
正則化関数Ωについて
もとの二乗和誤差関数を最小にするyは，と分かっている
正則化項はO(𝜉2
)なので，正則化誤差を最小化するネットワーク関数は
の形になる
したがって正則化項の1項目はO(𝜉)でゼロとなるので
これは接線伝播法の式と同等
𝐱 → 𝐱 + 𝞷（乱数ノイズの付加）の時を考えると
ティホノフ正則化
※ 𝞷は多次元なので，今までの計算をそのまま適用できない

PRML5.5

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from hiroki yamaoka

More from hiroki yamaoka (13)

PRML5.5