PRML復々習レーン#9 前回までのあらすじ

1,953 views

Published on

PRML復々習レーン#9 前回までのあらすじ資料

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,953
On SlideShare
0
From Embeds
0
Number of Embeds
775
Actions
Shares
0
Downloads
13
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

PRML復々習レーン#9 前回までのあらすじ

  1. 1. PRML復々習レーン#9 前回までのあらすじ 2013-03-10 Yoshihiko Suhara @sleepy_yoshi v.1.0
  2. 2. 前回のおさらい• 復々習レーンの復習を15分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容 ポイントだよ • 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください ポイントだよ• 目的 今回からポイント小僧の向きが変わります – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため 2
  3. 3. 前回の範囲5章• 5.1 フィードフォワードネットワーク関数• 5.2 ネットワーク訓練• 5.3 誤差逆伝播• 5.4 ヘッセ行列 量が多いのでいつもより適当に – 5.4.1 対角近似 – 5.4.2外積による近似 – 5.4.3 ヘッセ行列の逆行列 – 5.4.4 有限幅の差分による近似 – 5.4.5 ヘッセ行列の厳密な評価 – 5.4.6 ヘッセ行列の積の高速な計算• 5.5 ニューラルネットワークの正則化 – 5.5.1 無矛盾なガウス事前分布 – 5.5.2 早期終了 – 5.5.3 不変性 – 5.5.4 接線伝播法 – 5.5.5 変換されたデータを用いた訓練 – 5.5.6 たたみ込みニューラルネットワーク – 5.5.7 ソフト重み共有• 5.6 混合密度ネットワーク• 5.7 ベイズニューラルネットワーク – 5.7.1 パラメータの事後分布 – 5.7.2 超パラメータの最適化 – 5.7.3 クラス分類のためのベイズニューラルネットワーク 3
  4. 4. 5.4 ヘッセ行列 4
  5. 5. 5.4 ヘッセ行列ポイントだよ 誤差関数のパラメータによる2階微分を 要素とする行列をヘッセ行列と呼ぶ• 誤差逆伝播では1階微分に基づく勾配法を用 いてパラメータの最適化を行ってきた• ヘッセ行列を用いることにより,より効率的に 最適化を行うことができる でもどうやって? ということに答えるのが本節 5
  6. 6. 5.4.1 対角近似 ポイントだよ 対角行列でヘッセ行列を近似する• 欲しいのはヘッセ行列の逆行列 – じゃあヘッセ行列が対角行列だったら逆行列求めるの楽• 誤差逆伝播法を用いて求めることができる (5.81)• ただし,ヘッセ行列は通常非対角であるため,この近 似は注意が必要 6
  7. 7. 5.4.2 外積による近似 ポイントだよ 二乗誤差最小化の場合,外積によって (=ヤコビ行列の積で)近似できる• Levenberg-Marquardt近似 – ガウス・ニュートン近似とも呼ばれる – 二乗誤差の場合,解の近くでは誤差が1階微分 の積に近似できる (後述)• これを利用してヘッセ行列を求める 7
  8. 8. 補足: ガウス・ニュートン近似の導出 1• 誤差関数𝐸(𝒙) = 𝑘 𝒆2 を𝑥 𝑖 で微分 𝑘 2 𝜕𝐸 𝜕𝒆 𝑘 = 𝒆𝑘 𝜕𝑥 𝑖 𝜕𝑥 𝑖 𝑘• さらに𝑥 𝑗 で微分 𝜕𝐸 𝜕𝒆 𝑘 𝜕𝒆 𝑘 𝜕2 𝒆 𝑘 = +𝒆 𝑘 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝑘• 𝒙が解に近いと 𝒆 𝑘 ≈ 0 ∀𝑘 より 𝜕𝐸 𝜕𝒆 𝑘 𝜕𝒆 𝑘 ≈ 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝜕𝑥 𝑖 𝜕𝑥 𝑗 𝑘 8
  9. 9. 5.4.3 ヘッセ行列の逆行列ポイントだよ 外積による近似を用いると, ヘッセ行列の逆行列を効率的に求められる• 最初の𝐿個のデータを用いてヘッセ行列の逆行 列を求める – 𝐿 + 1からの寄与分に対して,それまでの値を利用し て逆行列を更新する (5.89式)• 準ニュートン法のアルゴリズムも同じようにヘッ セ行列の逆行列の近似を徐々に構築する 9
  10. 10. 5.4.4 有限幅の差分による近似ポイントだよ 有限幅の差分による近似を用いて 2階微分を求める• パラメータに摂動を与えて,差分に基づいてヘッセ行 列を求める (5.91式) 10
  11. 11. 5.4.5 ヘッセ行列の厳密な評価ポイントだよ ヘッセ行列を近似ではなく,厳密に求める• 多層ニューラルネットの場合,重みパラメータが層ごと に用意されているため,層をまたいだ2階微分が必要 – 三層ニューラルネットの場合は5.93式,5.94式,5.95式• 層を飛び越えた結合を含める場合も容易に計算でき る (演習5.23) 11
  12. 12. 5.4.6 ヘッセ行列の高速な計算 ポイントだよ 𝒗 𝑇 𝑯を効率的に計算する方法• 必要なのは𝑯そのものではなく𝑯と何かの積• 𝒗 𝑇 𝑯を効率的に計算する方法 (5.110式,5.111式) – 順向き伝播+逆向き伝播の計算をそのまま利用可能 12
  13. 13. 5.5 ニューラルネットワークの正則化 13
  14. 14. 5.5 ニューラルネットワークの正則化 ポイントだよ 過学習を避けて汎化性能を向上する• 1. 隠れユニットの数を調整する• 2. 重みパラメータに対して正則化項を導入する.たとえば 𝐸 𝒘 = 𝐸 𝒘 + 𝜆𝒘 𝑇 𝒘• 3. 訓練の早期終了 14
  15. 15. 5.5.1 無矛盾なガウス事前分布 ポイントだよ スケーリング不変に無矛盾な正則化項を導出する• 多層ニューラルネットワークでは,線形変換されたデータ に対して,パラメータを線形変換することで同じ出力を得る – 無矛盾なネットワーク• (5.112)式の正則化項は無矛盾でないため,無矛盾な正則 化項を導出する – (5.121式) 15
  16. 16. 5.5.2 早期終了ポイントだよ ネットワーク訓練を早期終了することで ネットワークの複雑さを制御する• 学習を早期終了することで正則化と同様の効果を得る 訓練誤差 検証用誤差 16
  17. 17. 5.5.3 不変性 ポイントだよ 入力変数がある変換を受けても 予測が変化しない不変性を持たせる• 不変性 – 入力変数がある変換を受けても予測が変化しないこと• モデルに不変性を持たせる4つのアプローチ – 1. 求められる不変性に応じて訓練パターンを変換して複製を作成する • 5.5.5 変換されたデータを用いた訓練 – 2. 正則化項を誤差関数に加える • 5.5.4 接線伝播法 – 3. ある変換の下で不変であるような特徴抽出を行う – 4. モデルに不変性を構築する性質を持たせる • 5.5.6 たたみ込みニューラルネットワーク 17
  18. 18. 5.5.4 接線伝播法ポイントだよ 変換に基づく誤差を許容する正則化関数を 導入することにより,不変性を持たせる• 変換に基づく誤差を許容する正則化関数を導入すること により,不変性を持たせる (5.128式) – 正則化関数は,各パターンベクトルの近傍において,変換の下 で不変であればゼロとなる• 回転や平行移動など,変換が複数のパラメータに支配さ れるなら,それぞれに対応する正則化関数の和で表現 18
  19. 19. 5.5.5 変換されたデータを用いた訓練ポイントだよもとの入力パターンを変換して訓練集合を拡大する• 訓練データに対する変換に基づく学習が,接線 伝播法と関係があることを解説• 特に,入力データに対して乱数ノイズ付加という 場合の正則化項はティホノフ正則化と呼ばれる – 汎化性能を向上させる効果があるらしい 19
  20. 20. 5.5.6 たたみ込みニューラルネットワーク ポイントだよ 入力の変換に対して不変性を持つ ニューラルネットワーク• 入力の変換に対して不変性を持つモデル – (i) 局所的受容野 – (ii) 重み共有 – (iii) 部分サンプリング 出力層は 完全結合 ... 20 入力画像 たたみ込み層 部分サンプリング層
  21. 21. 5.5.7 ソフト重み共有ポイントだよ 一定のグループに属する重みを等しくする ことにより,ネットワークの複雑さを制限する• 重みが等しいという制限を,ソフト重み共有という正則化 項の導入に置き換える• 混合ガウス分布による正則化項により導出 𝑀 Ω 𝑤 =− ln 𝜋 𝑗 𝒩 𝑤 𝑖 𝜇 𝑗 , 𝜎𝑗2 𝑖 𝑗=1 21
  22. 22. 5.6 混合密度ネットワーク 22
  23. 23. 5.6 混合密度ネットワーク ポイントだよ 出力分布が多峰性を持ちうる問題における ニューラルネットワークの利用• 順問題 vs. 逆問題 角度→位置 (順問題) 位置→角度 (逆問題)• 混合密度ネットワーク 𝐾 𝑝 𝑡 𝒙 = 𝜋 𝑘 𝒩(𝑡|𝜇 𝑘 𝒙 , 𝜎 2 𝒙 ) 𝑘 𝑘=1 23 通常のネットワーク 混合密度ネットワーク
  24. 24. 5.7 ベイズニューラルネットワーク 24
  25. 25. 5.7 ベイズニューラルネットワークポイントだよ 最尤推定→MAP推定と来たら, ベイズ推定• PRMLにおける様式美.導出が複雑になるため, 幾人も挫折する – 別に知らなくてもいいし• そして実用面でもそこまで使えるわけではない のでなおさらモチベーションが上がら(ry 25
  26. 26. 5.7.1 パラメータの事後分布 ポイントだよ パラメータの事後分布に対して ラプラス近似を用いて予測分布を得る• 尤度関数 𝒩 𝑡 𝑛 𝑦 𝒙 𝑛 , 𝒘 , 𝛽−1 が𝒘に非線形に依存 するため,パラメータの事後分布がガウス分布になら ない• ラプラス近似を用いて予測分布𝑝(𝑡|𝒙, 𝑫)を得る 26
  27. 27. 5.7.1 超パラメータ最適化ポイントだよ 事前分布の超パラメータ𝛼, 事後分布の超パラメータ𝛽を選ぶ• 以下の式で推定できる 𝛾 1 𝑁 2𝛼= ,𝛽 = 𝑛=1 𝑦 𝒙 𝑛, 𝒘 𝑀𝐴𝑃 − 𝑡𝑛 𝒘 𝑇𝑀𝐴𝑃 𝒘 𝑀𝐴𝑃 𝑁−𝛾• ただし,事後分布に依存しているため,超パラメータ の推定と事後分布の推定を交互に行う必要がある 27
  28. 28. 5.7.3 クラス分類のためのポイントだよ ベイズニューラルネットワーク クラス分類についてもベイズの枠組みで扱う• ベイズロジスティック回帰と同じ方法で導出 – ガウス分布のたたみ込み近似など あんまりいけていない MAP推定 ベイズ推定 28
  29. 29. さぁ今日も一日つづく がんばるぞ 29

×