PRML輪読#5

PRML輪読会 2017
第5章ニューラルネットワーク
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
M1 ⽥村浩⼀郎

「第5章ニューラルネットワーク」の概要
• PRML3,4章で線形回帰を⾏なった
– 線形回帰は解析的に解けるため有⽤だった
– しかし、次元の呪いの問題がある
• 次元の呪いの解決
– SVM
• 訓練データ点を中⼼とした基底関数群を定義し、訓練中に`選択`する
– NN
• 基底関数の数を先に固定し、適応的にしておく
• 今回はNN(特に多層パーセプトロン)についての説明
2

構成
5.1 フィードフォワードネットワーク関数
5.2 ネットワーク訓練
5.3 誤差逆伝播
5.4 ヘッセ⾏列
5.5 ニューラルネットワークの正則化
5.6 混合密度ネットワーク
5.7 ベイズニューラルネットワーク
3

• ロジスティック回帰モデルからの拡張
– 𝑓(#)はクラス分類では⾮線形活性化関数，回帰では恒等変換
– 基底関数𝜙&(𝑥)をパラメタ依存とし，これらのパラメタを訓練中に係数𝑤&とともに調整
することで，線形モデルから`⾮線形ロジスティック回帰`へと拡張する
4

• 以下では，⼊⼒層のj(0,1,,,M)番⽬ユニットから，隠れ層1つを通して，出
⼒層のK番⽬への出⼒の，順伝播の過程を⽰す
– なお，バイアス項は3.1節と同じようにダミー変数を⽤意することで，重みパラメタの
中に含める
1. D次元の⼊⼒が与えられた時、
2. 隠れ層への⼊⼒は，活性化関数h # を⽤いて以下のように表される
3. 出⼒は
– (ここでは2クラス分類の場合のシグモイド関数で表記)
5

• NNはフィードフォワード(閉じた有向回路がない)であることが必要
– 出⼒が⼊⼒の決定理論的な関数であるである必要条件
• NNは万能近似器
– 線形出⼒を持つ2層ネットワークは，⼗分な数の隠れ層のユニットを持てば，任意の精
度でどんな連続関数でも近似できる
• 重み空間対称性
– 同じ⼊⼒から出⼒への関数を表す重みベクトル𝒘は複数存在する
– 活性化関数の対称性や線形における交代性などから、隠れ層のユニットがMこあった場
合，ネットワークには𝑀! 2.個の等価な重みベクトルがある
– ベイズモデル⽐較を考える際に重要となる
6

• 回帰問題の場合
– ネットワークの出⼒を確率的に解釈することが重要
– 回帰問題の場合
– tはxに依存するガウス分布に従うとする．この時尤度関数は，
– 負の対数尤度を取ると，
– 𝛽を固定して𝑤を最適化することを考えると，結局，
を最⼩化すれば良い
– 回帰問題の場合，出⼒ユニットの⾃然な活性化関数(*4.36)として恒等写像関数が選ば
れる．その時，
7

• 分類問題の場合
– 2値分類の場合
• 活性化関数としてシグモイド関数
• 負の対数尤度を取ると，以下の誤差関数が得られる
– 多クラス分類の場合
• 活性化関数としてソフトマックス関数
• 負の対数尤度を取ると，以下の誤差関数が得られる
8

5.2.1,2 パラメタ最適化と局所2次近似
• 誤差関数𝐸(𝑤)の最⼩化において，𝛻𝐸 𝑤 = 0が必要．
– 𝛻𝐸 𝑤 = 0となる点は極⼩値，極⼤値，鞍点がある
– さらに，極⼩値にも局所的極⼩値，⼤域的極⼩値がある
– 𝛻𝐸 𝑤 = 0となる点は解析的には求められないので，数値的な反復⼿順を取る
• 勾配の局所近似は，
– ∵ 𝐸 𝑤 のテイラー展開
– 𝛻𝐸 𝑤 = 0が成り⽴つので，
– ヘッセ⾏列が正定値⾏列の場合，その停留点𝑤∗は極⼩値である
9

5.2.3 勾配情報の利⽤
• 逆誤差伝播は効率的に誤差関数の勾配を評価できる
– 誤差局⾯は(5.28)式よりbとHで決定する関数である
– Hの対称性から，全部で𝑊(𝑊 + 3) 2⁄ の独⽴な要素があり，極⼩点の位置を求めるには
計算量𝑂(𝑊;)を要する
– 以上の𝑂(𝑊;)の点で評価を⾏うので，結局，計算量として𝑂 𝑊< が必要
• 勾配情報を利⽤すれば，𝛻𝐸 𝑤 を評価する度にW個の情報が得られるので，
𝑂(𝑊)の計算量で関数の極⼩値を求めることができる
– 評価も合わせて𝑂(𝑊;)で済む
10

5.2.4 勾配降下最適化法
• バッチ訓練
– 全てのデータ集合を⼀度に扱う
– 勾配降下法，最急降下法
– 性能が悪い
– 共役勾配法，準ニュートン法など効率的な⽅法も
• オンライン勾配降下法
– 逐次的勾配降下法，確率的勾配降下法
– データの冗⻑性を効率的に扱える，局所解にハマりにくい
– 「勾配降下法の最適化アルゴリズムを概観する」が⾮常によくまとまっていておすすめ
http://postd.cc/optimizing-gradient-descent/
11

5.3 誤差逆伝播
• NNにおける誤差逆伝播とは，微分の評価を効率的に⾏う⼿法
– 訓練アルゴリズムには以下の2ステップがある
1. 誤差関数の重みに関する微分の評価(計算)
2. 微分を⽤いて重みの更新の計算を⾏う
– 逆誤差伝播は[1.誤差関数の重みに関する微分の評価(計算)]に関しての⼿法
– 多層パーセプトロン以外にも応⽤可能である(ヤコビ⾏列やヘッセ⾏列の評価など)
12

5.3.1 誤差関数微分の評価
• 以下の単純な線形和の誤差関数の勾配をNNに拡張する
• 偏微分の連鎖則
– 以下のように⽂字でおくと，
– 𝑧>は⾃⾝の⼊⼒側の値であるから，結局𝛿&を計算できれば良い
– この形は，単純な線形和の(5.47)と同じ形である
13

5.3.1 誤差関数微分の評価
• 正準連結関数を活性化関数に⽤いた出⼒ユニットでは，
• 偏微分の連鎖則を使って，
• 以上より，誤差逆伝播の公式が得られる
14
**実際の場面ではここに出力層の
活性化関数の微分をかけると精度
が上がることが多い

5.3.4 ヤコビ⾏列
• ヤコビ⾏列の計算においても誤差逆伝播のテクニックが使える
– ヤコビ⾏列の直感的な解釈->各⼊⼒変数の変化に対する出⼒の局所的な感度の指標
– 以下のような`異なる`モジュールで構成されたシステムを考える
– 以上の図5.8のwに関して，誤差関数を最⼩化したい
– ⼊⼒の振動が⼤きい場合(⼊⼒が未知の場合)，近似的に⼊⼒xに対するyの勾配を評価で
きない．ヤコビ⾏列そのものを再評価する必要がある
15

5.4 ヘッセ⾏列
– 誤差関数の重みに関する2回微分を評価
1. ヘッセ⾏列が正定値⾏列なら極⼩値をもつことがわかる
2. 学習データの変動時における再学習の⾼速化
3. 「刈り込み」アルゴリズムにおける冗⻑な重みの特定
4. ベイズネットワークのラプラス近似における分布の選択，モデルエビデンス評価
– ヘッセ⾏列は直接評価すると𝑂(𝑊;)であるため，効率的に評価したい
1. 対⾓近似
2. 外積による近似(逆⾏列の効率的な逐次計算が可能に)
3. 有限差分による近似
– 誤差逆伝播を⽤いてヘッセ⾏列の厳密な評価が可能になる(らしい)
– さらに，ヘッセ⾏列とベクトルの積を評価する問題に取り替えれば，誤差逆伝播を⽤
いて計算量𝑂(𝑊)で⾼速に評価できる
16
𝛻𝐸を求めるのに関わる誤差逆伝播
の全て計算において，𝑣A 𝛻を作用さ
せれば良い

• 隠れ層のユニット数Mはハイパーパラメタ
– 誤差関数には局所的極⼩点があるため，Mに対して単純な(例えば単調であるとか)関数
にならない．グリッドサーチ的なアプローチが必要
17
M=4あたりが
良さそう

• 過学習の抑制として，正則化項を追加する⽅法
– もっとも単純なモデルは
– 荷重減衰(weight decay)．モデルの複雑さは𝜆で決まる
– しかし，⼊⼒の線形変換に対して等価なネットワークが得られない(無⽭盾でない)
– 無⽭盾性を満たす正則化項を探すと，正則化項は以下の事前分布に従う
– しかし，(5.122)はバイアスパラメタが制約されていない変則事前分布であるため(周辺
化できない)，より⼀般的には，固有のハイパーパラメタを持つ事前分布を導⼊する．
のように，重みを任意のグループ𝑊Cに分けた事前分布を考えることもできる
18

5.5.2 早期終了
• 正則化項とは別に，ネットワークの複雑さを制御する⽅法として早期終了
(early stopping)がある
– Validation scoreが最⼩の時点で学習をstopすれば良い汎化性能を持つネットワークが
得られる
– 2次誤差関数の場合，早期終了は正則化項と似たような結果を期待できる
19
早期終了正則化項

5.5.3 不変性
• 出⼒は，⼊⼒変数が線形変換されていても変化しないこと(不変性)が求めら
れる
• 平⾏移動不変性
• 尺度不変性
– ⼗分な訓練集合があればNNは不変性を獲得できるが，そうでない場合も多い
1. 不変性に応じて訓練パターンを変換して複製する
2. 正則化項を加え，⼊⼒の変換に対して出⼒が変化した場合にペナルティーを加える(接線伝
播法:5.5.4)
変換をヤコビ⾏列で表せる．以下の正則化項を加えれば良い
3. 前処理で変換に関わらない特徴量を抽出する
4. NNに不変性を構築する(局所的受容野を設ける，CNN)
20

5.5.6 畳み込みニューラルネットワーク
• 局所受容野
– 全ての⼊⼒の⼀部分のみを⼊⼒とする
(たたみこむ)
• 重み共有
– 畳み込み層における各ユニットの重みを
共有することで，モデルの複雑さに制限
をかける
• 部分サンプリング
– Poolingすることで，不変性を獲得する
• Max pooling, average pooling
21
引⽤:https://sites.google.com/site/mlreadingkyoto/schedule/prml5.4-5.5.pptx?attredirects=0&d=1

5.5.7 ソフト重み共有
• 基本的なCNNは，畳み込み層の重みを共有するハードな制約
• ⼀⽅で，ペナルティー項を導⼊するソフト重み共有の仕⽅がある
– 重みの値が複数のガウス分布に従うとすれば，混合ガウス分布を考えれば良い．𝜋&を混
合係数として，正則化項は以下のように表される
– ベイズの定理に従って事後分布を考えると，
– すると，全体の誤差関数の重みに関する微分は
正則化項の部分に注⽬すると，各重みを中⼼に引き寄せる役割(これで重みの共有を促す)
22

• 分布が多峰性を持ち得る逆問題がパターン認識ではありえる
– ex)いくつかの異なる病気が同⼀の症状を⽰すなど
– 最⼩2乗法はtがガウス分布に従うことを仮定していたので，⾼度な⾮ガウス性の分布に
従う場合はうまく学習できない
– 条件付き確率に混合モデルを⽤いることでより⼀般的な枠組みで推定を⾏う
23

• ガウス分布を要素に持つ場合(混合ガウス分布の場合)，
– tがL次元で，K個のガウス分布を持っている場合，K*(L+2)個の出⼒を持つ
– 混合ネットワークの誤差関数は，(混合係数はソフトマックス関数の出⼒として)
24

• 混合ネットワークの誤差関数は
– このwに関する微分を知りたい
– 出⼒による微分がわかれば誤差逆伝播によりwによる微分がもとまる
– 今，混合係数をxによる事前分布とすれば(wによらないとすれば)，事後分布を
設定できる．この時，出⼒による微分は，
25

• ベイズの枠組みでニューラルネットワークを捉える
– パラメタの分布を考えて，周辺化したい
– ネットワーク関数がパラメタに極度に⾮線形に依存しているために，厳密にベイズの枠
組みで議論できない
– ⽬的関数が精度βを持つガウス分布に従うとして，
– 重みwの事前分布を
– xのデータ集合に対して⽬標値の集合Dについて，尤度関数は
– この時，事後分布は
– これは𝑦(𝑥, 𝑤)がwに⾮線形に依存するため，ガウス分布にならない
– ラプラス近似を⽤いてガウス分布で近似
26

– まず，パラメタを固定して普通にwを求める
– モード𝑤TUVを求めたら，事後分布の負の対数尤度の2階微分の⾏列を評価し，局所的に
ガウス分布で近似できる
– これをもちいて，事後分布を近似でき，
– この式をwについて周辺化し，事後分布の分散がwのスケールに⽐べて⼗分⼩さいとい
う仮定のもと，テイラー展開すると，ネットワーク関数が以下のように表せる
– その結果，予測分布は
27

• エビデンス理論をラプラス近似によって得られた事後分布の近似とともに⽤
いれば、ハイパーパラメタを選択することができる
– ハイパーパラメタの周辺尤度は，重みについて周辺化して，
– 対数を取ると，
– これに関して，ハイパーパラメタの点推定を⾏えば良い
• クラス分類においても，対数尤度関数に関して同じ作業をすることで求めら
れる
28

参考資料
• パターン認識と機械学習上
– C.M. ビショップ (著), 元⽥浩 (監訳), 栗⽥多喜夫 (監訳), 樋⼝知之 (監訳), 松本裕
治 (監訳), 村⽥昇 (監訳)
• PRML Chapter5 Hessian Matrix (hassaku, Speaker Deck)
– https://speakerdeck.com/hassaku/prml-chapter5-hessian-matrix
• PRML 5.4章 5.5章 (藤本悠介,powerpoint)
– https://sites.google.com/site/mlreadingkyoto/schedule/prml5.4-
5.5.pptx?attredirects=0&d=1
• PRML復々習レーン5.5.6-5.5.7(RicksonJr, SlideShare)
– https://www.slideshare.net/RicksonJr/bbb-15673191
29

PRML輪読#5

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PRML輪読#5

Similar to PRML輪読#5 (20)

PRML輪読#5