PRML復々習レーン#7
 前回までのあらすじ
    2012-12-15
  Yoshihiko Suhara
   @sleepy_yoshi

                     v.1.0
前回のおさらい
• 復々習レーンの復習を15分程度でやります
 – 得られた結論にポイントを絞る
 – 「よーするに」な内容
                       ポイントだよ



   • 好きなところをたくさん喋る
   • よくわからないところは誤魔化す
   • まちがってたら指摘してください

• 目的
 – 前回の復習
 – 不参加の方に流れを伝えるため
 – 自分自身の勉強のため

                                2
前回の範囲
4章
• 4.4 ラプラス近似
  – 4.4.1 モデルの比較とBIC
• 4.5 ベイズロジスティック回帰
  – 4.5.1 ラプラス近似
  – 4.5.2 予測分布

5章
• 5.1 フィードフォワードネットワーク関数
  – 5.1.1 重み空間対称性
• 5.2 ネットワーク訓練
  –   5.2.1 パラメータ最適化
  –   5.2.2 局所二次近似
  –   5.2.3 勾配情報の利用
  –   5.2.4 勾配降下最適化
• 5.3 誤差逆伝播
  – 5.3.1 誤差関数微分の評価
  – 5.3.2 単純な例             3
前回の範囲
4章
• 4.4 ラプラス近似
  – 4.4.1 モデルの比較とBIC
• 4.5 ベイズロジスティック回帰
  – 4.5.1 ラプラス近似
  – 4.5.2 予測分布

5章
• 5.1 フィードフォワードネットワーク関数
  – 5.1.1 重み空間対称性
• 5.2 ネットワーク訓練
  –   5.2.1 パラメータ最適化
  –   5.2.2 局所二次近似
  –   5.2.3 勾配情報の利用
  –   5.2.4 勾配降下最適化
• 5.3 誤差逆伝播
  – 5.3.1 誤差関数微分の評価
  – 5.3.2 単純な例             4
4.4 ラプラス近似



             5
4.4 ラプラス近似
 ポイントだよ




        パラメータ𝒘を積分するため,
    ガウス分布による近似を行う (= ラプラス近似)

• 𝑝(𝑧)のモードを見つけ,ガウス分布の平均とする




                               6
4.4.1 モデルの比較とBIC
 ポイントだよ




      ラプラス近似を利用してモデルエビデンスの
              近似を得る

                                                 𝑀          1
• ln 𝑝 𝐷 ≅ ln 𝑝 𝐷 𝜽   𝑀𝐴𝑃   + ln 𝑝 𝜽   𝑀𝐴𝑃   +     ln   2𝜋 − ln 𝑨
                                                 2          2
                                     Occam係数
                                モデルの複雑さに対するペナルティ


                            1
• ln 𝑝 𝐷 ≅ ln 𝑝 𝐷 𝜽   𝑀𝐴𝑃 − 2   𝑀 ln 𝑁
   – 上記の近似.ベイズ情報量規準 (BIC) と呼ばれる

                                                                    7
4.5 ベイズロジスティック回帰



                   8
4.5.1 ラプラス近似
 ポイントだよ




  ロジスティック回帰のパラメータ𝑤の事後分布を
 ガウス分布で近似することにより,積分可能にする

• 事後確率分布のガウス分布による近似は以下の式
  のようになる
         𝑞 𝒘 = 𝒩 𝒘 𝒘 𝑀𝐴𝑃 , 𝑺 𝑁




                                 9
※重畳 (ちょうじょう) 積分

               4.5.2 予測分布
 ポイントだよ




    プロビット関数による近似と,畳み込み積分の
      近似を用いて近似予測分布を求める

            𝑝 𝐶1 𝜙, 𝒕 = 𝜎 𝜅 𝜎 2 𝜇 𝑎
                              𝑎
• ただし,
                                  1
                                 −2
                            𝜋𝜎 2
              𝜅 𝜎2 = 1 +
                 𝑎
                             8
          𝜇 𝑎 = ∫ 𝑞 𝒘 𝒘 𝑇 𝜙d𝒘 = 𝒘 𝑇𝑀𝐴𝑃 𝜙

                                                  10
5章 ニューラルネットワーク



                 11
5 ニューラルネットワーク
 ポイントだよ




           多層ニューラルネットワークは
          ロジスティック回帰を多層にしたもの

• 固定された基底関数の線形和ではモデルの有用性
  に限界 ⇒ 基底関数をデータに適応させる必要性
 – SVM (7章)
     • 訓練データ点を中心とした基底関数群を用意し,訓練中
       に選ぶ
 – 多層ニューラルネットワーク (本章)
     • 基底関数の数を固定し,訓練中に適応させる
                               12
5.1 フィードフォワードネットワーク関数




                   13
5.1 フィードフォワードネットワーク関数 (1/2)
    ポイントだよ




      入力の線形和に対する活性化関数の,
    線形和の活性化関数を出力とする (=順向き伝播)

                    𝑀      2       𝐷     1          1       2
•   𝑦 𝑘 𝒙, 𝒘 = 𝜎   𝑗=1   𝑤 𝑘𝑗 ℎ   𝑖=1   𝑤𝑗𝑖 𝑥 𝑖 + 𝑤𝑗0   + 𝑤 𝑘0




                                                                 14
5.1 フィードフォワードネットワーク関数 (2/2)
 ポイントだよ




          多層ニューラルネットワークは
           任意の関数近似が可能

• ロジスティックシグモイド関数の組み
  合わせで様々な関数を近似可能




                           15
5.1.1 重み空間対称性
 ポイントだよ




           一部の重みの符号を反転させても
          ネットワークの入出力関数は変化しない

• 隠れユニット𝑀個
  – すべての組み合わせ: 2      𝑀

          • ある特定の隠れユニットへのすべての重みとバイアスの符号を反転しても,
            その隠れユニットの出力に対する重みをすべて反転すればよい
  – 隠れユニットの順番交換: 𝑀!
          • 隠れユニットの順番は出力に影響しないため
  – よって𝑀! 2 𝑀 個の等価な重みベクトルが存在

• あまり重要ではない
  – 考慮する必要がある状況は5.7節で

                                             16
5.2 ネットワーク訓練




               17
5.2 ネットワーク訓練
ポイントだよ




         回帰問題および識別問題において
         誤差関数を負の対数尤度で定義

• 誤差関数の出力ユニットによる勾配は,回帰
  でも識別でも以下のとおりになる
         𝜕
             𝐸 𝒘 = 𝑦𝑘 − 𝑡𝑘
        𝜕𝑎 𝑘


                           18
5.2.1 パラメータ最適化
 ポイントだよ




          勾配が0になるパラメータを見つける


• 大域的最小点と局所最小点
• 数値的な反復手順による解法
        𝒘(𝜏+1) = 𝒘 𝜏 + Δ𝒘   𝜏




                                19
5.2.2 局所二次近似
ポイントだよ




      誤差関数を局所的に二次近似し,
   ヘッセ行列を評価することで極小点を判断する

            𝜕2 𝐸
• 1次元の場合,              > 0 のとき極小点
            𝜕𝑤 2 𝑤 ∗
 – あらゆる方向に対して誤差が増える




                                    20
5.2.3 勾配情報の利用
 ポイントだよ




勾配情報の利用により,効率的な計算が可能となる


• 誤差関数の二次近似において,誤差曲面は𝒃と𝑯で決定さ
  れる
           𝑊 𝑊+3   𝑊 𝑊+1
  – よって,合計   個 =      + 𝑊
           2     2
  – 二次近似の極小点の位置は𝑂 𝑊 2 個のパラメータに依存
  – 各評価に𝑊ステップ必要⇒𝑂 𝑊 3

• 勾配を用いることで𝑂(𝑊 2 )で済む
  – 𝑊回の勾配の評価で極小点の評価が可能×勾配の評価に𝑊
   ステップ必要
                                   21
5.2.4 勾配降下最適化
ポイントだよ




         勾配情報を利用したパラメータの更新


• バッチ手法
               𝜏+1         𝜏             𝜏
           𝑤         = 𝑤       − 𝜂𝛻𝐸 𝑤


• オンライン手法
       𝑤 𝜏+1 = 𝑤 𝜏 − 𝜂𝛻𝐸 𝑛 𝑤 𝜏
 – データの冗長度を効率的に扱うことができる
 – 局所解を回避できる可能性
                                             22
5.3 誤差逆伝播




            23
5.3.1 誤差関数微分の評価
 ポイントだよ




          誤差の逆伝播により,微分を評価する


• 𝛿𝑘 = 𝑦𝑘 − 𝑡𝑘
• 𝛿 𝑗 = ℎ′ 𝑎 𝑗   𝑘   𝑤 𝑘𝑗 𝛿 𝑘




                                24
5.3.2 単純な例
    ポイントだよ




         出力と目標値の差を伝播させる例を眺める

•   誤差を逆伝播する (活性化関数はtanh(⋅))
                   𝛿𝑘 = 𝑦𝑘 − 𝑡𝑘
                                          𝐾

                    𝛿𝑗 = 1 − 𝑧2
                              𝑗               𝑤 𝑘𝑗 𝛿 𝑘
                                      𝑘=1

•   第1層と第2層の重みに関する勾配は以下のとおり計算される:
                        𝜕𝐸 𝑛
                           1
                               = 𝛿𝑗 𝑥 𝑖
                       𝛿𝑤𝑗𝑖
                       𝜕𝐸 𝑛
                           2
                               = 𝛿 𝑘 𝑧𝑗
                       𝛿𝑤 𝑘𝑗

                                                         25
さぁ今日も一日
つづく    がんばるぞ




            26

PRML復々習レーン#7 前回までのあらすじ

  • 1.
    PRML復々習レーン#7 前回までのあらすじ 2012-12-15 Yoshihiko Suhara @sleepy_yoshi v.1.0
  • 2.
    前回のおさらい • 復々習レーンの復習を15分程度でやります –得られた結論にポイントを絞る – 「よーするに」な内容 ポイントだよ • 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください • 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため 2
  • 3.
    前回の範囲 4章 • 4.4 ラプラス近似 – 4.4.1 モデルの比較とBIC • 4.5 ベイズロジスティック回帰 – 4.5.1 ラプラス近似 – 4.5.2 予測分布 5章 • 5.1 フィードフォワードネットワーク関数 – 5.1.1 重み空間対称性 • 5.2 ネットワーク訓練 – 5.2.1 パラメータ最適化 – 5.2.2 局所二次近似 – 5.2.3 勾配情報の利用 – 5.2.4 勾配降下最適化 • 5.3 誤差逆伝播 – 5.3.1 誤差関数微分の評価 – 5.3.2 単純な例 3
  • 4.
    前回の範囲 4章 • 4.4 ラプラス近似 – 4.4.1 モデルの比較とBIC • 4.5 ベイズロジスティック回帰 – 4.5.1 ラプラス近似 – 4.5.2 予測分布 5章 • 5.1 フィードフォワードネットワーク関数 – 5.1.1 重み空間対称性 • 5.2 ネットワーク訓練 – 5.2.1 パラメータ最適化 – 5.2.2 局所二次近似 – 5.2.3 勾配情報の利用 – 5.2.4 勾配降下最適化 • 5.3 誤差逆伝播 – 5.3.1 誤差関数微分の評価 – 5.3.2 単純な例 4
  • 5.
  • 6.
    4.4 ラプラス近似 ポイントだよ パラメータ𝒘を積分するため, ガウス分布による近似を行う (= ラプラス近似) • 𝑝(𝑧)のモードを見つけ,ガウス分布の平均とする 6
  • 7.
    4.4.1 モデルの比較とBIC ポイントだよ ラプラス近似を利用してモデルエビデンスの 近似を得る 𝑀 1 • ln 𝑝 𝐷 ≅ ln 𝑝 𝐷 𝜽 𝑀𝐴𝑃 + ln 𝑝 𝜽 𝑀𝐴𝑃 + ln 2𝜋 − ln 𝑨 2 2 Occam係数 モデルの複雑さに対するペナルティ 1 • ln 𝑝 𝐷 ≅ ln 𝑝 𝐷 𝜽 𝑀𝐴𝑃 − 2 𝑀 ln 𝑁 – 上記の近似.ベイズ情報量規準 (BIC) と呼ばれる 7
  • 8.
  • 9.
    4.5.1 ラプラス近似 ポイントだよ ロジスティック回帰のパラメータ𝑤の事後分布を ガウス分布で近似することにより,積分可能にする • 事後確率分布のガウス分布による近似は以下の式 のようになる 𝑞 𝒘 = 𝒩 𝒘 𝒘 𝑀𝐴𝑃 , 𝑺 𝑁 9
  • 10.
    ※重畳 (ちょうじょう) 積分 4.5.2 予測分布 ポイントだよ プロビット関数による近似と,畳み込み積分の 近似を用いて近似予測分布を求める 𝑝 𝐶1 𝜙, 𝒕 = 𝜎 𝜅 𝜎 2 𝜇 𝑎 𝑎 • ただし, 1 −2 𝜋𝜎 2 𝜅 𝜎2 = 1 + 𝑎 8 𝜇 𝑎 = ∫ 𝑞 𝒘 𝒘 𝑇 𝜙d𝒘 = 𝒘 𝑇𝑀𝐴𝑃 𝜙 10
  • 11.
  • 12.
    5 ニューラルネットワーク ポイントだよ 多層ニューラルネットワークは ロジスティック回帰を多層にしたもの • 固定された基底関数の線形和ではモデルの有用性 に限界 ⇒ 基底関数をデータに適応させる必要性 – SVM (7章) • 訓練データ点を中心とした基底関数群を用意し,訓練中 に選ぶ – 多層ニューラルネットワーク (本章) • 基底関数の数を固定し,訓練中に適応させる 12
  • 13.
  • 14.
    5.1 フィードフォワードネットワーク関数 (1/2) ポイントだよ 入力の線形和に対する活性化関数の, 線形和の活性化関数を出力とする (=順向き伝播) 𝑀 2 𝐷 1 1 2 • 𝑦 𝑘 𝒙, 𝒘 = 𝜎 𝑗=1 𝑤 𝑘𝑗 ℎ 𝑖=1 𝑤𝑗𝑖 𝑥 𝑖 + 𝑤𝑗0 + 𝑤 𝑘0 14
  • 15.
    5.1 フィードフォワードネットワーク関数 (2/2) ポイントだよ 多層ニューラルネットワークは 任意の関数近似が可能 • ロジスティックシグモイド関数の組み 合わせで様々な関数を近似可能 15
  • 16.
    5.1.1 重み空間対称性 ポイントだよ 一部の重みの符号を反転させても ネットワークの入出力関数は変化しない • 隠れユニット𝑀個 – すべての組み合わせ: 2 𝑀 • ある特定の隠れユニットへのすべての重みとバイアスの符号を反転しても, その隠れユニットの出力に対する重みをすべて反転すればよい – 隠れユニットの順番交換: 𝑀! • 隠れユニットの順番は出力に影響しないため – よって𝑀! 2 𝑀 個の等価な重みベクトルが存在 • あまり重要ではない – 考慮する必要がある状況は5.7節で 16
  • 17.
  • 18.
    5.2 ネットワーク訓練 ポイントだよ 回帰問題および識別問題において 誤差関数を負の対数尤度で定義 • 誤差関数の出力ユニットによる勾配は,回帰 でも識別でも以下のとおりになる 𝜕 𝐸 𝒘 = 𝑦𝑘 − 𝑡𝑘 𝜕𝑎 𝑘 18
  • 19.
    5.2.1 パラメータ最適化 ポイントだよ 勾配が0になるパラメータを見つける • 大域的最小点と局所最小点 • 数値的な反復手順による解法 𝒘(𝜏+1) = 𝒘 𝜏 + Δ𝒘 𝜏 19
  • 20.
    5.2.2 局所二次近似 ポイントだよ 誤差関数を局所的に二次近似し, ヘッセ行列を評価することで極小点を判断する 𝜕2 𝐸 • 1次元の場合, > 0 のとき極小点 𝜕𝑤 2 𝑤 ∗ – あらゆる方向に対して誤差が増える 20
  • 21.
    5.2.3 勾配情報の利用 ポイントだよ 勾配情報の利用により,効率的な計算が可能となる •誤差関数の二次近似において,誤差曲面は𝒃と𝑯で決定さ れる 𝑊 𝑊+3 𝑊 𝑊+1 – よって,合計 個 = + 𝑊 2 2 – 二次近似の極小点の位置は𝑂 𝑊 2 個のパラメータに依存 – 各評価に𝑊ステップ必要⇒𝑂 𝑊 3 • 勾配を用いることで𝑂(𝑊 2 )で済む – 𝑊回の勾配の評価で極小点の評価が可能×勾配の評価に𝑊 ステップ必要 21
  • 22.
    5.2.4 勾配降下最適化 ポイントだよ 勾配情報を利用したパラメータの更新 • バッチ手法 𝜏+1 𝜏 𝜏 𝑤 = 𝑤 − 𝜂𝛻𝐸 𝑤 • オンライン手法 𝑤 𝜏+1 = 𝑤 𝜏 − 𝜂𝛻𝐸 𝑛 𝑤 𝜏 – データの冗長度を効率的に扱うことができる – 局所解を回避できる可能性 22
  • 23.
  • 24.
    5.3.1 誤差関数微分の評価 ポイントだよ 誤差の逆伝播により,微分を評価する • 𝛿𝑘 = 𝑦𝑘 − 𝑡𝑘 • 𝛿 𝑗 = ℎ′ 𝑎 𝑗 𝑘 𝑤 𝑘𝑗 𝛿 𝑘 24
  • 25.
    5.3.2 単純な例 ポイントだよ 出力と目標値の差を伝播させる例を眺める • 誤差を逆伝播する (活性化関数はtanh(⋅)) 𝛿𝑘 = 𝑦𝑘 − 𝑡𝑘 𝐾 𝛿𝑗 = 1 − 𝑧2 𝑗 𝑤 𝑘𝑗 𝛿 𝑘 𝑘=1 • 第1層と第2層の重みに関する勾配は以下のとおり計算される: 𝜕𝐸 𝑛 1 = 𝛿𝑗 𝑥 𝑖 𝛿𝑤𝑗𝑖 𝜕𝐸 𝑛 2 = 𝛿 𝑘 𝑧𝑗 𝛿𝑤 𝑘𝑗 25
  • 26.