PRML復々習レーン#3
  3.1.3-3.1.5 (代打)
      2012-07-16
    Yoshihiko Suhara
     @sleepy_yoshi
ここのポイント
• (1) 逐次学習
 – 確率的勾配降下法


• (2) 正則化項
 – 誤差関数との関係
 – 特にイメージについて




                   2
3.1.3 逐次学習



             3
確率的勾配降下法
 (Stochastic Gradient Descent; SGD)
• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように,データ点に対する
  誤差の和で表現される場合に利用可能

• 各データ点に対する誤差関数の勾配を用いて以下
  の更新式で重みベクトルを更新
 – 𝜂は学習率
   • 収束保証のためには,単調減少させる必要あり
               𝜏+1           𝜏
           𝒘          = 𝒘        − 𝜂 𝜏 𝛻𝐸 𝑛

                        ∞               ∞
 ただし    lim 𝜂 𝜏 = 0
        𝜏→∞
                             𝜂𝜏 = ∞           𝜂2 < ∞
                                               𝜏
                       𝜏=1                             4
                                        𝜏=1
最急降下法 vs. 確率的勾配降下法
ホワイトボードで説明




   最急降下法       確率的勾配降下法
                          5
LMSアルゴリズム
• LMSアルゴリズム
  – 確率的勾配法を用いて最小二乗学習を行う
  – Widrow-Hoffの学習規則,Adalineとも呼ばれる

• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より
                   1
        𝐸𝑛 𝒘 =       𝑡𝑛− 𝒘𝑇 𝜙 𝒙𝑛 2
                   2

• よって勾配𝛻𝐸 𝑛 𝒘 は
      𝛻𝐸 𝑛 𝒘 = 𝑡 𝑛 − 𝒘 𝑇 𝜙 𝒙 𝑛   𝜙(𝒙 𝑛 )

                                           6
LMSアルゴリズム
 INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
OUTPUT: 𝒘

1: Initialize 𝒘0 = 𝟎
2: FOR 𝑛 in 0 to 𝑇 − 1
3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
4:         𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛
                                   𝑛
5: ENDIF
6: ENDFOR
7: RETURN 𝒘 𝑇

                                               7
余談: 二値分類における最小二乗法
• 二値分類においては0-1損失を考える
• 二値分類においてもLMSアルゴリズムは利用可能ではある
 – ただし「正解しすぎても」損失が発生
 – ⇒よりよい0-1損失の近似の利用を検討



               𝐸𝑛
                         アレ?




                    1    𝑦𝑛 𝒘 𝑇 𝒙 𝑛   8
更に余談: よりよい0-1損失の近似
• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛
• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2


               L2-loss SVM   𝐸𝑛

  hinge-loss                      こんな損失


    0-1 loss


                                         𝑦𝑛 𝒘 𝑇 𝒙 𝑛        9
3.1.4 正則化最小二乗法



             10
損失関数+正則化項
• 正則化項を加えた損失関数
      𝐸 𝒘 = 𝐸 𝐷 𝒘 + 𝜆𝐸 𝑤 (𝒘)

• 正則化項はたとえば重みベクトルの二乗和を
  利用 (L2正則化項)
                   1 𝑇
           𝐸𝑤   𝒘 = 𝒘 𝒘
                   2



                               11
正則化最小二乗法
• 二乗誤差関数にさきほどの正則化項を加え
  ると誤差関数は
             𝑁
        1              𝑇       2
                                    𝜆 𝑇
  𝐸 𝒘 =           𝑡𝑛− 𝒘 𝜙 𝒙𝑛       + 𝒘 𝒘
        2                           2
            𝑛=1


• 𝒘に関する勾配を0とおき, 𝒘について解けば
  以下を得る
       𝒘 = 𝜆𝐈 + 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕
                                           12
正則化最小二乗の導出
                    𝑇
    𝐿 𝒘 = 𝒚 − 𝑿𝒘        𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘
   𝜕
     𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘
  𝜕𝒘

• これを0とおく
          𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 = 𝑿 𝑇 𝒚
          𝑿 𝑇 𝑿 + 𝑰𝜆 𝒘 = 𝑿 𝑇 𝒚
        𝒘 = 𝑿 𝑇 𝑿 + 𝑰𝜆 −1 𝑿 𝑇 𝒚    行列の微分

                                    𝜕 𝑇     𝜕 𝑇
                                       𝒂 𝒙=    𝒙 𝒂= 𝒂
                                    𝜕𝒙      𝜕𝒙

                                          𝑇         13
                                     𝑨𝑩       = 𝑩𝑇 𝑨𝑇
確率的勾配法で解く場合

       L2正則化LMSアルゴリズム
   INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂
  OUTPUT: 𝒘

  1: Initialize 𝒘0 = 𝟎
  2: FOR 𝑛 in 0 to 𝑇 − 1
  3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫
  4:         𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 + 𝜆𝒘 𝑛
                                     𝑛
  5: ENDIF
  6: ENDFOR
  7: RETURN 𝒘 𝑇

                                                        14
正則化項について (1/2)
• 一般的な正則化項
                        𝑀
                   𝜆              𝑞
          𝐸𝑤   𝒘 =           𝑤𝑗
                   2
                       𝑗=1

• 𝑞 = 2のときL2正則化項
 – q=1はlassoとも呼ばれる.q=2はridge




                                      15
正則化項について (2/2)
• 誤差関数と正則化項を横から眺める
 – (ホワイトボード)



• 二乗誤差関数+L2正則化項 (凸+凸=凸)
 – 証明はぐぐってください



                          16
正則化項の解釈
• 正則化していない二乗誤差を以下の制約条件
  で最小化することと等しい (演習3.5)
              𝑀
                              𝑞
                      𝑤𝑗          ≤ 𝜂
          𝑗=1


• こたえ
                  𝑀
                                      𝑞
         𝜂=            𝑤 𝑗∗       𝜆
              𝑗=1
                      与えられた𝜆における誤差関数の最適値に依存
                                          (゚Д゚)ハァ?
                                               17
図3.4 を眺める
• 謎の図も今ならわかる




                  18
3.1.5 出力変数が多次元の場合




                    19
目標変数が多次元の場合
• 𝐾次元の目標ベクトル𝒕の推定を試みる
           𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)


• 結論 (3.1.1と同様のロジック)
 – 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓
 – 各次元の目標変数が相互に依存しないため,𝑘
   番目の目標変数を推定するためのパラメータは
   𝒘 𝑘 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 𝑘 で求めることができる


                                       20
おしまい


       21

PRML復々習レーン#3 3.1.3-3.1.5