PRML復々習レーン#3  3.1.3-3.1.5 (代打)      2012-07-16    Yoshihiko Suhara     @sleepy_yoshi
ここのポイント• (1) 逐次学習 – 確率的勾配降下法• (2) 正則化項 – 誤差関数との関係 – 特にイメージについて                   2
3.1.3 逐次学習             3
確率的勾配降下法 (Stochastic Gradient Descent; SGD)• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように,データ点に対する  誤差の和で表現される場合に利用可能• 各データ点に対する誤差関数の勾配を用いて以下  の更新式...
最急降下法 vs. 確率的勾配降下法ホワイトボードで説明   最急降下法       確率的勾配降下法                          5
LMSアルゴリズム• LMSアルゴリズム  – 確率的勾配法を用いて最小二乗学習を行う  – Widrow-Hoffの学習規則,Adalineとも呼ばれる• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より        ...
LMSアルゴリズム INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂OUTPUT: 𝒘1: Initialize 𝒘0 = 𝟎2: FOR 𝑛 in 0 to 𝑇 − 13: Obtain random sample (𝒙 𝑛 , 𝑡...
余談: 二値分類における最小二乗法• 二値分類においては0-1損失を考える• 二値分類においてもLMSアルゴリズムは利用可能ではある – ただし「正解しすぎても」損失が発生 – ⇒よりよい0-1損失の近似の利用を検討              ...
更に余談: よりよい0-1損失の近似• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2   ...
3.1.4 正則化最小二乗法             10
損失関数+正則化項• 正則化項を加えた損失関数      𝐸 𝒘 = 𝐸 𝐷 𝒘 + 𝜆𝐸 𝑤 (𝒘)• 正則化項はたとえば重みベクトルの二乗和を  利用 (L2正則化項)                   1 𝑇           𝐸𝑤 ...
正則化最小二乗法• 二乗誤差関数にさきほどの正則化項を加え  ると誤差関数は             𝑁        1              𝑇       2                                    𝜆 ...
正則化最小二乗の導出                    𝑇    𝐿 𝒘 = 𝒚 − 𝑿𝒘        𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘   𝜕     𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘  𝜕𝒘• これを0...
確率的勾配法で解く場合       L2正則化LMSアルゴリズム   INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂  OUTPUT: 𝒘  1: Initialize 𝒘0 = 𝟎  2: FOR 𝑛 in 0 to 𝑇 − 1 ...
正則化項について (1/2)• 一般的な正則化項                        𝑀                   𝜆              𝑞          𝐸𝑤   𝒘 =           𝑤𝑗       ...
正則化項について (2/2)• 誤差関数と正則化項を横から眺める – (ホワイトボード)• 二乗誤差関数+L2正則化項 (凸+凸=凸) – 証明はぐぐってください                          16
正則化項の解釈• 正則化していない二乗誤差を以下の制約条件  で最小化することと等しい (演習3.5)              𝑀                              𝑞                      𝑤𝑗 ...
図3.4 を眺める• 謎の図も今ならわかる                  18
3.1.5 出力変数が多次元の場合                    19
目標変数が多次元の場合• 𝐾次元の目標ベクトル𝒕の推定を試みる           𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)• 結論 (3.1.1と同様のロジック) – 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓 – 各次元の目標変数が相...
おしまい       21
Upcoming SlideShare
Loading in...5
×

PRML復々習レーン#3 3.1.3-3.1.5

3,369

Published on

2012-07-16 PRML復々習レーン#3 3.1.3-3.1.5 の資料

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,369
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
24
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

PRML復々習レーン#3 3.1.3-3.1.5

  1. 1. PRML復々習レーン#3 3.1.3-3.1.5 (代打) 2012-07-16 Yoshihiko Suhara @sleepy_yoshi
  2. 2. ここのポイント• (1) 逐次学習 – 確率的勾配降下法• (2) 正則化項 – 誤差関数との関係 – 特にイメージについて 2
  3. 3. 3.1.3 逐次学習 3
  4. 4. 確率的勾配降下法 (Stochastic Gradient Descent; SGD)• 誤差関数が𝐸 = 𝑛 𝐸 𝑛 のように,データ点に対する 誤差の和で表現される場合に利用可能• 各データ点に対する誤差関数の勾配を用いて以下 の更新式で重みベクトルを更新 – 𝜂は学習率 • 収束保証のためには,単調減少させる必要あり 𝜏+1 𝜏 𝒘 = 𝒘 − 𝜂 𝜏 𝛻𝐸 𝑛 ∞ ∞ ただし lim 𝜂 𝜏 = 0 𝜏→∞ 𝜂𝜏 = ∞ 𝜂2 < ∞ 𝜏 𝜏=1 4 𝜏=1
  5. 5. 最急降下法 vs. 確率的勾配降下法ホワイトボードで説明 最急降下法 確率的勾配降下法 5
  6. 6. LMSアルゴリズム• LMSアルゴリズム – 確率的勾配法を用いて最小二乗学習を行う – Widrow-Hoffの学習規則,Adalineとも呼ばれる• データ点 𝜙 𝒙 𝑛 , 𝑡 𝑛 に対する誤差関数は式(3.12)より 1 𝐸𝑛 𝒘 = 𝑡𝑛− 𝒘𝑇 𝜙 𝒙𝑛 2 2• よって勾配𝛻𝐸 𝑛 𝒘 は 𝛻𝐸 𝑛 𝒘 = 𝑡 𝑛 − 𝒘 𝑇 𝜙 𝒙 𝑛 𝜙(𝒙 𝑛 ) 6
  7. 7. LMSアルゴリズム INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂OUTPUT: 𝒘1: Initialize 𝒘0 = 𝟎2: FOR 𝑛 in 0 to 𝑇 − 13: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫4: 𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 𝑛5: ENDIF6: ENDFOR7: RETURN 𝒘 𝑇 7
  8. 8. 余談: 二値分類における最小二乗法• 二値分類においては0-1損失を考える• 二値分類においてもLMSアルゴリズムは利用可能ではある – ただし「正解しすぎても」損失が発生 – ⇒よりよい0-1損失の近似の利用を検討 𝐸𝑛 アレ? 1 𝑦𝑛 𝒘 𝑇 𝒙 𝑛 8
  9. 9. 更に余談: よりよい0-1損失の近似• L1-loss SVM (hinge-loss): 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛• L2-loss SVM: 𝐸 𝑛 = max 0, 1 − 𝑦 𝑛 𝒘 𝑇 𝒙 𝑛 2 L2-loss SVM 𝐸𝑛 hinge-loss こんな損失 0-1 loss 𝑦𝑛 𝒘 𝑇 𝒙 𝑛 9
  10. 10. 3.1.4 正則化最小二乗法 10
  11. 11. 損失関数+正則化項• 正則化項を加えた損失関数 𝐸 𝒘 = 𝐸 𝐷 𝒘 + 𝜆𝐸 𝑤 (𝒘)• 正則化項はたとえば重みベクトルの二乗和を 利用 (L2正則化項) 1 𝑇 𝐸𝑤 𝒘 = 𝒘 𝒘 2 11
  12. 12. 正則化最小二乗法• 二乗誤差関数にさきほどの正則化項を加え ると誤差関数は 𝑁 1 𝑇 2 𝜆 𝑇 𝐸 𝒘 = 𝑡𝑛− 𝒘 𝜙 𝒙𝑛 + 𝒘 𝒘 2 2 𝑛=1• 𝒘に関する勾配を0とおき, 𝒘について解けば 以下を得る 𝒘 = 𝜆𝐈 + 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 12
  13. 13. 正則化最小二乗の導出 𝑇 𝐿 𝒘 = 𝒚 − 𝑿𝒘 𝒚 − 𝑿𝒘 + 𝜆𝒘 𝑇 𝒘 𝜕 𝐿 𝒘 = −2𝑿 𝑇 𝒚 + 2𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 + 𝜆𝒘 𝜕𝒘• これを0とおく 𝑿 𝑇 𝑿𝒘 + 𝜆𝒘 = 𝑿 𝑇 𝒚 𝑿 𝑇 𝑿 + 𝑰𝜆 𝒘 = 𝑿 𝑇 𝒚 𝒘 = 𝑿 𝑇 𝑿 + 𝑰𝜆 −1 𝑿 𝑇 𝒚 行列の微分 𝜕 𝑇 𝜕 𝑇 𝒂 𝒙= 𝒙 𝒂= 𝒂 𝜕𝒙 𝜕𝒙 𝑇 13 𝑨𝑩 = 𝑩𝑇 𝑨𝑇
  14. 14. 確率的勾配法で解く場合 L2正則化LMSアルゴリズム INPUT: (𝒙 𝑛 , 𝑡 𝑛 ) ∈ 𝑫, 𝑇, 𝜂 OUTPUT: 𝒘 1: Initialize 𝒘0 = 𝟎 2: FOR 𝑛 in 0 to 𝑇 − 1 3: Obtain random sample (𝒙 𝑛 , 𝑡 𝑛 ) from 𝑫 4: 𝒘 𝑛+1 ← 𝑤 𝑛 − 𝜂 𝑡 𝑛 − 𝒘 𝑇 𝒙 𝑛 𝒙 𝑛 + 𝜆𝒘 𝑛 𝑛 5: ENDIF 6: ENDFOR 7: RETURN 𝒘 𝑇 14
  15. 15. 正則化項について (1/2)• 一般的な正則化項 𝑀 𝜆 𝑞 𝐸𝑤 𝒘 = 𝑤𝑗 2 𝑗=1• 𝑞 = 2のときL2正則化項 – q=1はlassoとも呼ばれる.q=2はridge 15
  16. 16. 正則化項について (2/2)• 誤差関数と正則化項を横から眺める – (ホワイトボード)• 二乗誤差関数+L2正則化項 (凸+凸=凸) – 証明はぐぐってください 16
  17. 17. 正則化項の解釈• 正則化していない二乗誤差を以下の制約条件 で最小化することと等しい (演習3.5) 𝑀 𝑞 𝑤𝑗 ≤ 𝜂 𝑗=1• こたえ 𝑀 𝑞 𝜂= 𝑤 𝑗∗ 𝜆 𝑗=1 与えられた𝜆における誤差関数の最適値に依存 (゚Д゚)ハァ? 17
  18. 18. 図3.4 を眺める• 謎の図も今ならわかる 18
  19. 19. 3.1.5 出力変数が多次元の場合 19
  20. 20. 目標変数が多次元の場合• 𝐾次元の目標ベクトル𝒕の推定を試みる 𝒚 𝒙, 𝒘 = 𝑾 𝑇 𝜙(𝒙)• 結論 (3.1.1と同様のロジック) – 最尤推定値 𝑾 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝐓 – 各次元の目標変数が相互に依存しないため,𝑘 番目の目標変数を推定するためのパラメータは 𝒘 𝑘 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕 𝑘 で求めることができる 20
  21. 21. おしまい 21
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×