Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

4,477 views

Published on

ビショップ著「パターン認識と機械学習と機械学習」勉強会資料です。
第3章「線形回帰モデル」のうち、章の頭から3.1.5までを扱っています。

Published in: Technology
  • Be the first to comment

[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)

  1. 1. [勉強会]パターン認識と機械学習 第3章 線形回帰モデル (p.135 – p.145) 音丸 格 Itaru Otomaru Ph. D. / @itaruotton
  2. 2. 線形回帰?  回帰問題の目標  与えられたD次元の入力(input)変数のベクトルxの値から、 1つ、あるいは複数の目標(target)変数tの値を予測すること。  線形回帰モデル  もっとも単純な形の線形回帰モデルは、入力変数に関しても線形  通常は、入力関数に関して非線形な関数の固定された集合の 線形結合をとる(基底関数)
  3. 3. 3.1 線形基底関数モデル  定式化        1 1 0, M j jjwwy xwx  • x: 観測値 • w: パラメータ • φj(x): 基底関数 w0は任意の固定されたオフセット量を許容するバイアスパラメータ。 φ0(x) = 1とおくと、以下のように書ける。      xwxwx  T M j jjwy     1 0 ,
  4. 4. 基底関数の例  ガウス基底関数  シグモイド基底関数           s x x j j                 2 2 2 exp s x x j j  
  5. 5. 3.1.1 最尤推定と最小二乗法  「1.2.5 曲線フィッティング再訪」における例が再び出てくる  尤度関数  両辺にlogをとって、対数尤度は     1 1 ,|Ν,,|     n T n N n tp xwwxt        N n n T ntΝp 1 1 ,|ln,|ln  xwwt       N n n T n xt NN 1 2 2 1 2ln 2 ln 2  w
  6. 6. 最尤推定による w の決定  式(3.11)を w について微分すると  式(3.13)の左辺を0とおいて、w = ○ の形に書き換えると、            n N n n T n N n n T nn t tp xxw xwxwt         1 1 2 22 2 1 ,|ln (3.11)        N n n T n xt NN p 1 2 2 1 2ln 2 ln 2 ,|ln  wwt (3.13)           N n T nn N n n T n t 1 1 ML xx x w                  N n N n n T n T nnt 1 1 0 xxwx 
  7. 7. 計画行列(design matrix)  上式の分子を書き下すと  分母も同様の形で書けるため、wMLは以下の通り書ける。  Φを計画行列(design matrix)と呼ぶ。           N n T nn N n n T n t 1 1 ML xx x w   • w = (w0, …, wM-1)T • Φ = (Φ0, …, ΦM-1)T ちなみに…                     tΦ xxx xxx xxx x T NNMMM N N N n n T n t t t t                                       2 1 12111 12111 02010 1       tΦΦΦw TT 1 ML  
  8. 8. 最尤推定による β の決定  式(3.11)をβについて微分すると、  上式の左辺を0とおくと、         N n n T n xt NN p 1 2 2 1 2ln 2 ln 2 ,|ln  wwt (3.11)       N n n T nt N p 1 2 2 11 2 ,|ln xwwt               N n n T n N n n T n t N t N 1 2 ML 1 2 11 2 1 2 xw xw ML     (3.21)
  9. 9. 3.1.2 最小二乗法の幾何学 (1)  目標値 t と計画行列 Φ                                    NMNN M M xxx xxx xxx Φ 110 212120 111110        φ0 φ1 φM-1                Nt t t  2 1 t N次元ベクトル M個のN次元ベクトル φj からなるN×M次元行列
  10. 10. 3.1.2 最小二乗法の幾何学 (2)  たとえば、N = 3でM = 2だったら…  t は3次元ベクトルで、3次元空間における1点を示す  2つの3次元ベクトルφ1とφ2によって、2次元平面 S が定義できる。 図3.2 (pp. 141)
  11. 11. 3.1.2 最小二乗法の幾何学 (3)  n番目の要素が y(xn, w)で与えられるN次元ベクトル y y                     110000 110000 111100100 1 0 1 0 1 1 , ,                                                  MM NMMNN MM M j Njj M j jj N www www www w w y y           xxx xxx x x wx wx つまり、ベクトル y は、ベクトルφjの線形結合であらわされる
  12. 12. 3.1.2 最小二乗法の幾何学 (4)  ベクトル y は、ベクトルφjの線形結合であらわされるので、M次元空間 S 上の ある1点を表すベクトルである。  最小二乗解は、部分空間S内にあり、tに最も近いyを選ぶことに相当する 図3.2 (pp. 141) つまり、tの、部分空間Sへの正射影である。
  13. 13. 3.1.3 逐次学習  逐次学習のアルゴリズムは、確率的勾配降下法(stochastic gradient descent)を適用することで得られる。  条件:  パラメータベクトルの更新手順: 1. 現在のパラメータベクトル wτ 2. データx1,…,xNの中から一つランダムにピックアップ 3. 選んだデータに対応する勾配でパラメータ更新  n nEE コスト値は、個々の学習データ(n=1,…,N)に対する コスト値の和に等しい nE  )()1( ww 参考:SGD+α:確率的勾配降下法の現在と未来 http://www.slideshare.net/kisa12012/sgd-future-best-27314417
  14. 14. 3.1.4 正則化最小二乗法  正則化項を加えた時の最小二乗解の導出  正則化項を加えた誤差関数  上式を展開  wについて微分  上式を0とおくと     N n T n T n xt 1 2 22 1 www   (3.27)      wwwww T N n n T N n n T n N n n xxtt 22 1 2 1 1 2 11 2          ww     N n n N n nn xxt 1 2 1             N n nn N n n xtx 11 2  Iw 計画行列Φを用いて左式を整理して   tΦΦΦIw TT 1   (3.28)
  15. 15. 一般的な正則化誤差項  式(3.27)は、正則化コストがwの二乗で効く場合である。 より一般的には、下式で表される。  異なる q の値に対する正則化関数の等高線表示       N n M j q jn T n wxt 1 1 2 22 1  w (3.29) M: パラメータの次元数 特に、q = 1のときを、lassoと呼ぶ 図3.3 (pp. 143)
  16. 16. Lassoによって疎な解が得られるイメージ q = 2の場合 q = 1の場合 青線:正則化されていない誤差関数の等高線表示 赤線で囲まれた領域:正則化項の制約条件を満たす領域  q = 2の場合、正則化項の制約条件を満たしかつ誤差関数を最小化するwは、 w1 ≠ 0 かつw2 ≠ 0  一方、q = 1の場合は、w1 = 0
  17. 17. 3.1.5 出力変数が多次元の場合  これまでは、出力変数 t が1次元の場合を議論してきた。 一方、t が K 次元の場合でも、同様に最尤解を求めることができる。   TΦΦΦW TT 1 ML   (3.34)

×