Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

クラシックな機械学習の入門 3. 線形回帰および識別

7,365 views

Published on

データから母集団の分布を学習する基礎になる線形回帰と線形識別について説明します。特に重要な概念は正規方程式です。発展的な話としては正則化ですが、スパースなモデル学習に効果があるL1正則化について説明します。

Published in: Engineering
  • Be the first to comment

クラシックな機械学習の入門 3. 線形回帰および識別

  1. 1. 3. 線形回帰および識別 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 生成モデルを利用した識別 2乗誤差最小化の線形識別の問題点 クラシックな機械学習の入門 by 中川裕志(東京大学)
  2. 2. 線形モデル データ の分布状況 から線形回帰式を求 める w0 x y y=w1x+w0
  3. 3. 線形モデル T 101 0 ],,,,[,],,,1[, K T Ki K i i wwwxxxwy    wxwx ただし、 入力ベクトル:x から出力:y を得る関数がxの線形関数 (wとxの内積) 一般に観測データはノイズを含んでいる。つまり 得られたN個の観測データ の組(y,X)に対して最適なwを推 定する。 そこで、yと の2乗誤差を最小化するようにwを選ぶ。 と考える。はノイズで ),0(, 2  Ny  wx wX
  4. 4. 2乗誤差の最小化 yXXXw yXXwX w XwyXwy XwyXwyww x x Xy TT w N 1 TT T T K NKN K T T N w w w w xx xx y y 1 1 0 1 1111 )( 0 )()( )()(minargˆ 1 1                                                     を解くと の推定値    正規方程式 と呼ばれる基本式
  5. 5. 補遺:正規方程式の導出                       )(2)()( ..)( ..)(..)(..)( ..)( ..)(..)(..)()()( )()( rulechain 0222)1( 2 )1(0 )()( )()()( 1 XwyXXwyXXwyX y yy w y y yy w y w XwyXwy x x x x x x yXXXw XwXyXXwXyXXwyX XwXXXwXwX w wXXw w XwXw w XwXw yXXy w Xwy a x xa yX w yXw a x ax w XwXw w Xwy w yXw w XwyXwy XwXwXwyyXwyyXwyXwyXwyXwy                                                          TTT T TTTT TT TTTTT TTTTT TTTTTT TTT TT T TTT TTTTTT TTTTTTTTTT g gfggf cf        を使えば  の 行列で微分する場合 よりより
  6. 6. 正規方程式を解く簡単な例                                                                                                                                                                                     N i i N i i N i i N i i N i i N i i N i ii N i i N i i N i i N i i N i ii N i i N i i N i i N i i N i i N i i N i i N i ii N i i N i i N i i N i i N i i T TT N i ii N i i N i i N i i N i i N N N N T NN xw N y N w xxN yxyxN N x N y xxN yxxyx w xxN yxyxN w Nx xx xxN yx y w w xx xN y y xxw w x x xx w w y y x x 1 1 1 02 11 2 11111 2 11 2 1111 2 0 2 11 2 111 1 1 11 2 2 11 2 1 1 1 1 0 1 2 1 1 1 11 0 1 1 1 0 11 11 1 11 1 1 11 1 1 XX yXwXX yXXwXwyX T         は正規方程式         
  7. 7. 用語:誤差、損失、目的関数  線形モデルで最小化したかったのは2乗誤差  真のモデルにおける値(2乗誤差におけるy)と 予測値(2乗誤差におけるXw)の差異を表す関数を 損失関数(単に損失)あるいはLossと呼び、Lで表す ことが多い。  上記のような最適化問題において最小化(一般的に は最適化)したい関数を目的関数と呼ぶ。  線形モデルの2乗誤差最小化では 2乗誤差=損失=目的関数
  8. 8. 線形モデルの一般化   T Ky )](,,)(,1[, 1 xxxw(x)   基底関数 重み N個の観測データ(y,x)に対して (y、φ(x))が得られたとすると、2乗誤差を最小化するwは前 を同じく以下の通りだが、少し別の見方で解く。 yxφxφxφ TT w )())()((ˆ 1  基底関数の例                             T T x x xφ N 1 N 1 y y y                 urierFast Fo:even):(m2exp sigmoidal: /exp1 1 Gaussian: 2 exp lpolynomina: 2 2                     m xj ix sx x s x x xx j j j j j j j      
  9. 9.  {x(ベクトル),y}が観測データ(training data)  w,βを決定する、即ち (p(y|x,w,β)を最大化)  N組のi.i.d.観測データすなわち教師データがあるとする。 正規方程式を求める別の方法                         K T T T N w w w wyy   1 0 1 ),,( N 1 x x Xy すると次のページのようにp(y|x,w,β)が書ける。 ),),(|(),|( .),0(),( 1 21       wxwx, wx φyNyp Nφy を精度と呼ぶ
  10. 10. 両辺のlogをとる ),),|(),( 1 1     N i i φyNp w(xwX,|y i     N i iyL L NN wp 1 2 0 , 2 1 )( )(2log 2 log 2 ),,(log w)(xw wX,w|y i  log p(y|w,X,β)をw,βについて最大化したい。まず、 wについて最大化する。
  11. 11.   yφ(X)φ(X)φ(X)w wφ(X)φ(X)yφ(X) w)(x)(x)(x w)(x)(x w Xw,|y iii ii TT TT N i T N i i N i i y y p 1 11 1 )(ˆ )( 0 0, ),(log                                   T N T φ φ x x xφ  1
  12. 12. バイアスw0の部分だけに注目してみると • 対数近似関数から最適なw0を によって求めると                                                                                                                             K j N i jj N i i N i K Ki N i K Ki N i K Ki N i K Ki w N y N w w w w y w w w y w w w w y w w w w y w L 1 11 0 1 0 1 1 1 1 0 1 0 1 2 0 1 1 0 1 2 1 0 1 0 ) 11 0))),..(2))),..,1(2 ))),..( ))),..,1( i iiii ii ii (x (x(x(x(x (x(x (x(x w        yの平均 基底関数の学習データの平均のw 重み付き和
  13. 13. 精度βを求める。 log p(y|w,X,β)をβに対して最大化 ただし、wは最適化されたものを用いる              N i i N i i y N yL L Np 1 21 1 2 ˆ 1ˆ ˆ 2 1 )( )ˆ( 2 ),ˆ(log w)φ(x w)φ(xw w X,w|y i i    yの予測値と観測された値の差の2乗の平均
  14. 14. φ1(x) φ2 (x) 新規データ:y   S:が張る空間wx yからSに最も近い点(垂直に落としている) 幾何学的イメージ
  15. 15. 計算の効率化  大きなdata setsに対して の右辺第1項の逆行列計算量が問題  特にデータの次元Nに対してO(N3)なので高次 元だと大変  定石は、コレスキー分解O(N2)して上/下半3角 行列で表現される連立方程式を2回解く  L(w)を最小化するようなwの数値計算 yφφφw TT 1 )(ˆ   T nnny L )())(( )( )()( )()1( xwxw www       目的関数(すなわち損失L(w))の減る方向へ進む( ー gradientをwに加える)方法をgradient descent は呼ばれ、 最適化における基本的数値計算法である。
  16. 16. 正則化項の導入 モデルを複雑にするほど学習データにはよく 合致するが、学習データ以外のデータには弱 いという過学習を起こす。 過学習を抑えるために、損失関数に正則化 項を導入。 正則化項にはモデルをできるだけ簡単化す る方向に作用する。 データが高次元の場合には次元削減効果あり。
  17. 17. 一般的な正則化項 正則化項  q=2のときがL2正則化  q=1のときはLASSO: 1ノルムによる正則化なの で L1正則化と呼ぶ  Least Absolute Shrinkage and Selection Operator  λが十分大きいと、wjのいくつかは0になりやす い → スパースなモデル q=0のときはL0正則化。解きにくい問題(上記2つ と違い凸ではない)      K j q j N i ii wφyL 1 2 1 || 2 ), 2 1 )(  w(xw
  18. 18. • 制約 のもとで、L(w)を最小化する、と考える。  qK j jw 1 q=0.5 q=1 q=2 q=4
  19. 19. 正則化項 (wの影響を小さく する効果) Wの2ノルムによる 正則化であるので、 L2正則化と呼ぶ   yφ(Xφ(Xφ(XIww www(xw w TT T N i ii L φyL ))))()(minargˆ 2 ), 2 1 )( 1 2 1        最小化すると 最適なwはL(w)を微分して0とすれ ば上記のように解析的に閉じた式で求 まる。 これはφ(X)とλの案配よって決まり、 どの成分も強制的にゼロにしようとい う力は働かない L2正則化
  20. 20.      K j j N i ii wφyL 1 2 2 1 2 ), 2 1 )(  w(xw W1 W2 最短の2乗距離 で結ぶ L2正則化のイメージ
  21. 21. L1正則化 L2正則化ではwの最適値 を損失Lの微分 で閉じた式で求められたが、L1正則化では |w|がw=0で微分できないので、ややこしくな る。 L1正則化を行う逐次的な方法と L1正則化がwの要素の多くをゼロ化する傾 向を以下で説明する wˆ
  22. 22. 1      K j j N i ii wφyL 1 2 1 2 ), 2 1 )(  w(xw W1 W2 Loss+L1の 最小距離で 結ぶ Case 3 では、 W2=0となる 2 3 Loss L1 しかし、この説明図では 大雑把だ!以下でL1正 則化に関してもう少し細 かく議論する。 L1正則化イメージ: 軸でのLossの微分=0として を求める2w 2 ~w
  23. 23. ある次元dに着目してL(w)を最小化するような wdを求める。 これを各次元について繰り返し、 L(w)の最小化 を図る。 wdについてL(w)を書き直すと  とおきwdの最適値を求めたいが絶対 値を含む第2項L1(w)が微分できないので、ひと まずLoss(w)を微分して0とおくと   )101(|| 2 ), 2 1 )( 1 2 1    LwφyL K j j N i ii  w(xw                               )201(1 22 1 1 2                       LLLoss wwwwyL dj jd N i dj jijdidi ww xxw     0   dw L w
  24. 24.                                                                         N i id N i dj jijiid d d N i dj jijdidiid N i dj jijdidi dd wy w wwwy wwy ww Loss 1 2 1 1 1 2 ~ ~0 2 1 x xx xxx xx w     とするの解を   これを用いてL(w)を書き換える。ただし、wdに関係しないところ は当面定数と見なせるので、無視した。                       Constwwww Constwwywww ConstwwywwwL d N i iddd N i idd d N i N i id dj jijidid N i idd N i idd d N i dj jijididdidd                                                   1 2 1 22 1 1 2 1 2 1 22 1 22 ~2 2 2)~(2 xx xxxxx xxx      
  25. 25.       が働くスパース化)される力になりゼロ化  がゼロに近づくとの解のすなわちにより   矛盾    すなわちだと          矛盾すなわちだと          なぜなら なら    なので  なら    なので なら  を探すなる とおくと、ここで (0 ~~3case ~0~0 ~0~0 0~3case ~00~2case ~00~1case 0 )( 0undefined 0~ 0~ )( ~ 2 1 )( 2 2 1 2                         d ddd ddd ddd dd dddd dddd d d d d ddd ddd d d dddddN i id w wwLossw www www ww wwww wwww w w wL w www www w wL constwwwwwL w x            
  26. 26. W全体の正則化 [step 1] w の各要素を適当な値に初期化 [step 2] w の各要素の値w_k(k=1,..,K)が収束 するまで以下step 3,4,5 を繰り返す [step 3] k=1,.., Kでstep 4,step 5を繰り返す [step 4] wj (j ≠ k)を用いて case1,2,3にし たがってwjを計算してゼロ化 [step 5] wkを更新 [step 6] 収束したらwの最終結果とする
  27. 27. wdのゼロ化のイメージ dw~       dw
  28. 28. L1正則化が支配的になり をゼロ 化する様子を下図で例示する dwˆ λ大 λ小 wd L(wd) dw 2乗誤差Loss が支配的 正規化項L1 が支配的 0
  29. 29. 正則化項のBayes的解釈  Bayesでは事後確率は 観測データの確率×事前確率  事後確率を最大化するパラメタηを求めたい  ここで対数尤度にしてみると、次のように解釈できる             |log|logmaxargˆ ||maxargˆ PXP PXP   パラメタは事前分布のハイパー 損失関数 正則化項
  30. 30. 例:事前分布、事後分布とも正規分布                 ノルムによる正則化項     とすると  事前分布の重みをここで、        も同様にすると事前分布 L2 2 ),( 2 1 maxarg ,0 2 1 ),( 2 1 minarg ),|(log),|(logminarg 2/),|(log ,| 2/),()1,),(|(log)1,|(log )1,0()( ),,( 2 2 2 1 0 1                                                      wwwx wwwx ww,x www w wxwxw,x wx w x x Xy w w w N 1 T i ii T i ii i ii T i ii i ii i ii K T T T N φy φy pyp p p φyφyNyp Nφy w w w yy          事前分布のwの 分散:λー1 とも見 える。
  31. 31. 例:事前分布がLaplace分布、事後分布が正規分布       ノルムによる正則化項         も同様にすると分布の事前分布は期待値 L1 2 ),( 2 1 minarg )|(log),|(logminarg 2 )|(log 2 exp 4 |0 2/),()1,),(|(log)1,|(log )1,0()( 2 2                              wwx ww,x w w w w wxwxw,x wx w w        i ii i ii i ii i ii i ii φy pyp p pLaplace φyφyNyp Nφy
  32. 32. 以上、述べてきた線形回帰のよるモデル化は、 生成モデル 当然、線形の識別モデルもある。次以降は線 形識別モデルの話
  33. 33. 線形識別 と の領域の 境界面を線形関数 として求める
  34. 34. 線形識別  データ:  xがいくつかのクラス(あるいはカテゴリー):Ckのどれか に属する。  例:新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラ スのどれかに属する場合。この場合、データ:xは例えば、記事に 現れる単語の集合、など。  データ:xがK個のクラスの各々に属するかどうかの判定 は(-1=属さない,1=属する)の2値を要素とするK次 元ベクトル:yi=(-1,1,-1,..,1)で表される。  ただし、1つのクラスに属するか属さないかだけを識別すの場合は 2クラス分類という。当然、 yi=ー1 or yi = 1  この属するか否かの判断をする式が線形の場合を線形識 別という。 T Mxxx ],,,[ 21 x
  35. 35.  線形識別の関数 一般化線形識別の関数は以下  2クラス分類  クラスC1に属するかC2(=notC1)に属するかは、次 の通り  if y(x)≥0 then データ:xはC1に属する otherwiseデータ:xはC2に属する (すなわちC1に属さない) wxx w w x x wxx ~,~)(~, 1~ ,)( 0 0               y w wy とおくならあるいは は非線形でもよいfwfy ),()( 0 wxx
  36. 36. 2値分類の直観的説明  y={-1,1}、xは2次元とする。(下図を参照)  {y,x}を教師データとして、2乗誤差の最小化を行っ て正規方程式を求めると、下図の のようなクラス を分類する分離平面が得られる。 y=-1 y=1 x1 x2 境界面
  37. 37. 線形識別関数の幾何学的解釈 x xa xb w xc |||| )( w xy |||| 0 w x w d   直交。すなわち識別境界線とは )( )()()(0 0)(,0)( 00 ba baba bbaa yy wywy xxw wxxxx wxxwxx    識別境界線 |||| ||0|||||||||||| )(0 0 0 2 0 0 w xwxwww wx wx wxx x w wcwc c wy dd T T d d dd d    に代入して整理するとと書ける。これを上式 から、に並行で横ベクトルだは とおく。の垂線の交点を原点から識別境界線へ xd
  38. 38. 線形識別関数の幾何学的解釈 x w xc |||| )( w xy r  |||| 0 w w 識別境界線 |||| )( 0)( ||||)( |||| )( |||| 00 0 w x x wx w ww wxwxx w w w xx y ry ryrwwy wr c c T T c T c    だから を足すとを掛け、から両辺の転置をとり、右 xa xb xd
  39. 39. wの計算方法:2クラス分類の場合  .  すると新規のデータ:xは が正ならクラス C1に,負ならC2属する  . で書けるとするの境界がクラス wxx ~,~)(, 21 yCC )~(xy                                      wx wx WXY x x X x ~,~ ~,~ ~~ ~ ~ ~ 10,1 ),1(,~ 111 NN T N T nn nn y y yy NnyN  なら  ただしクラス1なら があったとき個の教師データ
  40. 40.  すると、観測データ(教師データ)において個々のクラスに 分類されたか否かの観点からの2乗誤差は次式となる  もう少し詳しく書くと    YWXYWXW  ~~~~ ) ~ ( T E              22 11 11 11 ~,~~,~ ~,~ ~,~ ~,~~,~ ~~~~ NN NN NN T yy y y yy                wxwx wx wx wxwx YWXYWX  
  41. 41.  これを最小化する は で微分して0とおけ ば、線形回帰のときと同様の計算により求まる。  微分は次式:    YWXYWXW  ~~~~ ) ~ ( T E W ~ W ~     YXXXW YWXX W W TT TE ~ ) ~~ ( ~ 0 ~~~ ~ ~ 1        YWXXYWXAA W A W AA       ~~~ 2 ~~ 2 T TT
  42. 42.  新規のデータxnewに対する予測を行うy(xnew)も求ま る。 YXXXxWx x x xy YXXXW TT newnew newK new new TT y y ~ ) ~~ (~~~ )~( )~( )~( ~ ) ~~ ( ~ 1 1 1                 y(xnew)が大きいほどクラス C1 に属する可能性が高い。
  43. 43. wの計算方法 :多クラス分類の場合  .  すると新規のデータ:xは が最大のkのクラ スCkに属する  . で書けるとする。が線形識別モデルクラス kkk yC wxx ~~)(  )~(xky   Wxwxwx xxyx ~~~,~~,~ )]()([)( 1 1   K T Kk yyKy                 個並べたベクトルを                                      KNN K N T N T n n nn K K NnN wxwx wxwx WX y y Y x x X y x yx ~,~~,~ ~,~~,~ ~~ ~ ~ ~ )1,...,1,1,1( ~ ),..,1(,~ 1 11111     のような形。次元ベクトルは らに属することもあるな個のクラス内の複数個は 注 があったとき個の教師データ
  44. 44.  すると、観測データ(教師データ)において個々のクラスに 分類されたか否かの観点からの2乗誤差は次式となる  もう少し詳しく書くと     YWXYWXW  ~~~~ ) ~ ( T TrE                 22 11 2 11 2 1111 11 111111 11 111111 ~,~~,~ ~,~~,~ ~~~~ ~,~~,~ ~,~~,~ ~,~~,~ ~,~~~ ~~~~ NKKNKK NN T NKKNNN KK NKKNKK NN T yy yy Tr yy yy yy yy                              wxwx wxwx YWXYWX wxwx wxwx wxwx wxwx YWXYWX      
  45. 45.  これを最小化する は で微分して0とおけ ば、線形回帰のときと同様の計算により求まる。  Trの微分は次式:     YWXYWXW  ~~~~ ) ~ ( T TrE W ~ W ~     YXXXW YWXX W W TT TE ~ ) ~~ ( ~ 0 ~~~ ~ ~ 1        YWXXYWXAA W A W AA       ~~~ 2 ~~ 2 )( T TT Tr
  46. 46.  新規のデータxnewに対する予測を行うy(xnew)も求ま る。 YXXXxWx x x xy YXXXW TT newnew newK new new TT y y ~ ) ~~ (~~~ )~( )~( )~( ~ ) ~~ ( ~ 1 1 1                 yi(xnew)が大きいほどそのクラス i に属する可能性が高い。 もちろん、 yi(xnew)が最大となるi のクラスに属すると考え るのが自然。だが。。。
  47. 47. 生成モデルを利用した識別  識別はベイズ統計的には次式  N個のデータ:xk(k=1,..,N)があるクラスに属するかど うかの判定は(0=属さない,1=属する)の2値を要 素とするN個のK次元ベクトル:y=(0,1,0,..,1)で表さ れる。 以下のベイズ統計による分類では、属さない場合を-1では なく0とすることに注意。  以下ではベイズ統計による2クラス分類をする場合に 事後確率について考える。 )( )()|( )|( x x x p CpCp Cp kk k 
  48. 48. Logistic sigmoid function  クラスC1の事後分布は次式(s-1)   )1( )exp(1 )exp( )exp(1 1 )exp(1 )exp( d d 1 log)(1)( )()|( )()|( log functionsigmoidlogistc1)-(s-)( )exp(1 1 )()|()()|( )()|( )|( 2 22 11 2211 11 1                        a a aa a a aaa CpCp CpCp awhere a a CpCpCpCp CpCp Cp x x xx x x
  49. 49. クラスC1,C2が共分散∑が等しい2つの 正規分布の場合の事後確率 p(C1|x)  式(s-1)によって以下のように導ける。                       )( )( log 2 1 2 1 )( )( )( log 2 1 2 1 )( )( log 2 1 2 1 ||2log ||2log )()|( )()|( log 2 1 exp || 1 2 1 )|( 2 1 2 1 21 1 121 1 2 1 2 1 2 1 22 1 1 1 1 1 11 1 2 1 2 1 21 1 1 2 1 2 2 1 2 22 11 1 2 1 2 Cp Cp Cp Cp Cp Cp CpCp CpCp Cp TTT TTTTTT TT K K i T iKi                                                       x xxxx xxxx x x xxx ∑が2つのクラスで等しいことにとってキャンセルしてい ることに注意。等しくないともう少し複雑。
  50. 50. クラスC1,C2が共分散∑が等しい2つの 正規分布の場合の事後確率 p(C1|x)            )( )( log 2 1 2 1 )( exp1 1 )|( )( )( log 2 1 2 1 )( )()|( )()|( log 2 1 exp || 1 2 1 )|( 2 1 2 1 21 1 10 21 1 0 01 2 1 2 1 21 1 121 1 22 11 1 2 1 2 Cp Cp w where w wCp Cp Cp CpCp CpCp Cp TT T T TTT i T iKi                               w xw xwx x x x xxx 事後確率: ∑が2つのクラスで等しいことにとってキャンセルしている ことに注意。等しくないともう少し複雑。
  51. 51. 次に Maximum likelihood solution (つまりw,w0)を 求める。これによって、各クラスの事後確率が求まる  ここで各クラスの事前確率が以下だったとする             )10(,...., 1,|)1(,|),,,|( ,|)1()|()(),( 0 ,|)|()(),( 1 1)()( 1 2 1 121 2222 2 1111 1 21         sttwhere ntN nt Np Nlikelihood NCpCpCp tC NCpCpCp tC CpCp T N n N n n nnn nn nnn nn t xxt xxx x xxx x     う個あることを思い出そ観測データはは次式ここで としに属するときが観測データ としに属するときがこのとき観測データ
  52. 52. (s-10)のlogすなわち log likelihood function を最大化すること が目標 まず、最大化するπを求める。 (s-10)のlogのπに関する部分は次式(s-20) logp (π)   に属するデータ数。はクラス に属するデータ数。はクラス 22 11 21 11 1 1 1 0 )(log )1log()1(log)(log CN CN where NN N N N t N p ttp N n n N n nn             
  53. 53. 次に (s-10)の log を最大化する μ1 を求める。 (s-10)のlogのμ2 に関する部分は次式(s-30) logp (μ1 )              N n nn n T n N n nn N n n t N p tNtp 11 1 1 1 1 1 1 1 1 1 1 1 0 )(log const 2 1 ),|(log)(log x xxx     同様にしてμ1も求めると               N n nn n T n N n nn N n n t N p tNtp 12 2 2 2 2 1 2 1 2 1 2 )1( 1 0 )(log const )1( 2 1 ),|(log)1()(log x xxx    
  54. 54. 最後に (s-10)の log を最大化する精度行列 Λ=∑-1 (C1 とC2共分散) を求める。 (s-10)のlogの∑ に関する部分は次式(s-40) logp (∑ ) logp (Λ )をΛ で微分して0とおき、 (s-10)の log を最大化 するΛ =∑-1 を求める。 まず第1項の微分は線形代数学の公式より )40()( 2 ||log 2 )())(1( 2 1 ||log)1( 2 1 )()( 2 1 ||log 2 1 )(log 22 11 11 11        sSTr NN tt ttp n T n N n n N n n n T n N n n N n n    xx xx       が対称が対称 1 11 )50( 22 ||log 2         s NN N T
  55. 55. T Cn nn T Cn nn NN S Ss     21 ))(( 1 ))(( 1 )40( 2211  xxxx は次式の 次はTr(ΛS)をΛで微分して0とおき、 logp(Λ) を最大化するΛ を 求める。 T Cn nn T Cn nn T NN S S NNp sSS STr             21 ))(( 1 ))(( 1 0 22 )(log )60( )( 2211 1 1  xxxx 
  56. 56. このようにして、教師データ集合 {(xn,tn)n=1,..N}からμ1, μ2,Σ-1(=Λ),πが求まっ たので、これらを用いて定義されるw,w0も求ま る。 未知データxがクラスC1に属する確率は なので、この分布を教師データから学習できた。                  1 log 2 1 2 1 )( exp1 1 )|( 2 1 21 1 10 21 1 0 01 TT T T w where w wCp w xw xwx
  57. 57. 2乗誤差最小化の線形識別の問題点 この領域の判断が 困難 この領域に青の 境界線が引っ張 られることあり。 そもそも、Yの値は正規分布を想定した理論なのに、{0、1} の2値しかとらないとして2乗誤差最小化を当てはめたところ に無理がある。

×