Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
4. 学習データと予測性能
Bias2 - Variance - Noise 分解
過学習
損失関数と Bias,Variance, Noise
K-Nearest Neighbor法への応用
bias2とvarianceの間のトレードオフの
...
過学習:over-fitting
教師データによる学習の目的は未知のデータ
の正確な分類や識別
過学習(over-fitting)
教師データに追従しようとすればするほど、複雑な
モデル(=パラメタ数の多い)になり、教師データへ
の過剰な...
 xが与えられたときの結果:tの推定値=y(x)
 損失関数: L(t,y(x)) ex. (y(x)-t)2
 損失の期待値:E[L]を最小化する t の推定値=E[t|x]
この導出は次の次のページを参考にしてください
 E[L]...
参考:E[L]の計算
      
           
     
 
     
     
      
 
 ...
参考:E[L]を最小化するt の推定値=E[t|x]の導出
         
 
 
         
     
 
 
 
 
   xx
x
x
x
...
 E[t|x]はxによって決まる。E[L]は次式でした。
 第2項
()内の左の項は、観測値として与えられたxに対して
E[L]を最小化するtの予測値だから、()内の右の項すな
わち真のt との差は、観測における誤差と考えられる。
y(...
は、データ点の観測に伴う誤差あるいはノイズの効果を示し、真の
データ点は、大体 のような範囲にある。このノイズの項が既
に述べた次の式:
xxx dtd),()]|[( 2
tpttE 
 E[L]の第1項と教師データ集合:Dから機械学習で
得た y(x;D)の関係について考えてみよう。
 母集団のモデルとしてp(x,t)を想定する。このモデ
ルからDという教師データ集合が繰り返し取り出さ
れる状況を考えてみる。
 Dから...
]):|[)]:([)])(:([):((2
]):|[)]:([()]):([):((
]):|[)]:([)]:([):((]):|[):((
22
22
DtEDyEDyEDy
DtEDyEDyEDy
DtEDyEDyEDyDtEDy
D...
以上により損失の期待値:E[L]=bias2+variance+noise
dtd),:()]:|[(
d)(])]):([):([(
d)(]):|[)]:([(
][
2
2
2
xxx
xxxx
xxxx
tDptDtE
pDyEDyE
...
小 正則化項の重みλ 大
予測誤差
bias2
variance
variance+bias2
noise
新規データに対する誤差:
variance+ bias2+ noise
小 正則化項の重みλ 大
 L2正則化の場合
観測データに大きく異存小 λ 大正則化項(事前分布)に大きく依存
 L1正則化の場合:重みがゼロ化される次元をみると
ゼロの次元が少なく複雑 小 λ 大ゼロの次元が多く単純
vari...
bias2とvarianceの間のトレードオフをK-Nearest Neighbor法
と線形回帰で具体的に見てみよう。
K-Nearest Neighbor法
2クラスへの分類問題で考える。
教師データはクラス: とクラス: と判定された...
下の図のような教師データの配置で考える
K=1の場合:クラス青,赤の確率が等しい境界線は以下のようにかなり複
雑。相当多くのパラメターを使わないと記述できない。教師データ数に強く
依存。
は新規に到着した分類すべきデータ
の点は本来赤い点かもしれないが、青だと判断される。
の点は本来...
K=3の場合のクラス間の境界
境界線はだいぶ滑らか。K=1の場合より境界を決
めるパラメターは多い
この点は本来赤かもしれないが青と
判断される
この青の近辺のデータは本当に青かもしれな
いが、新規データとしては頻出しない
K=13以上だと、どんな新規データでも赤と判定される。
K=1だと非常に複雑な境界線であり、個々の教師データに
強く依存した結果をだすため、過学習をしやすい。 varianceが
大きい。
Kが大きくなると、境界線は平滑化される方向に進む。教師
データを適当な数使って結果を出すので、過学習を起こ...
K=13K=3K=1
境界線が単純境界線が複雑
Error rate
bias2
variance
新規データの予測誤差
=bias2+variance+noise
最適なK
bias2とvarianceの間のトレードオフを
線形回帰で具体的に見てみよう。
まず線形モデルのパラメタ-w推定の復習から
と考える。はノイズで    
ただし、
),0(
),,,,(,),,,1(
,
2
T
101
0


N
...
と考える。はノイズで             
ただし、
),0(
),,,,(,),,,1(,
2
T
101
0


N
wwwxxxwy K
T
Ki
K
i
i   
wxwx
入力ベクトル:x から出力:...
 
   
    )2(,d|d|,
d|,]|[
)1(d|]|)([
)1(,
)0(dd),()]|)([(
d)(])|)([)((][
00000000
000000
000000
00
0000
2
000
0...
          wεXwXXXyXXXw 
 T1TT1T
ˆ DDD EEE
次に
すなわち観測データ(あるいは計画行列) (y,X)=Dを多数作っ
て学習データとする部分について考える。
Xに対し...
 
 
 
 
 
0bias
]),,[(]),[(
biasvariance)10(
)0(
):(
,ˆ,)]:([
ˆ
)]:([
)10(
]),)]:([[(])]):([):([(
]),):([(
ddd),...
 
 
 と近似できるとする。
明変数からなりは十分大きく多様な説
 
  
項の第
T
000
T
2
0
T1T
0,00
2
00,00
2
00,00
2
00,00
0000
2
00,00
]),[()10(ofvari...
過学習:over-fittingと
bias2-variance分解
 bias2-variance分解は過学習現象を扱う数学的概念として便利
 教師データによる学習の目的は未知のデータの正確な分類や
識別
 過学習(over-fitti...
Upcoming SlideShare
Loading in …5
×

クラシックな機械学習の入門 4. 学習データと予測性能

6,278 views

Published on

機械学習アルゴリズムと教師データの関係を表すのがバイアス・バリアンス分解であり、これによって機械学習の結果得られた識別や回帰システムの予測性能の傾向を把握する。

Published in: Engineering

クラシックな機械学習の入門 4. 学習データと予測性能

  1. 1. 4. 学習データと予測性能 Bias2 - Variance - Noise 分解 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 bias2とvarianceの間のトレードオフの 線形回帰への応用 クラシックな機械学習の入門 by 中川裕志(東京大学)
  2. 2. 過学習:over-fitting 教師データによる学習の目的は未知のデータ の正確な分類や識別 過学習(over-fitting) 教師データに追従しようとすればするほど、複雑な モデル(=パラメタ数の多い)になり、教師データへ の過剰な適応が起こりやすい。 このことを数学的に整理してみるのが目的。
  3. 3.  xが与えられたときの結果:tの推定値=y(x)  損失関数: L(t,y(x)) ex. (y(x)-t)2  損失の期待値:E[L]を最小化する t の推定値=E[t|x] この導出は次の次のページを参考にしてください  E[L]を計算してみると(次のページ参照) 第1項は予測値と学習データからの期待値の差の2乗、第2項 は雑音(noise) xxxxxxx dtd),()]|[(d)(])|[)((][ 22 tpttEptEyLE   損失関数と Bias,Variance, Noise
  4. 4. 参考:E[L]の計算                                                                             xxxxxx xxxxx xxxxxx x x x xxxx xxxxx xxxx xx xxxx xxxxxx xxxx dd),(|d|)( dd),(|)()( 0|||)( d ),( ||)( d),(d),(||)( d),(||)( |)( d),(||)( 2/1 |||)(2|)( ||)()( 22 22 22 22                       ttpttExptEy ttptEytyE ptEptEtEy pt p tp tptEtEy tttpttptEtEy ttpttEtEy ttEy ttpttEtEy t ttEttEtEytEy ttEtEytyL よって の関数ではないのでは で周辺化する倍を第2項の
  5. 5. 参考:E[L]を最小化するt の推定値=E[t|x]の導出                                          xx x x x x x xxxxx xxxx xx x x x xxxxxx |d|d ,d, )( d,)(d,)( 0d,)(2d,)( )()( )( )( dd,)(dd,),( 2 2 tEtttpt p tp t p tttp y tttppyttpy ttptyttpty yy LE yLE yLE ttptyttptyLLE               おくからので、定数とみなしては微分の対象ではないただし、 おけばよいで変分(微分)し0とを簡単でこの場合は を求めるには変分法。を最小化する関数 
  6. 6.  E[t|x]はxによって決まる。E[L]は次式でした。  第2項 ()内の左の項は、観測値として与えられたxに対して E[L]を最小化するtの予測値だから、()内の右の項すな わち真のt との差は、観測における誤差と考えられる。 y(x)の作り方で解決できないノイズ xxxxxxx dtd),()]|[(d)(])|[)((][ 22 tpttEptEyLE  
  7. 7. は、データ点の観測に伴う誤差あるいはノイズの効果を示し、真の データ点は、大体 のような範囲にある。このノイズの項が既 に述べた次の式: xxx dtd),()]|[( 2 tpttE 
  8. 8.  E[L]の第1項と教師データ集合:Dから機械学習で 得た y(x;D)の関係について考えてみよう。  母集団のモデルとしてp(x,t)を想定する。このモデ ルからDという教師データ集合が繰り返し取り出さ れる状況を考えてみる。  Dからの機械学習の結果のy(x;D)の統計的性質 は、同じサイズのDを多数回、母集団モデルp(t,x) から取り出して、その上で期待値をとったED[y(x; D)]によって評価する。  E[L]の第1項はy(x:D)とtの最適予測E[t|x:D]を用 いると次の式 xxxxxxx dd),()]|[(d)(])|[)((][ 22 ttpttEptEyLE      xxxx d)(]):|[):(( 2 pDtEDyED
  9. 9. ]):|[)]:([)])(:([):((2 ]):|[)]:([()]):([):(( ]):|[)]:([)]:([):((]):|[):(( 22 22 DtEDyEDyEDy DtEDyEDyEDy DtEDyEDyEDyDtEDy DD DD DD xxxx xxxx xxxxxx    この式をED[]すると、第3項は消え ]]):|[)]:([[(])]):([):([( ]]):|[):([( 22 2 DtEDyEEDyEDyE DtEDyE DDDD D xxxx xx   第1項はvariance 第2項はbias2 variance: y(x)の機械学習による推定値が、教師データ集合に よって変動する度合いの期待値:教師データに依存しすぎるモデ ルになって新規データの予測誤差が悪化する度合い bias2:y(x)の機械学習による推定値が、損失の期待値:E[L]を 最小化するtからずれる度合いの期待値:モデルを記述が単純に なるとき予測誤差が悪化する度合い。
  10. 10. 以上により損失の期待値:E[L]=bias2+variance+noise dtd),:()]:|[( d)(])]):([):([( d)(]):|[)]:([( ][ 2 2 2 xxx xxxx xxxx tDptDtE pDyEDyE pDtEDyE LE DD D      bias2 variance noise bias2とvarianceの間には次のページに示すようなトレード オフがある。
  11. 11. 小 正則化項の重みλ 大 予測誤差 bias2 variance variance+bias2 noise 新規データに対する誤差: variance+ bias2+ noise
  12. 12. 小 正則化項の重みλ 大  L2正則化の場合 観測データに大きく異存小 λ 大正則化項(事前分布)に大きく依存  L1正則化の場合:重みがゼロ化される次元をみると ゼロの次元が少なく複雑 小 λ 大ゼロの次元が多く単純 variance+bias2 予測誤差 bias2 variance noise 新規データに対する誤差: variance+ bias2+ noise
  13. 13. bias2とvarianceの間のトレードオフをK-Nearest Neighbor法 と線形回帰で具体的に見てみよう。 K-Nearest Neighbor法 2クラスへの分類問題で考える。 教師データはクラス: とクラス: と判定された相当数 があるとする。 未知のデータxがクラス / である確率は xに近いほうからK個の教師データ点のうちでクラス / であるものの割合 至ってシンプルだがかなり強力。
  14. 14. 下の図のような教師データの配置で考える
  15. 15. K=1の場合:クラス青,赤の確率が等しい境界線は以下のようにかなり複 雑。相当多くのパラメターを使わないと記述できない。教師データ数に強く 依存。 は新規に到着した分類すべきデータ の点は本来赤い点かもしれないが、青だと判断される。 の点は本来青い点かもしれないが、赤だ と判断される。
  16. 16. K=3の場合のクラス間の境界 境界線はだいぶ滑らか。K=1の場合より境界を決 めるパラメターは多い この点は本来赤かもしれないが青と 判断される この青の近辺のデータは本当に青かもしれな いが、新規データとしては頻出しない
  17. 17. K=13以上だと、どんな新規データでも赤と判定される。
  18. 18. K=1だと非常に複雑な境界線であり、個々の教師データに 強く依存した結果をだすため、過学習をしやすい。 varianceが 大きい。 Kが大きくなると、境界線は平滑化される方向に進む。教師 データを適当な数使って結果を出すので、過学習を起こしにく い。 Kが非常に大きくなると、境界線はますます滑らか(=いい 加減?)になり、あるところから個別の教師データの影響が無 視され、モデルとして大域のデータに依存し、個別データに対 する精密さを欠くため、新規データを正確に分類できなくなっ てくる。 bias2 が大きい。 以上のから、 bias2とvarianceの間には次ページの図のよ うな関係が見てとれる。
  19. 19. K=13K=3K=1 境界線が単純境界線が複雑 Error rate bias2 variance 新規データの予測誤差 =bias2+variance+noise 最適なK
  20. 20. bias2とvarianceの間のトレードオフを 線形回帰で具体的に見てみよう。 まず線形モデルのパラメタ-w推定の復習から と考える。はノイズで     ただし、 ),0( ),,,,(,),,,1( , 2 T 101 0   N wwwxx xwy K T K ii K i     wx wx
  21. 21. と考える。はノイズで              ただし、 ),0( ),,,,(,),,,1(, 2 T 101 0   N wwwxxxwy K T Ki K i i    wxwx 入力ベクトル:x から出力:y を得る関数がxの線形関数 (wとxの内積)にノイズが加算された場合を再掲 得られたN個の観測データ の組(y,X)に対して2乗誤差を最 小化するようにwを推定し を得る。   )0(ˆ ),0(),...,1( 1 1 T1T 1 2 1 1 1111    のは           yXXXwεXwy ε x x X                                               N i NNKN K T N T y y iidNNi xx xx          wˆ
  22. 22.           )2(,d|d|, d|,]|[ )1(d|]|)([ )1(, )0(dd),()]|)([( d)(])|)([)((][ 00000000 000000 000000 00 0000 2 000 00 2 000 0 0 0 000 lossyypyyp yypyE lossyypyyE lossy lossyypyyE xpyEyLE y y y yy      を使うと だったが、          wxxxwx xwxx xxx wx xxxx xxxxx               ここで、前にやった損失の期待値 E(L) を思いだそう ただし、新規の未知データy0,x0は以下の通り     測に伴う雑音新規の未知データの観          項  第              2 0000 2 0000 2 00 0000 2 00 0000 2 0000 2 00,00 ddyd),,( ddyd),,(),,( ddyd),,(),(2 ddyd),,(),(dd),(),(][   yxyx yxyxwxwx yxyxwx yxyxwxyxyxwxxx yp yp ypy ypypyLE Dy
  23. 23.           wεXwXXXyXXXw   T1TT1T ˆ DDD EEE 次に すなわち観測データ(あるいは計画行列) (y,X)=Dを多数作っ て学習データとする部分について考える。 Xに対して繰り返しyを観測することでDを動かした場合の 期待 値:ED[..]を求めてみよう。 重みwの期待値: のD動かした場合の期待値wˆ  wˆDE      yxyxwxxx ddd),,(),(1][ 0000 2 00,00 yypyLE Dy 項の第   ?ˆcov wD レポート課題1:共分散 行列を求めよ XはDにおいては定数な ので、(XTX)-1XTも定数と 見なせることに注意
  24. 24.           0bias ]),,[(]),[( biasvariance)10( )0( ):( ,ˆ,)]:([ ˆ )]:([ )10( ]),)]:([[(])]):([):([( ]),):([( ddd),,(),(1][ 2 2 00,00 2 0 T1T 0,00 2 T1T 0 0 000 2 00,00 2 00,00 2 00,00 0000 2 00,00                                     より  解に対する正規方程式の に対する予測だから、はある       になる。値はているので、この期待 観測だけを繰り返し のは同一でが、を動かしての期待値だは     項の第 wxwxwxyXXXx yXXXx x wxwx w Xx wxxxx wxx yxyxwxx x xx x x Dxy T Dy T DD D D DDyDDy Dy Dy EE loss D DDy EDxyE E yDDyE loss DyEEDyEDyE DyE yypyLE レポート課題2:bias2が0にならない状況を考察せよ
  25. 25.      と近似できるとする。 明変数からなりは十分大きく多様な説      項の第 T 000 T 2 0 T1T 0,00 2 00,00 2 00,00 2 00,00 0000 2 00,00 ]),[()10(ofvariance )10(]),)]:([[(])]):([):([( ]),):([( ddd),,(),(1][ xxXX X wxyXXXx wxxxx wxx yxyxwxx x x xx x x EN Eloss lossDyEEDyEDyE DyE yypyLE T Dy DDyDDy Dy Dy          レポート課題3:variance of (loss 10)を求めよ レポート課題4:この場合variance of (loss 10) の近似式を求めよ
  26. 26. 過学習:over-fittingと bias2-variance分解  bias2-variance分解は過学習現象を扱う数学的概念として便利  教師データによる学習の目的は未知のデータの正確な分類や 識別  過学習(over-fitting) 学習するモデルを複雑な(=パラメタ数の多い)ものにすると 過学習が起こりやすい。 モデルの良さ(=(対数)尤度あるいは2乗誤差などの損失- 1 )を最大化し、かつ簡単なモデルであるほど良い モデルの簡単さを表すのは線形回帰における正規化項(正 則化項とも呼ぶ)。cf.情報量基準(AIC,BIC)、MDL

×