Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

クラシックな機械学習の入門 2.ベイズ統計に基づく推論

4,011 views

Published on

機械学習の基礎理論のひとつであるベイズ統計と、ベイズ統計を用いた確率分布のパラメタ-推定の話です。データから確率分布を推定するという機械学習のメイントピックの基礎知識になります。

Published in: Engineering

クラシックな機械学習の入門 2.ベイズ統計に基づく推論

  1. 1. 2. Bayes統計に基づく推論 Bayesによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味 正規分布と事後分布 多次元正規分布と条件付き分布 指数型分布族 自然共役事前分布の最尤推定 クラシックな機械学習の入門 by 中川裕志(東京大学)
  2. 2. Bayesによる確率分布推定の考え方 事前分布 とはパラメター (i.e. μ)自体の分布 μ 観測データ or 教師データ:X p(μ|X)=p(X|μ) p(μ) 観測データを事前分布にBayes の定理で組み合わせる μ Xを観測した後に得た パラメターμの 事後分布 パラメター μは点では なく、分布として与えら れる点に注意!
  3. 3.  複数の離散データが独立に出現する場合の確率分 布の定番  個々の離散データ間に相関がない場合に使うもの で基本的分布。 以下はK種類の離散データ(例えば、語彙数がKでN単語 からなるテキストでの単語の出現分布)がある場合 多項分布:Mult           1 cov1varE .. ,|,..,, 1 121 21              K i k kjkjkkkkk K k m k K K NmmNmNm mmm N NmmmMult k    ただし、 μ
  4. 4. 多項分布では離散事象(たとえば単語)iの出 現回数 mi が確率変数だった。 しかし、逆に mi が観測値として既知の場合に 、単語 i の出現確率 μi が確率変数となる分 布も考えられる。すなわち、多項分布の事前 分布として使えるような分布。 ディリクレ分布: Dir
  5. 5. ディリクレ分布:Dir • K変数の場合。αはパラメターだが、以下の式 の分布を作るときに使った既知の観測回数 のデータと考えてもよいだろう。           K k k K k k K K k K k k KK k Dir αμ                                                   1 1 1 1 1 1 11 E | 101 4 2 2 410 Γ 関数 1
  6. 6. ディリクレ分布の例 2 1 01.0 21 21 21       0μ1 μ11 1μ2 μ20
  7. 7. 事前分布としてのディリクレ分布の意味 ディリクレ分布Dirを事前分布とみなして、観 測データが多項分布Multで与えられたときの 事後分布としてのディリクレ分布Dirを考える こうして見ると、αiは事前分布を得るために想 定したiの(仮想的)観測回数と見做せる。                     K i m i KK K i m i K i i K i iKi ii ii mm M XDirXDir DirXMultXDir MmmmXmi 1 1 11 0 1 1 0 11 1 )|(),|( )|(|),|( ,),,...,(            :の出現回数観測データ  事前観測事後
  8. 8.  1変数正規分布:連続する数値データの確率分布の 定番  では、ここでMultからDirの事後分布を求めたと同じ ように、Bayesの定理を用いて、正規分布において 、事前分布から事後分布を求めてみよう。 次のページの例は簡単のため、分散は既知とし、事後分 布の期待値だけを求めることにする。 分散の事後分布についてはWishart分布という分布が登場する が、難しいのでここでは省略 正規分布(1変数)と事後分布         2 2 2 2 2 var,E, 2 exp 2 1 ,|               xx x xN
  9. 9.                                                                             K i iK K KK K i i K i i K i iK K i i x KK K NXpK Xp N x K xpXpXp Bayes xxp XpK Np 122 0 2 0 022 0 2 22 0 2 2 2 1 2 0 02 2 0 2 2 0 2 0 1 2 2 1 2 22/2 1 2 00 , 11 ,||: | )10( 2 1 exp 22 1 exp)|(| 2 1 exp 2 1 | )|(: ),|(:                         後の事後分布個の観測データを得た だからこの結果より は正規分布    の定理から は既知ただし れた場合の尤度個の観測データが得ら 事前分布  事前分布からの寄与 観測データからの寄与 事前観測事後
  10. 10. 観測データ数Kと事後分布の例 -1.5 -1 -0.5 0 0.5 1 1.5 K=10の事後分布 K=2の事後分布 K=1の事後分布 事前分布   5.0 1 01.01.0 1 0 22 0   xEx K K i i 観測データにより事前分布の パラメータμが修正されていく
  11. 11.  多次元正規分布:複数種類(つまり複数の確率変数) を持つ数値データの確率分布 多次元正規分布                                                           )()( 2 1 exp )2( || )()( 2 1 exp || 1 )2( 1 )|( :cov E 2 2 1 1 2 1 2 1 2 1 11 2 11 μxμx μxΣμxΣμ,x Σx μxx T D T D DD D DD N x x D          精度行列共分散行列: 次元の正規分布  
  12. 12. 例題 多次元正規分布の共分散行列を推定する。                                  1 x x 1 x 11 1 2 2 1 1 ]))([( 0]))([( []x ))(())(( ))(()()( 2 ||log 1 0 )()(||log)|(log )()( 2 1 exp )2( )|( T T TTT TT T T T D E E E trace N N D μxμx μxμx μxμxμxμx μxμxμxμx μxμxμ,x μxμxμ,x より をすると、すなわちに対して期待値をとるここで 項の微分第 項の微分第 とおくで微分してするためにこの対数尤度を最大化 次元の正規分布 
  13. 13. 条件付正規分布  変数ベクトルzをxとyに分割すると X=a y p(y) P(y|x=a)
  14. 14.  変数ベクトルzをxとyに分割する。  ここで多次元正規分布の指数の肩の項は次式 -(G-10) yx T xy yyyx xyxx T yxxy T yyyx xyxx y x where N                                  とすると精度行列: 多次元正規分布 1 ),|( μ μ μ y x z μz )()( 2 1 )()( 2 1 )()( 2 1 )()( 2 1 )()( 2 1 1 yyy T yxyx T y yxy T xxxx T x T μyμyμxμy μyμxμxμx μzμz    
  15. 15. 一般に正規分布 の指数の肩は次式で書け、右 辺の第1項、第2項の係数の部分に着目すれば期待値、共分 散が求まる。 -(G-20) ),( μ|zN constTTT   μzzzμzμz 111 2 1 )()( 2 1 条件付正規分布p(x|y)の期待値μx|yと共分散Σx|yをこの方法を (G-10)式に適用して求めよう。ー 問題
  16. 16. 一方、(G-10)においてxの1次の項がΣ -1 μ これは次式     )( )( )( 1 1 ||| yxyxxx xxyxyxyxxxyxyx yxyxxx T μyμ μyμμ μyμx      より これにより 次に、これらの結果を共分散行列を用いて書き直す yxyyxyxxyx yyyxyxyx yyxyyxyyxyxxxyyxyyxyxxxx yyyx xyxx yyyx xyxx Matrix                          1 | 1 | 11111 1 1 )( )()( )( μyμμ を使えばにおいて yを定数とみなしてxの分布を求めれば、条件付分布になるか ら(G-10)の第1項のxの2次の項の係数が共分散。すなわち 1 | 2 1   xxyxxx T によりxx
  17. 17. exponential family:指数型分布族           2)))d(exp()(log)( 1d))(exp()(exp ),(,, 1)η)(exp()()|( EBxxuηxhηa uηhηa ηux EBauηhηp T T T      xxx x xxx また、  は一般にはベクトルただし 正規化項 iidの観測データX={x1, …, xN }に対しては以下の式                N n n T N n n ηNaηhηp 11 )()(exp)()|( xuxX 事前分布と学習後の事後分布が同一タイプの分布(事前共役)
  18. 18. いくつかの確率密度関数のExponential family表現:ガウス分布     )( 1 log 2 , 1 log 2 2 1 ,exp 2 1 2 2 exp 2 1 2 exp 2 1 ),|( 2 2 1 21 2 2 2 22 2 22 2 2 2 2 2                 ax x x xx x xp T                                                 
  19. 19. いくつかの確率密度関数のExponential family表現:多項分布 )()( 1log 1 logexp 1loglogexp ,1)|( familylexponentia)( 1 1 1 1 1 1 21 1 1 1 1 1 121 11121       axxh Nx xxx N xNx xxx N Nx xxx N xp lMultinomia T K k kk K k K k k k K K k k K k k K k kk K K k k K k k K k x k K k                                                                                                          を使うと 表現の多項分布
  20. 20. 自然共役事前分布の最尤推定    4])([ )( 3])([ )( ])([1 0)())()(exp()())()(exp()( )( ))()(exp()()|(1 parameternatural ))()(exp()()|( 2 2 EBV η ηa EBE η ηa E duηauηhdηauηh η ηa j dηauηhdηp η ηauηhηp j j j j j j TT j j T T xu xu xu xxxxxxx xxxxx xxx                                        とで微分してゼロとおく成分の第上の式を の最尤推定をする。における 
  21. 21. (EB3)(EB4)の応用例 ガウス分布に応用       1)( 2 )( log 2 1 2 )(, 1 log 2 2 1 ,exp 2 1 ),|( 2 22 1 1 2 1 2 1 2 1 2 2 1 11 1 2 2 2 1 21 2 2 2 22 2                                                                  ηη ηa xV ηη ηa xE ax x x xp ηη T       
  22. 22. (EB3)(EB4)の応用例 多項分布に応用  kk K k k K k k k K k k k K k K k K k K k k K k k k kK k k k K k K k k k K k k k K k k k K k K k K k kkK k k K k k K k kK k K k k k K k kk K k K k k k K K k x k K NN e eee N e eeee N e e N a NNN e e N a eN e NNaee Nx xx N xx N xp k kkk k kkkkk k k k k k k kk k                                                                                                                                                                                                                           1 1 1 1 1 )( 1 1 )( log 1 log1log)( 1 1 11 1log 1 logexp)|( 21 1 1 1 1 1 2 1 1 2 1 11 2 2 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 111  )(1log)( 1 1  axxh K k kkk                  
  23. 23. 2項分布の場合はおなじみの公式                     1 e1 e e1 e)( e1 e)( e1log e1 1 log1log)( e1 e e1e1e 1 e )( 1 log)( 1log 1 logexp 2 1)|( 22 2                                                                                  NNN ηη ηa xVNN a xE NNNa axh Nx N x N xp ηη xNx         
  24. 24. Exponential familyとベイズ統計: 共役分布と事後分布 仮想的な観測 データ 実際の観測 データ 仮想的 な観測 回数:1 実際の観測 回数 赤枠の中は事 後パラメター                                                                                        aηaKληxuλh ηaxuηaηaληλh xpηpxxηp xxiidKxp EB ηa ηλλ ha aηaληλhηp λλλ TK i i K i i TT K i iN K T T T 2 1 1 1 21 1 1 1 21 21 21 )(exp)( )(expexp)( |)|(),,,|( )|( )22(d , exp)(log exp)()|( ,:ハイパーパラメター   の事後分布は が得られたときのの観測データ個のに沿うさて、 布を定義する によって共役事前分  
  25. 25.                  は既知とする。            は既知ただし れた場合の尤度個の観測データが得ら =  事前分布 22 00 22 2 2 22 2 1 2 22/21 2 0 2 0 2 0 2 2 0 0 21 2 00 2 0 22 0 0 121 2 00 ,, )( 1 log 2 1 2 1 ,exp 2 1 ),|( 2 1 exp 2 1 | )|(: 22 expexp),|(| 2 1 ,,,),|(|:                          a x x xp xxp XpK λaaλλNp Np T K i iK K i i T                                                     1変数正規分布の期待値に適用した例 その1
  26. 26.                                                                                                             22 0 2 1 22 0 0 22 2 2 0 2 1 22 0 0 2 2 2 1 2 1 1 22 1 T 21 1 1 1 2 1 exp 1 log 22 1 exp)( 12 ,exp)( 1 , )(expexp)( |)|(),,,|(                         K x K xh ηKaaλ x xλh ηaxuηaλλh xppxxp K i i K i i K i i K i i T K i i K i iN                1変数正規分布の期待値に適用した例 その2 前に求めた N10 に一致
  27. 27. Exponential family別表現とベイズ統計の続き:予測分布                     得られる。で   置き換えればを でを においての予測分布はの 新規(あるいは未知) が得られたときのの観測データ個の とハイパーパラメター で分布は次式のように与えられたときの事後ハイパーパラメターが ーしたハイパーパラメタ個の観測データも考慮 Kλλλ xuλλλ EBx xxiidK EBaηaληxuλhxh aηaληλhaxuxh λpxpxp EBKλλEBxuλλ K K i i K T TT K i i               222 1 111 1 21 21 22 1 11 ˆ )(ˆ )23( )23(expd1)(exp)()( dexp)()(exp)( d)|()|()|( emarginaliz )22(ˆ)21()(ˆ      
  28. 28. ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布 難しいので省略する予定 精度行列(分散の逆行列)Λが既知のd次元ガウス分布をexponential family で表現                  T d TTT TTTT T T d xxxu axh xxxddxp xxxxdd xxdd xxxp ),..,()( )()( 2 1 exp||log2log 2 1 exp)|( !:parameternatural ||log2log 2 1 exp ||log2log 2 1 exp 2 1 exp||2 2 1 )|( 1 1 11T1T 11 2                                                     以下も注意 たがまだ決めていなかっ  とおくと       
  29. 29. 事前分布のパラメターλから予測分布p(x| λ)を求める               |||| 2 1 ||loglog 2 1 2 2 1 ||log 2 1 exp 2 1 exp 22 2 1 exp 2 1 expexp)|( 1 2 1 2 1 2 111 2 2 11 1 1 2 1 2 2 11 2 2 1 1 1 2 1 2121                                                                         d T T TT T TT TTT d da a aaap                に対しては、次元の行列 とおくと として事前分布もガウス分布 
  30. 30.                       )36( 2 )()35( 2 )4)(3( )22(d , exp)(log exp)()|( 2 2 11 222 1 1 21 21 EB da aEEB a E EBEB EB ηa ηλλ ha aηaληλhηp TT T T                                                ように求まる。の十分統計量が以下のが与えられたときのより  および

×