SlideShare a Scribd company logo
1 of 57
Download to read offline
W8PRML読書会
2.3 ガウス分布

  2 01 2 / 10 / 2




     @sa__i
はじめに
                 2

—  この節で言いたいこと


   
  「僕がガウス分布を使うnの理由」
ガウス分布(p76-78)
                             3

—  ガウス分布は正規分布とも呼ばれ、連続変数の分布
    モデルとして広く利用される。


               2        1           " 1          2%
      N(x | µ, σ ) =      2 1/2
                                exp #− 2 (x − µ ) &
                     (2πσ )         $ 2σ          '
 
                       平均µ 分散σ2
—  数学的に扱い易いので、扱うモデルをガウス分布に
    帰着させたい(?)
多次元ガウス分布(p76-78)
                  4

—  D次元ベクトルxに対する多変量ガウス分布は以下のよう
に与えられる




   µはD次元の平均ベクトル、ΣはD×Dの共分散行列,|Σ|は行列式




 
中心極限定理
                  5



   サンプルのサイズを大きくすると
   サンプルの平均は真の平均に近づく




     図2.6 N個の一様に分布する量の平均のヒストグラム
—  図2.6についてNが増加するにつれガウス分布に近づくこと
 が分かる
ガウス分布の幾何的性質(p78-82)
                                                 6

    —  多変量ガウス分布をD個の独立な1変数ガウスの積で
    表すことができる。


                                                      このような多変量ガウス分布を…
                     y2 + 2




                                   x2 + 2




                                                                   y2 + 2
                 y




                                                 y2
y




            拡大                              回転                移動
                                                                            x2 + 2
       x                      x2                         x2




                                                              変換したものと見なす
ガウス分布の幾何的性質(p78-82)
               7




   図2.7 ガウス分布の密度が一定になる楕円


 λi:固有値 ui:既定ベクトル y:UT(x-µ)
ガウス分布の1次モーメント(p80)
                                  8

—  ガウス分布のモーメントを求めパラメータµやΣを解
釈する。
¡    ガウス分布下でのxの期待値は(z=x-µと置き換えると)

                1     1             # 1 T −1 &
      E[x] =      D/2
             (2π ) | Σ |1/2   ∫ exp $− 2 z Σ z' (z + µ )dz
                                    %         (

      ÷  (指数部分がzの要素の偶関数であり(-∞,∞)での積分に注意)


                              E[x] = µ
                となりµは平均と解釈できる
ガウス分布の2次モーメント(p81)
                                            9

—  先ほどと同様に置換する。

            T      1        1            # 1 T −1 &
       E[xx ] =                      exp $− z Σ z ' (z + µ )(z + µ )T dz
                                    ∫ % 2
                (2π )D/2 | Σ |1/2                 (

 ¡    µzTとzµTの項は対称性で消え、µµTは定数、積分がガウス分布
       で正規化されていることに注意しながら

                                      D
                               z = Σ y j u j とすると
                                      j=1
ガウス分布の2次モーメント(p81)
                                 10

—  zzTの項は


           1        1             # 1 T −1 & T
        (2π )D/2 | Σ |1/2
                            ∫ exp $− 2 z Σ z' zz dz
                                  %         (
          D
        = Σ ui uiT λi = Σ
          i=1

—  となり、その結果

                       E[xx T ] = µµ T + Σ
ガウス分布の2次モーメント(p81)
                       11

—  確率変数がひとつの時には事前に平均を引いた2次
    モーメントで分散を定義した。
—  同様に多変量もあらかじめ平均を引いて確率変数xの
    共分散を定義する。
     cov[x] = E[(x − E[x])(x − E[x])T ] = Σ
                   E[x]=µであることに注意

—  パラメータ行列Σによりガウス分布下での共分散が決まる
ためこのパラメータを共分散行列と呼ぶ。
様々なガウス分布
                 12

—  行列を制限することでパラメータを削減




a)  一般行列   図2.8 2次元空間ガウス分布の確立密度が一定になる等高線

b)  対角行列
c)  等方行列
2.3.1 条件付きガウス分布(p83)
                 13

—  多変量ガウス分布の重要な特性として、
 
 2つの変数集合の同時確率分布 p(xa , xb )がガウス分布に従う




一方の確率変数 p(xb ) が与えられたときの、もう一方の集合
の条件付き分布 p(xa | xb ) もガウス分布になる。さらにどち
らの変数集合の周辺分布も同様にガウス分布になる。
2.3.1 条件付きガウス分布(p83)
                    14

—  条件付きガウス分布の表現を見つける。
    ¡  条件付き分布の定義




¡  xbを観測された値で固定、正規化を行う。(つまり上記の式を
      xaの関数と見なす。)

¡    ガウス分布の指数部分の2次形式について考え、最後に正規化
      係数を求めると効率よく解が得られる(らしい)
ここでの目標
                 15

—  つまりガウス分布の2次形式について考えたとき


         1 T
        − x Ax + x T B + const
         2
       という形をしているので
  
同じくガウス分布に従うと分かっている条件付き分布
に対するAとBを求めたい
2.3.1 条件付きガウス分布(p83)
                               16




                                        精度行列
(2.65),(2.66),(2.69)を利用すると




                             xaについて整理
2.3.1 条件付きガウス分布(p84)
                    17

—  2次項
               (先ほどのAに当たる)
                   分散

                                  Xと独立


—  1次項




(先ほどのBに当たる)
  平均

                         Xの線形関数
2.3.1 条件付きガウス分布(p84)
                18

—  共分散行列での表現
周辺ガウス分布(p86-p87)
                 19

—  周辺分布             もガウス分布
 になることを示す。




—  条件付き確率とほぼ同様の手順を踏む
    ¡  xbについて平方完成
    ¡  xbについて積分(定数になる項に注意)
周辺ガウス分布(p86-p87)
              20

—  直感通り周辺分布の平均と分散は




                   
  となり分割したパラメータそのものになっている!
条件付きガウス分布と周辺分布のまとめ
           21


   •  同時確率分布がガウス分布に従うのならば

             条件付きガウス分布
            どこで切ってもその分布が
            ガウス分布になる



周辺分布
どちらの変数集合の周辺分布もガウス分布になる
2.3.3ガウス変数に対するベイズの定理(p88-90)
                  22

—  条件付き分布と周辺分布が与えられたときの同時分
布について考える。


     p(y | x), p(x)  p(x, y)

—  これまでは同時分布が与えられたときの条件付き分
布と周辺確率について考察していた。
     p(x, y)  p(y | x), p(x)
2.3.3ガウス変数に対するベイズの定理(p88-90)
               23

—  周辺分布と条件付き分布を以下のように与える。




—        としたときのp(z) を求めたい。

—  これもガウス分布に従うのでこれまでの手順と同様
2.3.3ガウス変数に対するベイズの定理(p88-90)
                 24

—  まず周辺分布について考える。


—  手順
    ¡  対数をとる。


      1 T
     − x Ax + x T B + const
 ¡                の形になるように整理する
      2
2.3.3ガウス変数に対するベイズの定理(p88-90)
                  25

—  2次項は以下のようになる。
 精度行列




 分散共分散行列(シューアの補行列を用いて)
2.3.3ガウス変数に対するベイズの定理(p88-90)
                   26

—  1次項




 ¡    周辺分布の平均と分散共分散行列より
2.3.3ガウス変数に対するベイズの定理(p88-90)
              27

—  同様に条件付き分布についても
2.3.4 ガウス分布の最尤推定(p91)
              28

—  この節での目標


 多変数ガウス分布から観測値{xn}が得られ集
 合があるとき、最尤推定法からガウス変数
 のパラメータを決定したい
行列のおさらい(基本)
                     29

—  逆行列
             _1          −1
           AA = A A = I
—  転置行列
                    T         T   T
             (AB) = B A
                  T −1        −1 T
              (A ) = (A )
              ∂             −1 T
                ln | A |= (A )
             ∂A
行列のおさらい(2次形式)
                               30

—  2次形式の別の表現


                        "           %
x Ax = ∑ aij xi x j = ∑$ ∑ aij (xx )' = ∑ (Axx T )ij = tr(Axx T )
 T
                        $
                                  T
                                    '
       i, j           i # j         & i
行列のおさらい(微分)
                         31

—  内積の微分          ∂ T
                     (x y) = y
                  ∂x
                  ∂ T
                     (x y) = x
                  ∂y
—  2次形式の微分
                ∂ T
                  (x Ax) = (A + AT )x
               ∂x
—  逆行列の微分

               ∂ −1       −1 ∂
                 (A ) = A      (A )A −1
              ∂x            ∂x
2.3.4 ガウス分布の最尤推定(p91)
                                        32

—  対数尤度関数は以下のように与えられる

                         ND          N          1 N
      ln p(X | µ, Σ) = −    ln(2π ) − ln | Σ | − Σ (xn − µ )T Σ−1 (xn − µ )
                          2          2          2 n=1


  N   N
              T
    Σxn Σ xn xn のみに依存していることが分かる。
—  n=1 n=1




   これらをガウス分布の十分統計量という。
十分統計量とは?
                                   33

—  十分統計量
    ¡  観測値X=(X1,X2…Xn)が与えられた時のθの尤度関数をL(θ|X)と置
        く。このときT(X)=(T1(X),…Tk(X))がθ=(θ1..,θm)の十分統計量とは

            L(θ | X) = pθ (T (X))⋅ h(X)
   と表せる。                                    Xの要素は含んではいいが
                                            θの要素は含まない
     l(θ | X) = log( pθ (T (X))⋅ h(X)) = log( pθ (T (X))) + log(h(X))
                          あるθiで微分すると
                          ∂l(θ | X) ∂pθ (T (X))
                                   =
                             ∂θ i       ∂θ i
   h(X)の項は微分で消える。つまり最尤推定量を求めるのに関係ないことが分かる。
   最尤推定量を求めるのに使うのはT(X)と定数のみであることが分かる
2.3.4 ガウス分布の最尤推定(p91)
                                  34

—  µに関しての導出関数は

    ∂                 1 N −1                 N
      ln p(X | µ, Σ) = Σ (Σ + Σ)(xn − µ ) = Σ Σ−1 (xn − µ )
   ∂µ                 2 n=1                 n=1


                          この本だとΣは対称行列であると仮定している

で与えられ、これを0と置くと平均は

                           1 N
                   µ ML   = Σ xn
                           N n=1
2.3.4 ガウス分布の最尤推定(p91)
                             35

—  Σの最大化は複雑である。対称性と正定値性の制約
を明示的に考慮する解法は考案されており、結果は
次のようになる。(次のスライドに解説)
              1 N
      Σ ML   = ∑ (xn − µ ML )(xn − µ ML )T
              N n=1
—  真の分布での最尤推定解の期待値

                     E[µ ML ] = µ
                                   N
                     E[Σ ML ] =        Σ
                                  N −1

  平均については最尤推定の期待値は真の平均に等しいことが分かる。
Σの最大化(1)
                                36

 ∂                    N ∂             1 ∂ N
   ln p(X | µ, Σ) = −      ln | ∑ | −      Σ (xn − µ )T Σ−1 (xn − µ )
∂∑                    2 ∂∑            2 ∂∑ n=1

第1項            N ∂             N −1 T
             −      ln | ∑ |= − (∑ )
               2 ∂∑            2



第2項           xn-µ=yと置換する
       N                                   $ −1        '
      Σ (xn − µ ) Σ (xn − µ ) = y Σ y = tr & Σ ∑ yi yi )
                  T   −1             T   −1          T
      n=1
                                           %    i      (
Σの最大化(2)
                                    37




        Σで微分

 ∂ % −1            (      %% ∂ −1 (          (       %      ∂                 (
  tr ' Σ (∑ yi yi )* = tr ''
                T
                               Σ * (∑ yi yi )* = −tr ' Σ (
                                          T
                                                     '
                                                        −1
                                                                Σ)Σ (∑ yi yi )*
                                                                   −1      T
                                                                              *
∂∑ &      i        )      && ∂∑ ) i          )       &     ∂aij       i       )
                           逆関数の微分                         tr(AB)=tr(BA)



                        % ∂                    (
                        ' ∂a Σ)Σ (∑ yi yi )Σ *
                                −1      T   −1
                  = −tr ' (                    *
                        & ij       i           )
Σの最大化(3)
                                      38

C = Σ−1 (∑ yi yiT )Σ−1
          i
                         とする。
           ## ∂      & &      ## ∂    & &       # # ∂       & &
        tr %%
           %% ∂a   Σ ( C ( = ∑%%
                     ( (      %%     Σ( Cs ( = ∑% ∑%
                                      ( (       % %        Σ(ct,s (
                                                            ( (
           $$ ij     ' ' s $$ ∂aij    ' 'ss s $ t $ ∂aij    ' '
        = ∑δi,sδ j,t ct,s = ct,s


   よって第二項は


                                                                      T
          1 ∂      N                       % −1           (
               Σ (xn − µ ) Σ (xn − µ ) = − ' ∑ (∑ yi yi )∑*
                          T −1                        T

          2 ∂∑ n=1                         &    i         )
Σの最大化(4)
                       39

                                                 T
 ∂                   1    −1 T 1 % −1            (
   ln p(X | µ, Σ) = − N (∑ ) + ' ∑ (∑ yi yi )∑ *
                                          T   −1

∂∑                   2         2&     i          )

           これが0になるので転置をとって

          −N ∑−1 +∑−1 (∑ yi yiT )∑−1 = 0
                            i


             ∑−1 (∑ yi yiT )∑−1 = N ∑−1
                   i

          1         1
   ∑ML   = ∑ yi yi = ∑ (xi − µ )(xi − µ )T
                 T

          N i       N i
2.3.5 逐次推定(p-92-93)
               40

—  逐次推定とはデータ点を一つずつ処理し、廃棄して
推定する方法。




—  これはデータ点xnに対して推定値に1/Nに比例する
    「誤差信号」だけ古い推定量を移動させている。
—  Nが増えるにつれ後続の影響は小さくなる。
2.3.5 逐次推定(p-92-93)
                                       41

—  より汎用的は逐次学習の定式化

                 Robbin-Monroアルゴリズム
¡    Robbin-Monroの手続きでは根の推定を以下のように定義

                     θ ( N ) = θ ( N−1) − aN−1z(θ ( N−1) )
                      ∞         ∞

¡    (aNは N −>∞ aN = 0, ∑ aN = ∞, ∑ aN < ∞ を満たす)
           lim                        2

                     N=1       N=1




—  最尤推定解は対数尤度関数の停留点
Robbins-Monroを用いた最尤推定について
                                    42

      最尤推定解は負の対数尤度関数の停留点であるため

               ∂ "1 N           %
             − # ∑ ln p(xn | θ )&      =0
              ∂θ $ N n=1        ' ϑ ML

            1 N                   & ∂            )
      − lim ∑ ln p(xn | θ ) = E x (− ln p(x | θ )+
        N→∞ N                     ' ∂θ           *
              n=1



を得る。
すると最尤推定解を求めることは回帰関数の根を求めることに相当する
                                         ∂      #− ln p(x N | θ ( N−1) %
        θ ( N ) = θ ( N−1) − aN−1        ( N−1) $                      &
                                    ∂θ
2.3.6 ガウス分布に対するベイズ推論
           43


— この節で言いたいこと
 
 ベイズ推定で求めるものは
   パラメータの値ではなくパラメータの分布
2.3.6 ガウス分布に対するベイズ推論
                 44


—  共役事前分布
¡  尤度関数とかけて事後分布を求めるとその関数の形が同
  じになるような事前分布


—  ガウス分布の各パラメータの事後分布における
共役事前分布は以下のようになる
     事後分布        1変量         多変量
 平均(分散既知)    ガウス分布       ガウス分布
 精度(平均既知)    ガンマ分布       ウィッシャート分布
 平均、精度       ガウスーガンマ分布   ガウルウィシャート分布
平均を推定(分散既知)の例
                                  45

µが与えらたときに観測データが生じるであろう尤度関数はµの関数と見なせる

              N
                                   1           $ 1 N             '
    p(x | µ ) = Π p(xn | µ ) =      2 N /2
                                           exp %− 2 ∑ (xn − µ ) (
                                                               2
                n=1            (2πσ )          & 2σ n=1          )

µについて2次形式の指数の形をとっている。よって事前分布p(µ)にガウス分布を
選べばこの尤度関数の共役事前分布となる。
   事前分布を次のようにとる
                                       2
                  p(µ ) = Ν(µ | µθ , σ 0 )
   事後分布は

                  p(µ | X) ∝ p(X | µ )p(µ )
平均を推定(分散既知)の例
                                    46




p(µ | x) ∝ p(x | µ )p(µ )
 *     1             $ 1 N                ' -* 1         * (µ − µ 0 ) 2 - -
 , (2πσ 2 ) N /2 exp %− 2σ 2 ∑ (xn − µ ) ( /,
                                        2     ,
=,                                          /        exp , −            //
 +                   &       n=1
                                                   2
                                          ) .+ 2πσ 0     +   2σ 0 ./
                                                                 2
                                                                          .
          1              $ 1 N              (µ − µ 0 ) 2 '
=      ( N+1)/2  N
                     exp %− 2 ∑ (xn − µ ) −
                                         2
                                                  2
                                                         (
  (2π )         σ σ0     & 2σ n=1             2σ 0 )
平均を推定(分散既知)の例
                                            47



指数部分を取り出す

     1 N            (µ − µ 0 ) 2     # N      1 & 2 # 1 N              1  &
  − 2 ∑ (xn − µ ) −
                  2
                           2
                                 = − % 2 − 2 ( µ + % 2 ∑ xn + 2 µ 0 ( µ + const
    2σ n=1            2σ 0           $ 2σ   2σ 0 '       $ σ n=1      σ0 '
      # N   1 & ) 2 # 2σ 0
                  +              2     N
                                                 2σ 2       & - +
  = − % 2 − 2 ( *µ − % 2
      $ 2σ 2σ 0 ' ,                 2 ∑ xn + σ 2 N + σ 2 µ0 ( µ . + const
                  +    $ σ 0 N + σ n=1         0            ' / +
                                        2
      # N         )  σ 0 ∑ xn + σ 2 µ 0 -
                       2
            1 &+                        +
  = − % 2 − 2 ( *µ −                    . + const
      $ 2σ 2σ 0 ' +
                  ,      σ 0 N +σ 2 +
                           2
                                        /
      # 1 &                                                            σ2            Nσ 0 2
                                                               µN =            µ0 +            µ ML
  = − % 2 ( (µ − µ N )2 + const                                     Nσ 0 + σ 2
                                                                       2
                                                                                    Nσ 0 + σ 2
                                                                                       2

      $ 2σ N '                                                  1    1    N
                                                                   = 2+ 2
                           2
  p(µ | X) = N(µ | µ N , σ N )                      ただし          2
                                                               σN σ0 σ
                                                                       1 N
                                                               µ ML   = ∑ xn
                                                                       N n=1
2.3.7 スチューデントのt分布(p100-103)
                                      48

—  スチューデントのt分布とは平均は同じだが分散が異
なるガウス分布を足し合わせたもの
¡    ガウス分布に比べ分布の「すそ」が長い


                          ∞
      St( x | µ , a, b) = ∫ N ( x | µ , (ηλ ) −1 ) Gam(η | ν , ν )dη
                                                           2 2
                          0
                               1/ 2                2   −ν − 1
            Γ(ν + 1 ) ⎛ λ ⎞ ⎡ λ ( x − µ ) ⎤         2 2

           = 2 ν 2 ⎜      ⎟ ⎢1 +          ⎥
              Γ 2 ⎝ πν ⎠ ⎣         ν      ⎦
2.3.7 スチューデントのt分布(p100-103)
                   49

—  t分布は頑健性と呼ばれる重要な性質を持つ。
    ¡  外れ値となっている少数のデータ点があってもがガウス分布
        よりずっと影響されにくいという性質




 t分布
ガウス分布




        ほぼ重なっている    ガウス分布は外れ値の影響を受けている
2.3.8 周期変数
                     50

—  ガウス分布に対して周期変数を導入する。
    ¡  例
      ÷  24時間や1年といった時間的周期を持つもののモデル化に便利




—  単純にある方向に原点を選んだ周期関数を使ってガ
ウス分布を適用するだけではうまくいかない
¡    特別な方法が必要
2.3.8 周期変数
                                                             51

—  周期変数の観測値の集合D={θ1 … θn}の平均を求める
 ときに|x|=1,n=1,…,Nを満たす二次元単位ベクトル
 x1,..,xNで観測値を表せることに注目する。
角度の平均の代わりに、ベクトル{xn}の平均
                   1 N
                x = ∑xn
                   N n=1
を求める。そしてこの平均に対応するθを求める。
観測値の直交座標と単純平均の直交座標から
                  1 N                           1 N
  x1 = r cosθ =     ∑
                  N n=1
                        cosθ n , x 2 = r sin θ = ∑ sin θ n
                                                N n=1
          ⎧ ∑n sinθ n ⎫
          ⎪
           −1          ⎪
  θ = tan ⎨           ⎬
          ⎪ ∑n cosθ n ⎪
          ⎩           ⎭                    を得る。
周期変数(フォン・ミーゼス分布)
                                            52

—  周期変数上のガウス分布はフォンミーゼス分布
     まず以下の条件を満たす必要がある。

              p(θ ) ≥ 0
                  2π
              ∫   0
                       p(θ )dθ =1
              p(θ + 2π ) = p(θ )

    2変数x=(x1,x2)上のガウス分布を考える。

                  1     ⎧ ( x1 − µ1 ) 2 + ( x2 − µ2 ) 2 ⎫
p( x1 , x2 ) =     2
                     exp⎨−                2             ⎬   青:二次元のフォンミーゼ
               2πσ      ⎩             2σ                ⎭   ス分布
                                                              赤:単位円
フォン・ミーゼス分布の導出
                               53

                x1 = r cosθ     µ1 = r0 cosθ 0
                x2 = r sin θ    µ 2 = r0 sin θ 0
単位円であることに注意してガウス分布の指数部に注目

   (x1 − µ1 )2 + (x2 − µ 2 )2
 −
              2σ 2
       1
 = − 2 (r cosθ − r0 cosθ 0 )2 + (r sin θ − r0 sin θ 0 )2
     2σ
     1
 =
   2σ 2
         (2r0 (cosθ cosθ0 + sinθ sinθ0 ) − (1+ r02 ))
    r0
 = 2 cos(θ − θ 0 ) + const
   σ
フォン・ミーゼス分布の導出
                                     54

 m=r0/σ2 と置くと次のようなフォン・ミーゼス分布で表される。
                                   1
            p(θ | θ 0 , m) =              exp{m cos(θ − θ 0 )}
                               2π I 0 (m)
パラメータmは集中度パラメータとして知られ、正規化係数 I0(m) と表される。
これは0次の第1種変形ベッセル関数らしい
                      1 2π
           I 0 (m) =
                     2π
                        ∫ 0 exp{m cosθ }dθ
            左:直交座標表示、右:極座標
フォン・ミーゼス分布の最尤推定
                                                 55

—  対数尤度関数 ln p は以下のように表される。
                                                                 N
  ln p(D | θ 0 , m) = −N ln(2π ) − N ln I 0 (m) + m∑ cos(θ n − θ 0 )
                                                                 n=1

—  θ0 についての導関数を0とおく。
               N

              ∑ sin(θ
              n =1
                             n   − θ0 ) = 0
               N

              ∑ (sin θ
              n =1
                             n   cosθ 0 − cosθ n sin θ 0 ) = 0
                         N                       N
              cosθ 0 ∑ sin θ n = sin θ 0 ∑ cosθ n
                        n =1                    n =1

—  θ0 について解き、以下の最尤解を得る。これは先ほどの平均と同じ形である。

                  ML
                             ⎧ ∑n sin θ n ⎫
                             ⎪  −1        ⎪
              θ        = tan ⎨            ⎬
                             ⎪ ∑n cosθ n ⎪
                             ⎩            ⎭
フォン・ミーゼス分布の最尤推定
                              56

—  mについても最大化する。
    ¡  どうやら難しいようなので結果だけが教科書に書かれている。




                       N
      I 0 ' (mML ) 1
      I 0 (mML ) N
                  =    ∑ cos(θ
                       n =1
                                   n   − θ ML )
2.3.9 混合ガウス分布
                57

—  単一のガウス分布では構造がとらえられないが複数
 のガウス分布の線形結合であればうまくデータ集合
 の特徴を表せる。



—  混合分布という確率モデルで最適化
    ¡  混合ガウス分布 

    ¡  パラメータについての最尤推定解:

                   閉形式の解析解では得られない

                     EMアルゴリズム

More Related Content

What's hot

PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2禎晃 山崎
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族hiroki yamaoka
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布KokiTakamiya
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120Hayato K
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」Koichi Hamada
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 

What's hot (20)

PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
PRML 2.3節
PRML 2.3節PRML 2.3節
PRML 2.3節
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120Prml 1.2,4 5,1.3|輪講資料1120
Prml 1.2,4 5,1.3|輪講資料1120
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
PRML 2.4
PRML 2.4PRML 2.4
PRML 2.4
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 

Similar to Prml 2.3

8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰hagino 3000
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布Akihiro Nitta
 
PRML復々習レーン2.3.2
PRML復々習レーン2.3.2PRML復々習レーン2.3.2
PRML復々習レーン2.3.2sukoyakarizumu
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333Issei Kurahashi
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデルshow you
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notationKenta Oono
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル貴之 八木
 

Similar to Prml 2.3 (20)

8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰PRML ベイズロジスティック回帰
PRML ベイズロジスティック回帰
 
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
 
Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 
PRML復々習レーン2.3.2
PRML復々習レーン2.3.2PRML復々習レーン2.3.2
PRML復々習レーン2.3.2
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
PRML2.3.1-2.3.3
PRML2.3.1-2.3.3PRML2.3.1-2.3.3
PRML2.3.1-2.3.3
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデル
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (9)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

Prml 2.3

  • 1. W8PRML読書会 2.3 ガウス分布 2 01 2 / 10 / 2 @sa__i
  • 2. はじめに 2 —  この節で言いたいこと       「僕がガウス分布を使うnの理由」
  • 3. ガウス分布(p76-78) 3 —  ガウス分布は正規分布とも呼ばれ、連続変数の分布 モデルとして広く利用される。 2 1 " 1 2% N(x | µ, σ ) = 2 1/2 exp #− 2 (x − µ ) & (2πσ ) $ 2σ '   平均µ 分散σ2 —  数学的に扱い易いので、扱うモデルをガウス分布に 帰着させたい(?)
  • 4. 多次元ガウス分布(p76-78) 4 —  D次元ベクトルxに対する多変量ガウス分布は以下のよう に与えられる    µはD次元の平均ベクトル、ΣはD×Dの共分散行列,|Σ|は行列式  
  • 5. 中心極限定理 5 サンプルのサイズを大きくすると サンプルの平均は真の平均に近づく 図2.6 N個の一様に分布する量の平均のヒストグラム —  図2.6についてNが増加するにつれガウス分布に近づくこと が分かる
  • 6. ガウス分布の幾何的性質(p78-82) 6 —  多変量ガウス分布をD個の独立な1変数ガウスの積で 表すことができる。 このような多変量ガウス分布を… y2 + 2 x2 + 2 y2 + 2 y y2 y 拡大 回転 移動 x2 + 2 x x2 x2 変換したものと見なす
  • 7. ガウス分布の幾何的性質(p78-82) 7 図2.7 ガウス分布の密度が一定になる楕円 λi:固有値 ui:既定ベクトル y:UT(x-µ)
  • 8. ガウス分布の1次モーメント(p80) 8 —  ガウス分布のモーメントを求めパラメータµやΣを解 釈する。 ¡  ガウス分布下でのxの期待値は(z=x-µと置き換えると) 1 1 # 1 T −1 & E[x] = D/2 (2π ) | Σ |1/2 ∫ exp $− 2 z Σ z' (z + µ )dz % ( ÷  (指数部分がzの要素の偶関数であり(-∞,∞)での積分に注意) E[x] = µ                 となりµは平均と解釈できる
  • 9. ガウス分布の2次モーメント(p81) 9 —  先ほどと同様に置換する。 T 1 1 # 1 T −1 & E[xx ] = exp $− z Σ z ' (z + µ )(z + µ )T dz ∫ % 2 (2π )D/2 | Σ |1/2 ( ¡  µzTとzµTの項は対称性で消え、µµTは定数、積分がガウス分布 で正規化されていることに注意しながら D z = Σ y j u j とすると j=1
  • 10. ガウス分布の2次モーメント(p81) 10 —  zzTの項は 1 1 # 1 T −1 & T (2π )D/2 | Σ |1/2 ∫ exp $− 2 z Σ z' zz dz % ( D = Σ ui uiT λi = Σ i=1 —  となり、その結果 E[xx T ] = µµ T + Σ
  • 11. ガウス分布の2次モーメント(p81) 11 —  確率変数がひとつの時には事前に平均を引いた2次 モーメントで分散を定義した。 —  同様に多変量もあらかじめ平均を引いて確率変数xの 共分散を定義する。 cov[x] = E[(x − E[x])(x − E[x])T ] = Σ E[x]=µであることに注意 —  パラメータ行列Σによりガウス分布下での共分散が決まる ためこのパラメータを共分散行列と呼ぶ。
  • 12. 様々なガウス分布 12 —  行列を制限することでパラメータを削減 a)  一般行列 図2.8 2次元空間ガウス分布の確立密度が一定になる等高線 b)  対角行列 c)  等方行列
  • 13. 2.3.1 条件付きガウス分布(p83) 13 —  多変量ガウス分布の重要な特性として、    2つの変数集合の同時確率分布 p(xa , xb )がガウス分布に従う 一方の確率変数 p(xb ) が与えられたときの、もう一方の集合 の条件付き分布 p(xa | xb ) もガウス分布になる。さらにどち らの変数集合の周辺分布も同様にガウス分布になる。
  • 14. 2.3.1 条件付きガウス分布(p83) 14 —  条件付きガウス分布の表現を見つける。 ¡  条件付き分布の定義 ¡  xbを観測された値で固定、正規化を行う。(つまり上記の式を xaの関数と見なす。) ¡  ガウス分布の指数部分の2次形式について考え、最後に正規化 係数を求めると効率よく解が得られる(らしい)
  • 15. ここでの目標 15 —  つまりガウス分布の2次形式について考えたとき 1 T − x Ax + x T B + const 2        という形をしているので    同じくガウス分布に従うと分かっている条件付き分布 に対するAとBを求めたい
  • 16. 2.3.1 条件付きガウス分布(p83) 16 精度行列 (2.65),(2.66),(2.69)を利用すると xaについて整理
  • 17. 2.3.1 条件付きガウス分布(p84) 17 —  2次項 (先ほどのAに当たる) 分散 Xと独立 —  1次項 (先ほどのBに当たる) 平均 Xの線形関数
  • 18. 2.3.1 条件付きガウス分布(p84) 18 —  共分散行列での表現
  • 19. 周辺ガウス分布(p86-p87) 19 —  周辺分布             もガウス分布 になることを示す。 —  条件付き確率とほぼ同様の手順を踏む ¡  xbについて平方完成 ¡  xbについて積分(定数になる項に注意)
  • 20. 周辺ガウス分布(p86-p87) 20 —  直感通り周辺分布の平均と分散は                     となり分割したパラメータそのものになっている!
  • 21. 条件付きガウス分布と周辺分布のまとめ 21 •  同時確率分布がガウス分布に従うのならば 条件付きガウス分布 どこで切ってもその分布が ガウス分布になる 周辺分布 どちらの変数集合の周辺分布もガウス分布になる
  • 22. 2.3.3ガウス変数に対するベイズの定理(p88-90) 22 —  条件付き分布と周辺分布が与えられたときの同時分 布について考える。 p(y | x), p(x)  p(x, y) —  これまでは同時分布が与えられたときの条件付き分 布と周辺確率について考察していた。 p(x, y)  p(y | x), p(x)
  • 23. 2.3.3ガウス変数に対するベイズの定理(p88-90) 23 —  周辺分布と条件付き分布を以下のように与える。 —  としたときのp(z) を求めたい。 —  これもガウス分布に従うのでこれまでの手順と同様
  • 24. 2.3.3ガウス変数に対するベイズの定理(p88-90) 24 —  まず周辺分布について考える。 —  手順 ¡  対数をとる。 1 T − x Ax + x T B + const ¡                の形になるように整理する 2
  • 25. 2.3.3ガウス変数に対するベイズの定理(p88-90) 25 —  2次項は以下のようになる。  精度行列 分散共分散行列(シューアの補行列を用いて)
  • 26. 2.3.3ガウス変数に対するベイズの定理(p88-90) 26 —  1次項 ¡  周辺分布の平均と分散共分散行列より
  • 27. 2.3.3ガウス変数に対するベイズの定理(p88-90) 27 —  同様に条件付き分布についても
  • 28. 2.3.4 ガウス分布の最尤推定(p91) 28 —  この節での目標 多変数ガウス分布から観測値{xn}が得られ集 合があるとき、最尤推定法からガウス変数 のパラメータを決定したい
  • 29. 行列のおさらい(基本) 29 —  逆行列 _1 −1 AA = A A = I —  転置行列 T T T (AB) = B A T −1 −1 T (A ) = (A ) ∂ −1 T ln | A |= (A ) ∂A
  • 30. 行列のおさらい(2次形式) 30 —  2次形式の別の表現 " % x Ax = ∑ aij xi x j = ∑$ ∑ aij (xx )' = ∑ (Axx T )ij = tr(Axx T ) T $ T ' i, j i # j & i
  • 31. 行列のおさらい(微分) 31 —  内積の微分 ∂ T (x y) = y ∂x ∂ T (x y) = x ∂y —  2次形式の微分 ∂ T (x Ax) = (A + AT )x ∂x —  逆行列の微分 ∂ −1 −1 ∂ (A ) = A (A )A −1 ∂x ∂x
  • 32. 2.3.4 ガウス分布の最尤推定(p91) 32 —  対数尤度関数は以下のように与えられる ND N 1 N ln p(X | µ, Σ) = − ln(2π ) − ln | Σ | − Σ (xn − µ )T Σ−1 (xn − µ ) 2 2 2 n=1 N N T Σxn Σ xn xn のみに依存していることが分かる。 —  n=1 n=1    これらをガウス分布の十分統計量という。
  • 33. 十分統計量とは? 33 —  十分統計量 ¡  観測値X=(X1,X2…Xn)が与えられた時のθの尤度関数をL(θ|X)と置 く。このときT(X)=(T1(X),…Tk(X))がθ=(θ1..,θm)の十分統計量とは L(θ | X) = pθ (T (X))⋅ h(X) と表せる。 Xの要素は含んではいいが θの要素は含まない l(θ | X) = log( pθ (T (X))⋅ h(X)) = log( pθ (T (X))) + log(h(X)) あるθiで微分すると ∂l(θ | X) ∂pθ (T (X)) = ∂θ i ∂θ i h(X)の項は微分で消える。つまり最尤推定量を求めるのに関係ないことが分かる。 最尤推定量を求めるのに使うのはT(X)と定数のみであることが分かる
  • 34. 2.3.4 ガウス分布の最尤推定(p91) 34 —  µに関しての導出関数は ∂ 1 N −1 N ln p(X | µ, Σ) = Σ (Σ + Σ)(xn − µ ) = Σ Σ−1 (xn − µ ) ∂µ 2 n=1 n=1 この本だとΣは対称行列であると仮定している で与えられ、これを0と置くと平均は 1 N µ ML = Σ xn N n=1
  • 35. 2.3.4 ガウス分布の最尤推定(p91) 35 —  Σの最大化は複雑である。対称性と正定値性の制約 を明示的に考慮する解法は考案されており、結果は 次のようになる。(次のスライドに解説) 1 N Σ ML = ∑ (xn − µ ML )(xn − µ ML )T N n=1 —  真の分布での最尤推定解の期待値 E[µ ML ] = µ N E[Σ ML ] = Σ N −1 平均については最尤推定の期待値は真の平均に等しいことが分かる。
  • 36. Σの最大化(1) 36 ∂ N ∂ 1 ∂ N ln p(X | µ, Σ) = − ln | ∑ | − Σ (xn − µ )T Σ−1 (xn − µ ) ∂∑ 2 ∂∑ 2 ∂∑ n=1 第1項 N ∂ N −1 T − ln | ∑ |= − (∑ ) 2 ∂∑ 2 第2項 xn-µ=yと置換する N $ −1 ' Σ (xn − µ ) Σ (xn − µ ) = y Σ y = tr & Σ ∑ yi yi ) T −1 T −1 T n=1 % i (
  • 37. Σの最大化(2) 37 Σで微分 ∂ % −1 ( %% ∂ −1 ( ( % ∂ ( tr ' Σ (∑ yi yi )* = tr '' T Σ * (∑ yi yi )* = −tr ' Σ ( T ' −1 Σ)Σ (∑ yi yi )* −1 T * ∂∑ & i ) && ∂∑ ) i ) & ∂aij i ) 逆関数の微分 tr(AB)=tr(BA) % ∂ ( ' ∂a Σ)Σ (∑ yi yi )Σ * −1 T −1 = −tr ' ( * & ij i )
  • 38. Σの最大化(3) 38 C = Σ−1 (∑ yi yiT )Σ−1 i とする。 ## ∂ & & ## ∂ & & # # ∂ & & tr %% %% ∂a Σ ( C ( = ∑%% ( ( %% Σ( Cs ( = ∑% ∑% ( ( % % Σ(ct,s ( ( ( $$ ij ' ' s $$ ∂aij ' 'ss s $ t $ ∂aij ' ' = ∑δi,sδ j,t ct,s = ct,s よって第二項は T 1 ∂ N % −1 ( Σ (xn − µ ) Σ (xn − µ ) = − ' ∑ (∑ yi yi )∑* T −1 T 2 ∂∑ n=1 & i )
  • 39. Σの最大化(4) 39 T ∂ 1 −1 T 1 % −1 ( ln p(X | µ, Σ) = − N (∑ ) + ' ∑ (∑ yi yi )∑ * T −1 ∂∑ 2 2& i ) これが0になるので転置をとって −N ∑−1 +∑−1 (∑ yi yiT )∑−1 = 0 i ∑−1 (∑ yi yiT )∑−1 = N ∑−1 i 1 1 ∑ML = ∑ yi yi = ∑ (xi − µ )(xi − µ )T T N i N i
  • 40. 2.3.5 逐次推定(p-92-93) 40 —  逐次推定とはデータ点を一つずつ処理し、廃棄して 推定する方法。 —  これはデータ点xnに対して推定値に1/Nに比例する 「誤差信号」だけ古い推定量を移動させている。 —  Nが増えるにつれ後続の影響は小さくなる。
  • 41. 2.3.5 逐次推定(p-92-93) 41 —  より汎用的は逐次学習の定式化 Robbin-Monroアルゴリズム ¡  Robbin-Monroの手続きでは根の推定を以下のように定義 θ ( N ) = θ ( N−1) − aN−1z(θ ( N−1) ) ∞ ∞ ¡  (aNは N −>∞ aN = 0, ∑ aN = ∞, ∑ aN < ∞ を満たす) lim 2 N=1 N=1 —  最尤推定解は対数尤度関数の停留点
  • 42. Robbins-Monroを用いた最尤推定について 42 最尤推定解は負の対数尤度関数の停留点であるため ∂ "1 N % − # ∑ ln p(xn | θ )& =0 ∂θ $ N n=1 ' ϑ ML 1 N & ∂ ) − lim ∑ ln p(xn | θ ) = E x (− ln p(x | θ )+ N→∞ N ' ∂θ * n=1 を得る。 すると最尤推定解を求めることは回帰関数の根を求めることに相当する ∂ #− ln p(x N | θ ( N−1) % θ ( N ) = θ ( N−1) − aN−1 ( N−1) $ & ∂θ
  • 43. 2.3.6 ガウス分布に対するベイズ推論 43 — この節で言いたいこと    ベイズ推定で求めるものは    パラメータの値ではなくパラメータの分布
  • 44. 2.3.6 ガウス分布に対するベイズ推論 44 —  共役事前分布 ¡  尤度関数とかけて事後分布を求めるとその関数の形が同 じになるような事前分布 —  ガウス分布の各パラメータの事後分布における 共役事前分布は以下のようになる 事後分布 1変量 多変量 平均(分散既知) ガウス分布 ガウス分布 精度(平均既知) ガンマ分布 ウィッシャート分布 平均、精度 ガウスーガンマ分布 ガウルウィシャート分布
  • 45. 平均を推定(分散既知)の例 45 µが与えらたときに観測データが生じるであろう尤度関数はµの関数と見なせる N 1 $ 1 N ' p(x | µ ) = Π p(xn | µ ) = 2 N /2 exp %− 2 ∑ (xn − µ ) ( 2 n=1 (2πσ ) & 2σ n=1 ) µについて2次形式の指数の形をとっている。よって事前分布p(µ)にガウス分布を 選べばこの尤度関数の共役事前分布となる。 事前分布を次のようにとる 2 p(µ ) = Ν(µ | µθ , σ 0 ) 事後分布は p(µ | X) ∝ p(X | µ )p(µ )
  • 46. 平均を推定(分散既知)の例 46 p(µ | x) ∝ p(x | µ )p(µ ) * 1 $ 1 N ' -* 1 * (µ − µ 0 ) 2 - - , (2πσ 2 ) N /2 exp %− 2σ 2 ∑ (xn − µ ) ( /, 2 , =, / exp , − // + & n=1 2 ) .+ 2πσ 0 + 2σ 0 ./ 2 . 1 $ 1 N (µ − µ 0 ) 2 ' = ( N+1)/2 N exp %− 2 ∑ (xn − µ ) − 2 2 ( (2π ) σ σ0 & 2σ n=1 2σ 0 )
  • 47. 平均を推定(分散既知)の例 47 指数部分を取り出す 1 N (µ − µ 0 ) 2 # N 1 & 2 # 1 N 1 & − 2 ∑ (xn − µ ) − 2 2 = − % 2 − 2 ( µ + % 2 ∑ xn + 2 µ 0 ( µ + const 2σ n=1 2σ 0 $ 2σ 2σ 0 ' $ σ n=1 σ0 ' # N 1 & ) 2 # 2σ 0 + 2 N 2σ 2 & - + = − % 2 − 2 ( *µ − % 2 $ 2σ 2σ 0 ' , 2 ∑ xn + σ 2 N + σ 2 µ0 ( µ . + const + $ σ 0 N + σ n=1 0 ' / + 2 # N ) σ 0 ∑ xn + σ 2 µ 0 - 2 1 &+ + = − % 2 − 2 ( *µ − . + const $ 2σ 2σ 0 ' + , σ 0 N +σ 2 + 2 / # 1 & σ2 Nσ 0 2 µN = µ0 + µ ML = − % 2 ( (µ − µ N )2 + const Nσ 0 + σ 2 2 Nσ 0 + σ 2 2 $ 2σ N ' 1 1 N = 2+ 2 2 p(µ | X) = N(µ | µ N , σ N ) ただし 2 σN σ0 σ 1 N µ ML = ∑ xn N n=1
  • 48. 2.3.7 スチューデントのt分布(p100-103) 48 —  スチューデントのt分布とは平均は同じだが分散が異 なるガウス分布を足し合わせたもの ¡  ガウス分布に比べ分布の「すそ」が長い ∞ St( x | µ , a, b) = ∫ N ( x | µ , (ηλ ) −1 ) Gam(η | ν , ν )dη 2 2 0 1/ 2 2 −ν − 1 Γ(ν + 1 ) ⎛ λ ⎞ ⎡ λ ( x − µ ) ⎤ 2 2 = 2 ν 2 ⎜ ⎟ ⎢1 + ⎥ Γ 2 ⎝ πν ⎠ ⎣ ν ⎦
  • 49. 2.3.7 スチューデントのt分布(p100-103) 49 —  t分布は頑健性と呼ばれる重要な性質を持つ。 ¡  外れ値となっている少数のデータ点があってもがガウス分布 よりずっと影響されにくいという性質 t分布 ガウス分布 ほぼ重なっている ガウス分布は外れ値の影響を受けている
  • 50. 2.3.8 周期変数 50 —  ガウス分布に対して周期変数を導入する。 ¡  例 ÷  24時間や1年といった時間的周期を持つもののモデル化に便利 —  単純にある方向に原点を選んだ周期関数を使ってガ ウス分布を適用するだけではうまくいかない ¡  特別な方法が必要
  • 51. 2.3.8 周期変数 51 —  周期変数の観測値の集合D={θ1 … θn}の平均を求める ときに|x|=1,n=1,…,Nを満たす二次元単位ベクトル x1,..,xNで観測値を表せることに注目する。 角度の平均の代わりに、ベクトル{xn}の平均 1 N x = ∑xn N n=1 を求める。そしてこの平均に対応するθを求める。 観測値の直交座標と単純平均の直交座標から 1 N 1 N x1 = r cosθ = ∑ N n=1 cosθ n , x 2 = r sin θ = ∑ sin θ n N n=1 ⎧ ∑n sinθ n ⎫ ⎪ −1 ⎪ θ = tan ⎨ ⎬ ⎪ ∑n cosθ n ⎪ ⎩ ⎭ を得る。
  • 52. 周期変数(フォン・ミーゼス分布) 52 —  周期変数上のガウス分布はフォンミーゼス分布 まず以下の条件を満たす必要がある。 p(θ ) ≥ 0 2π ∫ 0 p(θ )dθ =1 p(θ + 2π ) = p(θ ) 2変数x=(x1,x2)上のガウス分布を考える。 1 ⎧ ( x1 − µ1 ) 2 + ( x2 − µ2 ) 2 ⎫ p( x1 , x2 ) = 2 exp⎨− 2 ⎬ 青:二次元のフォンミーゼ 2πσ ⎩ 2σ ⎭ ス分布 赤:単位円
  • 53. フォン・ミーゼス分布の導出 53 x1 = r cosθ µ1 = r0 cosθ 0 x2 = r sin θ µ 2 = r0 sin θ 0 単位円であることに注意してガウス分布の指数部に注目 (x1 − µ1 )2 + (x2 − µ 2 )2 − 2σ 2 1 = − 2 (r cosθ − r0 cosθ 0 )2 + (r sin θ − r0 sin θ 0 )2 2σ 1 = 2σ 2 (2r0 (cosθ cosθ0 + sinθ sinθ0 ) − (1+ r02 )) r0 = 2 cos(θ − θ 0 ) + const σ
  • 54. フォン・ミーゼス分布の導出 54 m=r0/σ2 と置くと次のようなフォン・ミーゼス分布で表される。 1 p(θ | θ 0 , m) = exp{m cos(θ − θ 0 )} 2π I 0 (m) パラメータmは集中度パラメータとして知られ、正規化係数 I0(m) と表される。 これは0次の第1種変形ベッセル関数らしい 1 2π I 0 (m) = 2π ∫ 0 exp{m cosθ }dθ 左:直交座標表示、右:極座標
  • 55. フォン・ミーゼス分布の最尤推定 55 —  対数尤度関数 ln p は以下のように表される。 N ln p(D | θ 0 , m) = −N ln(2π ) − N ln I 0 (m) + m∑ cos(θ n − θ 0 ) n=1 —  θ0 についての導関数を0とおく。 N ∑ sin(θ n =1 n − θ0 ) = 0 N ∑ (sin θ n =1 n cosθ 0 − cosθ n sin θ 0 ) = 0 N N cosθ 0 ∑ sin θ n = sin θ 0 ∑ cosθ n n =1 n =1 —  θ0 について解き、以下の最尤解を得る。これは先ほどの平均と同じ形である。 ML ⎧ ∑n sin θ n ⎫ ⎪ −1 ⎪ θ = tan ⎨ ⎬ ⎪ ∑n cosθ n ⎪ ⎩ ⎭
  • 56. フォン・ミーゼス分布の最尤推定 56 —  mについても最大化する。 ¡  どうやら難しいようなので結果だけが教科書に書かれている。 N I 0 ' (mML ) 1 I 0 (mML ) N = ∑ cos(θ n =1 n − θ ML )
  • 57. 2.3.9 混合ガウス分布 57 —  単一のガウス分布では構造がとらえられないが複数 のガウス分布の線形結合であればうまくデータ集合 の特徴を表せる。 —  混合分布という確率モデルで最適化 ¡  混合ガウス分布  ¡  パラメータについての最尤推定解:              閉形式の解析解では得られない EMアルゴリズム