PRML輪読会 2. 確率分布

2012.9.24    @americiumian
発表概要
   2.1   二値変数
   2.2   多値変数
   2.3   ガウス分布
   2.4   指数型分布族
   2.5   ノンパラメトリック法




                       2
この章の目的
   密度推定
       観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥
        の確率分布𝑝(𝑥)をモデル化すること
           このような確率分布は無限に存在しうる
       パラメトリック法
           分布の形を仮定し,観測値に合わせてパラメータを調整する
            手法
       ノンパラメトリック法
           分布の形を仮定せず,観測値によって分布を決める手法



                                          3
4   2.1 二値変数
    •   ベルヌーイ分布
    •   二項分布
    •   ベータ分布
ベルヌーイ分布 – 記号の定義
   二値確率変数 x ∈ {0,1}
       ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0
   パラメータ μ
     𝑥 = 1となる確率
    0≦ 𝜇 ≦1

     𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0   𝜇 =1− 𝜇
計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
           𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7
           𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3          5
ベルヌーイ分布
   ベルヌーイ分布
     Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)
     確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率

   特徴
       𝐸[𝑥] = 𝜇                                 (2.3)
       𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)                        (2.4)

計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
   𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7
   𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3            6
複数回観測した時の尤度関数
   設定
    D = 𝑥1 , … , 𝑥 𝑁
     𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定



   尤度関数
     𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5)
               𝑁              𝑁

     𝜇が与えられた時,どのくらい,観測したデータが生起
     しやすいかを表す


                                                        7
パラメータ𝜇の値を最尤推定
   対数尤度
                         𝑁

        ln 𝑝(𝐷 | 𝜇) =         ln 𝑝 𝑥 𝑛   𝜇)
                        𝑛=1
                          𝑁

                   =          { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 }      (2.6)
                        𝑛=1
                                               𝑁

                   = ln 𝜇 − ln 1 − 𝜇                𝑥 𝑛 + 𝑁 ln(1 − 𝜇)
                                              𝑛=1
              𝑁
       この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は,
        この分布の下,このデータに対する十分統計量の例
                                                                        8
パラメータ𝜇の値を最尤推定
   最尤推定
       ln 𝑝 𝐷           𝜇) を𝜇で偏微分して0とおいて解く
                     1    𝑁
       𝜇   𝑀𝐿   =        𝑛=1   𝑥𝑛   (2.7)
                     𝑁
           サンプル平均と呼ばれる


   結果の違った見方
       データ集合中で,𝑥 = 1になる回数を𝑚とすると,
                𝑚       データ集合中での表の観測値の割合が
         𝜇 𝑀𝐿 =   (2.8)
                𝑁       表が出る確率となる
                                              9
二項分布
   記号の定義
       𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値mの数
   二項分布
                              𝑁
       𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) =       𝑚
                                  𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚   (2.9)
        
            𝑁
                =
                      𝑁!                            (2.10)
            𝑚       𝑁−𝑚 !𝑚!

       確率𝜇で表が出るコインを𝑁回投げた時,
        表が出る回数𝑚の確率分布
   特徴
       𝐸[𝑚] = 𝑁𝜇                                   (2.11)
       𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)                           (2.12)
                                                              10
二項分布




       11
ベータ分布
   ベルヌーイ分布のパラメータ𝜇の最尤推定
     3回表が出ると,以降ずっと表が出る?                                         𝑁
                                                        1
     過学習の問題                                𝜇   𝑀𝐿    =               𝑥𝑛
                                                        𝑁
                                                                𝑛=1


   ベイズ主義的に扱う
     事前分布𝑝(𝜇)を導入する必要性                  𝑁
                                                     𝑥 𝑛 (1 −
                          𝑝 𝐷   𝜇) =            𝜇               𝜇)1−𝑥 𝑛
     事後分布が事前分布と同様の
                                       𝑛=1
      形式となる事前分布を選びたい
           共役性
       𝜇と(1 − 𝜇) のべきに比例する事前分布を導入

                                                                      12
ベータ分布

                           Γ(a + b) 𝑎−1
         𝐵𝑒𝑡𝑎 𝜇    𝑎, 𝑏) =          𝜇   (1 − 𝜇) 𝑏−1 (2.13)
                           Γ a Γ(b)

   特徴
                  𝑎
       𝐸[𝜇] =                         (2.15)
                 𝑎+𝑏
                             𝑎𝑏
       𝑣𝑎𝑟[𝜇] =                       (2.16)
                       𝑎+𝑏 2 (𝑎+𝑏+1)
       𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと
        呼ばれる

                                                             13
ベータ分布




        14
事後分布を求める
   事前分布
                        Γ(a + b) 𝑎−1
      𝐵𝑒𝑡𝑎 𝜇    𝑎, 𝑏) =          𝜇 (1 − 𝜇) 𝑏−1
                        Γ a Γ(b)
   尤度関数
                          𝑁
      𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) =         𝜇 𝑚 (1 − 𝜇) 𝑙       (𝑙 = 𝑁 − 𝑚)
                          𝑚
   事後分布
                             Γ(m + a + b + l)     𝑚+𝑎−1
       𝑝 𝜇     𝑚, 𝑙, 𝑎, 𝑏) =        (1 − 𝜇) 𝑙+𝑏−1
                                              𝜇
                             Γ m + a Γ(b + l)
                                              (2.18)
     𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時,
      事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい
     𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる
                                                                15
逐次学習
   事後分布の特徴
       事後分布は,事前分布と形式が同じなので,
        事後分布を新たな事前分布として扱える
   逐次学習
       データがひとつづつ与えられ,データが与えられる度に
        パラメータを更新していく学習法
             𝑥1         𝑥2

    𝑝(𝜇)        𝑝(𝜇|𝑥1 )   𝑝(𝜇|𝑥1,2 )


                                        16
逐次学習の例

             x=1を1つ
𝑎=2          観測した時の
𝑏=2          尤度関数
β分布          (N=m=1の
              二項分布)



       𝑎=3
       𝑏=2
      β分布


                  17
逐次学習の長所・短所
   長所
       実時間での学習に利用できる
           毎観測値ごとに事後確率を算出するので,全てのデータが
            なくともよい
       大規模データ集合に有用
           観測値の処理が終わった後,そのデータはもう捨ててよい


   短所
       学習の早さと,正しい解への収束性のトレードオフ

                                         18
𝑥の予測分布
   これまでの議論
      𝑝(𝜇 | 𝐷)の推定
     観測データ集合𝐷から,パラメータ𝜇の確率分布を推定



   ここからの議論
     𝑝(𝑥 = 1 | 𝐷)の推定
     観測データ集合𝐷から,𝑥 = 1となる確率を推定




                                  19
𝑥の予測分布
                         1
        𝑝(𝑥 = 1 | 𝐷) =        𝑝 𝑥=1    𝜇)𝑝 𝜇    𝐷) 𝑑𝜇
                         0
                          1
                    =         𝜇𝑝 𝜇   𝐷) 𝑑𝜇
                         0
                    = 𝑬 𝜇
                        𝐷]                     (2.19)
                       𝑚+ 𝑎
                   =                           (2.20)
                     𝑚+ 𝑎+ 𝑙+ 𝑏
観測値のうち,𝑥 = 1に相当するものの割合
 𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する
     このような特性は,多くの例で見られる
     有限のデータ集合では,
       事前平均 ≦ 事後平均 ≦ 𝜇の最尤推定量                            →演習2.7 20
事後分布の特性
   事後分布(ベータ分布)の分散
                       𝑎𝑏
       𝑣𝑎𝑟 𝜇 =
                  𝑎+𝑏 2 𝑎+𝑏+1
     𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく
     多くのデータを学習すればするほど,一般的に
      事後分布の不確実性は減少する?




                                21
平均・分散の不確実性
   事前平均と事後平均
            𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ]                          (2.21)
       𝜽の事後平均を,データを生成する分布上で平均すると,
        𝜽の事前平均に等しい

   事前分散と事後分散
        𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃     𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃   𝐷]]   (2.24)
        事前分散         事後分散の平均              事後平均の分散
         の平均

       平均的には 事前分散 > 事後分散
           成り立たないデータセットもある
                                                                   22
23   2.2 多値変数
     •   多項分布
     •   ディリクレ分布
例えば
   サイコロを投げる
       6通りの状態がありうる

   1-of-K 符号化法
     K個の状態を取りうる離散変数を扱う際に用いられる
     要素の一つ𝑥 𝑘 のみが1で他が0
       𝐾
      𝑘=1 𝑥 𝑘 = 1を満たす


       ex. サイコロの目を観測値𝑥として,3が出た時
           𝑥 = (0,0,1,0,0,0) 𝑇

                                   24
歪んだサイコロ
   記号の定義
       𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率

   正確なサイコロの場合
             1 1 1 1 1 1
       𝝁=( , , , , , )
             6 6 6 6 6 6


   シゴロ賽の場合
                   1 1 1
       𝝁 = (0,0,0, , , )
                   3 3 3


   ピンゾロ賽の場合
       𝝁 = (1,0,0,0,0,0)
                             25
多項分布
   𝑥の分布
                  𝐾
                               𝑥𝑘                   ベルヌーイ分布を2種類以上の
    𝑝 𝑥   𝜇) =         𝜇𝑘           (2.26)
                                                    出力に一般化したもの
                 𝑘=1
   観測値が複数あった場合
     𝑁個の独立な観測値𝑥1 … 𝑥 𝑁
     尤度関数
                       𝑁        𝐾                    𝐾                             𝐾

        𝑝 𝐷   𝜇) =                  𝜇𝑘   𝑥 𝑛𝑘   =         𝜇 𝑘(   𝑛   𝑥 𝑛𝑘 )   =         𝜇𝑘   𝑚𝑘

                      𝑛=1 𝑘=1                       𝑘=1                           𝑘=1             (2.29)
              𝑚𝑘 =              𝑥 𝑛𝑘  : この分布の十分統計量
                                                                                                    26
                           𝑛
𝝁の最尤推定
     制約付き対数尤度最大化
          ラグランジュの未定乗数法を用いる
      𝐾                      𝐾
                                             𝜇 𝑘 = 1 に代入して,
𝑓=         𝑚 𝑘 ln 𝜇 𝑘 + 𝜆         𝜇𝑘−1
                                         𝑘
     𝑘=1                    𝑘=1                      𝑚𝑘
             𝜕𝑓      𝑚𝑘                            −    =1
                  =     + 𝜆                          𝜆
             𝜕𝜇 𝑘    𝜇𝑘                      𝑘
             𝜕𝑓                              −         𝑚𝑘 = 𝜆
                  = 0 より,
             𝜕𝜇 𝑘                                  𝑘
                        𝑚𝑘                          𝜆 = −𝑁
              𝜇𝑘 =−                                       𝑚𝑘
                        𝜆                        𝜇 𝑘 𝑀𝐿 =
                                                           𝑁    27
多項分布
                                               𝐾
                                     𝑁                   𝑚𝑘
    𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾   𝝁, 𝑁) =                       𝜇𝑘        (2.34)
                                𝑚1 𝑚2 … 𝑚 𝐾
                                              𝑘=1
                           𝑁               𝑁!
           ただし,                   =
                      𝑚1 𝑚2 … 𝑚 𝐾   𝑚1 ! 𝑚2 ! … 𝑚 𝐾 !
                           𝐾

                                𝑚𝑘 = 𝑁
                          𝑘=1

   パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,
    𝑚1 … 𝑚 𝐾 の同時確率


                                                                       28
ディリクレ分布
   多項分布の𝜇 𝑘 についての事前分布
       共役分布の形は以下の通り
                       𝐾
                                    𝛼 𝑘 −1                               (2.37)
         𝑝 𝝁   𝜶) ∝            𝜇𝑘
                      𝑘=1
    ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1
    ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇

   ディリクレ分布
                                                      𝐾
                                        Γ(𝛼0 )
               𝐷𝑖𝑟 𝝁           𝜶) =                        𝜇𝑘   𝛼 𝑘 −1   (2.38)
                                    Γ 𝛼1 … Γ(𝛼 𝐾 )
                                                     𝑘=1
        ただし,𝛼0 =           𝑘   𝛼𝑘
                                                                                  29
共役性の確認
   事前分布
                                          𝐾
                        Γ(𝛼0 )                          𝛼 𝑘 −1
      𝑝 𝝁      𝜶) =                                𝜇𝑘                  (2.38)
                    Γ 𝛼1 … Γ(𝛼 𝐾 )
                                         𝑘=1

   尤度関数
                                     𝐾
                           𝑁
       𝑝 𝐷     𝝁) =
                      𝑚1 𝑚2 … 𝑚 𝐾
                                              𝜇𝑘   𝑚𝑘
                                                                       (2.34)
                                    𝑘=1

   事後分布
    𝑝 𝝁      𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁    𝜶 + 𝒎)
                                              𝐾
             Γ(𝛼0 + 𝑁)
    =                                               𝜇𝑘   𝛼 𝑘 +𝑚 𝑘 −1   (2.41)
      Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 )                                                 30
                                          𝑘=1
参考サイト
   朱鷺の杜Wiki
       http://ibisforest.org/index.php?FrontPage
   Bishopさんのサイト
       http://research.microsoft.com/en-
        us/um/people/cmbishop/PRML/
   prml_note@wiki
       http://www43.atwiki.jp/prml_note/pages/1.html
   十分統計量について
       http://www012.upp.so-
        net.ne.jp/doi/math/anova/sufficientstatistic.pdf
                                                           31

PRML2.1 2.2

  • 1.
  • 2.
    発表概要  2.1 二値変数  2.2 多値変数  2.3 ガウス分布  2.4 指数型分布族  2.5 ノンパラメトリック法 2
  • 3.
    この章の目的  密度推定  観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥 の確率分布𝑝(𝑥)をモデル化すること  このような確率分布は無限に存在しうる  パラメトリック法  分布の形を仮定し,観測値に合わせてパラメータを調整する 手法  ノンパラメトリック法  分布の形を仮定せず,観測値によって分布を決める手法 3
  • 4.
    4 2.1 二値変数 • ベルヌーイ分布 • 二項分布 • ベータ分布
  • 5.
    ベルヌーイ分布 – 記号の定義  二値確率変数 x ∈ {0,1}  ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0  パラメータ μ  𝑥 = 1となる確率 0≦ 𝜇 ≦1  𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 =1− 𝜇 計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3 5
  • 6.
    ベルヌーイ分布  ベルヌーイ分布  Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)  確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率  特徴  𝐸[𝑥] = 𝜇 (2.3)  𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇) (2.4) 計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3 6
  • 7.
    複数回観測した時の尤度関数  設定 D = 𝑥1 , … , 𝑥 𝑁  𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定  尤度関数  𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5) 𝑁 𝑁  𝜇が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す 7
  • 8.
    パラメータ𝜇の値を最尤推定  対数尤度 𝑁 ln 𝑝(𝐷 | 𝜇) = ln 𝑝 𝑥 𝑛 𝜇) 𝑛=1 𝑁 = { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 } (2.6) 𝑛=1 𝑁 = ln 𝜇 − ln 1 − 𝜇 𝑥 𝑛 + 𝑁 ln(1 − 𝜇) 𝑛=1 𝑁  この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は, この分布の下,このデータに対する十分統計量の例 8
  • 9.
    パラメータ𝜇の値を最尤推定  最尤推定  ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く 1 𝑁  𝜇 𝑀𝐿 = 𝑛=1 𝑥𝑛 (2.7) 𝑁  サンプル平均と呼ばれる  結果の違った見方  データ集合中で,𝑥 = 1になる回数を𝑚とすると, 𝑚 データ集合中での表の観測値の割合が 𝜇 𝑀𝐿 = (2.8) 𝑁 表が出る確率となる 9
  • 10.
    二項分布  記号の定義  𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値mの数  二項分布 𝑁  𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑚 𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚 (2.9)  𝑁 = 𝑁! (2.10) 𝑚 𝑁−𝑚 !𝑚!  確率𝜇で表が出るコインを𝑁回投げた時, 表が出る回数𝑚の確率分布  特徴  𝐸[𝑚] = 𝑁𝜇 (2.11)  𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇) (2.12) 10
  • 11.
  • 12.
    ベータ分布  ベルヌーイ分布のパラメータ𝜇の最尤推定  3回表が出ると,以降ずっと表が出る? 𝑁 1  過学習の問題 𝜇 𝑀𝐿 = 𝑥𝑛 𝑁 𝑛=1  ベイズ主義的に扱う  事前分布𝑝(𝜇)を導入する必要性 𝑁 𝑥 𝑛 (1 − 𝑝 𝐷 𝜇) = 𝜇 𝜇)1−𝑥 𝑛  事後分布が事前分布と同様の 𝑛=1 形式となる事前分布を選びたい  共役性  𝜇と(1 − 𝜇) のべきに比例する事前分布を導入 12
  • 13.
    ベータ分布 Γ(a + b) 𝑎−1 𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 (2.13) Γ a Γ(b)  特徴 𝑎  𝐸[𝜇] = (2.15) 𝑎+𝑏 𝑎𝑏  𝑣𝑎𝑟[𝜇] = (2.16) 𝑎+𝑏 2 (𝑎+𝑏+1)  𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと 呼ばれる 13
  • 14.
  • 15.
    事後分布を求める  事前分布 Γ(a + b) 𝑎−1 𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 Γ a Γ(b)  尤度関数 𝑁 𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝜇 𝑚 (1 − 𝜇) 𝑙 (𝑙 = 𝑁 − 𝑚) 𝑚  事後分布 Γ(m + a + b + l) 𝑚+𝑎−1 𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) = (1 − 𝜇) 𝑙+𝑏−1 𝜇 Γ m + a Γ(b + l) (2.18)  𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時, 事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい  𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる 15
  • 16.
    逐次学習  事後分布の特徴  事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える  逐次学習  データがひとつづつ与えられ,データが与えられる度に パラメータを更新していく学習法 𝑥1 𝑥2 𝑝(𝜇) 𝑝(𝜇|𝑥1 ) 𝑝(𝜇|𝑥1,2 ) 16
  • 17.
    逐次学習の例 x=1を1つ 𝑎=2 観測した時の 𝑏=2 尤度関数 β分布 (N=m=1の 二項分布) 𝑎=3 𝑏=2 β分布 17
  • 18.
    逐次学習の長所・短所  長所  実時間での学習に利用できる  毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい  大規模データ集合に有用  観測値の処理が終わった後,そのデータはもう捨ててよい  短所  学習の早さと,正しい解への収束性のトレードオフ 18
  • 19.
    𝑥の予測分布  これまでの議論  𝑝(𝜇 | 𝐷)の推定  観測データ集合𝐷から,パラメータ𝜇の確率分布を推定  ここからの議論  𝑝(𝑥 = 1 | 𝐷)の推定  観測データ集合𝐷から,𝑥 = 1となる確率を推定 19
  • 20.
    𝑥の予測分布 1 𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥=1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇 0 1 = 𝜇𝑝 𝜇 𝐷) 𝑑𝜇 0 = 𝑬 𝜇 𝐷] (2.19) 𝑚+ 𝑎 = (2.20) 𝑚+ 𝑎+ 𝑙+ 𝑏 観測値のうち,𝑥 = 1に相当するものの割合  𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する  このような特性は,多くの例で見られる  有限のデータ集合では, 事前平均 ≦ 事後平均 ≦ 𝜇の最尤推定量 →演習2.7 20
  • 21.
    事後分布の特性  事後分布(ベータ分布)の分散 𝑎𝑏  𝑣𝑎𝑟 𝜇 = 𝑎+𝑏 2 𝑎+𝑏+1  𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく  多くのデータを学習すればするほど,一般的に 事後分布の不確実性は減少する? 21
  • 22.
    平均・分散の不確実性  事前平均と事後平均 𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ] (2.21)  𝜽の事後平均を,データを生成する分布上で平均すると, 𝜽の事前平均に等しい  事前分散と事後分散 𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃 𝐷]] (2.24) 事前分散 事後分散の平均 事後平均の分散 の平均  平均的には 事前分散 > 事後分散  成り立たないデータセットもある 22
  • 23.
    23 2.2 多値変数 • 多項分布 • ディリクレ分布
  • 24.
    例えば  サイコロを投げる  6通りの状態がありうる  1-of-K 符号化法  K個の状態を取りうる離散変数を扱う際に用いられる  要素の一つ𝑥 𝑘 のみが1で他が0 𝐾  𝑘=1 𝑥 𝑘 = 1を満たす  ex. サイコロの目を観測値𝑥として,3が出た時  𝑥 = (0,0,1,0,0,0) 𝑇 24
  • 25.
    歪んだサイコロ  記号の定義  𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率  正確なサイコロの場合 1 1 1 1 1 1  𝝁=( , , , , , ) 6 6 6 6 6 6  シゴロ賽の場合 1 1 1  𝝁 = (0,0,0, , , ) 3 3 3  ピンゾロ賽の場合  𝝁 = (1,0,0,0,0,0) 25
  • 26.
    多項分布  𝑥の分布 𝐾 𝑥𝑘 ベルヌーイ分布を2種類以上の 𝑝 𝑥 𝜇) = 𝜇𝑘 (2.26) 出力に一般化したもの 𝑘=1  観測値が複数あった場合  𝑁個の独立な観測値𝑥1 … 𝑥 𝑁  尤度関数 𝑁 𝐾 𝐾 𝐾 𝑝 𝐷 𝜇) = 𝜇𝑘 𝑥 𝑛𝑘 = 𝜇 𝑘( 𝑛 𝑥 𝑛𝑘 ) = 𝜇𝑘 𝑚𝑘 𝑛=1 𝑘=1 𝑘=1 𝑘=1 (2.29) 𝑚𝑘 = 𝑥 𝑛𝑘  : この分布の十分統計量 26 𝑛
  • 27.
    𝝁の最尤推定  制約付き対数尤度最大化  ラグランジュの未定乗数法を用いる 𝐾 𝐾 𝜇 𝑘 = 1 に代入して, 𝑓= 𝑚 𝑘 ln 𝜇 𝑘 + 𝜆 𝜇𝑘−1 𝑘 𝑘=1 𝑘=1 𝑚𝑘 𝜕𝑓 𝑚𝑘 − =1 = + 𝜆 𝜆 𝜕𝜇 𝑘 𝜇𝑘 𝑘 𝜕𝑓 − 𝑚𝑘 = 𝜆 = 0 より, 𝜕𝜇 𝑘 𝑘 𝑚𝑘 𝜆 = −𝑁 𝜇𝑘 =− 𝑚𝑘 𝜆 𝜇 𝑘 𝑀𝐿 = 𝑁 27
  • 28.
    多項分布 𝐾 𝑁 𝑚𝑘 𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾 𝝁, 𝑁) = 𝜇𝑘 (2.34) 𝑚1 𝑚2 … 𝑚 𝐾 𝑘=1 𝑁 𝑁! ただし, = 𝑚1 𝑚2 … 𝑚 𝐾 𝑚1 ! 𝑚2 ! … 𝑚 𝐾 ! 𝐾 𝑚𝑘 = 𝑁 𝑘=1  パラメータ𝜇と観測値の総数𝑁が与えられた条件の下, 𝑚1 … 𝑚 𝐾 の同時確率 28
  • 29.
    ディリクレ分布  多項分布の𝜇 𝑘 についての事前分布  共役分布の形は以下の通り 𝐾 𝛼 𝑘 −1 (2.37) 𝑝 𝝁 𝜶) ∝ 𝜇𝑘 𝑘=1 ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇  ディリクレ分布 𝐾 Γ(𝛼0 ) 𝐷𝑖𝑟 𝝁 𝜶) = 𝜇𝑘 𝛼 𝑘 −1 (2.38) Γ 𝛼1 … Γ(𝛼 𝐾 ) 𝑘=1 ただし,𝛼0 = 𝑘 𝛼𝑘 29
  • 30.
    共役性の確認  事前分布 𝐾 Γ(𝛼0 ) 𝛼 𝑘 −1 𝑝 𝝁 𝜶) = 𝜇𝑘 (2.38) Γ 𝛼1 … Γ(𝛼 𝐾 ) 𝑘=1  尤度関数 𝐾 𝑁 𝑝 𝐷 𝝁) = 𝑚1 𝑚2 … 𝑚 𝐾 𝜇𝑘 𝑚𝑘 (2.34) 𝑘=1  事後分布 𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 + 𝒎) 𝐾 Γ(𝛼0 + 𝑁) = 𝜇𝑘 𝛼 𝑘 +𝑚 𝑘 −1 (2.41) Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 ) 30 𝑘=1
  • 31.
    参考サイト  朱鷺の杜Wiki  http://ibisforest.org/index.php?FrontPage  Bishopさんのサイト  http://research.microsoft.com/en- us/um/people/cmbishop/PRML/  prml_note@wiki  http://www43.atwiki.jp/prml_note/pages/1.html  十分統計量について  http://www012.upp.so- net.ne.jp/doi/math/anova/sufficientstatistic.pdf 31