SlideShare a Scribd company logo
PRML勉強会 2章前半
2013/11/28
!

東京大学 工学部システム創成学科 松尾研究室
黒滝 紘生
kurotaki@weblab.t.u-tokyo.ac.jp
目次

第2章 確率分布

• 2.1 二値変数
•

2.1.1 ベータ分布

• 2.2 多値変数
•

2.2.1 ディリクレ分布

• 2.3 ガウス分布
•

2.3.1 条件付きガウス分布

•

2.3.2 周辺ガウス分布

•

2.3.3 ガウス変数に対するベイズの定理

!2
第2章 確率分布 の内容
・標本データから、確率変数の確率分布を推定したい

!

・選んだ確率分布が、少数のパラメータのみで決まるか?
・決まる → パラメトリック (2.1-2.4)
・決まらない → ノンパラメトリック (2.5)

!

・パラメータさえ推定出来れば済む → どうやって決める?
・最尤推定 (p.22, 26)
・ベイズ推論 (第2章で扱う)
・パラメータ自体もまた、確率分布に従う、確率変数と考える
・分布の2段構え
・標本を観測→パラメータの事後確率を計算 (ベイズの法則)

!

・パラメトリックな手法を中心に紹介しつつ、必要な確率分布と性質を述べる
・関連して、「共役事前分布」「指数型分布族」の概念に触れる (2.4)
!3
第2章前半の構成
・二項分布 (2.1)
・予測したい確率変数 : 離散、二値
・パラメータの分布 : ベータ分布 (2.1.1)

!

・多項分布 (2.2)
・予測したい確率変数 : 離散、多値
・パラメータの分布 : ディリクレ分布 (2.2.1)

!

・ガウス分布 (2.3)
・予測したい確率変数 : 連続
・パラメータの分布 : ガウス分布、ガンマ分布 (2.3.6)

!

・二値 → 多値 → 連続 という順で、ほぼ同じ流れを3回説明している
・ガウス分布は重要なので、様々な性質も共に解説している

!4
目次

第2章 確率分布

• 2.1 二値変数
•

2.1.1 ベータ分布

• 2.2 多値変数
•

2.2.1 ディリクレ分布

• 2.3 ガウス分布
•

2.3.1 条件付きガウス分布

•

2.3.2 周辺ガウス分布

•

2.3.3 ガウス変数に対するベイズの定理

!5
ベルヌーイ分布
コイン投げの結果をモデリングしたい
表:x=1裏:x=0
表が出る確率 : µ

ベルヌーイ分布

分布の立場からみると、「この分布は1つのパラメータはµのみで決まる。µは
コインの表が出る確率と解釈できる」という言い方になる
!6
ベルヌーイ分布に対する最尤推定

観測されたデータの集合

尤度関数

(確率の積の法則を考えている)
対数を取ってµについて微分して解くと、µの最尤推定量µMLは、

特に、x=1となった回数をmと置けば、上式は

!7
最尤推定の問題点

例えば、

のとき、

しかし、

のとき、

「必ず表が出る」と推測したことになる。これは直感に反する
最尤推定法は、データ数が少ない場合over fittingに陥る
ベイズ推定を用いると、もっと常識的な結果を得ることができる(後述)
!8
二項分布
・ベルヌーイ分布は、1回の試行について、確率変数xの値を与える確率分布
・今度は、x=1となった回数mの分布を考える

今度も、Nはコインを投げた回数、µはコインの表が出る回数と解釈できる

!9
二項分布の例
N = 10, µ = 0.25の二項分布を、mの関数として示したヒストグラム

確率

m : x=1が何回観測されたか

!10
目次

第2章 確率分布

• 2.1 二値変数
•

2.1.1 ベータ分布

• 2.2 多値変数
•

2.2.1 ディリクレ分布

• 2.3 ガウス分布
•

2.3.1 条件付きガウス分布

•

2.3.2 周辺ガウス分布

•

2.3.3 ガウス変数に対するベイズの定理

!11
ベイズ主義的推定
・ベルヌーイ分布における、パラメータの最尤推定法は、データ集合が少ない
とき、µ=1、つまり「毎回表が出るでしょう」と推定してしまった
・データ集合が小さいとき、over fittingを起こす

!

・ベイズ主義的に扱いたい
→パラメータµを確率変数と考え、事前分布p(µ)を導入する
・事前分布は、数学的に便利なよう、恣意的に決めてよい
・モデルとして妥当なのは大前提
・解析的に便利
・解釈が簡単
・頻度主義から批判されるポイントである(p.23)
・評価にbootstrapなどの、頻度主義的な方法を使うことでカバー
・交差確認(1.3)などのテクニックにより、モデルの妥当性を担保

!12
ベータ分布
二項分布のパラメータµは、ベータ分布でモデル化すると良い

ただし

・この事前分布も、モデルとしてふさわしいだけでなく、解析的に有利で、か
つ解釈が容易なように定められている。
・超パラメータa,bは、それぞれx=1,x=0の有効観測数として解釈できる。
・共役性という性質を満たす。(次頁。詳しくは2.4にある)
・ガンマ(Γ)関数は階乗の一般化であり、Γ(n+1) = n!を満たす。

!13
共役性

正規化係数
同じ積の形に選ぶ

p.22(1.44)より、(事後分布)

(尤度) × (事前分布) なので、

ここも同じ積の形になる
事前分布Betaと同じ関数形式(積の形)になる。これを共役性(conjugacy)と呼ぶ。
2.4にて詳述
!14
ベータ分布の例
µの超パラメータaとbをいろいろな値にしたときの、Beta(µ | a, b)のグラフ

a、つまりx=1の観測数が増えると、分布の山も1に近づく。これは、「今まで
表が多く出たコインだから、表が出やすいコインだろう」という直感と一致
!15
逐次学習
a=2, b=2のベータ分布

初期状態

a=3, b=2のベータ分布

N=m=1の尤度関数

x=1を観測

!16
目次

第2章 確率分布

• 2.1 二値変数
•

2.1.1 ベータ分布

• 2.2 多値変数
•

2.2.1 ディリクレ分布

• 2.3 ガウス分布
•

2.3.1 条件付きガウス分布

•

2.3.2 周辺ガウス分布

•

2.3.3 ガウス変数に対するベイズの定理

!17
多値変数の場合
ベルヌーイ分布、二項分布を拡張する。多項分布を定義

ベルヌーイ分布

多値に拡張
(名前が付いていない分布)
頻度

頻度
二項分布

多項分布

!18
目次

第2章 確率分布

• 2.1 二値変数
•

2.1.1 ベータ分布

• 2.2 多値変数
•

2.2.1 ディリクレ分布

• 2.3 ガウス分布
•

2.3.1 条件付きガウス分布

•

2.3.2 周辺ガウス分布

•

2.3.3 ガウス変数に対するベイズの定理

!19
ディリクレ分布
多項分布のパラメータ{µ_k}に対する事前分布の族

ただし

3変数µ1, µ2, µ3上のディリクレ分布は、
右図のような2次元単体、つまり三角形上に
制限される。

!20
3変数上のディリクレ分布の例

0.1
9.51350769867

1

10

1

362880.0

α_kを変化させたとき、前ページの三角形上各点において、確率密度がどのよ
うに分布しているかを表している。
α_kが小さい → 一部のµ_kのみが大きい → 一部の値のみ出やすい
α_kが大きい → 全てのµ_kが大きい → どの値も出やすい
!21
ディリクレ分布によるパラメータの事後分布

こちらでも共役性が成り立っている

!22
目次

第2章 確率分布

• 2.1 二値変数
•

2.1.1 ベータ分布

• 2.2 多値変数
•

2.2.1 ディリクレ分布

• 2.3 ガウス分布
•

2.3.1 条件付きガウス分布

•

2.3.2 周辺ガウス分布

•

2.3.3 ガウス変数に対するベイズの定理

!23
ガウス分布
・連続変数の分布のモデルとして、ガウス分布がよく用いられる

!

・正規分布とも呼ばれる

!

・多変量ガウス分布は、µとΣで決まる
µ : D次元の平均ベクトル
Σ : D×Dの共分散行列

!

!24
中心極限定理
「区間[0,1]上の一様分布に従うN個の確率変数」の平均は、Nが大きくなるに
従って、ガウス分布に近づく

!25
ガウス分布の幾何的形状(2次元の場合)
1つの頂点を持つ、山なりの形になる

赤い楕円は、確率密度が等しい
面(2次元の言葉で等高線)を表し
ている。

!

p.78-80の方法でy座標系に変換
すると、D個(この場合2個)の独
立な1次元ガウス分布の積に分
解できる。

!26
ガウス分布の計算量と制約
・D次元のガウス分布は、D(D+3)/2個のパラメータを持つ。
・パラメータの個数がO(D^2)のオーダーで大きくなる。
・計算量が非常に大きくなってしまう。
・計算量を減らすため、共分散行列Σに制約を加えて、パラメータを減らす。
Σに制約を加えたときの、ガウス分布の等高線

Σの制約なし
パラメータ個数 : D(D+3)/2

パラメータ個数 : 2D

パラメータ個数 : D+1
!27
ガウス分布の問題点と、対処
・ガウス分布は、単峰形(極大値が1つ)という制限があるため、多峰形の分布を
上手く近似できない。

!

・潜在変数や非観測変数を導入した、ガウス複合分布を用いることで、表現力
を増すことができる。
・離散潜在変数 (2.3.9)
・連続潜在変数 (12章)
・マルコフ確率場 → 画像の確率モデル (8.3)
・線形動的システム → 時系列データのモデル (13.3)
・確率的グラフィカルモデル (8章)

!28
条件付き/周辺ガウス分布、ベイズの法則
・2.3.1∼2.3.3は、ガウス分布絡みの証明と、その過程で用いられる計算テク
ニックの説明に費やされている。

!

・2つの確率変数集合の同時分布、p(x_a, x_b)がガウス分布に従うならば、条
件付き分布p(x_a | x_b)もガウス分布に従う。(2.3.1)

!

・また、周辺分布 p(x_a)やp(x_b)もガウス分布に従う。(2.3.2)

!

・p(x_a)とp(x_b | x_a)が与えられたとき、ベイズの定理を適用した形
 p(x_a | x_b)も、またガウス分布に従う。(2.3.3)

!29
条件付き/周辺ガウス分布の例
左図のような等高線を持つガウス分布に対する、周辺分布p(x_a)と、条件付き
分布p(x_a|x_b = 0.7)

!30

More Related Content

What's hot

PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2Hiroyuki Kato
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
sleepy_yoshi
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
tetsuro ito
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
Takafumi Sakakibara
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
Akihiro Nitta
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
KokiTakamiya
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
matsuolab
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
matsuolab
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
Koichi Hamada
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
Takushi Miki
 
PRML 2.4
PRML 2.4PRML 2.4
PRML 2.4
kazunori sakai
 
PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料Hiromasa Ohashi
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
matsuolab
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
禎晃 山崎
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
禎晃 山崎
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
Akihiro Nitta
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
Keisuke Sugawara
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
matsuolab
 

What's hot (20)

PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
PRML 2.3 ガウス分布
PRML 2.3 ガウス分布PRML 2.3 ガウス分布
PRML 2.3 ガウス分布
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML 2.4
PRML 2.4PRML 2.4
PRML 2.4
 
PRML読書会#2,#3資料
PRML読書会#2,#3資料PRML読書会#2,#3資料
PRML読書会#2,#3資料
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 

PRML勉強会第3回 2章前半 2013/11/28