統計的推定入門

手塚 太郎

1
なぜ確率?


世界を記述するために大変有効な枠組み。



未知であるものを確率で表わせばよい。



あらゆる場面で使われるようになってきている
。

2
さらに……


人間は誰でも“確率的直観”を
持っている。



日々確率論を利用しながら
推論を行っていると言える
。



何げなく使っている推論が
明確に定式化されると嬉し
い。
3
分からないものは確率で


明日の天気が決まる仕組みが複雑
→確率的に決まるとみなす
 降水確率を割り当てる



サイコロの目が決まる仕組みが複
雑
→確率的に決まるとみなす
 各面に1/6の確率を割り当てる



文書の意味構造が複雑
→確率モデルで定式化

4
機械学習
予測・
識別

学習
訓練
データ

テスト
データ

学習器
分布
推定



パラ
メータ

訓練データを用いて分布のパラメータを推定
し、テストデータに対して予測や識別を行う。
5
機械学習と確率統計


機械学習は確率論とは独立に発展したが、現在
は両者は不可分の関係にあることが分かってき
ている。
統計的
機械学習

統計
確率
機械
学習
6
確率論の基礎

7
確率の表記法の基本


明日の天気を確率的に捉える例。
 明日の天気を確率変数xで表す。
 晴れをa1で表す。明日晴れる確率は0.6。
 小雨をa2で表す。明日小雨の確率は0.3。
 大雨をa3で表す。明日大雨の確率は0.1。

問題: これらの知識を三つの等式で表せ。

P( x

a1 )

0.6

P( x

a2 )

0.3

P( x

a3 )

0.1
8
確率分布


確率変数xのそれぞれの値に対し、その値が生
じる確率を値として持つ関数

P( x

a1 )

0.6

P( x

a2 )

0.3

P( x

a3 )

0.1

P(x)
9
同時確率(同時分布)


複数の事象が同時に起きる確率の分布

P( x

a1 , y
P( x

b1 )

0.02

a1 , y b2 ) 0.05
P( x a2 , y b1 )
P( x

P( x, y )

0.03

..........
....
am , y

bn )

0.04

10
同時確率の例


それぞれの事象が
同時に生じる確率
の分布

明
後晴
 すべての事象の確
率を足した時に1
日
になる必要がある の
。
天
雨
気
y

明日の天気 x
晴
雨

0.4

0.1

0.2

0.3
11
三つ以上の確率変数の同時確率


確率変数が二つの場合と同じように定義できる
。

P( x

a1 , y

P( x

b1 , z

c1 )

0.006

a1 , y b2 , z c1 ) 0.007
P( x a1 , y b1 , z c2 )

0.001

..........
....

P( x

am , y

P( x, y, z )

bn , z

ck )

0.002

12
周辺化


N個の確率変数(ここではxとy)に関する分布
である同時確率から、N-1個の確率変数(ここ
ではx)の分布を作る操作。

P( x)

P( x, y )
y

P( x, y


b1 ) P( x, y

b2 ) ... P( x, y

bn )

yについてすべての可能性について考えて確率を
足し合わせたら、xについてだけの確率分布にな
る。
13
周辺化の例


明日の天気xの確
率分布 P(x) を同
時確率から求め
明
る。

後 晴
日
 明後日の天気yの
の
確率分布 P(y) を
天
同時確率から求
気 雨
める。
y
P(x)

明日の天気x

P(y)

晴

雨

0.4

0.1

0.5

0.2

0.3

0.5

0.6

0.4
14
条件付き確率
条件付き確率は「確率分布を値とする関数」。
 区切り記号「|」の後に条件を入れることで、そ
の条件のもとでの確率分布が得られる。


P( x


a| y

b)

条件付き確率の値は同時確率と周辺確率の商と
して求められる。

P( x | y )

P ( x, y )
P( y )
15
条件付き確率の例


明日の天気
が決まった
上での明後
日の天気の
確率分布。

明
後 晴
日
P ( x, y ) の
P( y | x)
天
P( x)
気 雨
y
P(x)

明日の天気x
晴
雨

P(y)

0.4/0.6 0.1/0.4
= 0.666 = 0.25

0.5

0.2/0.6 0.3/0.4
= 0.333 = 0.75

0.5

0.6

0.4

16
条件付き確率と“割合”




条件付き確率の計算では全
体に対する“割合”が求められ
ている。
総和 p(x=晴) のうち、
p(x=晴,y=雨)が占める割合が
求められている。

P ( y 雨 | x 晴)

P( x 晴, y 雨)
P ( x 晴)

P x 晴, y 雨
P x 晴 , y 晴 P x 晴, y 雨

明日の
天気x
晴

明
後 晴
日
の
天
気 雨
y
P(x)

0.4/0.6
= 0.666

0.2/0.6
= 0.333
0.6
17
独立性


xとyが同時に起きる確率(同時確率)がxが起
きる確率とyが起きる確率の積で表せる時、xと
yは独立であるという。

P( x, y)

P ( x ) P( y )

18
独立性の判定例


血液型xと性格yが以下の分布に従っているとす
る。

A
几帳面

性
格 だらしない
y
普通


血液型x
B
O

AB

0.12

0.06 0.09 0.03

0.08

0.04 0.06 0.02

0.2

0.1

0.15 0.05

血液型と性格は独立か?
19
独立性の評価
血液型x

P(y)

A

性
格
y




B

O

AB

几帳面

0.12

0.06

0.09

0.03

0.3

だらしない

0.08

0.04

0.06

0.02

0.2

0.2

0.1

0.15

0.05

0.5

0.4

0.2

0.3

0.1

普通
P(x)

同時分布が周辺分布の積で求められるので、独立。
実際、xとyのすべての値について以下が成り立ってい
る。

P( x, y)

P ( x ) P( y )

20
条件付き独立性


条件部の値を固定した時に独立である時、条件
付き独立であるという。

P( x, y | z

c1 )

P( x, y | z

P( x | z
c2 )

P ( x, y | z

P( x, y | z )

c1 ) P( y | z

P( x | z

c1 )

c2 ) P( y | z

..........
....
ck )

P( x | z

c2 )

ck ) P ( y | z

ck )

P( x | z ) P( y | z )
21
条件付き独立性の例
x:横浜スタジアムで野球の試合が開催されるか
y: 赤レンガパークで野外ライブが開催されるか
z: 天候

P( x 開催, y 開催 | z 晴)
P( x 開催 | z 晴) P( y 開催 | z 晴)
P( x 開催, y 中止 | z 雨)
P( x 開催 | z 雨) P( y 中止 | z 雨)
などの式が成り立つと考えられる。
22
条件付き独立性の例


もしxとyのすべての値について以下の関係式が
満たされていれば、xとyはzのもとで条件付き
独立。

P( x, y | z 晴)
P( x, y | z 雨)


P( x | z 晴) P( y | z 晴)
P( x | z 雨) P( y | z 雨)

しかしxとyの値はzを通して関係するので、独
立とは限らない。

23
確率の間の関係式のまとめ
同時確率

P x, y
周辺化

周辺確率

P x ,P y

条件付き確率

P( x | y )

周辺化

P ( x, y )
P( y )

P( x)

P( x, y)
y
24
練習問題1


ある店にあるスロットマシンについて。
設定が甘く、30分で大当たりが出る確率は0.1
設定が甘く、30分で大当たりが出ない確率は0.2
設定が厳しく、 30分で大当たりが出る確率は0.1
設定が厳しく、 30分で大当たりが出ない確率は
0.6



30分で大当たりが出た時、設定が甘い確率はどれ
だけか。



同時分布・周辺分布・条件付き分布の表を求めよ
。
25
練習問題1 回答(同時分布/周辺分
布)


同時分布 P(x,y)、
周辺分布 P(x)、
P(y) は以下のよう
に求められる。

P( x)
y

P( y)
x

設定x
P(y)
甘い 厳しい
出
る

0.1

0.1

0.2

出
な
い

0.2

0.6

0.8

P(x)

0.3

0.7

大
当
P( x, y)
た
り
P ( x, y ) y

26
練習問題1 回答(条件付き確率
)


大当たりが出た時の
分布は P(x|y) なので
P(y)で割る。



大当たりが出た時に 大 出 0.1/0.2 0.1/0.2
= 0.5
設定が甘い確率は
る = 0.5
当
0.5になる。

※ 設定xをパラメータと
すると、これは観測
変数yからパラメータ
を推定することの一
例。

設定x
P(y)
甘い 厳しい

た
出
り
な
y
い
P(x)

0.2/0.8 0.6/0.8
= 0.25
= 0.75
0.3

0.2

0.8

0.7
27
練習問題1 回答(独立性)


設定x
P(y)
甘い 厳しい

xとyは独立ではない
。

P( x, y)

P( x ) P( y )

大
当
た
り
y

出
る

出
な
い
P(x)

0.1≠
0.3×0.2

0.1≠
0.7×0.2

0.2

0.2≠
0.3×0.8

0.6≠
0.7×0.8

0.8

0.3

0.7
28
練習問題2


マウスの集団について。

疾患xを持ち、タンパク質yが発現している確率が0.08
疾患xを持たず、タンパク質yが発現している確率が
0.12
疾患xを持ち、タンパク質yが発現していない確率が
0.32
疾患xを持たず、タンパク質yが発現していない確率が
0.48


同時分布・周辺分布・条件付き分布の表を求め
よ。
29
練習問題2 回答
ここでは P(x|y) を載
疾患x
P(y)
せているが、同様に
あり
なし
P(y|x)も求められる
タ あ 0.08/0.2 0.12/0.2
。
 xとyは独立である


。
 このため、以下が
成り立っている。

P x, y
P x| y
P y
PxP y
Px
P y

ン り
パ
ク
な
質
し
y
P(x)

= 0.4

= 0.6

0.32/0.8 0.48/0.8
= 0.4
= 0.6
0.4

0.2

0.8

0.6

30
離散分布と連続分
布

31
離散分布と連続分布


離散分布
観測データが離散値を取る。
 観測データのそれぞれの値について確率値が定ま
る。


• 事象の例: サイコロの目,引いたトランプのスート
(マーク)
• 分布の例: ベルヌーイ分布、二項分布


連続分布
観測データが連続値を取る。
 観測データの値の関数として確率密度が決まる。


• 事象の例: 人間の身長、生物の寿命、測定誤差
• 分布の例: ガウス分布、指数分布

32
離散分布の例


試験の正解数
確率

0問 1問 2問 3問 4問 5問
33
連続分布の例


生物の寿命
確率密度

0年

5年

10年

15年

20年
34
確率密度
連続値をとる確率変数の分布を考えるため、分割
を細かくしていく。(1年単位→1日単位→1秒単
0.5
0.5
0.5位……)



0



1

2

0

0.5

1 1.5

2

0 0.25 0.5 1 1.25 1.5 1.75 2

「すべての事象の確率を足したら1になる」と
いう制約のため、細かく分けるにつれて個々の
事象の生じる確率が小さくなっていく。

連続値の分布を考えるには無限回の分割が必要
であり、個々の事象の生じる確率は0になる。
 ゆえに従来の意味での確率分布を定義できない


35
確率密度関数
確率密度関数の値は確率そのものではなく、密
度の大きさを表す。
 一定の範囲で積分することで確率になる。


誤差の確率密度関数を考え
た場合、誤差が0.8と1.1の
間の値である確率は積分に
よって求められる。
0.8



1.1

確率密度関数を「確率分布」と呼ぶことも多く
、ここでもその言い方を使用する。
36
確率密度関数の例


0と1の間の任意の実数がそれぞれ等しい確率で現れる分
布(一様分布)の場合

棒グラフで表そうとした場合
0.5

0.5

0

0.5

1

0.5

0

0.5

1

0

0.5

1

確率密度関数を使用した場合
1

0

0.5

1

37
確率密度関数を積分すると確率にな
る


あとx年生きられる確率
5年未満しか生きられない確率=
この範囲の面積
10年以上11年未満生きる確率=
この範囲の面積

5年

10年

15年

20年
38
確率分布と確率密度


確率分布は確率変数のそれぞれの値に対する確
率を与える。



確率密度は確率変数の一定の範囲で積分するこ
とでその範囲内の事象が生じる確率を与える。

39
標本とパラメータ

40
標本とパラメータ推定


今までの例では「晴れる確率」「雨が降る確率
」等が分かっているとして計算を行ってきた。



しかし実際には確率の大きさや確率分布の形は
分からないことがほとんどである。



観測された「標本」から真の確率分布を求める
こと、すなわち(分布を規定する)「パラメー
タ」を推定することが一般的な問題である。
41
推定と予測


システムの内部に潜むパラメータを明らかにす
るのが推定。



明らかになったパラメータと新たに与えられた
テストデータを使って、未知の値を求めるのが
予測。

42
観測変数とパラメータ


データとして観測されるのが観測変数。
 xなどアルファベットで表記することが多い。



観測することはできないが、分布を決める条件に
なっているのがパラメータ。






人間には観測できず、推定しかできない。
θなどのギリシャ文字で表記することが多い。
ガウス分布では平均μと分散σ2がパラメータ。

機械学習や統計的推定の目的は主にパラメータの
推定と、それに基づく予測。


訓練データからμとσ2を推定する。それを使って未
観測のデータの値を予測する。

43


サイコロにおけるパラメータ そ
の1

有限個の値をとる観測変数xの分布のパラメータμ
は有限個の数値(それぞれの値が生じる確率)に
なる。

例: サイコロの目の確率分布はそれぞれの目が出
る確率の表で完全に表現できる。
偏っていないサイコロの目の確率分布:


x
μ
P(x|μ)


1
1/6
1/6

2
1/6
1/6

3
1/6
1/6

4
1/6
1/6

5
1/6
1/6

6
1/6
1/6

1が出る確率から5が出る確率までが決まれば、6が出
る確率は自動的に決まる。ゆえに1が出る確率から5
が出る確率までのみをパラメータとしてもよい。
44
サイコロにおけるパラメータ そ
の2
1が出やすいイカサマのサイコロの目の確率分布:
x
1
μ
15 / 60
P(x|μ) 15 / 60

2
1/6
1/6

3
1/6
1/6

4
1/6
1/6

5
1/6
1/6

6
5 / 60
5 / 60

パラメータは「確率分布を決定する数値の集合
」。
 サイコロの目の確率分布はこれらの6つのうち5
つの数字が与えられれば自動的に決定される。
 ゆえにそれがサイコロの目の確率分布のパラメ
ータとなる。
45

連続値確率変数の分布とパラメー
タ


有限個の値を取る離散値確率変数であれば、そ
れぞれの値が生じる確率を並べることで分布を
完全に定義できる。これらの確率がパラメータ
になる。

連続値確率変数の場合、取り得る値の種類が無
限個である(たとえば10と0の間には無限個の
数値が存在する)ため、「それぞれの値におけ
る確率密度をすべて並べる」ということができ
余命x 10年 1年 0.1年 0.01年 0.001年 ….
ない。


P(x)

0.5

0.7

0.9

0.92

0.96

….
46
連続値確率変数の分布とパラメー
タ


ゆえに連続値確率変数の場合、確率密度分布が
ある関数(確率密度関数)で表せるとし、その
関数の形を決める有限個の値をパラメータと呼
ぶ。
例: ガウス分布(正規分布)のμとσ2

 ガウス分布ではμとσ2に

P(x)

よって確率密度関数の
形が決定する。ゆえに
パラメータはμとσ2。

σ
x
μ
47
パラメータと条件付き分布


「観測変数の分布がパラメータによって決定す
る」という関係は条件付き確率を使って表現で
きる。

【復習】 条件付き確率とは、「値として確率分
布(あるいは確率密度分布)が得られる関数」
であった。
例: ガウス分布(正規分布)を条件付き確率で表

p( x | ,

2

)

1
2

e

x
2

2
2

48
ガウス分布(正規分布)


ガウス分布は以下のように定義される連続値確
率変数xの分布である。
P(x)

p( x | ,

2

)

1
2

e

x
2

2
2

μ

x



測定誤差はガウス分布に従うとされることが多
く、様々な場面に現れる。



分布の形はμを中心として左右対称である。σ2
が小さければ細く尖った分布、σ2が大きければ
横に広がった分布になる。
49
最尤推定

50
トランプのスート(マーク)の推
定


♥ と ♠ しか入っていないトランプを考える。



4枚のカードを選んでおく。その中から一回ご
とに戻し、3回引いた。その結果が以下であっ
た。

♥, ♠, ♥


4枚のカードのスート( ♥ と ♠ の枚数)はどのよ
うになっていると考えるのがよいか?
51
トランプのカード集合のパラメー
タ


この分布のパラメータθは何にするのがよい
か?
→「4枚のカードに含まれるハートの枚
数」をθとして使うことにする。



ハートの枚数が決まればスペードの枚数が決ま
るため、「トランプから引く」という確率モデ
ルを記述するのに十分な情報がある。



ここでは「パラメータの推定」は「4枚のカー
ドに含まれるハートの枚数を当てること」にな
る。
52
最尤法(最尤推定)と尤度


観測されたデータが生じる確率がもっとも高い
パラメータを推定値として採用するのが最尤法。



すなわちP(x|θ)を最大にするθを求める。



もっとももっともらしい(最も尤もらしい)パラ
メータを求めている、というのが最尤法という名
前の由来。



P(x|θ)のxは観測済みのデータなので、P(x|θ)はθ
の関数になる。その値はθの尤度(もっともらし
さ)と呼ばれ、関数P(x|θ)は尤度関数と呼ばれる。
53
トランプに対する最尤法



♥ をH、♠をSで表す。♥, ♠, ♥ は(H,S,H)Tと表記。
θ=1(つまり♥が1枚、 ♠が3枚)の時に♥, ♠, ♥ が得
られる確率は以下のように表される。

P(x

H , S, H

T

|

1)

♥, ♠, ♥, ♥ がそれぞれθのもとで条件付き独立で生
じたとみなし、以下のように計算できる。
P ( x1 H |
1) P ( x2 S |
1) P ( x3 H |
1)
1 3 1 3
4 4 4 64
 他のθについても計算してまとめると以下のように
なる。
θ(=ハートの枚
0
1
2
3
4


数)

54
最尤解


尤度関数 P(x|θ) の値を最大にするθを最尤解と
呼ぶ。



さきほどの問題では θ = 3 が最尤解。

55
最尤法の例1


♥ と ♠ しか入っていないトランプから4枚の
カードを選んでおく。その中から一回ごとに戻
し、5回引いた。その結果が以下であった。

♥, ♥ , ♥ , ♥ , ♥


♥ の枚数をθで表すと、θのそれぞれの値に対
する尤度は以下のようになる。

θ(=♥の枚数)

0

1

P(x=HHHHH|θ)

0

1 / 1024



2

3

32 / 1024 243 / 1024

4
1

ゆえに ♥ の枚数θに対する最尤解は 4 である
56
最尤法の例2


♣ と ♦ しか入っていないトランプから5枚のカ
ードを選んでおく。その中から一回ごとに戻し、
6回引いた。その結果が以下であった。

♣, ♣, ♦, ♣, ♣, ♦


♣の枚数をθで表すと、θのそれぞれの値に対
する尤度は以下のようになる。

θ(=Kの枚数)

0

P(x=KKDKKD|θ)

0



1

2

16 / 56 144 / 56

3

4

324 / 56 256 / 56

5
0

ゆえに♣の枚数θに対する最尤解は 3 である
57
尤度関数と確率分布の違い


P(x|θ)は尤度関数とも呼ばれる。



θの尤度関数とxの条件付き確率分布は関数の形
は同じ。(離散分布であれば同じ確率値の表)



P(x|θ)に対し、
 xを固定し(xを知っていて)、θの変化に

対する動きを見たら、「θの尤度関数」
 θを固定し(θを知っていて)、xの変化に

対する動きを見たら、「xの確率分布」

58
離散パラメータと連続パラメータ


離散パラメータの取り得る値が有限個の場合、
すべての組み合わせの尤度を計算して比較すれ
ばよい。




トランプから引く例では♥の枚数が離散値しか取
れないので、パラメータも離散値になる。

連続パラメータではそれができない。そのため
に微分を使って極値を求めることになる。
ガウス分布に従うデータからパラメータμやσ2を
推定する場合。
 偏ったサイコロの目の分布を推定する場合。
 無限種類の値があるので、すべてを比較して最


59
離散値パラメータの尤度関数の例


♥, ♠, ♥ が出た時の♥ の枚数θの尤度関数
尤度p(x|θ)

0

最大値

1

2

3

4

θ

離散値パラメータの尤度関数はヒストグラムで表せ
る。
 すべてのθについて p(x|θ) を計算して比較すれば最


60
連続値パラメータの尤度関数の例


コインが表, 裏, 表, 表と出た時、表が出る確率θ
の尤度関数

尤度p(x|θ)

最大値

θ
0.25

0.5

0.75

1.0

連続値パラメータの尤度関数は曲線になる。
 最大値を与えるθを求めるにはθで微分して0とお
けばよい。
61

連続パラメータに対する最尤法
尤度関数を微分し、0とおいて解く。
または、
 ラグランジュ未定乗数法を使って最大化する。


62
ガウス分布(正規分布)


ガウス分布は以下のように定義される連続値確
率変数xの分布である。
P(x)

p( x | ,

2

)

1
2

e

x
2

2
2

μ

x



測定誤差はガウス分布に従うとされることが多
く、様々な場面に現れる。



分布の形はμを中心として左右対称である。σ2
が小さければ細く尖った分布、σ2が大きければ
横に広がった分布になる。
63
ガウス分布のパラメータ推定の例
 ある実験を5回行い、生成された化合物

の重さを測定した所、以下のような数
値(単位ミリグラム)を得た。

1.3

1.1

1.0

1.3

1.3

 データがガウス分布に従うと考えた時、

そのμ、すなわち一番起きやすい値は何で
あると考えるのが良いか?
 データの平均は

1.2。しかしμが1.2である
と推定してよいのか?
64
ガウス分布のパラメータμの推定

p( x | ,

2

)

1
2

x
2

e

2

P(x)

2

μ

x

 n回試行を行い、それぞれの試行で得ら

れた値xiを用いてμを最尤推定する。
 尤度関数は以下である。

P ( x1 , x2 ,..., xn | ,

2

)
65
ガウス分布のパラメータμの推定
各試行(観測変数xi)の間の(μとσ2のもとで
の)条件付き独立性を仮定する。
 この時、同時確率を積に分解できる。つまり尤
度関数を積に分解できる。


n
2

P( x1 , x2 ,...,xn | ,

)

2

P( xi | ,

)

i 1
n

i 1

1
2

2

xi

e

2

2

1
2

n

n

e

i 1

2

xi
2

2

66
ガウス分布のパラメータμの推定


尤度関数 p(x|μ,σ2) をμで微分して0とおく。
n

n

1
2

e

i 1

2

xi
2

2

0

n

xi

n

0

i 1

1
n


n

xi
i 1

観測値xiの平均がμの最尤推定量になる。

67
対数尤度の最大化


「指数分布族」と呼ばれる確率分布の場合、
尤度ではなく対数尤度 log p(x|θ) を最大化す
ることが多い。
 対数尤度を使った方が計算が容易になる場
合に使う。
 対数関数は単調増加のため、log p(x)が最大
値をとるxはp(x)についても最大値を与える。
 ガウス分布や多項分布など、多数の分布が
指数分布族に属す。
68
対数の単調増加性の利用


対数関数は単調増加のため、log p(x|θ)の最大値
を与えるθは p(x|θ) の最大値を与えるθと等しい
。

p1 p3

log p2

p2

p(x|θ)
p(x|θ)=1

log p3
log p1
69


対数尤度の最大化を用いたμの推
定
2

対数尤度関数 log p(x|μ,σ ) をμで微分して0とお
く。
2

1
2

n log

n

i 1

xi
2

2

0

n

xi

n

0

i 1

ML


1
n

n

xi
i 1

観測値xiの平均がμの最尤推定量になる。

70
推定量


観測値を変数とし、パラメータの推定値を値
とする関数を推定量と呼ぶ。



ガウス分布の場合、μの最尤推定量は観測値
xiの平均という関数であった。



最尤推定量はML推定量とも呼ばれる。(ML
はmaximum likelihood)。後にMAP推定量な
ども定義される。
71
ベイズ統計

72
最尤推定とベイズ推定の違い
 最尤推定では尤度

p(x|θ) を最大化するθ

を求める。
ML

: arg max P( x | )

 ベイズ推定のひとつであるMAP推定で

は事後確率 p(θ|x) を最大化するθを求め
る。
MAP : arg max P ( | x)
73
θの尤度関数はθの確率分布ではない
もし P(x|θ) がθの確率分布であれば、θが取り得
るすべての値について P(x|θ) を足したら1にな
らなくてはならない。
 しかしそのようになっていないことから、
P(x|θ) がθについての確率分布でないことが分か
る。
 P(x|θ)はxについての確率分布だが、θについて
の確率分布ではない。ゆえに「θの尤度関数」
θ(=♥の枚数)
0
1
2
3
4
と呼ぶ。


P(x=HHHHH|θ)

0

1 / 1024

32 / 1024 243 / 1024

和は 1300 / 1024 になる。

1

74
パラメータの確率


確率はもともと「事象の起こりやすさ」として考
案されたものだったが、現代ではパラメータに対
しても確率分布を考える。しかし「パラメータの
起こりやすさ」という概念は変。(パラメータは
“起きたり”しない)。



ベイズ統計では確率を「確信の度合い」とみなす

P(x):

事象xが起きることに対する確信の度合い

P(θ): パラメータの値がθであることに対する確信の度
合い


75
確信の度合いと考えると、P(θ)やP(θ|x)も不自然な
ベイズ主義


確率を「確信の度合い」と捉える見方。



「主観確率」とも呼ばれる。(“確信”は主観
的)



観測データxの確率分布は、「事象が取り得
る個々の可能性のそれぞれに対する確信の度
合いの割り当て」と捉える。



パラメータθの確率分布は、「パラメータの
値が取り得る個々の可能性に対する確信の度
76
最尤法・ベイズ推定とベイズの定
理


ベイズの定理が最尤法とベイズ推定の根拠に
なる。(最尤法は特殊なベイズ推定と言え
る)



ベイズ統計が定式化されるまで、最尤法は理
論的根拠が弱く、批判されることも多かった。



そのためまずベイズの定理について述べる。

77
ベイズの定理
 以下を証明せよ

P( | x)

P( x | ) P( )
P( x)

78
ベイズの定理の証明


以下のように証明できる。

P( , x)
P( | x)
P( x)
P( , x)
P( x | )
P( )
P( | x) P( x) P( , x)

∴

P( | x)

P( x | ) P( )

P( x | ) P( )
P( x)

79
 ある店にあるスロットマシンについて

。
設定が甘ければ、30分で大当たりが出
る確率は0.6。設定が厳しければ、
30分で大当たりが出る確率は0.1。設

定が甘い確率は0.2。
 30分で大当たりが出た時、設定が甘い

確率はどれだけか。
 同時分布・周辺分布・条件付き分布の
80
練習問題3 回答


条件付き分布P(x|θ)と
周辺分布P(θ)を表に
すると以下のように
なる。

周辺

設定θ
甘い 厳しい

P(θ)

0.2

0.8

条件
付き
大
当
た
り
x

設定θ
甘い 厳しい

出 P(x|θ)= P(x|θ)=
る 0.6
0.1
出 P(x|θ)= P(x|θ)=
な
0.4
0.9
い
81
練習問題3 回答


同時分布 P(x,θ)と
周辺分布P(x)、
P(θ)の表を求める
と以下のようにな
る。

P( x)

P( x, y)
y

P( x, )

P( x | ) P ( )

同時
大
当
た
り
x

設定θ
P(x)
甘い 厳しい

出 P(x,θ)= P(x,θ)=
0.2
る 0.12 0.08

出 P(x,θ)= P(x,θ)=
な
0.08 0.72
い

P(θ)

0.2

0.8

0.8
82
練習問題3 回答


条件付き分布P(θ|x)
条件
の表を求めると以
付き
下のようになる。

P ( x, )
P( | x)
P( x)
P( x | ) P( )
P( x)


30分で大当たりが
出た場合、設定が
甘い確率は0.6

大
当
た
り
x

設定θ
P(x)
甘い 厳しい

出 P(θ|x)= P(θ|x)=
る 0.6
0.4

0.2

出 P(θ|x)= P(θ|x)=
な
0.1
0.9
い

0.8

83
ベイズの定理とベイズ推定


ベイズの定理は任意の確率変数xとyについて成
り立つが、特に観測変数xとパラメータθ、事後
分布、事前分布、尤度関数を結び付けるのに使
い、θの分布の推定に利用するのがベイズ推定。

P( | x)

P( x | ) P( )
P( x)

P(θ|x): 事後分布
P(θ): 事前分布
P(x|θ): 尤度関数
P(x): 正規化定数(θの関数ではないため「定
84
数」)
ベイズ推定


ベイズ推定ではパラメータθの事前分布P(θ)を使
うことで、パラメータに関する外部の知識や予
想を組み込むことができる。
例:

「 ♥ しか入っていないということはありえない
なぁ」
「 ♥ と ♠ が同じ数入っている確率が一番高いん
じゃないだろうか」
85
事前分布


P(θ)に関して、データの観測の前の(事前の)
分布を事前分布と呼び、P(θ)で表す。



自分の主観的な知識を入れた分布を使ってよい
。

例:
「 ♥ しか入っていないということはありえないなぁ」
↓
以下のような事前分布を使うとよい。

P
P

4
0

0
P

1

P

2

P

3

14
86
事後分布


事前分布と異なり、データxを観測した後の分
布を事後分布と呼び、P(θ|x)で表す。



xという「条件」のもとでθがどのような分布を
持つかを表しているため、条件付き確率の形に
なる。



データ(xの値)とモデル(尤度関数P(x|θ))と
事前分布P(θ)を使い、事後分布P(θ|x)を求める
のがベイズ推定の目的。
87
ベイズの定理は事前分布と事後分布を
結びつける式


事前分布と事後分布は共にパラメータに関する分
布であり、ベイズの定理で結びつけられている。

P( | x)

P( x | ) P( )
P( x)

P(θ|x): 事後分布
P(θ): 事前分布
P(x|θ): 尤度関数(モデル)
P(x): 正規化定数(θの関数ではないため「定
数」)
88
正規化定数


P(x)は尤度関数P(x|θ)と事前分布P(θ)の積をθにつ
いて積分する(あるいは総和をとる)ことで求め
られる。

P( x)

P( x, ' )d '

P ( x)

P ( x, ' )
'



P( x | ' ) P( ' )
'

ゆえにベイズの定理は以下のように表すこともで
きる。

P( | x)


P( x | ' ) P( ' )d '

P( x | ) P( )

P( x | ' ) P( ' )d '

θ’は積分のための変数であり、θとは異なることに注意
89
ハイパーパラメータ
θが連続パラメータの時、事前分布p(θ)の形を決
めるパラメータαをハイパーパラメータと呼ぶ。
 ベイズの定理でαを明示すると以下のようにな
る。
P( x | ) P( | )
P( x | ) P( | )
P( | x, )
P( x | )
P( x | ' ) P( ' | )d '


θが連続パラメータの場合、すべてのθに事前確
率を割り当てるのは不可能なため、θの確率分
布が少数のパラメータによって決定されると考
える。
例: θの事前分布にガウス分布を仮定する場合、
ハイパーパラメータαはμ’とσ’2である。(パラ 90


MAP推定(maximum a posteori estimation)


パラメータθの事後分布P(θ|x)はたくさんの情報を
持っているが、情報が多すぎて使いにくいことも
多い。






例: 「この台は設定が甘い確率が 0.6、設定が厳
しい確率が 0.4」と言われるより、「この台は設定
が甘い!」と言い切って欲しい。
つまり「P(θ=甘) = 0.6, P(θ=厳) = 0.4」という答
えよりも「θ=甘」という答えが欲しい。

θに関する推定結果としてひとつの数値だけを求
めるのがMAP推定。
91
点推定


最尤法(ML推定)とMAP推定ではθの分布で
はなくθのもっとも良い値だけを求めるため、点
推定と呼ばれる。



MAP推定はベイズ推定に基づく点推定であり、
最尤法はMAP推定の特殊例である。

92
MAP推定と正規化定数


ベイズの定理におけるP(x)はθについて最大化す
る時には無視できる。



ゆえに事後確率 P(θ|x) を最大化するθを求めるた
めには、P(x|θ)P(θ)を最大化するθを求めれば良い
。

ベイズの定理

P( | x)

P( x | ) P( )
P( x)

MAP推定
MAP

: arg max P( | x)

arg max P( x | ) P( )
93
ベイズ推定/MAP推定/最尤推
定

ベイズ推定ではθの事後分布P(θ|x)全体を求める
が、MAP推定ではP(θ|x)を最大にするθの値のみ
を求める。
 最尤法は事前分布P(θ)を定数(すべてのθについ
て同じ値)とおいた場合のMAP推定に等しい。


MAP推定
MAP

: arg max P( | x) arg max P( x | ) P( )

ML推定(最尤推定)
ML

: arg max P( x | )
94
ML推定(最尤法)とMAP推定


尤度関数P(x|θ)を最大化するパラメータθを求める
のがML推定




maximum likelihood

事後確率P(θ|x)を最大化するパラメータθを求める
のがMAP推定
事前分布P(θ|α)も考慮した上で最大化が行われて
いることになる。
 maximum a posteriori probability


95
MAP推定の例1
3枚のトランプのうち、何枚かがハートで残り
はスペードである。一回ずつ戻しながら2回引
いたところ、ハートが2回出た。しかし3枚とも
ハートである確率は低い(ハートの枚数が他で
ある確率に比べて1/3である)ことが分かってい
る。
 θでハートの枚数を表し、この情報(事前知識
)を事前分布によって以下のように表すことに
P
3 1 10
する。


P


0

P

1

P

2

3 10

この時、事後確率 p(θ|x) を最大にするθを求め
よ。

96
MAP解の計算1
PX

HH |

0P

PX

HH |

1P

PX

HH |

2P

PX

HH |

3P



MAP解はθ=2になる。

0 0 3
0
3 3 10
1 1 3
1
3 3 10
2 2 3
2
3 3 10
3 3 1
3
3 3 10

0
3
90
12
90
9
90
97
MAP推定の例2


先ほどと同じ状況(モデルとデータ)において、
ハートの枚数がどの数である確率も等しいという
事前知識を用いた時、事後確率p(θ|x)を最大にする
θを求めよ。



どの枚数である確率も等しいという事前分布は以
下のように表せる。

P


0

P

1

P

2

P

3

14

この時、事後確率 p(θ|x) を最大にするθを求め
よ。
→この結果はθに対する最尤推定と同じになる

98
MAP解の計算2
PX

0P

PX

HH |

1P

PX

HH |

2P

PX


HH |

HH |

3P

MAP解はθ=3になる。

0 0 1
0
0
3 3 4
1 1 1 1
1
3 3 4 36
2 2 1 4
2
3 3 4 36
3 3 1 9
3
3 3 4 36
99
尤度/尤度関数と事後確率値/事後分布

P(x

H , S, H

T

|

3)

θ = 3 の尤度
x = ♥, ♠, ♥ の生起確率
(ひとつの値に確定)
P(

3| x

T

H , S, H )

θ = 3 の事後確率の値

P(x

H , S, H

T

| )

θ の尤度関数
x = ♥, ♠, ♥ の生起確率
(θの値に依存)

P( | x

T

H , S, H )

θ の事後分布
100
お薦め書籍
1.

基礎統計学シリーズ「統計学入門」
統計に関して最初に読む入門書として最適。

2.

ビショップ「パターン認識と機械学
習」
確率統計の立場で機械学習の様々な手法を
まとめてあり、非常に良い。

3.

杉山将「統計的機械学習」
コンパクトにまとめた入門書。
Octaveによるプログラム例もあるので
自分で実験できる。
101

Introduction to Statistical Estimation (統計的推定入門)