11. Baysian Statistics Summarizing posterior distribution
Depandance on parameterization
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
X
p
Y
g
11 / 73
22. Baysian Statistics Bayesian model selection
ベイズ的モデル選択
▶ モデル m の事後分布 p (m|D) を求めて
最頻値のモデルを選択
p (m|D) =
p (D|m) p (m)
∑
m∈M p (m, D)
▶ M: すべてのモデルを含む集合
▶ p (D|m): モデル m の周辺尤度
(marginal likelihood)
▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら
周辺尤度が最⼤のモデル argmax
m∈M
p (D|m) を選択
20 / 73
23. Baysian Statistics Bayesian model selection
周辺尤度 (marginal likelihood)
Definition
モデル m の周辺尤度 (marginal likelihood)
またはエビデンス p (D|m)
p (D|m) =
ˆ
p (D|θ) p (θ|m) dθ
▶ p (D|θ): モデル m に対する θ の尤度
▶ p (θ|m): モデル m に対する θ の事前分布
21 / 73
31. Baysian Statistics Bayesian model selection
周辺尤度の計算例
▶ ベータ-⼆項モデル
p (D) =
(
N
N1
)
B (a + N1, b + N2)
B (a, b)
▶ ディリクレ-多項モデル
p (D) =
Γ (
∑
k αk)
Γ (N +
∑
k αk)
∏
k
Γ (Nk + αk)
Γ (αk)
29 / 73
51. Baysian Statistics Prior
事後分布の計算
1. 各混合要素の事後分布は普通の共役事前分布と同じ
2. 混合⽐の事後分布は
p (Z = k|D) =
p (Z = k) p (D|Z = k)
∑
k′ p (Z = k′) p (D|Z = k′)
▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布
▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´
p (D|θ) p (θ|Z = k) dθ
48 / 73
52. Baysian Statistics Prior
例: DNA塩基配列
▶ DNA塩基配列の各位置について
1. ほぼどの塩基かが決まっている (A or T or C or G)
2. どの塩基かがランダム
▶ 1の位置と対応する塩基が知りたい
▶ 多項-ディリクレモデルで混合分布を事前分布に
▶ 混合要素は
p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1))
p (θ|Zt = 1) =
1
4
Dir (θ| (10, 1, 1, 1)) + · · ·
+
1
4
Dir (θ| (1, 1, 1, 10))
▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる
49 / 73
57. Baysian Statistics Empirical Bayes
経験ベイズ法 (EB; empirical Bayes)
▶ 階層モデルのハイパーパラメータの事後分布を
点推定で近似
p (η|D) =
ˆ
p (η, θ|D) dθ
≈ δˆη (η)
▶ ˆη = argmax p (η|D)
▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と
ˆη = argmax p (D|η)
= argmax
[ˆ
p (D|θ) p (θ|η) dθ
]
▶ 第2種の最尤推定 (type-II maximum likelihood)
とも呼ぶ (周辺尤度を最⼤化している)
54 / 73
58. Baysian Statistics Empirical Bayes
Bayesian check!
Method Definition
Maximum likelihood ˆθ = argmax
θ
p (D|θ)
MAP estimation ˆθ = argmax
θ
p (D|θ) p (θ)
ML-II (EB) ˆη = argmax
η
´
p (D|θ) p (θ|η) dθ = argmax
η
p (D|η)
MAP-II ˆη = argmax
η
´
p (D|θ) p (θ|η) p (η) dθ = argmax
η
p (D|η) p (η)
Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η)
55 / 73
61. Baysian Statistics Bayesian decision theory
▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル
▶ x ∈ X: y から⽣成された観測
▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ)
▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失
▶ U (y, a) = −L (y, a) を効⽤関数とも
▶ δ : X → A : 観測から⾏動を決める決定⼿順
58 / 73
62. Baysian Statistics Bayesian decision theory
▶ 期待効⽤最⼤化原理
(maximum expected utility principle)
δ (x) = argmax
a∈A
E [U (y, a)]
= argmin
a∈A
E [L (y, a)]
▶ 事後期待損失 (posterior expected loss)
ρ (a|x) ≜ Ep(y|x) [L (y, a)] =
∑
y
L (y, a) p (y|x)
▶ ベイズ推定量 (Bayes estimator)
またはベイズ決定則 (Bayes decision rule)
δ (x) = argmin
a∈A
ρ (a|x)
59 / 73
64. Baysian Statistics Bayesian decision theory
0 − 1 lossのベイズ推定量
▶ L (y, a) = I (y ̸= a) =
{
0 if a = y
1 if a ̸= y
▶ 分類問題で使う
▶ 事後期待損失は
ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x)
▶ ベイズ推定量は事後分布の最頻値 (→MAP推定)
y∗
(x) = argmax
y∈Y
p (y|x)
61 / 73