SlideShare a Scribd company logo
1 of 76
Download to read offline
MLaPP Ch.5
ベイズ統計学
Bayesian statistics
1 / 73
Baysian Statistics
アウトライン
1. イントロダクション
2. 事後分布の要約
3. ベイズ的モデル選択
4. 事前分布
5. 階層ベイズ
6. 経験ベイズ
7. ベイズ的決定理論
2 / 73
Baysian Statistics Introduction
Subsection 1
Introduction
3 / 73
Baysian Statistics Introduction
ベイズ統計とは
▶ 観測したデータ以外のあらゆる量が確率変数である
とみなす統計学
▶ データを⽣成した分布の平均や分散など
(※データそのものの平均や分散ではありません)
▶ 未知の量 θ に関するすべての情報は
事後分布 p (θ|D) に集約される
4 / 73
Baysian Statistics Summarizing posterior distribution
Subsection 2
Summarizing posterior distribution
5 / 73
Baysian Statistics Summarizing posterior distribution
事後分布の要約
▶ θの事後分布 p (θ|D) を要約した簡単な量によって
未知の量θを表してやる
▶ 結果の直感的な理解・可視化
▶ 計算上の利点
6 / 73
Baysian Statistics Summarizing posterior distribution
1. MAP推定
2. 信⽤区間
7 / 73
Baysian Statistics Summarizing posterior distribution
点推定 (point estimate)
θの事後分布 p (θ|D) をある定数ˆθによって表して計算
▶ 平均 (mean)
ˆθ = E [θ] =
ˆ
θp (θ|D) dθ
▶ 中央値 (median) (θが1次元なら)
ˆθ s.t. P
(
θ ≤ ˆθ|D
)
= P
(
θ > ˆθ|D
)
= 0.5
▶ 最頻値 (mode) → MAP推定で求めてるのはこれ
ˆθ = argmax
θ
p (θ|D)
8 / 73
Baysian Statistics Summarizing posterior distribution
MAP推定の問題点
1. 推定の不安定さが評価できない
(他の点推定にもあてはまる)
2. 過学習しやすい
3. 最頻値は分布の要約に適さないことがある
4. パラメータ変換に対して不変でない
▶ ただしどの点推定量が良いかは考えてる問題に依存
→ 詳しくは後ででてくる決定理論で
9 / 73
Baysian Statistics Summarizing posterior distribution
Mode is an untypical point
−2 −1 0 1 2 3 4
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
1 2 3 4 5 6 7
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
10 / 73
Baysian Statistics Summarizing posterior distribution
Depandance on parameterization
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
X
p
Y
g
11 / 73
Baysian Statistics Summarizing posterior distribution
信⽤区間 (credible interval)
Definition
θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは
P (ℓ ≤ θ ≤ u|D) = 1 − α
を満たす区間のこと
▶ ⼀意には決まらない
▶ Central interval, HDP region などが使われる
▶ 信頼区間 (confidence interval) とは別物
12 / 73
Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
13 / 73
Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
α/2 α/2 pMIN
14 / 73
Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価が2,悪い評価が0
15 / 73
Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価が2,悪い評価が0
それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で
表してやり θ1 > θ2 になる確率を求める
15 / 73
Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
16 / 73
Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
▶ 事後分布は
p (θ1|D1) = Beta (91, 11)
p (θ2|D2) = Beta (3, 1)
▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価
16 / 73
Baysian Statistics Summarizing posterior distribution
結果
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
10
12
14
p(θ1
|data)
p(θ
2
|data)
θ1, θ2の事後分布
−0.4 −0.2 0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
δ
pdf
δ = θ1 − θ2の事後分布と
95% Central interval
▶ p (δ > 0|D) = 0.710
▶ 商品1の⽅が良い (という確率が71%) !
17 / 73
Baysian Statistics Bayesian model selection
Subsection 3
Bayesian model selection
18 / 73
Baysian Statistics Bayesian model selection
モデル選択 (model selection)
▶ 複雑度の違う複数のモデルの中から最良のモデルを
1つ選びたい
▶ 多項式フィッティングの多項式の次数
▶ 正則化パラメータの⼤きさ
▶ k最近傍法の近傍の数
19 / 73
Baysian Statistics Bayesian model selection
ベイズ的モデル選択
▶ モデル m の事後分布 p (m|D) を求めて
最頻値のモデルを選択
p (m|D) =
p (D|m) p (m)
∑
m∈M p (m, D)
▶ M: すべてのモデルを含む集合
▶ p (D|m): モデル m の周辺尤度
(marginal likelihood)
▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら
周辺尤度が最⼤のモデル argmax
m∈M
p (D|m) を選択
20 / 73
Baysian Statistics Bayesian model selection
周辺尤度 (marginal likelihood)
Definition
モデル m の周辺尤度 (marginal likelihood)
またはエビデンス p (D|m)
p (D|m) =
ˆ
p (D|θ) p (θ|m) dθ
▶ p (D|θ): モデル m に対する θ の尤度
▶ p (θ|m): モデル m に対する θ の事前分布
21 / 73
Baysian Statistics Bayesian model selection
1. ベイズ的オッカムの剃⼑
2. ベイズ因⼦
3. ジェフリーズ-リンドレーのパラドックス
22 / 73
Baysian Statistics Bayesian model selection
ベイズ的オッカムの剃⼑
▶ オッカムの剃⼑ (Occamʼs razor)
▶ 同じ現象を適切に説明する仮説が複数あるときは
その中で最も簡単なものを採⽤するべきである
▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる
▶ モデルが有限個でなく連続値の複雑度パラメータで
表されている場合であっても周辺尤度最⼤化により
複雑度パラメータを決められる (経験ベイズ)
23 / 73
Baysian Statistics Bayesian model selection
Chain rule による解釈
p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1)
24 / 73
Baysian Statistics Bayesian model selection
状態数による解釈
▶
∑
D′ p (D′
|m) = 1
25 / 73
Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−20
−10
0
10
20
30
40
50
60
70
d=1, logev=−18.593, EB
−2 0 2 4 6 8 10 12
−200
−150
−100
−50
0
50
100
150
200
250
300
d=3, logev=−21.718, EB
−2 0 2 4 6 8 10 12
−80
−60
−40
−20
0
20
40
60
80
d=2, logev=−20.218, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=5, method=EB
26 / 73
Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
d=1, logev=−106.110, EB
−2 0 2 4 6 8 10 12
−20
0
20
40
60
80
100
d=3, logev=−107.410, EB
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
80
d=2, logev=−103.025, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=30, method=EB
27 / 73
Baysian Statistics Bayesian model selection
周辺尤度の計算
▶ 共役事前分布を使うと簡単
p (D) =
ZN
Z0Zℓ
▶ ZN: 事後分布 p (θ|D) の正則化項
▶ Z0: 事前分布p (θ) の正則化項
▶ Zℓ: 尤度p (D|θ) の定数項
28 / 73
Baysian Statistics Bayesian model selection
周辺尤度の計算例
▶ ベータ-⼆項モデル
p (D) =
(
N
N1
)
B (a + N1, b + N2)
B (a, b)
▶ ディリクレ-多項モデル
p (D) =
Γ (
∑
k αk)
Γ (N +
∑
k αk)
∏
k
Γ (Nk + αk)
Γ (αk)
29 / 73
Baysian Statistics Bayesian model selection
▶ ガウス-ガウス-ウィシャートモデル
p (D) =
1
πND/2
(
κ0
κN
)D/2
|S0|ν0/2
|SN|νN/2
ΓD (νN/2)
ΓD (ν0/2)
▶ 分布とか記号の定義は4.6.3.2節で
30 / 73
Baysian Statistics Bayesian model selection
周辺尤度の近似式
Definition
モデルのベイズ情報量規準
(BIC; Bayes information criterion)
BIC ≜ log p
(
D|ˆθ
)
−
dof
(
ˆθ
)
2
log N ≈ log p (D)
▶ ˆθ: モデルのパラメータθの最尤推定量
▶ dof
(
ˆθ
)
: モデルの⾃由度 (≈パラメータ空間の次元)
▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum
description length) の最⼩化と等価
31 / 73
Baysian Statistics Bayesian model selection
BICの例
▶ 線形回帰モデル p (y|x, θ) = N
(
wT
x, σ2
)
の最⼤尤度
log p
(
D|ˆθ
)
= −
N
2
log
(
2πˆσ2
)
−
N
2
▶ よってBICは (定数項を除いて)
BIC = −
N
2
log
(
2πˆσ2
)
−
D
2
log N
▶ D: モデルに含まれる変数の数
▶ BICが最⼩になる変数集合を選べばよい
32 / 73
Baysian Statistics Bayesian model selection
⾚池情報量規準
Definition
モデルの⾚池情報量規準
(AIC; Akaike information criterion)
AIC (m, D) ≜ log p
(
D|ˆθ
)
− dof (m)
▶ 予測精度の観点から有⽤
33 / 73
Baysian Statistics Bayesian model selection
事前分布の影響
▶ 周辺尤度は事前分布の違いに影響される
▶ ⼀⽅で事後分布はあまり影響されない
▶ 事前分布のハイパーパラメータも確率変数として
ハイパーパラメータの事後分布についても周辺化
p (D|m) =
ˆ ˆ
p (D|θ) p (θ|α, m) p (α|m) dθdα
▶ α: θの事前分布 p (θ|m) のハイパーパラメータ
▶ p (α|m): ハイパーパラメータの事前分布
▶ ↑の代わりに周辺尤度の最⼤化によってαを決めると
計算が楽 (経験ベイズ(11枚ぶり2回⽬))
34 / 73
Baysian Statistics Bayesian model selection
ベイズ因⼦ (Bayes factor)
Definition
帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその
周辺尤度の⽐
BF1,0 ≜
p (D|M1)
p (D|M0)
=
p (M1|D)
p (M0|D)
/
p (M1)
p (M0)
▶ BF1,0 > 1 なら対⽴仮説を⽀持し,
BF1,0 < 1 なら帰無仮説を⽀持
▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを
評価もできる
▶ 頻度でいうところのp値みたいな
35 / 73
Baysian Statistics Bayesian model selection
例: コイン投げ
▶ コインが公平かどうかを知りたい
▶ M0: コインが公平 p(D|M0) =
(1
2
)N
▶ M1: 公平でない
p (D|M1) =
´ 1
0
p (D|θ) p (θ) dθ = B(α1+N1,α0+N0)
B(α1,α0)
▶ M1はベータ-ベルヌーイモデル
36 / 73
Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
BF(1,0)
37 / 73
Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
−2.6
−2.4
−2.2
−2
−1.8
−1.6
−1.4
−1.2
−1
−0.8
BIC approximation to log
10
p(D|M1)
38 / 73
Baysian Statistics Bayesian model selection
ジェフリーズ-リンドレーのパラドックス
▶ 各モデルのθの事前分布として変則事前分布 (または
変則でなくても極端に広がった分布) を使うと常に
シンプルなモデルが選ばれてしまう
▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い
▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか
▶ 変則事前分布 (improper prior) は積分しても1に
ならない事前分布
▶ たとえば θ ∈ (−∞, ∞) なら
p (θ) ∝ 定数 ⇒
´
p (θ) dθ → ∞
39 / 73
Baysian Statistics Prior
Subsection 4
Prior
40 / 73
Baysian Statistics Prior
事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
41 / 73
Baysian Statistics Prior
事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
▶ とはいえ事前分布の選び⽅の影響が少ない⽅が
うれしいこともある
41 / 73
Baysian Statistics Prior
1. 無情報事前分布
2. ジェフリーズ事前分布
3. 頑健な事前分布
4. 事前分布の混合分布
42 / 73
Baysian Statistics Prior
無情報事前分布 (uninformative prior)
▶ θについて何も知らない場合に使われる
▶ “Let the data speak for itself.”
▶ ⼀⼝に無情報と⾔っても⾊々ある
▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら...
▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数
▶ ホールデン事前分布:
θ ∼ limc→0 Beta (c, c) = Beta (0, 0)
→ 事後分布の期待値が N1/N
▶ ジェフリーズ事前分布: θ ∼ Beta
(1
2 , 1
2
)
43 / 73
Baysian Statistics Prior
ジェフリーズ事前分布 (Jeffreys prior)
▶ フッシャー情報量の平⽅根に⽐例する事前分布
pϕ (ϕ) ∝ (I (ϕ))1/2
I (ϕ) ≜ −E
[(
d log p (X|ϕ)
dϕ
)2
]1/2
▶ パラメータ変換に対する不変性
θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ)
dϕ
dθ
: Jeffreys
44 / 73
Baysian Statistics Prior
頑健な事前分布 (Robust prior)
▶ 結果に過度の影響を与えない事前分布
▶ 典型的には裾の重い (heavy tail) 分布
Example
ガウス分布 N (θ, 1) の平均θのRobust prior
▶ p (θ ≤ −1) = p (−1 < θ ≤ 0)
= p (0 < θ ≤ 1) = p (1 < θ) = 0.25
▶ なめらかで単峰
→ θ ∼ N (θ|0, 2.192
)とすれば上の条件をみたす
 他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も
45 / 73
Baysian Statistics Prior
共役事前分布の混合分布
▶ 共役事前分布の混合分布は共役事前分布になる
▶ 計算が楽
▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ)
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ (公平なコインが多めに⼊った袋 (第1項) と
表のでやすいコインが多めに⼊った袋 (第2項) から
無作為にコインを選ぶイメージ(頻度的表現))
46 / 73
Baysian Statistics Prior
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
mixture of Beta distributions
prior
posterior
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20)
▶ D = (N1, N0) = (20, 10)
47 / 73
Baysian Statistics Prior
事後分布の計算
1. 各混合要素の事後分布は普通の共役事前分布と同じ
2. 混合⽐の事後分布は
p (Z = k|D) =
p (Z = k) p (D|Z = k)
∑
k′ p (Z = k′) p (D|Z = k′)
▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布
▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´
p (D|θ) p (θ|Z = k) dθ
48 / 73
Baysian Statistics Prior
例: DNA塩基配列
▶ DNA塩基配列の各位置について
1. ほぼどの塩基かが決まっている (A or T or C or G)
2. どの塩基かがランダム
▶ 1の位置と対応する塩基が知りたい
▶ 多項-ディリクレモデルで混合分布を事前分布に
▶ 混合要素は
p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1))
p (θ|Zt = 1) =
1
4
Dir (θ| (10, 1, 1, 1)) + · · ·
+
1
4
Dir (θ| (1, 1, 1, 10))
▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる
49 / 73
Baysian Statistics Hierarchical Bayes
Subsection 5
Hierarchical Bayes
50 / 73
Baysian Statistics Hierarchical Bayes
階層ベイズモデル
▶ 事前分布のハイパーパラメータにさらに事前分布を
導⼊したモデル
p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η)
▶ グラフィカルモデル (→Ch.10) でかくと
η → θ → D
51 / 73
Baysian Statistics Hierarchical Bayes
例: がんでの死亡率
▶ 街ごとのがんでの死亡率を推定
▶ 各街の死亡率θiの事前分布をBeta (a, b)
▶ ハイパーパラメータ η = (a, b) の事前分布を p (η)
52 / 73
Baysian Statistics Empirical Bayes
Subsection 6
Empirical Bayes
53 / 73
Baysian Statistics Empirical Bayes
経験ベイズ法 (EB; empirical Bayes)
▶ 階層モデルのハイパーパラメータの事後分布を
点推定で近似
p (η|D) =
ˆ
p (η, θ|D) dθ
≈ δˆη (η)
▶ ˆη = argmax p (η|D)
▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と
ˆη = argmax p (D|η)
= argmax
[ˆ
p (D|θ) p (θ|η) dθ
]
▶ 第2種の最尤推定 (type-II maximum likelihood)
とも呼ぶ (周辺尤度を最⼤化している)
54 / 73
Baysian Statistics Empirical Bayes
Bayesian check!
Method Definition
Maximum likelihood ˆθ = argmax
θ
p (D|θ)
MAP estimation ˆθ = argmax
θ
p (D|θ) p (θ)
ML-II (EB) ˆη = argmax
η
´
p (D|θ) p (θ|η) dθ = argmax
η
p (D|η)
MAP-II ˆη = argmax
η
´
p (D|θ) p (θ|η) p (η) dθ = argmax
η
p (D|η) p (η)
Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η)
55 / 73
Baysian Statistics Bayesian decision theory
Subsection 7
Bayesian decision theory
56 / 73
Baysian Statistics Bayesian decision theory
ベイズ的決定理論
▶ 得られた信念から実際の⾏動を決めたい
▶ 「⾃然とのゲーム」として定式化
▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム
57 / 73
Baysian Statistics Bayesian decision theory
▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル
▶ x ∈ X: y から⽣成された観測
▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ)
▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失
▶ U (y, a) = −L (y, a) を効⽤関数とも
▶ δ : X → A : 観測から⾏動を決める決定⼿順
58 / 73
Baysian Statistics Bayesian decision theory
▶ 期待効⽤最⼤化原理
(maximum expected utility principle)
δ (x) = argmax
a∈A
E [U (y, a)]
= argmin
a∈A
E [L (y, a)]
▶ 事後期待損失 (posterior expected loss)
ρ (a|x) ≜ Ep(y|x) [L (y, a)] =
∑
y
L (y, a) p (y|x)
▶ ベイズ推定量 (Bayes estimator)
またはベイズ決定則 (Bayes decision rule)
δ (x) = argmin
a∈A
ρ (a|x)
59 / 73
Baysian Statistics Bayesian decision theory
1. よくある損失関数に対するベイズ推定量
2. 偽陽性と偽陰性のトレードオフ
3. その他の話題
60 / 73
Baysian Statistics Bayesian decision theory
0 − 1 lossのベイズ推定量
▶ L (y, a) = I (y ̸= a) =
{
0 if a = y
1 if a ̸= y
▶ 分類問題で使う
▶ 事後期待損失は
ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x)
▶ ベイズ推定量は事後分布の最頻値 (→MAP推定)
y∗
(x) = argmax
y∈Y
p (y|x)
61 / 73
Baysian Statistics Bayesian decision theory
▶ 分類問題ではどちらつかずの時は分類しない⽅法も
62 / 73
Baysian Statistics Bayesian decision theory
⼆乗損失のベイズ推定量
▶ L (y, a) = (y − a)2
▶ 回帰問題で使う
▶ 事後期待損失は
ρ (a|x) = E
[
(y − a)2
|x
]
= E
[
y2
|a
]
− 2aE [y|x] + a2
▶ ベイズ推定量は事後分布の平均
ˆy = E [y|x] =
ˆ
yp (y|x) dy
▶ 最⼩平均⼆乗誤差推定 (minimum mean squared
error; MMSE) とよぶ
63 / 73
Baysian Statistics Bayesian decision theory
絶対損失のベイズ推定量
▶ L (y, a) = |y − a|
▶ これも回帰問題で使う
▶ 2乗損失より外れ値に頑健
▶ ベイズ推定量は事後分布の中央値
つまり下式を満たす a
P (y  a|x) = P (y ≥ a|x) = 0.5
64 / 73
Baysian Statistics Bayesian decision theory
教師あり学習
真の値yに対する予測y′
についての cost function ℓ (y, y′
)
が与えられたとき,
汎化誤差 (generalization error)
L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))]
=
∑
x
∑
y
L (y, δ (x)) p (x, y|θ)
の事後期待損失
ρ (δ|D) =
ˆ
p (θ|D) L (θ, δ) dθ
を最⼩化する決定⼿順 δ : X → Y を求める
65 / 73
Baysian Statistics Bayesian decision theory
偽陽性と偽陰性のトレードオフ
▶ 2値の決定問題
▶ 仮説検定・2クラス分類・物体検出など
▶ 2種類の過誤
▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定
▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定
▶ 0-1損失ではこれらの誤差を同等に扱ってしまう
66 / 73
Baysian Statistics Bayesian decision theory
ˆy = 1 ˆy = 0
y = 1 0 LFN
y = 0 LFP 0
loss matrix
▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失
▶ もしLFN, LFPが与えられれば事後期待損失は
ρ
(
ˆy = 0|x
)
= LFNp (y = 1|x)
ρ
(
ˆy = 1|x
)
= LFNp (y = 0|x)
となり p (y = 1|x) /p (y = 0|x) の閾値τを決められる
▶ ROC曲線を使うと閾値を定めない (LFN, LFPが与えら
れない) 場合にも議論できる
67 / 73
Baysian Statistics Bayesian decision theory
1. ROC曲線
2. Precision recall curves
3. F-score
4. Falsediscovery rates
68 / 73
Baysian Statistics Bayesian decision theory
ROC curve
0 1
0
1
fpr
tpr
A
B
69 / 73
Baysian Statistics Bayesian decision theory
Precision recall curve
0 1
0
1
recall
precision
AB
70 / 73
Baysian Statistics Bayesian decision theory
F-score
▶ 適合度と再現率の調和平均
F1 ≜
2
1/P + 1/R
=
2PR
R + P
71 / 73
Baysian Statistics Bayesian decision theory
False discovery rates
▶
FD (τ, D) ≜
∑
(1 − pi) I (pi  τ)
FDR (τ, D) ≜ FD (τ, D) /N (τ, D)
▶ N (τ, D) =
∑
I (pi  τ)
72 / 73

More Related Content

What's hot

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門Masaki Tsuda
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28kurotaki_weblab
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningssuserca2822
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出hoxo_m
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法Masafumi Enomoto
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシンYuta Sugii
 

What's hot (20)

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
MCMC法
MCMC法MCMC法
MCMC法
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
 
PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28PRML勉強会第3回 2章前半 2013/11/28
PRML勉強会第3回 2章前半 2013/11/28
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン
 

MLaPP 5章 「ベイズ統計学」

  • 2. Baysian Statistics アウトライン 1. イントロダクション 2. 事後分布の要約 3. ベイズ的モデル選択 4. 事前分布 5. 階層ベイズ 6. 経験ベイズ 7. ベイズ的決定理論 2 / 73
  • 4. Baysian Statistics Introduction ベイズ統計とは ▶ 観測したデータ以外のあらゆる量が確率変数である とみなす統計学 ▶ データを⽣成した分布の平均や分散など (※データそのものの平均や分散ではありません) ▶ 未知の量 θ に関するすべての情報は 事後分布 p (θ|D) に集約される 4 / 73
  • 5. Baysian Statistics Summarizing posterior distribution Subsection 2 Summarizing posterior distribution 5 / 73
  • 6. Baysian Statistics Summarizing posterior distribution 事後分布の要約 ▶ θの事後分布 p (θ|D) を要約した簡単な量によって 未知の量θを表してやる ▶ 結果の直感的な理解・可視化 ▶ 計算上の利点 6 / 73
  • 7. Baysian Statistics Summarizing posterior distribution 1. MAP推定 2. 信⽤区間 7 / 73
  • 8. Baysian Statistics Summarizing posterior distribution 点推定 (point estimate) θの事後分布 p (θ|D) をある定数ˆθによって表して計算 ▶ 平均 (mean) ˆθ = E [θ] = ˆ θp (θ|D) dθ ▶ 中央値 (median) (θが1次元なら) ˆθ s.t. P ( θ ≤ ˆθ|D ) = P ( θ > ˆθ|D ) = 0.5 ▶ 最頻値 (mode) → MAP推定で求めてるのはこれ ˆθ = argmax θ p (θ|D) 8 / 73
  • 9. Baysian Statistics Summarizing posterior distribution MAP推定の問題点 1. 推定の不安定さが評価できない (他の点推定にもあてはまる) 2. 過学習しやすい 3. 最頻値は分布の要約に適さないことがある 4. パラメータ変換に対して不変でない ▶ ただしどの点推定量が良いかは考えてる問題に依存 → 詳しくは後ででてくる決定理論で 9 / 73
  • 10. Baysian Statistics Summarizing posterior distribution Mode is an untypical point −2 −1 0 1 2 3 4 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 1 2 3 4 5 6 7 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10 / 73
  • 11. Baysian Statistics Summarizing posterior distribution Depandance on parameterization 0 2 4 6 8 10 12 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p X p Y g 11 / 73
  • 12. Baysian Statistics Summarizing posterior distribution 信⽤区間 (credible interval) Definition θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは P (ℓ ≤ θ ≤ u|D) = 1 − α を満たす区間のこと ▶ ⼀意には決まらない ▶ Central interval, HDP region などが使われる ▶ 信頼区間 (confidence interval) とは別物 12 / 73
  • 13. Baysian Statistics Summarizing posterior distribution Central interval vs HPD region 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 13 / 73
  • 14. Baysian Statistics Summarizing posterior distribution Central interval vs HPD region α/2 α/2 pMIN 14 / 73
  • 15. Baysian Statistics Summarizing posterior distribution 例: Amazonでお買い物 ▶ 2つの商品を⽐較して良い⽅を買いたい ▶ 商品1は良い評価が90,悪い評価が10 ▶ 商品2は良い評価が2,悪い評価が0 15 / 73
  • 16. Baysian Statistics Summarizing posterior distribution 例: Amazonでお買い物 ▶ 2つの商品を⽐較して良い⽅を買いたい ▶ 商品1は良い評価が90,悪い評価が10 ▶ 商品2は良い評価が2,悪い評価が0 それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で 表してやり θ1 > θ2 になる確率を求める 15 / 73
  • 17. Baysian Statistics Summarizing posterior distribution 確率モデルで定式化 ▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1) ▶ 良い評価の数を Bin (N, θi) でモデリング 16 / 73
  • 18. Baysian Statistics Summarizing posterior distribution 確率モデルで定式化 ▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1) ▶ 良い評価の数を Bin (N, θi) でモデリング ▶ 事後分布は p (θ1|D1) = Beta (91, 11) p (θ2|D2) = Beta (3, 1) ▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価 16 / 73
  • 19. Baysian Statistics Summarizing posterior distribution 結果 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 2 4 6 8 10 12 14 p(θ1 |data) p(θ 2 |data) θ1, θ2の事後分布 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 δ pdf δ = θ1 − θ2の事後分布と 95% Central interval ▶ p (δ > 0|D) = 0.710 ▶ 商品1の⽅が良い (という確率が71%) ! 17 / 73
  • 20. Baysian Statistics Bayesian model selection Subsection 3 Bayesian model selection 18 / 73
  • 21. Baysian Statistics Bayesian model selection モデル選択 (model selection) ▶ 複雑度の違う複数のモデルの中から最良のモデルを 1つ選びたい ▶ 多項式フィッティングの多項式の次数 ▶ 正則化パラメータの⼤きさ ▶ k最近傍法の近傍の数 19 / 73
  • 22. Baysian Statistics Bayesian model selection ベイズ的モデル選択 ▶ モデル m の事後分布 p (m|D) を求めて 最頻値のモデルを選択 p (m|D) = p (D|m) p (m) ∑ m∈M p (m, D) ▶ M: すべてのモデルを含む集合 ▶ p (D|m): モデル m の周辺尤度 (marginal likelihood) ▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら 周辺尤度が最⼤のモデル argmax m∈M p (D|m) を選択 20 / 73
  • 23. Baysian Statistics Bayesian model selection 周辺尤度 (marginal likelihood) Definition モデル m の周辺尤度 (marginal likelihood) またはエビデンス p (D|m) p (D|m) = ˆ p (D|θ) p (θ|m) dθ ▶ p (D|θ): モデル m に対する θ の尤度 ▶ p (θ|m): モデル m に対する θ の事前分布 21 / 73
  • 24. Baysian Statistics Bayesian model selection 1. ベイズ的オッカムの剃⼑ 2. ベイズ因⼦ 3. ジェフリーズ-リンドレーのパラドックス 22 / 73
  • 25. Baysian Statistics Bayesian model selection ベイズ的オッカムの剃⼑ ▶ オッカムの剃⼑ (Occamʼs razor) ▶ 同じ現象を適切に説明する仮説が複数あるときは その中で最も簡単なものを採⽤するべきである ▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる ▶ モデルが有限個でなく連続値の複雑度パラメータで 表されている場合であっても周辺尤度最⼤化により 複雑度パラメータを決められる (経験ベイズ) 23 / 73
  • 26. Baysian Statistics Bayesian model selection Chain rule による解釈 p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1) 24 / 73
  • 27. Baysian Statistics Bayesian model selection 状態数による解釈 ▶ ∑ D′ p (D′ |m) = 1 25 / 73
  • 28. Baysian Statistics Bayesian model selection −2 0 2 4 6 8 10 12 −20 −10 0 10 20 30 40 50 60 70 d=1, logev=−18.593, EB −2 0 2 4 6 8 10 12 −200 −150 −100 −50 0 50 100 150 200 250 300 d=3, logev=−21.718, EB −2 0 2 4 6 8 10 12 −80 −60 −40 −20 0 20 40 60 80 d=2, logev=−20.218, EB 1 2 3 0 0.2 0.4 0.6 0.8 1 M P(M|D) N=5, method=EB 26 / 73
  • 29. Baysian Statistics Bayesian model selection −2 0 2 4 6 8 10 12 −10 0 10 20 30 40 50 60 70 d=1, logev=−106.110, EB −2 0 2 4 6 8 10 12 −20 0 20 40 60 80 100 d=3, logev=−107.410, EB −2 0 2 4 6 8 10 12 −10 0 10 20 30 40 50 60 70 80 d=2, logev=−103.025, EB 1 2 3 0 0.2 0.4 0.6 0.8 1 M P(M|D) N=30, method=EB 27 / 73
  • 30. Baysian Statistics Bayesian model selection 周辺尤度の計算 ▶ 共役事前分布を使うと簡単 p (D) = ZN Z0Zℓ ▶ ZN: 事後分布 p (θ|D) の正則化項 ▶ Z0: 事前分布p (θ) の正則化項 ▶ Zℓ: 尤度p (D|θ) の定数項 28 / 73
  • 31. Baysian Statistics Bayesian model selection 周辺尤度の計算例 ▶ ベータ-⼆項モデル p (D) = ( N N1 ) B (a + N1, b + N2) B (a, b) ▶ ディリクレ-多項モデル p (D) = Γ ( ∑ k αk) Γ (N + ∑ k αk) ∏ k Γ (Nk + αk) Γ (αk) 29 / 73
  • 32. Baysian Statistics Bayesian model selection ▶ ガウス-ガウス-ウィシャートモデル p (D) = 1 πND/2 ( κ0 κN )D/2 |S0|ν0/2 |SN|νN/2 ΓD (νN/2) ΓD (ν0/2) ▶ 分布とか記号の定義は4.6.3.2節で 30 / 73
  • 33. Baysian Statistics Bayesian model selection 周辺尤度の近似式 Definition モデルのベイズ情報量規準 (BIC; Bayes information criterion) BIC ≜ log p ( D|ˆθ ) − dof ( ˆθ ) 2 log N ≈ log p (D) ▶ ˆθ: モデルのパラメータθの最尤推定量 ▶ dof ( ˆθ ) : モデルの⾃由度 (≈パラメータ空間の次元) ▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum description length) の最⼩化と等価 31 / 73
  • 34. Baysian Statistics Bayesian model selection BICの例 ▶ 線形回帰モデル p (y|x, θ) = N ( wT x, σ2 ) の最⼤尤度 log p ( D|ˆθ ) = − N 2 log ( 2πˆσ2 ) − N 2 ▶ よってBICは (定数項を除いて) BIC = − N 2 log ( 2πˆσ2 ) − D 2 log N ▶ D: モデルに含まれる変数の数 ▶ BICが最⼩になる変数集合を選べばよい 32 / 73
  • 35. Baysian Statistics Bayesian model selection ⾚池情報量規準 Definition モデルの⾚池情報量規準 (AIC; Akaike information criterion) AIC (m, D) ≜ log p ( D|ˆθ ) − dof (m) ▶ 予測精度の観点から有⽤ 33 / 73
  • 36. Baysian Statistics Bayesian model selection 事前分布の影響 ▶ 周辺尤度は事前分布の違いに影響される ▶ ⼀⽅で事後分布はあまり影響されない ▶ 事前分布のハイパーパラメータも確率変数として ハイパーパラメータの事後分布についても周辺化 p (D|m) = ˆ ˆ p (D|θ) p (θ|α, m) p (α|m) dθdα ▶ α: θの事前分布 p (θ|m) のハイパーパラメータ ▶ p (α|m): ハイパーパラメータの事前分布 ▶ ↑の代わりに周辺尤度の最⼤化によってαを決めると 計算が楽 (経験ベイズ(11枚ぶり2回⽬)) 34 / 73
  • 37. Baysian Statistics Bayesian model selection ベイズ因⼦ (Bayes factor) Definition 帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその 周辺尤度の⽐ BF1,0 ≜ p (D|M1) p (D|M0) = p (M1|D) p (M0|D) / p (M1) p (M0) ▶ BF1,0 > 1 なら対⽴仮説を⽀持し, BF1,0 < 1 なら帰無仮説を⽀持 ▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを 評価もできる ▶ 頻度でいうところのp値みたいな 35 / 73
  • 38. Baysian Statistics Bayesian model selection 例: コイン投げ ▶ コインが公平かどうかを知りたい ▶ M0: コインが公平 p(D|M0) = (1 2 )N ▶ M1: 公平でない p (D|M1) = ´ 1 0 p (D|θ) p (θ) dθ = B(α1+N1,α0+N0) B(α1,α0) ▶ M1はベータ-ベルヌーイモデル 36 / 73
  • 39. Baysian Statistics Bayesian model selection 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 num heads Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 BF(1,0) 37 / 73
  • 40. Baysian Statistics Bayesian model selection 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 num heads Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 −2.6 −2.4 −2.2 −2 −1.8 −1.6 −1.4 −1.2 −1 −0.8 BIC approximation to log 10 p(D|M1) 38 / 73
  • 41. Baysian Statistics Bayesian model selection ジェフリーズ-リンドレーのパラドックス ▶ 各モデルのθの事前分布として変則事前分布 (または 変則でなくても極端に広がった分布) を使うと常に シンプルなモデルが選ばれてしまう ▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い ▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか ▶ 変則事前分布 (improper prior) は積分しても1に ならない事前分布 ▶ たとえば θ ∈ (−∞, ∞) なら p (θ) ∝ 定数 ⇒ ´ p (θ) dθ → ∞ 39 / 73
  • 43. Baysian Statistics Prior 事前分布 ▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない ▶ あらゆる推論は世界についての仮定の下で⾏われる 41 / 73
  • 44. Baysian Statistics Prior 事前分布 ▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない ▶ あらゆる推論は世界についての仮定の下で⾏われる ▶ とはいえ事前分布の選び⽅の影響が少ない⽅が うれしいこともある 41 / 73
  • 45. Baysian Statistics Prior 1. 無情報事前分布 2. ジェフリーズ事前分布 3. 頑健な事前分布 4. 事前分布の混合分布 42 / 73
  • 46. Baysian Statistics Prior 無情報事前分布 (uninformative prior) ▶ θについて何も知らない場合に使われる ▶ “Let the data speak for itself.” ▶ ⼀⼝に無情報と⾔っても⾊々ある ▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら... ▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数 ▶ ホールデン事前分布: θ ∼ limc→0 Beta (c, c) = Beta (0, 0) → 事後分布の期待値が N1/N ▶ ジェフリーズ事前分布: θ ∼ Beta (1 2 , 1 2 ) 43 / 73
  • 47. Baysian Statistics Prior ジェフリーズ事前分布 (Jeffreys prior) ▶ フッシャー情報量の平⽅根に⽐例する事前分布 pϕ (ϕ) ∝ (I (ϕ))1/2 I (ϕ) ≜ −E [( d log p (X|ϕ) dϕ )2 ]1/2 ▶ パラメータ変換に対する不変性 θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ) dϕ dθ : Jeffreys 44 / 73
  • 48. Baysian Statistics Prior 頑健な事前分布 (Robust prior) ▶ 結果に過度の影響を与えない事前分布 ▶ 典型的には裾の重い (heavy tail) 分布 Example ガウス分布 N (θ, 1) の平均θのRobust prior ▶ p (θ ≤ −1) = p (−1 < θ ≤ 0) = p (0 < θ ≤ 1) = p (1 < θ) = 0.25 ▶ なめらかで単峰 → θ ∼ N (θ|0, 2.192 )とすれば上の条件をみたす  他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も 45 / 73
  • 49. Baysian Statistics Prior 共役事前分布の混合分布 ▶ 共役事前分布の混合分布は共役事前分布になる ▶ 計算が楽 ▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ) ▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10) ▶ (公平なコインが多めに⼊った袋 (第1項) と 表のでやすいコインが多めに⼊った袋 (第2項) から 無作為にコインを選ぶイメージ(頻度的表現)) 46 / 73
  • 50. Baysian Statistics Prior 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 mixture of Beta distributions prior posterior ▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10) ▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20) ▶ D = (N1, N0) = (20, 10) 47 / 73
  • 51. Baysian Statistics Prior 事後分布の計算 1. 各混合要素の事後分布は普通の共役事前分布と同じ 2. 混合⽐の事後分布は p (Z = k|D) = p (Z = k) p (D|Z = k) ∑ k′ p (Z = k′) p (D|Z = k′) ▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布 ▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´ p (D|θ) p (θ|Z = k) dθ 48 / 73
  • 52. Baysian Statistics Prior 例: DNA塩基配列 ▶ DNA塩基配列の各位置について 1. ほぼどの塩基かが決まっている (A or T or C or G) 2. どの塩基かがランダム ▶ 1の位置と対応する塩基が知りたい ▶ 多項-ディリクレモデルで混合分布を事前分布に ▶ 混合要素は p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1)) p (θ|Zt = 1) = 1 4 Dir (θ| (10, 1, 1, 1)) + · · · + 1 4 Dir (θ| (1, 1, 1, 10)) ▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる 49 / 73
  • 53. Baysian Statistics Hierarchical Bayes Subsection 5 Hierarchical Bayes 50 / 73
  • 54. Baysian Statistics Hierarchical Bayes 階層ベイズモデル ▶ 事前分布のハイパーパラメータにさらに事前分布を 導⼊したモデル p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η) ▶ グラフィカルモデル (→Ch.10) でかくと η → θ → D 51 / 73
  • 55. Baysian Statistics Hierarchical Bayes 例: がんでの死亡率 ▶ 街ごとのがんでの死亡率を推定 ▶ 各街の死亡率θiの事前分布をBeta (a, b) ▶ ハイパーパラメータ η = (a, b) の事前分布を p (η) 52 / 73
  • 56. Baysian Statistics Empirical Bayes Subsection 6 Empirical Bayes 53 / 73
  • 57. Baysian Statistics Empirical Bayes 経験ベイズ法 (EB; empirical Bayes) ▶ 階層モデルのハイパーパラメータの事後分布を 点推定で近似 p (η|D) = ˆ p (η, θ|D) dθ ≈ δˆη (η) ▶ ˆη = argmax p (η|D) ▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と ˆη = argmax p (D|η) = argmax [ˆ p (D|θ) p (θ|η) dθ ] ▶ 第2種の最尤推定 (type-II maximum likelihood) とも呼ぶ (周辺尤度を最⼤化している) 54 / 73
  • 58. Baysian Statistics Empirical Bayes Bayesian check! Method Definition Maximum likelihood ˆθ = argmax θ p (D|θ) MAP estimation ˆθ = argmax θ p (D|θ) p (θ) ML-II (EB) ˆη = argmax η ´ p (D|θ) p (θ|η) dθ = argmax η p (D|η) MAP-II ˆη = argmax η ´ p (D|θ) p (θ|η) p (η) dθ = argmax η p (D|η) p (η) Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η) 55 / 73
  • 59. Baysian Statistics Bayesian decision theory Subsection 7 Bayesian decision theory 56 / 73
  • 60. Baysian Statistics Bayesian decision theory ベイズ的決定理論 ▶ 得られた信念から実際の⾏動を決めたい ▶ 「⾃然とのゲーム」として定式化 ▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム 57 / 73
  • 61. Baysian Statistics Bayesian decision theory ▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル ▶ x ∈ X: y から⽣成された観測 ▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ) ▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失 ▶ U (y, a) = −L (y, a) を効⽤関数とも ▶ δ : X → A : 観測から⾏動を決める決定⼿順 58 / 73
  • 62. Baysian Statistics Bayesian decision theory ▶ 期待効⽤最⼤化原理 (maximum expected utility principle) δ (x) = argmax a∈A E [U (y, a)] = argmin a∈A E [L (y, a)] ▶ 事後期待損失 (posterior expected loss) ρ (a|x) ≜ Ep(y|x) [L (y, a)] = ∑ y L (y, a) p (y|x) ▶ ベイズ推定量 (Bayes estimator) またはベイズ決定則 (Bayes decision rule) δ (x) = argmin a∈A ρ (a|x) 59 / 73
  • 63. Baysian Statistics Bayesian decision theory 1. よくある損失関数に対するベイズ推定量 2. 偽陽性と偽陰性のトレードオフ 3. その他の話題 60 / 73
  • 64. Baysian Statistics Bayesian decision theory 0 − 1 lossのベイズ推定量 ▶ L (y, a) = I (y ̸= a) = { 0 if a = y 1 if a ̸= y ▶ 分類問題で使う ▶ 事後期待損失は ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x) ▶ ベイズ推定量は事後分布の最頻値 (→MAP推定) y∗ (x) = argmax y∈Y p (y|x) 61 / 73
  • 65. Baysian Statistics Bayesian decision theory
  • 67. Baysian Statistics Bayesian decision theory ⼆乗損失のベイズ推定量 ▶ L (y, a) = (y − a)2 ▶ 回帰問題で使う ▶ 事後期待損失は ρ (a|x) = E [ (y − a)2 |x ] = E [ y2 |a ] − 2aE [y|x] + a2 ▶ ベイズ推定量は事後分布の平均 ˆy = E [y|x] = ˆ yp (y|x) dy ▶ 最⼩平均⼆乗誤差推定 (minimum mean squared error; MMSE) とよぶ 63 / 73
  • 68. Baysian Statistics Bayesian decision theory 絶対損失のベイズ推定量 ▶ L (y, a) = |y − a| ▶ これも回帰問題で使う ▶ 2乗損失より外れ値に頑健 ▶ ベイズ推定量は事後分布の中央値 つまり下式を満たす a P (y a|x) = P (y ≥ a|x) = 0.5 64 / 73
  • 69. Baysian Statistics Bayesian decision theory 教師あり学習 真の値yに対する予測y′ についての cost function ℓ (y, y′ ) が与えられたとき, 汎化誤差 (generalization error) L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))] = ∑ x ∑ y L (y, δ (x)) p (x, y|θ) の事後期待損失 ρ (δ|D) = ˆ p (θ|D) L (θ, δ) dθ を最⼩化する決定⼿順 δ : X → Y を求める 65 / 73
  • 70. Baysian Statistics Bayesian decision theory 偽陽性と偽陰性のトレードオフ ▶ 2値の決定問題 ▶ 仮説検定・2クラス分類・物体検出など ▶ 2種類の過誤 ▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定 ▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定 ▶ 0-1損失ではこれらの誤差を同等に扱ってしまう 66 / 73
  • 71. Baysian Statistics Bayesian decision theory ˆy = 1 ˆy = 0 y = 1 0 LFN y = 0 LFP 0 loss matrix ▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失 ▶ もしLFN, LFPが与えられれば事後期待損失は ρ ( ˆy = 0|x ) = LFNp (y = 1|x) ρ ( ˆy = 1|x ) = LFNp (y = 0|x) となり p (y = 1|x) /p (y = 0|x) の閾値τを決められる ▶ ROC曲線を使うと閾値を定めない (LFN, LFPが与えら れない) 場合にも議論できる 67 / 73
  • 72. Baysian Statistics Bayesian decision theory 1. ROC曲線 2. Precision recall curves 3. F-score 4. Falsediscovery rates 68 / 73
  • 73. Baysian Statistics Bayesian decision theory ROC curve 0 1 0 1 fpr tpr A B 69 / 73
  • 74. Baysian Statistics Bayesian decision theory Precision recall curve 0 1 0 1 recall precision AB 70 / 73
  • 75. Baysian Statistics Bayesian decision theory F-score ▶ 適合度と再現率の調和平均 F1 ≜ 2 1/P + 1/R = 2PR R + P 71 / 73
  • 76. Baysian Statistics Bayesian decision theory False discovery rates ▶ FD (τ, D) ≜ ∑ (1 − pi) I (pi τ) FDR (τ, D) ≜ FD (τ, D) /N (τ, D) ▶ N (τ, D) = ∑ I (pi τ) 72 / 73
  • 77. Baysian Statistics Bayesian decision theory その他の話題 ▶ Contextual bandits ▶ Utility theory ▶ Sequential decision theory ▶ 強化学習 (reinforcement learning) の問題 73 / 73