MLaPP Ch.5
ベイズ統計学
Bayesian statistics
1 / 73
Baysian Statistics
アウトライン
1. イントロダクション
2. 事後分布の要約
3. ベイズ的モデル選択
4. 事前分布
5. 階層ベイズ
6. 経験ベイズ
7. ベイズ的決定理論
2 / 73
Baysian Statistics Introduction
Subsection 1
Introduction
3 / 73
Baysian Statistics Introduction
ベイズ統計とは
▶ 観測したデータ以外のあらゆる量が確率変数である
とみなす統計学
▶ データを⽣成した分布の平均や分散など
(※データそのものの平均や分散ではありません)
▶ 未知の量 θ に関するすべての情報は
事後分布 p (θ|D) に集約される
4 / 73
Baysian Statistics Summarizing posterior distribution
Subsection 2
Summarizing posterior distribution
5 / 73
Baysian Statistics Summarizing posterior distribution
事後分布の要約
▶ θの事後分布 p (θ|D) を要約した簡単な量によって
未知の量θを表してやる
▶ 結果の直感的な理解・可視化
▶ 計算上の利点
6 / 73
Baysian Statistics Summarizing posterior distribution
1. MAP推定
2. 信⽤区間
7 / 73
Baysian Statistics Summarizing posterior distribution
点推定 (point estimate)
θの事後分布 p (θ|D) をある定数ˆθによって表して計算
▶ 平均 (mean)
ˆθ = E [θ] =
ˆ
θp (θ|D) dθ
▶ 中央値 (median) (θが1次元なら)
ˆθ s.t. P
(
θ ≤ ˆθ|D
)
= P
(
θ > ˆθ|D
)
= 0.5
▶ 最頻値 (mode) → MAP推定で求めてるのはこれ
ˆθ = argmax
θ
p (θ|D)
8 / 73
Baysian Statistics Summarizing posterior distribution
MAP推定の問題点
1. 推定の不安定さが評価できない
(他の点推定にもあてはまる)
2. 過学習しやすい
3. 最頻値は分布の要約に適さないことがある
4. パラメータ変換に対して不変でない
▶ ただしどの点推定量が良いかは考えてる問題に依存
→ 詳しくは後ででてくる決定理論で
9 / 73
Baysian Statistics Summarizing posterior distribution
Mode is an untypical point
−2 −1 0 1 2 3 4
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
1 2 3 4 5 6 7
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
10 / 73
Baysian Statistics Summarizing posterior distribution
Depandance on parameterization
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
X
p
Y
g
11 / 73
Baysian Statistics Summarizing posterior distribution
信⽤区間 (credible interval)
Definition
θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは
P (ℓ ≤ θ ≤ u|D) = 1 − α
を満たす区間のこと
▶ ⼀意には決まらない
▶ Central interval, HDP region などが使われる
▶ 信頼区間 (confidence interval) とは別物
12 / 73
Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
13 / 73
Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
α/2 α/2 pMIN
14 / 73
Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価が2,悪い評価が0
15 / 73
Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価が2,悪い評価が0
それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で
表してやり θ1 > θ2 になる確率を求める
15 / 73
Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
16 / 73
Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) でモデリング
▶ 事後分布は
p (θ1|D1) = Beta (91, 11)
p (θ2|D2) = Beta (3, 1)
▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価
16 / 73
Baysian Statistics Summarizing posterior distribution
結果
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
10
12
14
p(θ1
|data)
p(θ
2
|data)
θ1, θ2の事後分布
−0.4 −0.2 0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
δ
pdf
δ = θ1 − θ2の事後分布と
95% Central interval
▶ p (δ > 0|D) = 0.710
▶ 商品1の⽅が良い (という確率が71%) !
17 / 73
Baysian Statistics Bayesian model selection
Subsection 3
Bayesian model selection
18 / 73
Baysian Statistics Bayesian model selection
モデル選択 (model selection)
▶ 複雑度の違う複数のモデルの中から最良のモデルを
1つ選びたい
▶ 多項式フィッティングの多項式の次数
▶ 正則化パラメータの⼤きさ
▶ k最近傍法の近傍の数
19 / 73
Baysian Statistics Bayesian model selection
ベイズ的モデル選択
▶ モデル m の事後分布 p (m|D) を求めて
最頻値のモデルを選択
p (m|D) =
p (D|m) p (m)
∑
m∈M p (m, D)
▶ M: すべてのモデルを含む集合
▶ p (D|m): モデル m の周辺尤度
(marginal likelihood)
▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら
周辺尤度が最⼤のモデル argmax
m∈M
p (D|m) を選択
20 / 73
Baysian Statistics Bayesian model selection
周辺尤度 (marginal likelihood)
Definition
モデル m の周辺尤度 (marginal likelihood)
またはエビデンス p (D|m)
p (D|m) =
ˆ
p (D|θ) p (θ|m) dθ
▶ p (D|θ): モデル m に対する θ の尤度
▶ p (θ|m): モデル m に対する θ の事前分布
21 / 73
Baysian Statistics Bayesian model selection
1. ベイズ的オッカムの剃⼑
2. ベイズ因⼦
3. ジェフリーズ-リンドレーのパラドックス
22 / 73
Baysian Statistics Bayesian model selection
ベイズ的オッカムの剃⼑
▶ オッカムの剃⼑ (Occamʼs razor)
▶ 同じ現象を適切に説明する仮説が複数あるときは
その中で最も簡単なものを採⽤するべきである
▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる
▶ モデルが有限個でなく連続値の複雑度パラメータで
表されている場合であっても周辺尤度最⼤化により
複雑度パラメータを決められる (経験ベイズ)
23 / 73
Baysian Statistics Bayesian model selection
Chain rule による解釈
p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1)
24 / 73
Baysian Statistics Bayesian model selection
状態数による解釈
▶
∑
D′ p (D′
|m) = 1
25 / 73
Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−20
−10
0
10
20
30
40
50
60
70
d=1, logev=−18.593, EB
−2 0 2 4 6 8 10 12
−200
−150
−100
−50
0
50
100
150
200
250
300
d=3, logev=−21.718, EB
−2 0 2 4 6 8 10 12
−80
−60
−40
−20
0
20
40
60
80
d=2, logev=−20.218, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=5, method=EB
26 / 73
Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
d=1, logev=−106.110, EB
−2 0 2 4 6 8 10 12
−20
0
20
40
60
80
100
d=3, logev=−107.410, EB
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
80
d=2, logev=−103.025, EB
1 2 3
0
0.2
0.4
0.6
0.8
1
M
P(M|D)
N=30, method=EB
27 / 73
Baysian Statistics Bayesian model selection
周辺尤度の計算
▶ 共役事前分布を使うと簡単
p (D) =
ZN
Z0Zℓ
▶ ZN: 事後分布 p (θ|D) の正則化項
▶ Z0: 事前分布p (θ) の正則化項
▶ Zℓ: 尤度p (D|θ) の定数項
28 / 73
Baysian Statistics Bayesian model selection
周辺尤度の計算例
▶ ベータ-⼆項モデル
p (D) =
(
N
N1
)
B (a + N1, b + N2)
B (a, b)
▶ ディリクレ-多項モデル
p (D) =
Γ (
∑
k αk)
Γ (N +
∑
k αk)
∏
k
Γ (Nk + αk)
Γ (αk)
29 / 73
Baysian Statistics Bayesian model selection
▶ ガウス-ガウス-ウィシャートモデル
p (D) =
1
πND/2
(
κ0
κN
)D/2
|S0|ν0/2
|SN|νN/2
ΓD (νN/2)
ΓD (ν0/2)
▶ 分布とか記号の定義は4.6.3.2節で
30 / 73
Baysian Statistics Bayesian model selection
周辺尤度の近似式
Definition
モデルのベイズ情報量規準
(BIC; Bayes information criterion)
BIC ≜ log p
(
D|ˆθ
)
−
dof
(
ˆθ
)
2
log N ≈ log p (D)
▶ ˆθ: モデルのパラメータθの最尤推定量
▶ dof
(
ˆθ
)
: モデルの⾃由度 (≈パラメータ空間の次元)
▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum
description length) の最⼩化と等価
31 / 73
Baysian Statistics Bayesian model selection
BICの例
▶ 線形回帰モデル p (y|x, θ) = N
(
wT
x, σ2
)
の最⼤尤度
log p
(
D|ˆθ
)
= −
N
2
log
(
2πˆσ2
)
−
N
2
▶ よってBICは (定数項を除いて)
BIC = −
N
2
log
(
2πˆσ2
)
−
D
2
log N
▶ D: モデルに含まれる変数の数
▶ BICが最⼩になる変数集合を選べばよい
32 / 73
Baysian Statistics Bayesian model selection
⾚池情報量規準
Definition
モデルの⾚池情報量規準
(AIC; Akaike information criterion)
AIC (m, D) ≜ log p
(
D|ˆθ
)
− dof (m)
▶ 予測精度の観点から有⽤
33 / 73
Baysian Statistics Bayesian model selection
事前分布の影響
▶ 周辺尤度は事前分布の違いに影響される
▶ ⼀⽅で事後分布はあまり影響されない
▶ 事前分布のハイパーパラメータも確率変数として
ハイパーパラメータの事後分布についても周辺化
p (D|m) =
ˆ ˆ
p (D|θ) p (θ|α, m) p (α|m) dθdα
▶ α: θの事前分布 p (θ|m) のハイパーパラメータ
▶ p (α|m): ハイパーパラメータの事前分布
▶ ↑の代わりに周辺尤度の最⼤化によってαを決めると
計算が楽 (経験ベイズ(11枚ぶり2回⽬))
34 / 73
Baysian Statistics Bayesian model selection
ベイズ因⼦ (Bayes factor)
Definition
帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその
周辺尤度の⽐
BF1,0 ≜
p (D|M1)
p (D|M0)
=
p (M1|D)
p (M0|D)
/
p (M1)
p (M0)
▶ BF1,0 > 1 なら対⽴仮説を⽀持し,
BF1,0 < 1 なら帰無仮説を⽀持
▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを
評価もできる
▶ 頻度でいうところのp値みたいな
35 / 73
Baysian Statistics Bayesian model selection
例: コイン投げ
▶ コインが公平かどうかを知りたい
▶ M0: コインが公平 p(D|M0) =
(1
2
)N
▶ M1: 公平でない
p (D|M1) =
´ 1
0
p (D|θ) p (θ) dθ = B(α1+N1,α0+N0)
B(α1,α0)
▶ M1はベータ-ベルヌーイモデル
36 / 73
Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
BF(1,0)
37 / 73
Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
num heads
Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
−2.6
−2.4
−2.2
−2
−1.8
−1.6
−1.4
−1.2
−1
−0.8
BIC approximation to log
10
p(D|M1)
38 / 73
Baysian Statistics Bayesian model selection
ジェフリーズ-リンドレーのパラドックス
▶ 各モデルのθの事前分布として変則事前分布 (または
変則でなくても極端に広がった分布) を使うと常に
シンプルなモデルが選ばれてしまう
▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い
▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか
▶ 変則事前分布 (improper prior) は積分しても1に
ならない事前分布
▶ たとえば θ ∈ (−∞, ∞) なら
p (θ) ∝ 定数 ⇒
´
p (θ) dθ → ∞
39 / 73
Baysian Statistics Prior
Subsection 4
Prior
40 / 73
Baysian Statistics Prior
事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
41 / 73
Baysian Statistics Prior
事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
▶ とはいえ事前分布の選び⽅の影響が少ない⽅が
うれしいこともある
41 / 73
Baysian Statistics Prior
1. 無情報事前分布
2. ジェフリーズ事前分布
3. 頑健な事前分布
4. 事前分布の混合分布
42 / 73
Baysian Statistics Prior
無情報事前分布 (uninformative prior)
▶ θについて何も知らない場合に使われる
▶ “Let the data speak for itself.”
▶ ⼀⼝に無情報と⾔っても⾊々ある
▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら...
▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数
▶ ホールデン事前分布:
θ ∼ limc→0 Beta (c, c) = Beta (0, 0)
→ 事後分布の期待値が N1/N
▶ ジェフリーズ事前分布: θ ∼ Beta
(1
2 , 1
2
)
43 / 73
Baysian Statistics Prior
ジェフリーズ事前分布 (Jeffreys prior)
▶ フッシャー情報量の平⽅根に⽐例する事前分布
pϕ (ϕ) ∝ (I (ϕ))1/2
I (ϕ) ≜ −E
[(
d log p (X|ϕ)
dϕ
)2
]1/2
▶ パラメータ変換に対する不変性
θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ)
dϕ
dθ
: Jeffreys
44 / 73
Baysian Statistics Prior
頑健な事前分布 (Robust prior)
▶ 結果に過度の影響を与えない事前分布
▶ 典型的には裾の重い (heavy tail) 分布
Example
ガウス分布 N (θ, 1) の平均θのRobust prior
▶ p (θ ≤ −1) = p (−1 < θ ≤ 0)
= p (0 < θ ≤ 1) = p (1 < θ) = 0.25
▶ なめらかで単峰
→ θ ∼ N (θ|0, 2.192
)とすれば上の条件をみたす
 他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も
45 / 73
Baysian Statistics Prior
共役事前分布の混合分布
▶ 共役事前分布の混合分布は共役事前分布になる
▶ 計算が楽
▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ)
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ (公平なコインが多めに⼊った袋 (第1項) と
表のでやすいコインが多めに⼊った袋 (第2項) から
無作為にコインを選ぶイメージ(頻度的表現))
46 / 73
Baysian Statistics Prior
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
mixture of Beta distributions
prior
posterior
▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10)
▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20)
▶ D = (N1, N0) = (20, 10)
47 / 73
Baysian Statistics Prior
事後分布の計算
1. 各混合要素の事後分布は普通の共役事前分布と同じ
2. 混合⽐の事後分布は
p (Z = k|D) =
p (Z = k) p (D|Z = k)
∑
k′ p (Z = k′) p (D|Z = k′)
▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布
▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´
p (D|θ) p (θ|Z = k) dθ
48 / 73
Baysian Statistics Prior
例: DNA塩基配列
▶ DNA塩基配列の各位置について
1. ほぼどの塩基かが決まっている (A or T or C or G)
2. どの塩基かがランダム
▶ 1の位置と対応する塩基が知りたい
▶ 多項-ディリクレモデルで混合分布を事前分布に
▶ 混合要素は
p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1))
p (θ|Zt = 1) =
1
4
Dir (θ| (10, 1, 1, 1)) + · · ·
+
1
4
Dir (θ| (1, 1, 1, 10))
▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる
49 / 73
Baysian Statistics Hierarchical Bayes
Subsection 5
Hierarchical Bayes
50 / 73
Baysian Statistics Hierarchical Bayes
階層ベイズモデル
▶ 事前分布のハイパーパラメータにさらに事前分布を
導⼊したモデル
p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η)
▶ グラフィカルモデル (→Ch.10) でかくと
η → θ → D
51 / 73
Baysian Statistics Hierarchical Bayes
例: がんでの死亡率
▶ 街ごとのがんでの死亡率を推定
▶ 各街の死亡率θiの事前分布をBeta (a, b)
▶ ハイパーパラメータ η = (a, b) の事前分布を p (η)
52 / 73
Baysian Statistics Empirical Bayes
Subsection 6
Empirical Bayes
53 / 73
Baysian Statistics Empirical Bayes
経験ベイズ法 (EB; empirical Bayes)
▶ 階層モデルのハイパーパラメータの事後分布を
点推定で近似
p (η|D) =
ˆ
p (η, θ|D) dθ
≈ δˆη (η)
▶ ˆη = argmax p (η|D)
▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と
ˆη = argmax p (D|η)
= argmax
[ˆ
p (D|θ) p (θ|η) dθ
]
▶ 第2種の最尤推定 (type-II maximum likelihood)
とも呼ぶ (周辺尤度を最⼤化している)
54 / 73
Baysian Statistics Empirical Bayes
Bayesian check!
Method Definition
Maximum likelihood ˆθ = argmax
θ
p (D|θ)
MAP estimation ˆθ = argmax
θ
p (D|θ) p (θ)
ML-II (EB) ˆη = argmax
η
´
p (D|θ) p (θ|η) dθ = argmax
η
p (D|η)
MAP-II ˆη = argmax
η
´
p (D|θ) p (θ|η) p (η) dθ = argmax
η
p (D|η) p (η)
Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η)
55 / 73
Baysian Statistics Bayesian decision theory
Subsection 7
Bayesian decision theory
56 / 73
Baysian Statistics Bayesian decision theory
ベイズ的決定理論
▶ 得られた信念から実際の⾏動を決めたい
▶ 「⾃然とのゲーム」として定式化
▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム
57 / 73
Baysian Statistics Bayesian decision theory
▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル
▶ x ∈ X: y から⽣成された観測
▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ)
▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失
▶ U (y, a) = −L (y, a) を効⽤関数とも
▶ δ : X → A : 観測から⾏動を決める決定⼿順
58 / 73
Baysian Statistics Bayesian decision theory
▶ 期待効⽤最⼤化原理
(maximum expected utility principle)
δ (x) = argmax
a∈A
E [U (y, a)]
= argmin
a∈A
E [L (y, a)]
▶ 事後期待損失 (posterior expected loss)
ρ (a|x) ≜ Ep(y|x) [L (y, a)] =
∑
y
L (y, a) p (y|x)
▶ ベイズ推定量 (Bayes estimator)
またはベイズ決定則 (Bayes decision rule)
δ (x) = argmin
a∈A
ρ (a|x)
59 / 73
Baysian Statistics Bayesian decision theory
1. よくある損失関数に対するベイズ推定量
2. 偽陽性と偽陰性のトレードオフ
3. その他の話題
60 / 73
Baysian Statistics Bayesian decision theory
0 − 1 lossのベイズ推定量
▶ L (y, a) = I (y ̸= a) =
{
0 if a = y
1 if a ̸= y
▶ 分類問題で使う
▶ 事後期待損失は
ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x)
▶ ベイズ推定量は事後分布の最頻値 (→MAP推定)
y∗
(x) = argmax
y∈Y
p (y|x)
61 / 73
Baysian Statistics Bayesian decision theory
▶ 分類問題ではどちらつかずの時は分類しない⽅法も
62 / 73
Baysian Statistics Bayesian decision theory
⼆乗損失のベイズ推定量
▶ L (y, a) = (y − a)2
▶ 回帰問題で使う
▶ 事後期待損失は
ρ (a|x) = E
[
(y − a)2
|x
]
= E
[
y2
|a
]
− 2aE [y|x] + a2
▶ ベイズ推定量は事後分布の平均
ˆy = E [y|x] =
ˆ
yp (y|x) dy
▶ 最⼩平均⼆乗誤差推定 (minimum mean squared
error; MMSE) とよぶ
63 / 73
Baysian Statistics Bayesian decision theory
絶対損失のベイズ推定量
▶ L (y, a) = |y − a|
▶ これも回帰問題で使う
▶ 2乗損失より外れ値に頑健
▶ ベイズ推定量は事後分布の中央値
つまり下式を満たす a
P (y  a|x) = P (y ≥ a|x) = 0.5
64 / 73
Baysian Statistics Bayesian decision theory
教師あり学習
真の値yに対する予測y′
についての cost function ℓ (y, y′
)
が与えられたとき,
汎化誤差 (generalization error)
L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))]
=
∑
x
∑
y
L (y, δ (x)) p (x, y|θ)
の事後期待損失
ρ (δ|D) =
ˆ
p (θ|D) L (θ, δ) dθ
を最⼩化する決定⼿順 δ : X → Y を求める
65 / 73
Baysian Statistics Bayesian decision theory
偽陽性と偽陰性のトレードオフ
▶ 2値の決定問題
▶ 仮説検定・2クラス分類・物体検出など
▶ 2種類の過誤
▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定
▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定
▶ 0-1損失ではこれらの誤差を同等に扱ってしまう
66 / 73
Baysian Statistics Bayesian decision theory
ˆy = 1 ˆy = 0
y = 1 0 LFN
y = 0 LFP 0
loss matrix
▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失
▶ もしLFN, LFPが与えられれば事後期待損失は
ρ
(
ˆy = 0|x
)
= LFNp (y = 1|x)
ρ
(
ˆy = 1|x
)
= LFNp (y = 0|x)
となり p (y = 1|x) /p (y = 0|x) の閾値τを決められる
▶ ROC曲線を使うと閾値を定めない (LFN, LFPが与えら
れない) 場合にも議論できる
67 / 73
Baysian Statistics Bayesian decision theory
1. ROC曲線
2. Precision recall curves
3. F-score
4. Falsediscovery rates
68 / 73
Baysian Statistics Bayesian decision theory
ROC curve
0 1
0
1
fpr
tpr
A
B
69 / 73
Baysian Statistics Bayesian decision theory
Precision recall curve
0 1
0
1
recall
precision
AB
70 / 73
Baysian Statistics Bayesian decision theory
F-score
▶ 適合度と再現率の調和平均
F1 ≜
2
1/P + 1/R
=
2PR
R + P
71 / 73
Baysian Statistics Bayesian decision theory
False discovery rates
▶
FD (τ, D) ≜
∑
(1 − pi) I (pi  τ)
FDR (τ, D) ≜ FD (τ, D) /N (τ, D)
▶ N (τ, D) =
∑
I (pi  τ)
72 / 73

MLaPP 5章 「ベイズ統計学」

  • 1.
  • 2.
    Baysian Statistics アウトライン 1. イントロダクション 2.事後分布の要約 3. ベイズ的モデル選択 4. 事前分布 5. 階層ベイズ 6. 経験ベイズ 7. ベイズ的決定理論 2 / 73
  • 3.
  • 4.
    Baysian Statistics Introduction ベイズ統計とは ▶観測したデータ以外のあらゆる量が確率変数である とみなす統計学 ▶ データを⽣成した分布の平均や分散など (※データそのものの平均や分散ではありません) ▶ 未知の量 θ に関するすべての情報は 事後分布 p (θ|D) に集約される 4 / 73
  • 5.
    Baysian Statistics Summarizingposterior distribution Subsection 2 Summarizing posterior distribution 5 / 73
  • 6.
    Baysian Statistics Summarizingposterior distribution 事後分布の要約 ▶ θの事後分布 p (θ|D) を要約した簡単な量によって 未知の量θを表してやる ▶ 結果の直感的な理解・可視化 ▶ 計算上の利点 6 / 73
  • 7.
    Baysian Statistics Summarizingposterior distribution 1. MAP推定 2. 信⽤区間 7 / 73
  • 8.
    Baysian Statistics Summarizingposterior distribution 点推定 (point estimate) θの事後分布 p (θ|D) をある定数ˆθによって表して計算 ▶ 平均 (mean) ˆθ = E [θ] = ˆ θp (θ|D) dθ ▶ 中央値 (median) (θが1次元なら) ˆθ s.t. P ( θ ≤ ˆθ|D ) = P ( θ > ˆθ|D ) = 0.5 ▶ 最頻値 (mode) → MAP推定で求めてるのはこれ ˆθ = argmax θ p (θ|D) 8 / 73
  • 9.
    Baysian Statistics Summarizingposterior distribution MAP推定の問題点 1. 推定の不安定さが評価できない (他の点推定にもあてはまる) 2. 過学習しやすい 3. 最頻値は分布の要約に適さないことがある 4. パラメータ変換に対して不変でない ▶ ただしどの点推定量が良いかは考えてる問題に依存 → 詳しくは後ででてくる決定理論で 9 / 73
  • 10.
    Baysian Statistics Summarizingposterior distribution Mode is an untypical point −2 −1 0 1 2 3 4 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 1 2 3 4 5 6 7 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10 / 73
  • 11.
    Baysian Statistics Summarizingposterior distribution Depandance on parameterization 0 2 4 6 8 10 12 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p X p Y g 11 / 73
  • 12.
    Baysian Statistics Summarizingposterior distribution 信⽤区間 (credible interval) Definition θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは P (ℓ ≤ θ ≤ u|D) = 1 − α を満たす区間のこと ▶ ⼀意には決まらない ▶ Central interval, HDP region などが使われる ▶ 信頼区間 (confidence interval) とは別物 12 / 73
  • 13.
    Baysian Statistics Summarizingposterior distribution Central interval vs HPD region 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 13 / 73
  • 14.
    Baysian Statistics Summarizingposterior distribution Central interval vs HPD region α/2 α/2 pMIN 14 / 73
  • 15.
    Baysian Statistics Summarizingposterior distribution 例: Amazonでお買い物 ▶ 2つの商品を⽐較して良い⽅を買いたい ▶ 商品1は良い評価が90,悪い評価が10 ▶ 商品2は良い評価が2,悪い評価が0 15 / 73
  • 16.
    Baysian Statistics Summarizingposterior distribution 例: Amazonでお買い物 ▶ 2つの商品を⽐較して良い⽅を買いたい ▶ 商品1は良い評価が90,悪い評価が10 ▶ 商品2は良い評価が2,悪い評価が0 それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で 表してやり θ1 > θ2 になる確率を求める 15 / 73
  • 17.
    Baysian Statistics Summarizingposterior distribution 確率モデルで定式化 ▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1) ▶ 良い評価の数を Bin (N, θi) でモデリング 16 / 73
  • 18.
    Baysian Statistics Summarizingposterior distribution 確率モデルで定式化 ▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1) ▶ 良い評価の数を Bin (N, θi) でモデリング ▶ 事後分布は p (θ1|D1) = Beta (91, 11) p (θ2|D2) = Beta (3, 1) ▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価 16 / 73
  • 19.
    Baysian Statistics Summarizingposterior distribution 結果 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 2 4 6 8 10 12 14 p(θ1 |data) p(θ 2 |data) θ1, θ2の事後分布 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 δ pdf δ = θ1 − θ2の事後分布と 95% Central interval ▶ p (δ > 0|D) = 0.710 ▶ 商品1の⽅が良い (という確率が71%) ! 17 / 73
  • 20.
    Baysian Statistics Bayesianmodel selection Subsection 3 Bayesian model selection 18 / 73
  • 21.
    Baysian Statistics Bayesianmodel selection モデル選択 (model selection) ▶ 複雑度の違う複数のモデルの中から最良のモデルを 1つ選びたい ▶ 多項式フィッティングの多項式の次数 ▶ 正則化パラメータの⼤きさ ▶ k最近傍法の近傍の数 19 / 73
  • 22.
    Baysian Statistics Bayesianmodel selection ベイズ的モデル選択 ▶ モデル m の事後分布 p (m|D) を求めて 最頻値のモデルを選択 p (m|D) = p (D|m) p (m) ∑ m∈M p (m, D) ▶ M: すべてのモデルを含む集合 ▶ p (D|m): モデル m の周辺尤度 (marginal likelihood) ▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら 周辺尤度が最⼤のモデル argmax m∈M p (D|m) を選択 20 / 73
  • 23.
    Baysian Statistics Bayesianmodel selection 周辺尤度 (marginal likelihood) Definition モデル m の周辺尤度 (marginal likelihood) またはエビデンス p (D|m) p (D|m) = ˆ p (D|θ) p (θ|m) dθ ▶ p (D|θ): モデル m に対する θ の尤度 ▶ p (θ|m): モデル m に対する θ の事前分布 21 / 73
  • 24.
    Baysian Statistics Bayesianmodel selection 1. ベイズ的オッカムの剃⼑ 2. ベイズ因⼦ 3. ジェフリーズ-リンドレーのパラドックス 22 / 73
  • 25.
    Baysian Statistics Bayesianmodel selection ベイズ的オッカムの剃⼑ ▶ オッカムの剃⼑ (Occamʼs razor) ▶ 同じ現象を適切に説明する仮説が複数あるときは その中で最も簡単なものを採⽤するべきである ▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる ▶ モデルが有限個でなく連続値の複雑度パラメータで 表されている場合であっても周辺尤度最⼤化により 複雑度パラメータを決められる (経験ベイズ) 23 / 73
  • 26.
    Baysian Statistics Bayesianmodel selection Chain rule による解釈 p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1) 24 / 73
  • 27.
    Baysian Statistics Bayesianmodel selection 状態数による解釈 ▶ ∑ D′ p (D′ |m) = 1 25 / 73
  • 28.
    Baysian Statistics Bayesianmodel selection −2 0 2 4 6 8 10 12 −20 −10 0 10 20 30 40 50 60 70 d=1, logev=−18.593, EB −2 0 2 4 6 8 10 12 −200 −150 −100 −50 0 50 100 150 200 250 300 d=3, logev=−21.718, EB −2 0 2 4 6 8 10 12 −80 −60 −40 −20 0 20 40 60 80 d=2, logev=−20.218, EB 1 2 3 0 0.2 0.4 0.6 0.8 1 M P(M|D) N=5, method=EB 26 / 73
  • 29.
    Baysian Statistics Bayesianmodel selection −2 0 2 4 6 8 10 12 −10 0 10 20 30 40 50 60 70 d=1, logev=−106.110, EB −2 0 2 4 6 8 10 12 −20 0 20 40 60 80 100 d=3, logev=−107.410, EB −2 0 2 4 6 8 10 12 −10 0 10 20 30 40 50 60 70 80 d=2, logev=−103.025, EB 1 2 3 0 0.2 0.4 0.6 0.8 1 M P(M|D) N=30, method=EB 27 / 73
  • 30.
    Baysian Statistics Bayesianmodel selection 周辺尤度の計算 ▶ 共役事前分布を使うと簡単 p (D) = ZN Z0Zℓ ▶ ZN: 事後分布 p (θ|D) の正則化項 ▶ Z0: 事前分布p (θ) の正則化項 ▶ Zℓ: 尤度p (D|θ) の定数項 28 / 73
  • 31.
    Baysian Statistics Bayesianmodel selection 周辺尤度の計算例 ▶ ベータ-⼆項モデル p (D) = ( N N1 ) B (a + N1, b + N2) B (a, b) ▶ ディリクレ-多項モデル p (D) = Γ ( ∑ k αk) Γ (N + ∑ k αk) ∏ k Γ (Nk + αk) Γ (αk) 29 / 73
  • 32.
    Baysian Statistics Bayesianmodel selection ▶ ガウス-ガウス-ウィシャートモデル p (D) = 1 πND/2 ( κ0 κN )D/2 |S0|ν0/2 |SN|νN/2 ΓD (νN/2) ΓD (ν0/2) ▶ 分布とか記号の定義は4.6.3.2節で 30 / 73
  • 33.
    Baysian Statistics Bayesianmodel selection 周辺尤度の近似式 Definition モデルのベイズ情報量規準 (BIC; Bayes information criterion) BIC ≜ log p ( D|ˆθ ) − dof ( ˆθ ) 2 log N ≈ log p (D) ▶ ˆθ: モデルのパラメータθの最尤推定量 ▶ dof ( ˆθ ) : モデルの⾃由度 (≈パラメータ空間の次元) ▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum description length) の最⼩化と等価 31 / 73
  • 34.
    Baysian Statistics Bayesianmodel selection BICの例 ▶ 線形回帰モデル p (y|x, θ) = N ( wT x, σ2 ) の最⼤尤度 log p ( D|ˆθ ) = − N 2 log ( 2πˆσ2 ) − N 2 ▶ よってBICは (定数項を除いて) BIC = − N 2 log ( 2πˆσ2 ) − D 2 log N ▶ D: モデルに含まれる変数の数 ▶ BICが最⼩になる変数集合を選べばよい 32 / 73
  • 35.
    Baysian Statistics Bayesianmodel selection ⾚池情報量規準 Definition モデルの⾚池情報量規準 (AIC; Akaike information criterion) AIC (m, D) ≜ log p ( D|ˆθ ) − dof (m) ▶ 予測精度の観点から有⽤ 33 / 73
  • 36.
    Baysian Statistics Bayesianmodel selection 事前分布の影響 ▶ 周辺尤度は事前分布の違いに影響される ▶ ⼀⽅で事後分布はあまり影響されない ▶ 事前分布のハイパーパラメータも確率変数として ハイパーパラメータの事後分布についても周辺化 p (D|m) = ˆ ˆ p (D|θ) p (θ|α, m) p (α|m) dθdα ▶ α: θの事前分布 p (θ|m) のハイパーパラメータ ▶ p (α|m): ハイパーパラメータの事前分布 ▶ ↑の代わりに周辺尤度の最⼤化によってαを決めると 計算が楽 (経験ベイズ(11枚ぶり2回⽬)) 34 / 73
  • 37.
    Baysian Statistics Bayesianmodel selection ベイズ因⼦ (Bayes factor) Definition 帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその 周辺尤度の⽐ BF1,0 ≜ p (D|M1) p (D|M0) = p (M1|D) p (M0|D) / p (M1) p (M0) ▶ BF1,0 > 1 なら対⽴仮説を⽀持し, BF1,0 < 1 なら帰無仮説を⽀持 ▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを 評価もできる ▶ 頻度でいうところのp値みたいな 35 / 73
  • 38.
    Baysian Statistics Bayesianmodel selection 例: コイン投げ ▶ コインが公平かどうかを知りたい ▶ M0: コインが公平 p(D|M0) = (1 2 )N ▶ M1: 公平でない p (D|M1) = ´ 1 0 p (D|θ) p (θ) dθ = B(α1+N1,α0+N0) B(α1,α0) ▶ M1はベータ-ベルヌーイモデル 36 / 73
  • 39.
    Baysian Statistics Bayesianmodel selection 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 num heads Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 BF(1,0) 37 / 73
  • 40.
    Baysian Statistics Bayesianmodel selection 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 num heads Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 −2.6 −2.4 −2.2 −2 −1.8 −1.6 −1.4 −1.2 −1 −0.8 BIC approximation to log 10 p(D|M1) 38 / 73
  • 41.
    Baysian Statistics Bayesianmodel selection ジェフリーズ-リンドレーのパラドックス ▶ 各モデルのθの事前分布として変則事前分布 (または 変則でなくても極端に広がった分布) を使うと常に シンプルなモデルが選ばれてしまう ▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い ▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか ▶ 変則事前分布 (improper prior) は積分しても1に ならない事前分布 ▶ たとえば θ ∈ (−∞, ∞) なら p (θ) ∝ 定数 ⇒ ´ p (θ) dθ → ∞ 39 / 73
  • 42.
  • 43.
    Baysian Statistics Prior 事前分布 ▶だれ⼀⼈として⽩紙状態 (tabula rasa) ではない ▶ あらゆる推論は世界についての仮定の下で⾏われる 41 / 73
  • 44.
    Baysian Statistics Prior 事前分布 ▶だれ⼀⼈として⽩紙状態 (tabula rasa) ではない ▶ あらゆる推論は世界についての仮定の下で⾏われる ▶ とはいえ事前分布の選び⽅の影響が少ない⽅が うれしいこともある 41 / 73
  • 45.
    Baysian Statistics Prior 1.無情報事前分布 2. ジェフリーズ事前分布 3. 頑健な事前分布 4. 事前分布の混合分布 42 / 73
  • 46.
    Baysian Statistics Prior 無情報事前分布(uninformative prior) ▶ θについて何も知らない場合に使われる ▶ “Let the data speak for itself.” ▶ ⼀⼝に無情報と⾔っても⾊々ある ▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら... ▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数 ▶ ホールデン事前分布: θ ∼ limc→0 Beta (c, c) = Beta (0, 0) → 事後分布の期待値が N1/N ▶ ジェフリーズ事前分布: θ ∼ Beta (1 2 , 1 2 ) 43 / 73
  • 47.
    Baysian Statistics Prior ジェフリーズ事前分布(Jeffreys prior) ▶ フッシャー情報量の平⽅根に⽐例する事前分布 pϕ (ϕ) ∝ (I (ϕ))1/2 I (ϕ) ≜ −E [( d log p (X|ϕ) dϕ )2 ]1/2 ▶ パラメータ変換に対する不変性 θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ) dϕ dθ : Jeffreys 44 / 73
  • 48.
    Baysian Statistics Prior 頑健な事前分布(Robust prior) ▶ 結果に過度の影響を与えない事前分布 ▶ 典型的には裾の重い (heavy tail) 分布 Example ガウス分布 N (θ, 1) の平均θのRobust prior ▶ p (θ ≤ −1) = p (−1 < θ ≤ 0) = p (0 < θ ≤ 1) = p (1 < θ) = 0.25 ▶ なめらかで単峰 → θ ∼ N (θ|0, 2.192 )とすれば上の条件をみたす  他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も 45 / 73
  • 49.
    Baysian Statistics Prior 共役事前分布の混合分布 ▶共役事前分布の混合分布は共役事前分布になる ▶ 計算が楽 ▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ) ▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10) ▶ (公平なコインが多めに⼊った袋 (第1項) と 表のでやすいコインが多めに⼊った袋 (第2項) から 無作為にコインを選ぶイメージ(頻度的表現)) 46 / 73
  • 50.
    Baysian Statistics Prior 00.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 mixture of Beta distributions prior posterior ▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10) ▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20) ▶ D = (N1, N0) = (20, 10) 47 / 73
  • 51.
    Baysian Statistics Prior 事後分布の計算 1.各混合要素の事後分布は普通の共役事前分布と同じ 2. 混合⽐の事後分布は p (Z = k|D) = p (Z = k) p (D|Z = k) ∑ k′ p (Z = k′) p (D|Z = k′) ▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布 ▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´ p (D|θ) p (θ|Z = k) dθ 48 / 73
  • 52.
    Baysian Statistics Prior 例:DNA塩基配列 ▶ DNA塩基配列の各位置について 1. ほぼどの塩基かが決まっている (A or T or C or G) 2. どの塩基かがランダム ▶ 1の位置と対応する塩基が知りたい ▶ 多項-ディリクレモデルで混合分布を事前分布に ▶ 混合要素は p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1)) p (θ|Zt = 1) = 1 4 Dir (θ| (10, 1, 1, 1)) + · · · + 1 4 Dir (θ| (1, 1, 1, 10)) ▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる 49 / 73
  • 53.
    Baysian Statistics HierarchicalBayes Subsection 5 Hierarchical Bayes 50 / 73
  • 54.
    Baysian Statistics HierarchicalBayes 階層ベイズモデル ▶ 事前分布のハイパーパラメータにさらに事前分布を 導⼊したモデル p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η) ▶ グラフィカルモデル (→Ch.10) でかくと η → θ → D 51 / 73
  • 55.
    Baysian Statistics HierarchicalBayes 例: がんでの死亡率 ▶ 街ごとのがんでの死亡率を推定 ▶ 各街の死亡率θiの事前分布をBeta (a, b) ▶ ハイパーパラメータ η = (a, b) の事前分布を p (η) 52 / 73
  • 56.
    Baysian Statistics EmpiricalBayes Subsection 6 Empirical Bayes 53 / 73
  • 57.
    Baysian Statistics EmpiricalBayes 経験ベイズ法 (EB; empirical Bayes) ▶ 階層モデルのハイパーパラメータの事後分布を 点推定で近似 p (η|D) = ˆ p (η, θ|D) dθ ≈ δˆη (η) ▶ ˆη = argmax p (η|D) ▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と ˆη = argmax p (D|η) = argmax [ˆ p (D|θ) p (θ|η) dθ ] ▶ 第2種の最尤推定 (type-II maximum likelihood) とも呼ぶ (周辺尤度を最⼤化している) 54 / 73
  • 58.
    Baysian Statistics EmpiricalBayes Bayesian check! Method Definition Maximum likelihood ˆθ = argmax θ p (D|θ) MAP estimation ˆθ = argmax θ p (D|θ) p (θ) ML-II (EB) ˆη = argmax η ´ p (D|θ) p (θ|η) dθ = argmax η p (D|η) MAP-II ˆη = argmax η ´ p (D|θ) p (θ|η) p (η) dθ = argmax η p (D|η) p (η) Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η) 55 / 73
  • 59.
    Baysian Statistics Bayesiandecision theory Subsection 7 Bayesian decision theory 56 / 73
  • 60.
    Baysian Statistics Bayesiandecision theory ベイズ的決定理論 ▶ 得られた信念から実際の⾏動を決めたい ▶ 「⾃然とのゲーム」として定式化 ▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム 57 / 73
  • 61.
    Baysian Statistics Bayesiandecision theory ▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル ▶ x ∈ X: y から⽣成された観測 ▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ) ▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失 ▶ U (y, a) = −L (y, a) を効⽤関数とも ▶ δ : X → A : 観測から⾏動を決める決定⼿順 58 / 73
  • 62.
    Baysian Statistics Bayesiandecision theory ▶ 期待効⽤最⼤化原理 (maximum expected utility principle) δ (x) = argmax a∈A E [U (y, a)] = argmin a∈A E [L (y, a)] ▶ 事後期待損失 (posterior expected loss) ρ (a|x) ≜ Ep(y|x) [L (y, a)] = ∑ y L (y, a) p (y|x) ▶ ベイズ推定量 (Bayes estimator) またはベイズ決定則 (Bayes decision rule) δ (x) = argmin a∈A ρ (a|x) 59 / 73
  • 63.
    Baysian Statistics Bayesiandecision theory 1. よくある損失関数に対するベイズ推定量 2. 偽陽性と偽陰性のトレードオフ 3. その他の話題 60 / 73
  • 64.
    Baysian Statistics Bayesiandecision theory 0 − 1 lossのベイズ推定量 ▶ L (y, a) = I (y ̸= a) = { 0 if a = y 1 if a ̸= y ▶ 分類問題で使う ▶ 事後期待損失は ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x) ▶ ベイズ推定量は事後分布の最頻値 (→MAP推定) y∗ (x) = argmax y∈Y p (y|x) 61 / 73
  • 65.
  • 66.
  • 67.
    Baysian Statistics Bayesiandecision theory ⼆乗損失のベイズ推定量 ▶ L (y, a) = (y − a)2 ▶ 回帰問題で使う ▶ 事後期待損失は ρ (a|x) = E [ (y − a)2 |x ] = E [ y2 |a ] − 2aE [y|x] + a2 ▶ ベイズ推定量は事後分布の平均 ˆy = E [y|x] = ˆ yp (y|x) dy ▶ 最⼩平均⼆乗誤差推定 (minimum mean squared error; MMSE) とよぶ 63 / 73
  • 68.
    Baysian Statistics Bayesiandecision theory 絶対損失のベイズ推定量 ▶ L (y, a) = |y − a| ▶ これも回帰問題で使う ▶ 2乗損失より外れ値に頑健 ▶ ベイズ推定量は事後分布の中央値 つまり下式を満たす a P (y a|x) = P (y ≥ a|x) = 0.5 64 / 73
  • 69.
    Baysian Statistics Bayesiandecision theory 教師あり学習 真の値yに対する予測y′ についての cost function ℓ (y, y′ ) が与えられたとき, 汎化誤差 (generalization error) L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))] = ∑ x ∑ y L (y, δ (x)) p (x, y|θ) の事後期待損失 ρ (δ|D) = ˆ p (θ|D) L (θ, δ) dθ を最⼩化する決定⼿順 δ : X → Y を求める 65 / 73
  • 70.
    Baysian Statistics Bayesiandecision theory 偽陽性と偽陰性のトレードオフ ▶ 2値の決定問題 ▶ 仮説検定・2クラス分類・物体検出など ▶ 2種類の過誤 ▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定 ▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定 ▶ 0-1損失ではこれらの誤差を同等に扱ってしまう 66 / 73
  • 71.
    Baysian Statistics Bayesiandecision theory ˆy = 1 ˆy = 0 y = 1 0 LFN y = 0 LFP 0 loss matrix ▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失 ▶ もしLFN, LFPが与えられれば事後期待損失は ρ ( ˆy = 0|x ) = LFNp (y = 1|x) ρ ( ˆy = 1|x ) = LFNp (y = 0|x) となり p (y = 1|x) /p (y = 0|x) の閾値τを決められる ▶ ROC曲線を使うと閾値を定めない (LFN, LFPが与えら れない) 場合にも議論できる 67 / 73
  • 72.
    Baysian Statistics Bayesiandecision theory 1. ROC曲線 2. Precision recall curves 3. F-score 4. Falsediscovery rates 68 / 73
  • 73.
    Baysian Statistics Bayesiandecision theory ROC curve 0 1 0 1 fpr tpr A B 69 / 73
  • 74.
    Baysian Statistics Bayesiandecision theory Precision recall curve 0 1 0 1 recall precision AB 70 / 73
  • 75.
    Baysian Statistics Bayesiandecision theory F-score ▶ 適合度と再現率の調和平均 F1 ≜ 2 1/P + 1/R = 2PR R + P 71 / 73
  • 76.
    Baysian Statistics Bayesiandecision theory False discovery rates ▶ FD (τ, D) ≜ ∑ (1 − pi) I (pi τ) FDR (τ, D) ≜ FD (τ, D) /N (τ, D) ▶ N (τ, D) = ∑ I (pi τ) 72 / 73