Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
MLaPP Ch.5
ベイズ統計学
Bayesian statistics
1 / 73
Baysian Statistics
アウトライン
1. イントロダクション
2. 事後分布の要約
3. ベイズ的モデル選択
4. 事前分布
5. 階層ベイズ
6. 経験ベイズ
7. ベイズ的決定理論
2 / 73
Baysian Statistics Introduction
Subsection 1
Introduction
3 / 73
Baysian Statistics Introduction
ベイズ統計とは
▶ 観測したデータ以外のあらゆる量が確率変数である
とみなす統計学
▶ データを⽣成した分布の平均や分散など
(※データそのものの平均や分散ではありません)
▶ 未...
Baysian Statistics Summarizing posterior distribution
Subsection 2
Summarizing posterior distribution
5 / 73
Baysian Statistics Summarizing posterior distribution
事後分布の要約
▶ θの事後分布 p (θ|D) を要約した簡単な量によって
未知の量θを表してやる
▶ 結果の直感的な理解・可視化
▶...
Baysian Statistics Summarizing posterior distribution
1. MAP推定
2. 信⽤区間
7 / 73
Baysian Statistics Summarizing posterior distribution
点推定 (point estimate)
θの事後分布 p (θ|D) をある定数ˆθによって表して計算
▶ 平均 (mean)
ˆθ ...
Baysian Statistics Summarizing posterior distribution
MAP推定の問題点
1. 推定の不安定さが評価できない
(他の点推定にもあてはまる)
2. 過学習しやすい
3. 最頻値は分布の要約に適...
Baysian Statistics Summarizing posterior distribution
Mode is an untypical point
−2 −1 0 1 2 3 4
0
0.5
1
1.5
2
2.5
3
3.5
4...
Baysian Statistics Summarizing posterior distribution
Depandance on parameterization
0 2 4 6 8 10 12
0
0.1
0.2
0.3
0.4
0.5...
Baysian Statistics Summarizing posterior distribution
信⽤区間 (credible interval)
Definition
θ の 100 (1 − α) % 信⽤区間 Cα (D) = (...
Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5...
Baysian Statistics Summarizing posterior distribution
Central interval vs HPD region
α/2 α/2 pMIN
14 / 73
Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価...
Baysian Statistics Summarizing posterior distribution
例: Amazonでお買い物
▶ 2つの商品を⽐較して良い⽅を買いたい
▶ 商品1は良い評価が90,悪い評価が10
▶ 商品2は良い評価...
Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) ...
Baysian Statistics Summarizing posterior distribution
確率モデルで定式化
▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1)
▶ 良い評価の数を Bin (N, θi) ...
Baysian Statistics Summarizing posterior distribution
結果
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
10
12
14
p(θ1
|...
Baysian Statistics Bayesian model selection
Subsection 3
Bayesian model selection
18 / 73
Baysian Statistics Bayesian model selection
モデル選択 (model selection)
▶ 複雑度の違う複数のモデルの中から最良のモデルを
1つ選びたい
▶ 多項式フィッティングの多項式の次数
▶...
Baysian Statistics Bayesian model selection
ベイズ的モデル選択
▶ モデル m の事後分布 p (m|D) を求めて
最頻値のモデルを選択
p (m|D) =
p (D|m) p (m)
∑
m∈M ...
Baysian Statistics Bayesian model selection
周辺尤度 (marginal likelihood)
Definition
モデル m の周辺尤度 (marginal likelihood)
またはエビデン...
Baysian Statistics Bayesian model selection
1. ベイズ的オッカムの剃⼑
2. ベイズ因⼦
3. ジェフリーズ-リンドレーのパラドックス
22 / 73
Baysian Statistics Bayesian model selection
ベイズ的オッカムの剃⼑
▶ オッカムの剃⼑ (Occamʼs razor)
▶ 同じ現象を適切に説明する仮説が複数あるときは
その中で最も簡単なものを採⽤す...
Baysian Statistics Bayesian model selection
Chain rule による解釈
p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1)
24 /...
Baysian Statistics Bayesian model selection
状態数による解釈
▶
∑
D′ p (D′
|m) = 1
25 / 73
Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−20
−10
0
10
20
30
40
50
60
70
d=1, logev=−18.593, EB
−2 0 ...
Baysian Statistics Bayesian model selection
−2 0 2 4 6 8 10 12
−10
0
10
20
30
40
50
60
70
d=1, logev=−106.110, EB
−2 0 2 4...
Baysian Statistics Bayesian model selection
周辺尤度の計算
▶ 共役事前分布を使うと簡単
p (D) =
ZN
Z0Zℓ
▶ ZN: 事後分布 p (θ|D) の正則化項
▶ Z0: 事前分布p (θ...
Baysian Statistics Bayesian model selection
周辺尤度の計算例
▶ ベータ-⼆項モデル
p (D) =
(
N
N1
)
B (a + N1, b + N2)
B (a, b)
▶ ディリクレ-多項モデ...
Baysian Statistics Bayesian model selection
▶ ガウス-ガウス-ウィシャートモデル
p (D) =
1
πND/2
(
κ0
κN
)D/2
|S0|ν0/2
|SN|νN/2
ΓD (νN/2)
Γ...
Baysian Statistics Bayesian model selection
周辺尤度の近似式
Definition
モデルのベイズ情報量規準
(BIC; Bayes information criterion)
BIC ≜ log p...
Baysian Statistics Bayesian model selection
BICの例
▶ 線形回帰モデル p (y|x, θ) = N
(
wT
x, σ2
)
の最⼤尤度
log p
(
D|ˆθ
)
= −
N
2
log
(...
Baysian Statistics Bayesian model selection
⾚池情報量規準
Definition
モデルの⾚池情報量規準
(AIC; Akaike information criterion)
AIC (m, D) ≜...
Baysian Statistics Bayesian model selection
事前分布の影響
▶ 周辺尤度は事前分布の違いに影響される
▶ ⼀⽅で事後分布はあまり影響されない
▶ 事前分布のハイパーパラメータも確率変数として
ハイパー...
Baysian Statistics Bayesian model selection
ベイズ因⼦ (Bayes factor)
Definition
帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその
周辺尤度の⽐
BF1,0 ≜
p ...
Baysian Statistics Bayesian model selection
例: コイン投げ
▶ コインが公平かどうかを知りたい
▶ M0: コインが公平 p(D|M0) =
(1
2
)N
▶ M1: 公平でない
p (D|M1)...
Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0....
Baysian Statistics Bayesian model selection
0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5
0
0.02
0.04
0....
Baysian Statistics Bayesian model selection
ジェフリーズ-リンドレーのパラドックス
▶ 各モデルのθの事前分布として変則事前分布 (または
変則でなくても極端に広がった分布) を使うと常に
シンプルな...
Baysian Statistics Prior
Subsection 4
Prior
40 / 73
Baysian Statistics Prior
事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
41 / 73
Baysian Statistics Prior
事前分布
▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない
▶ あらゆる推論は世界についての仮定の下で⾏われる
▶ とはいえ事前分布の選び⽅の影響が少ない⽅が
うれしいこともある...
Baysian Statistics Prior
1. 無情報事前分布
2. ジェフリーズ事前分布
3. 頑健な事前分布
4. 事前分布の混合分布
42 / 73
Baysian Statistics Prior
無情報事前分布 (uninformative prior)
▶ θについて何も知らない場合に使われる
▶ “Let the data speak for itself.”
▶ ⼀⼝に無情報と⾔っ...
Baysian Statistics Prior
ジェフリーズ事前分布 (Jeffreys prior)
▶ フッシャー情報量の平⽅根に⽐例する事前分布
pϕ (ϕ) ∝ (I (ϕ))1/2
I (ϕ) ≜ −E
[(
d log p (X|ϕ...
Baysian Statistics Prior
頑健な事前分布 (Robust prior)
▶ 結果に過度の影響を与えない事前分布
▶ 典型的には裾の重い (heavy tail) 分布
Example
ガウス分布 N (θ, 1) の平均...
Baysian Statistics Prior
共役事前分布の混合分布
▶ 共役事前分布の混合分布は共役事前分布になる
▶ 計算が楽
▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ)
▶ p (θ) = 0.5Beta (θ|2...
Baysian Statistics Prior
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
mixture of Beta distribut...
Baysian Statistics Prior
事後分布の計算
1. 各混合要素の事後分布は普通の共役事前分布と同じ
2. 混合⽐の事後分布は
p (Z = k|D) =
p (Z = k) p (D|Z = k)
∑
k′ p (Z = k...
Baysian Statistics Prior
例: DNA塩基配列
▶ DNA塩基配列の各位置について
1. ほぼどの塩基かが決まっている (A or T or C or G)
2. どの塩基かがランダム
▶ 1の位置と対応する塩基が知りた...
Baysian Statistics Hierarchical Bayes
Subsection 5
Hierarchical Bayes
50 / 73
Baysian Statistics Hierarchical Bayes
階層ベイズモデル
▶ 事前分布のハイパーパラメータにさらに事前分布を
導⼊したモデル
p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η)
▶ グラフィ...
Baysian Statistics Hierarchical Bayes
例: がんでの死亡率
▶ 街ごとのがんでの死亡率を推定
▶ 各街の死亡率θiの事前分布をBeta (a, b)
▶ ハイパーパラメータ η = (a, b) の事前分布...
Baysian Statistics Empirical Bayes
Subsection 6
Empirical Bayes
53 / 73
Baysian Statistics Empirical Bayes
経験ベイズ法 (EB; empirical Bayes)
▶ 階層モデルのハイパーパラメータの事後分布を
点推定で近似
p (η|D) =
ˆ
p (η, θ|D) dθ
≈...
Baysian Statistics Empirical Bayes
Bayesian check!
Method Definition
Maximum likelihood ˆθ = argmax
θ
p (D|θ)
MAP estimatio...
Baysian Statistics Bayesian decision theory
Subsection 7
Bayesian decision theory
56 / 73
Baysian Statistics Bayesian decision theory
ベイズ的決定理論
▶ 得られた信念から実際の⾏動を決めたい
▶ 「⾃然とのゲーム」として定式化
▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム
57 /...
Baysian Statistics Bayesian decision theory
▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル
▶ x ∈ X: y から⽣成された観測
▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ)
▶ L...
Baysian Statistics Bayesian decision theory
▶ 期待効⽤最⼤化原理
(maximum expected utility principle)
δ (x) = argmax
a∈A
E [U (y, a...
Baysian Statistics Bayesian decision theory
1. よくある損失関数に対するベイズ推定量
2. 偽陽性と偽陰性のトレードオフ
3. その他の話題
60 / 73
Baysian Statistics Bayesian decision theory
0 − 1 lossのベイズ推定量
▶ L (y, a) = I (y ̸= a) =
{
0 if a = y
1 if a ̸= y
▶ 分類問題で使う...
Baysian Statistics Bayesian decision theory
▶ 分類問題ではどちらつかずの時は分類しない⽅法も
62 / 73
Baysian Statistics Bayesian decision theory
⼆乗損失のベイズ推定量
▶ L (y, a) = (y − a)2
▶ 回帰問題で使う
▶ 事後期待損失は
ρ (a|x) = E
[
(y − a)2
|...
Baysian Statistics Bayesian decision theory
絶対損失のベイズ推定量
▶ L (y, a) = |y − a|
▶ これも回帰問題で使う
▶ 2乗損失より外れ値に頑健
▶ ベイズ推定量は事後分布の中央値...
Baysian Statistics Bayesian decision theory
教師あり学習
真の値yに対する予測y′
についての cost function ℓ (y, y′
)
が与えられたとき,
汎化誤差 (generalizat...
Baysian Statistics Bayesian decision theory
偽陽性と偽陰性のトレードオフ
▶ 2値の決定問題
▶ 仮説検定・2クラス分類・物体検出など
▶ 2種類の過誤
▶ 偽陽性 (false positive) ...
Baysian Statistics Bayesian decision theory
ˆy = 1 ˆy = 0
y = 1 0 LFN
y = 0 LFP 0
loss matrix
▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失
▶ ...
Baysian Statistics Bayesian decision theory
1. ROC曲線
2. Precision recall curves
3. F-score
4. Falsediscovery rates
68 / 73
Baysian Statistics Bayesian decision theory
ROC curve
0 1
0
1
fpr
tpr
A
B
69 / 73
Baysian Statistics Bayesian decision theory
Precision recall curve
0 1
0
1
recall
precision
AB
70 / 73
Baysian Statistics Bayesian decision theory
F-score
▶ 適合度と再現率の調和平均
F1 ≜
2
1/P + 1/R
=
2PR
R + P
71 / 73
Baysian Statistics Bayesian decision theory
False discovery rates
▶
FD (τ, D) ≜
∑
(1 − pi) I (pi  τ)
FDR (τ, D) ≜ FD (τ, D...
Upcoming SlideShare
Loading in …5
×

MLaPP 5章 「ベイズ統計学」

2,227 views

Published on

(9/23 表紙を微修正)

機械学習の勉強会の資料
ベイズ統計学について

1. イントロダクション
2. 事後分布の要約
3. ベイズ的モデル選択
4. 事前分布
5. 階層ベイズ
6. 経験ベイズ
7. ベイズ的決定理論

教科書: Murphy, Kevin P. "Machine learning: a probabilistic perspective (adaptive computation and machine learning series)." Mit Press. ISBN 621485037 (2012): 15.

Published in: Data & Analytics
  • Be the first to comment

MLaPP 5章 「ベイズ統計学」

  1. 1. MLaPP Ch.5 ベイズ統計学 Bayesian statistics 1 / 73
  2. 2. Baysian Statistics アウトライン 1. イントロダクション 2. 事後分布の要約 3. ベイズ的モデル選択 4. 事前分布 5. 階層ベイズ 6. 経験ベイズ 7. ベイズ的決定理論 2 / 73
  3. 3. Baysian Statistics Introduction Subsection 1 Introduction 3 / 73
  4. 4. Baysian Statistics Introduction ベイズ統計とは ▶ 観測したデータ以外のあらゆる量が確率変数である とみなす統計学 ▶ データを⽣成した分布の平均や分散など (※データそのものの平均や分散ではありません) ▶ 未知の量 θ に関するすべての情報は 事後分布 p (θ|D) に集約される 4 / 73
  5. 5. Baysian Statistics Summarizing posterior distribution Subsection 2 Summarizing posterior distribution 5 / 73
  6. 6. Baysian Statistics Summarizing posterior distribution 事後分布の要約 ▶ θの事後分布 p (θ|D) を要約した簡単な量によって 未知の量θを表してやる ▶ 結果の直感的な理解・可視化 ▶ 計算上の利点 6 / 73
  7. 7. Baysian Statistics Summarizing posterior distribution 1. MAP推定 2. 信⽤区間 7 / 73
  8. 8. Baysian Statistics Summarizing posterior distribution 点推定 (point estimate) θの事後分布 p (θ|D) をある定数ˆθによって表して計算 ▶ 平均 (mean) ˆθ = E [θ] = ˆ θp (θ|D) dθ ▶ 中央値 (median) (θが1次元なら) ˆθ s.t. P ( θ ≤ ˆθ|D ) = P ( θ > ˆθ|D ) = 0.5 ▶ 最頻値 (mode) → MAP推定で求めてるのはこれ ˆθ = argmax θ p (θ|D) 8 / 73
  9. 9. Baysian Statistics Summarizing posterior distribution MAP推定の問題点 1. 推定の不安定さが評価できない (他の点推定にもあてはまる) 2. 過学習しやすい 3. 最頻値は分布の要約に適さないことがある 4. パラメータ変換に対して不変でない ▶ ただしどの点推定量が良いかは考えてる問題に依存 → 詳しくは後ででてくる決定理論で 9 / 73
  10. 10. Baysian Statistics Summarizing posterior distribution Mode is an untypical point −2 −1 0 1 2 3 4 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 1 2 3 4 5 6 7 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10 / 73
  11. 11. Baysian Statistics Summarizing posterior distribution Depandance on parameterization 0 2 4 6 8 10 12 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p X p Y g 11 / 73
  12. 12. Baysian Statistics Summarizing posterior distribution 信⽤区間 (credible interval) Definition θ の 100 (1 − α) % 信⽤区間 Cα (D) = (ℓ, u) とは P (ℓ ≤ θ ≤ u|D) = 1 − α を満たす区間のこと ▶ ⼀意には決まらない ▶ Central interval, HDP region などが使われる ▶ 信頼区間 (confidence interval) とは別物 12 / 73
  13. 13. Baysian Statistics Summarizing posterior distribution Central interval vs HPD region 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 13 / 73
  14. 14. Baysian Statistics Summarizing posterior distribution Central interval vs HPD region α/2 α/2 pMIN 14 / 73
  15. 15. Baysian Statistics Summarizing posterior distribution 例: Amazonでお買い物 ▶ 2つの商品を⽐較して良い⽅を買いたい ▶ 商品1は良い評価が90,悪い評価が10 ▶ 商品2は良い評価が2,悪い評価が0 15 / 73
  16. 16. Baysian Statistics Summarizing posterior distribution 例: Amazonでお買い物 ▶ 2つの商品を⽐較して良い⽅を買いたい ▶ 商品1は良い評価が90,悪い評価が10 ▶ 商品2は良い評価が2,悪い評価が0 それぞれの商品の良さ θ1, θ2(0 ≤ θi ≤ 1) を確率分布で 表してやり θ1 > θ2 になる確率を求める 15 / 73
  17. 17. Baysian Statistics Summarizing posterior distribution 確率モデルで定式化 ▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1) ▶ 良い評価の数を Bin (N, θi) でモデリング 16 / 73
  18. 18. Baysian Statistics Summarizing posterior distribution 確率モデルで定式化 ▶ θ1, θ2 の事前分布 θ1, θ2 ∼ Beta (1, 1) ▶ 良い評価の数を Bin (N, θi) でモデリング ▶ 事後分布は p (θ1|D1) = Beta (91, 11) p (θ2|D2) = Beta (3, 1) ▶ δ = θ1 − θ2 とし p (δ|D) を数値積分で評価 16 / 73
  19. 19. Baysian Statistics Summarizing posterior distribution 結果 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 2 4 6 8 10 12 14 p(θ1 |data) p(θ 2 |data) θ1, θ2の事後分布 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 δ pdf δ = θ1 − θ2の事後分布と 95% Central interval ▶ p (δ > 0|D) = 0.710 ▶ 商品1の⽅が良い (という確率が71%) ! 17 / 73
  20. 20. Baysian Statistics Bayesian model selection Subsection 3 Bayesian model selection 18 / 73
  21. 21. Baysian Statistics Bayesian model selection モデル選択 (model selection) ▶ 複雑度の違う複数のモデルの中から最良のモデルを 1つ選びたい ▶ 多項式フィッティングの多項式の次数 ▶ 正則化パラメータの⼤きさ ▶ k最近傍法の近傍の数 19 / 73
  22. 22. Baysian Statistics Bayesian model selection ベイズ的モデル選択 ▶ モデル m の事後分布 p (m|D) を求めて 最頻値のモデルを選択 p (m|D) = p (D|m) p (m) ∑ m∈M p (m, D) ▶ M: すべてのモデルを含む集合 ▶ p (D|m): モデル m の周辺尤度 (marginal likelihood) ▶ モデルの事前分布が⼀様 (p (m) ∝ 1) なら 周辺尤度が最⼤のモデル argmax m∈M p (D|m) を選択 20 / 73
  23. 23. Baysian Statistics Bayesian model selection 周辺尤度 (marginal likelihood) Definition モデル m の周辺尤度 (marginal likelihood) またはエビデンス p (D|m) p (D|m) = ˆ p (D|θ) p (θ|m) dθ ▶ p (D|θ): モデル m に対する θ の尤度 ▶ p (θ|m): モデル m に対する θ の事前分布 21 / 73
  24. 24. Baysian Statistics Bayesian model selection 1. ベイズ的オッカムの剃⼑ 2. ベイズ因⼦ 3. ジェフリーズ-リンドレーのパラドックス 22 / 73
  25. 25. Baysian Statistics Bayesian model selection ベイズ的オッカムの剃⼑ ▶ オッカムの剃⼑ (Occamʼs razor) ▶ 同じ現象を適切に説明する仮説が複数あるときは その中で最も簡単なものを採⽤するべきである ▶ 周辺尤度最⼤化で⾃動的に簡単なモデルが選ばれる ▶ モデルが有限個でなく連続値の複雑度パラメータで 表されている場合であっても周辺尤度最⼤化により 複雑度パラメータを決められる (経験ベイズ) 23 / 73
  26. 26. Baysian Statistics Bayesian model selection Chain rule による解釈 p (D) = p (y1) p (y2|y1) p (y3|y1:2) . . . p (yN|y1:N−1) 24 / 73
  27. 27. Baysian Statistics Bayesian model selection 状態数による解釈 ▶ ∑ D′ p (D′ |m) = 1 25 / 73
  28. 28. Baysian Statistics Bayesian model selection −2 0 2 4 6 8 10 12 −20 −10 0 10 20 30 40 50 60 70 d=1, logev=−18.593, EB −2 0 2 4 6 8 10 12 −200 −150 −100 −50 0 50 100 150 200 250 300 d=3, logev=−21.718, EB −2 0 2 4 6 8 10 12 −80 −60 −40 −20 0 20 40 60 80 d=2, logev=−20.218, EB 1 2 3 0 0.2 0.4 0.6 0.8 1 M P(M|D) N=5, method=EB 26 / 73
  29. 29. Baysian Statistics Bayesian model selection −2 0 2 4 6 8 10 12 −10 0 10 20 30 40 50 60 70 d=1, logev=−106.110, EB −2 0 2 4 6 8 10 12 −20 0 20 40 60 80 100 d=3, logev=−107.410, EB −2 0 2 4 6 8 10 12 −10 0 10 20 30 40 50 60 70 80 d=2, logev=−103.025, EB 1 2 3 0 0.2 0.4 0.6 0.8 1 M P(M|D) N=30, method=EB 27 / 73
  30. 30. Baysian Statistics Bayesian model selection 周辺尤度の計算 ▶ 共役事前分布を使うと簡単 p (D) = ZN Z0Zℓ ▶ ZN: 事後分布 p (θ|D) の正則化項 ▶ Z0: 事前分布p (θ) の正則化項 ▶ Zℓ: 尤度p (D|θ) の定数項 28 / 73
  31. 31. Baysian Statistics Bayesian model selection 周辺尤度の計算例 ▶ ベータ-⼆項モデル p (D) = ( N N1 ) B (a + N1, b + N2) B (a, b) ▶ ディリクレ-多項モデル p (D) = Γ ( ∑ k αk) Γ (N + ∑ k αk) ∏ k Γ (Nk + αk) Γ (αk) 29 / 73
  32. 32. Baysian Statistics Bayesian model selection ▶ ガウス-ガウス-ウィシャートモデル p (D) = 1 πND/2 ( κ0 κN )D/2 |S0|ν0/2 |SN|νN/2 ΓD (νN/2) ΓD (ν0/2) ▶ 分布とか記号の定義は4.6.3.2節で 30 / 73
  33. 33. Baysian Statistics Bayesian model selection 周辺尤度の近似式 Definition モデルのベイズ情報量規準 (BIC; Bayes information criterion) BIC ≜ log p ( D|ˆθ ) − dof ( ˆθ ) 2 log N ≈ log p (D) ▶ ˆθ: モデルのパラメータθの最尤推定量 ▶ dof ( ˆθ ) : モデルの⾃由度 (≈パラメータ空間の次元) ▶ BICの最⼩化は最⼩記述⻑ (MDL; minimum description length) の最⼩化と等価 31 / 73
  34. 34. Baysian Statistics Bayesian model selection BICの例 ▶ 線形回帰モデル p (y|x, θ) = N ( wT x, σ2 ) の最⼤尤度 log p ( D|ˆθ ) = − N 2 log ( 2πˆσ2 ) − N 2 ▶ よってBICは (定数項を除いて) BIC = − N 2 log ( 2πˆσ2 ) − D 2 log N ▶ D: モデルに含まれる変数の数 ▶ BICが最⼩になる変数集合を選べばよい 32 / 73
  35. 35. Baysian Statistics Bayesian model selection ⾚池情報量規準 Definition モデルの⾚池情報量規準 (AIC; Akaike information criterion) AIC (m, D) ≜ log p ( D|ˆθ ) − dof (m) ▶ 予測精度の観点から有⽤ 33 / 73
  36. 36. Baysian Statistics Bayesian model selection 事前分布の影響 ▶ 周辺尤度は事前分布の違いに影響される ▶ ⼀⽅で事後分布はあまり影響されない ▶ 事前分布のハイパーパラメータも確率変数として ハイパーパラメータの事後分布についても周辺化 p (D|m) = ˆ ˆ p (D|θ) p (θ|α, m) p (α|m) dθdα ▶ α: θの事前分布 p (θ|m) のハイパーパラメータ ▶ p (α|m): ハイパーパラメータの事前分布 ▶ ↑の代わりに周辺尤度の最⼤化によってαを決めると 計算が楽 (経験ベイズ(11枚ぶり2回⽬)) 34 / 73
  37. 37. Baysian Statistics Bayesian model selection ベイズ因⼦ (Bayes factor) Definition 帰無仮説 M0 対⽴仮説 M1 に対して,ベイズ因⼦はその 周辺尤度の⽐ BF1,0 ≜ p (D|M1) p (D|M0) = p (M1|D) p (M0|D) / p (M1) p (M0) ▶ BF1,0 > 1 なら対⽴仮説を⽀持し, BF1,0 < 1 なら帰無仮説を⽀持 ▶ ベイズ因⼦の⼤きさでどのくらい信⽤できるかを 評価もできる ▶ 頻度でいうところのp値みたいな 35 / 73
  38. 38. Baysian Statistics Bayesian model selection 例: コイン投げ ▶ コインが公平かどうかを知りたい ▶ M0: コインが公平 p(D|M0) = (1 2 )N ▶ M1: 公平でない p (D|M1) = ´ 1 0 p (D|θ) p (θ) dθ = B(α1+N1,α0+N0) B(α1,α0) ▶ M1はベータ-ベルヌーイモデル 36 / 73
  39. 39. Baysian Statistics Bayesian model selection 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 num heads Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 BF(1,0) 37 / 73
  40. 40. Baysian Statistics Bayesian model selection 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 num heads Marginal likelihood for Beta−Bernoulli model, ∫ p(D|θ) Be(θ|1,1) dθ 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 −2.6 −2.4 −2.2 −2 −1.8 −1.6 −1.4 −1.2 −1 −0.8 BIC approximation to log 10 p(D|M1) 38 / 73
  41. 41. Baysian Statistics Bayesian model selection ジェフリーズ-リンドレーのパラドックス ▶ 各モデルのθの事前分布として変則事前分布 (または 変則でなくても極端に広がった分布) を使うと常に シンプルなモデルが選ばれてしまう ▶ ベイズ的モデル選択と仮説検定で結論の⾷い違い ▶ M0 : θ ∈ {0} vs M1 : θ ∈ R {0} とか ▶ 変則事前分布 (improper prior) は積分しても1に ならない事前分布 ▶ たとえば θ ∈ (−∞, ∞) なら p (θ) ∝ 定数 ⇒ ´ p (θ) dθ → ∞ 39 / 73
  42. 42. Baysian Statistics Prior Subsection 4 Prior 40 / 73
  43. 43. Baysian Statistics Prior 事前分布 ▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない ▶ あらゆる推論は世界についての仮定の下で⾏われる 41 / 73
  44. 44. Baysian Statistics Prior 事前分布 ▶ だれ⼀⼈として⽩紙状態 (tabula rasa) ではない ▶ あらゆる推論は世界についての仮定の下で⾏われる ▶ とはいえ事前分布の選び⽅の影響が少ない⽅が うれしいこともある 41 / 73
  45. 45. Baysian Statistics Prior 1. 無情報事前分布 2. ジェフリーズ事前分布 3. 頑健な事前分布 4. 事前分布の混合分布 42 / 73
  46. 46. Baysian Statistics Prior 無情報事前分布 (uninformative prior) ▶ θについて何も知らない場合に使われる ▶ “Let the data speak for itself.” ▶ ⼀⼝に無情報と⾔っても⾊々ある ▶ ベルヌーイ分布 Ber (x|θ) (コイン投げ) なら... ▶ ⼀様事前分布: θ ∼ Beta (1, 1) ∝ 定数 ▶ ホールデン事前分布: θ ∼ limc→0 Beta (c, c) = Beta (0, 0) → 事後分布の期待値が N1/N ▶ ジェフリーズ事前分布: θ ∼ Beta (1 2 , 1 2 ) 43 / 73
  47. 47. Baysian Statistics Prior ジェフリーズ事前分布 (Jeffreys prior) ▶ フッシャー情報量の平⽅根に⽐例する事前分布 pϕ (ϕ) ∝ (I (ϕ))1/2 I (ϕ) ≜ −E [( d log p (X|ϕ) dϕ )2 ]1/2 ▶ パラメータ変換に対する不変性 θ = h (ϕ), pθ (θ) : Jeffreys ⇒ pϕ (ϕ) dϕ dθ : Jeffreys 44 / 73
  48. 48. Baysian Statistics Prior 頑健な事前分布 (Robust prior) ▶ 結果に過度の影響を与えない事前分布 ▶ 典型的には裾の重い (heavy tail) 分布 Example ガウス分布 N (θ, 1) の平均θのRobust prior ▶ p (θ ≤ −1) = p (−1 < θ ≤ 0) = p (0 < θ ≤ 1) = p (1 < θ) = 0.25 ▶ なめらかで単峰 → θ ∼ N (θ|0, 2.192 )とすれば上の条件をみたす  他にはコーシー分布 θ ∼ T (θ|0, 1, 1) も 45 / 73
  49. 49. Baysian Statistics Prior 共役事前分布の混合分布 ▶ 共役事前分布の混合分布は共役事前分布になる ▶ 計算が楽 ▶ ex) ベルヌーイ分布 Ber (x|θ) (コイン投げ) ▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10) ▶ (公平なコインが多めに⼊った袋 (第1項) と 表のでやすいコインが多めに⼊った袋 (第2項) から 無作為にコインを選ぶイメージ(頻度的表現)) 46 / 73
  50. 50. Baysian Statistics Prior 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 mixture of Beta distributions prior posterior ▶ p (θ) = 0.5Beta (θ|20, 20) + 0.5Beta (θ|30, 10) ▶ p (θ|D) = 0.346Beta (θ|40, 30) + 0.654Beta (θ|50, 20) ▶ D = (N1, N0) = (20, 10) 47 / 73
  51. 51. Baysian Statistics Prior 事後分布の計算 1. 各混合要素の事後分布は普通の共役事前分布と同じ 2. 混合⽐の事後分布は p (Z = k|D) = p (Z = k) p (D|Z = k) ∑ k′ p (Z = k′) p (D|Z = k′) ▶ p (Z = k): k番⽬の混合要素の混合⽐の事前分布 ▶ p (D|Z = k): k番⽬の混合要素についての周辺尤度´ p (D|θ) p (θ|Z = k) dθ 48 / 73
  52. 52. Baysian Statistics Prior 例: DNA塩基配列 ▶ DNA塩基配列の各位置について 1. ほぼどの塩基かが決まっている (A or T or C or G) 2. どの塩基かがランダム ▶ 1の位置と対応する塩基が知りたい ▶ 多項-ディリクレモデルで混合分布を事前分布に ▶ 混合要素は p (θ|Zt = 0) = Dir (θ| (1, 1, 1, 1)) p (θ|Zt = 1) = 1 4 Dir (θ| (10, 1, 1, 1)) + · · · + 1 4 Dir (θ| (1, 1, 1, 10)) ▶ 事後分布の Zt = 1 の混合⽐が⼤きい位置をみる 49 / 73
  53. 53. Baysian Statistics Hierarchical Bayes Subsection 5 Hierarchical Bayes 50 / 73
  54. 54. Baysian Statistics Hierarchical Bayes 階層ベイズモデル ▶ 事前分布のハイパーパラメータにさらに事前分布を 導⼊したモデル p (η, θ|D) ∝ p (D|θ) p (θ|η) p (η) ▶ グラフィカルモデル (→Ch.10) でかくと η → θ → D 51 / 73
  55. 55. Baysian Statistics Hierarchical Bayes 例: がんでの死亡率 ▶ 街ごとのがんでの死亡率を推定 ▶ 各街の死亡率θiの事前分布をBeta (a, b) ▶ ハイパーパラメータ η = (a, b) の事前分布を p (η) 52 / 73
  56. 56. Baysian Statistics Empirical Bayes Subsection 6 Empirical Bayes 53 / 73
  57. 57. Baysian Statistics Empirical Bayes 経験ベイズ法 (EB; empirical Bayes) ▶ 階層モデルのハイパーパラメータの事後分布を 点推定で近似 p (η|D) = ˆ p (η, θ|D) dθ ≈ δˆη (η) ▶ ˆη = argmax p (η|D) ▶ η の事前分布を⼀様とする (⇒ p (η|D) ∝ p (D|η)) と ˆη = argmax p (D|η) = argmax [ˆ p (D|θ) p (θ|η) dθ ] ▶ 第2種の最尤推定 (type-II maximum likelihood) とも呼ぶ (周辺尤度を最⼤化している) 54 / 73
  58. 58. Baysian Statistics Empirical Bayes Bayesian check! Method Definition Maximum likelihood ˆθ = argmax θ p (D|θ) MAP estimation ˆθ = argmax θ p (D|θ) p (θ) ML-II (EB) ˆη = argmax η ´ p (D|θ) p (θ|η) dθ = argmax η p (D|η) MAP-II ˆη = argmax η ´ p (D|θ) p (θ|η) p (η) dθ = argmax η p (D|η) p (η) Full Bayes p (θ, η|D) ∝ p (D|θ) p (θ|η) p (η) 55 / 73
  59. 59. Baysian Statistics Bayesian decision theory Subsection 7 Bayesian decision theory 56 / 73
  60. 60. Baysian Statistics Bayesian decision theory ベイズ的決定理論 ▶ 得られた信念から実際の⾏動を決めたい ▶ 「⾃然とのゲーム」として定式化 ▶ ⾃分の⾏動によって相⼿の⾏動が変わらないゲーム 57 / 73
  61. 61. Baysian Statistics Bayesian decision theory ▶ y ∈ Y: ⾃然が選ぶ状態・パラメータ・ラベル ▶ x ∈ X: y から⽣成された観測 ▶ a ∈ A: 選ぶ⾏動 (A を⾏動空間と呼ぶ) ▶ L (y, a): 状態 y に対して⾏動 a を選んだ時の損失 ▶ U (y, a) = −L (y, a) を効⽤関数とも ▶ δ : X → A : 観測から⾏動を決める決定⼿順 58 / 73
  62. 62. Baysian Statistics Bayesian decision theory ▶ 期待効⽤最⼤化原理 (maximum expected utility principle) δ (x) = argmax a∈A E [U (y, a)] = argmin a∈A E [L (y, a)] ▶ 事後期待損失 (posterior expected loss) ρ (a|x) ≜ Ep(y|x) [L (y, a)] = ∑ y L (y, a) p (y|x) ▶ ベイズ推定量 (Bayes estimator) またはベイズ決定則 (Bayes decision rule) δ (x) = argmin a∈A ρ (a|x) 59 / 73
  63. 63. Baysian Statistics Bayesian decision theory 1. よくある損失関数に対するベイズ推定量 2. 偽陽性と偽陰性のトレードオフ 3. その他の話題 60 / 73
  64. 64. Baysian Statistics Bayesian decision theory 0 − 1 lossのベイズ推定量 ▶ L (y, a) = I (y ̸= a) = { 0 if a = y 1 if a ̸= y ▶ 分類問題で使う ▶ 事後期待損失は ρ (a|x) = p (a ̸= y|x) = 1 − p (y|x) ▶ ベイズ推定量は事後分布の最頻値 (→MAP推定) y∗ (x) = argmax y∈Y p (y|x) 61 / 73
  65. 65. Baysian Statistics Bayesian decision theory
  66. 66. ▶ 分類問題ではどちらつかずの時は分類しない⽅法も 62 / 73
  67. 67. Baysian Statistics Bayesian decision theory ⼆乗損失のベイズ推定量 ▶ L (y, a) = (y − a)2 ▶ 回帰問題で使う ▶ 事後期待損失は ρ (a|x) = E [ (y − a)2 |x ] = E [ y2 |a ] − 2aE [y|x] + a2 ▶ ベイズ推定量は事後分布の平均 ˆy = E [y|x] = ˆ yp (y|x) dy ▶ 最⼩平均⼆乗誤差推定 (minimum mean squared error; MMSE) とよぶ 63 / 73
  68. 68. Baysian Statistics Bayesian decision theory 絶対損失のベイズ推定量 ▶ L (y, a) = |y − a| ▶ これも回帰問題で使う ▶ 2乗損失より外れ値に頑健 ▶ ベイズ推定量は事後分布の中央値 つまり下式を満たす a P (y a|x) = P (y ≥ a|x) = 0.5 64 / 73
  69. 69. Baysian Statistics Bayesian decision theory 教師あり学習 真の値yに対する予測y′ についての cost function ℓ (y, y′ ) が与えられたとき, 汎化誤差 (generalization error) L (θ, δ) ≜ E(x,y)∼p(x,y|θ) [ℓ (y, δ (x))] = ∑ x ∑ y L (y, δ (x)) p (x, y|θ) の事後期待損失 ρ (δ|D) = ˆ p (θ|D) L (θ, δ) dθ を最⼩化する決定⼿順 δ : X → Y を求める 65 / 73
  70. 70. Baysian Statistics Bayesian decision theory 偽陽性と偽陰性のトレードオフ ▶ 2値の決定問題 ▶ 仮説検定・2クラス分類・物体検出など ▶ 2種類の過誤 ▶ 偽陽性 (false positive) : y = 0 を ˆy = 1 と推定 ▶ 偽陰性 (false negative) : y = 1 を ˆy = 0 と推定 ▶ 0-1損失ではこれらの誤差を同等に扱ってしまう 66 / 73
  71. 71. Baysian Statistics Bayesian decision theory ˆy = 1 ˆy = 0 y = 1 0 LFN y = 0 LFP 0 loss matrix ▶ LFN: 偽陰性の損失 LFP: 偽陽性の損失 ▶ もしLFN, LFPが与えられれば事後期待損失は ρ ( ˆy = 0|x ) = LFNp (y = 1|x) ρ ( ˆy = 1|x ) = LFNp (y = 0|x) となり p (y = 1|x) /p (y = 0|x) の閾値τを決められる ▶ ROC曲線を使うと閾値を定めない (LFN, LFPが与えら れない) 場合にも議論できる 67 / 73
  72. 72. Baysian Statistics Bayesian decision theory 1. ROC曲線 2. Precision recall curves 3. F-score 4. Falsediscovery rates 68 / 73
  73. 73. Baysian Statistics Bayesian decision theory ROC curve 0 1 0 1 fpr tpr A B 69 / 73
  74. 74. Baysian Statistics Bayesian decision theory Precision recall curve 0 1 0 1 recall precision AB 70 / 73
  75. 75. Baysian Statistics Bayesian decision theory F-score ▶ 適合度と再現率の調和平均 F1 ≜ 2 1/P + 1/R = 2PR R + P 71 / 73
  76. 76. Baysian Statistics Bayesian decision theory False discovery rates ▶ FD (τ, D) ≜ ∑ (1 − pi) I (pi τ) FDR (τ, D) ≜ FD (τ, D) /N (τ, D) ▶ N (τ, D) = ∑ I (pi τ) 72 / 73
  77. 77. Baysian Statistics Bayesian decision theory その他の話題 ▶ Contextual bandits ▶ Utility theory ▶ Sequential decision theory ▶ 強化学習 (reinforcement learning) の問題 73 / 73

×