SlideShare a Scribd company logo
1 of 30
PRML 1.5 決定理論
山岡大輝
概要
• 1.5.0 決定理論
決定理論とは
• 1.5.1 誤識別率の最小化
誤識別を少なくするための決定
• 1.5.2 期待損失の最小化
決定によって被る損失を少なくするための決定
• 1.5.3 棄却オプション
決定しない方が結果的に良い時もある
• 1.5.4 推論と決定
決定問題への複数のアプローチ
• 1.5.5 回帰のための損失関数
ク
ラ
ス
分
類
問
題
を
扱
う
決定理論
• 意思決定を数学的に行う理論
決定理論は,不確かさを含む状況における最適な意思決定を可
能にする.
ex) 朝家を出るときに傘を持っていかないという意思決定
→ 雨が降れば濡れて後悔
降らなければ荷物が減って嬉しい
↓
天候という不確かさによって結果が異なる
→ 不確かさを考慮した最適な意思決定がしたい
推論(決定の前段階)
• 雨が降るか否か,という不確かさ(確率)は「推論」で求める
• 新たな入力ベクトル𝔁に対して目標ベクトル𝒕を予測することが
目標であるなら,これらの不確実さを完全に要約する同時確率
分布p(𝔁,𝒕)を訓練データ集合から決めるのが推論の一例.
• 曲線フィッティングでは,新たな入力値xに対する目標変数tに
関する不確実性は確率分布を使って表せた.(1.2.5参照)
例:X線画像から患者が癌であるか否かの判別
(クラス分類問題)
• 入力𝔁:画像のピクセル強度
出力 t:癌であるクラス𝐶1(t=0),癌でないクラス𝐶2(t=1)
( tを二値変数とすると,確率モデルを考えるときに便利)
推論:同時分布p(𝔁, 𝐶 𝑘),あるいはp(𝔁, t)を決める
決定:推論を下に患者に治療を施すか否かを決める
決定理論の考え方(例の続き)
• 目標:新たな患者のX線画像𝔁が得られた時,その画像を2つの
クラス(𝐶1, 𝐶2)に割り当てる→ 事後確率p(𝐶 𝑘|𝔁)を求める
𝔁を誤ったクラスに分類する確率を最小にしたければ(誤識別率の最小
化),直感的には高い事後確率を持つクラスを選べば良い.
(𝔁に対しp(𝐶 𝑘|𝔁)が最大になるような𝐶 𝑘を出力すれば良い)
→この直感が正しいことを次に示す
ベイズの定理に現れる量は全て
同時分布から得られる.
誤識別率の最小化(2クラス分類問題)
決定のためには𝔁の各値にクラスの1つを割り当てるための規則
が必要
• 決定領域
入力空間を,各クラスに1つずつ対応する決定領域𝑅 𝑘に分割し
𝑅 𝑘上の点にはクラス𝐶 𝑘を割り当てる.
決定領域𝑅2決定領域𝑅1
決定境界
各決定領域は連続
とは限らない
誤識別率の最小化
1 2 2 1( ) ( , ) ( , )p p R C p R C   x x誤り
1 2
2 1( , ) ( , )
R R
p C d p C d  x x x x
誤識別率を最小化するには積分値が小さくなるように
領域を決め, クラスの割り当てをする.
( , ) ( | ) ( )k kp C p C px x x
なら𝔁を𝐶1に割り当てるべき1 2( , ) ( , )p C p Cx x
事後確率 が最大のクラスに割り当てるべ
きと言い換えられる.
( | )kp C x
より
一般のKクラスについての正解率
• 正解の事後確率を最大化する方が易しい
事後確率の最大化と正解確率の最大化は等価
1
( ) ( , )
K
k k
k
p p R C

  x正解
1
( , )
k
K
kR
k
p C d

  x x
( , ) ( | ) ( )k kp C p C px x x より,
期待損失の最小化
例:患者のX線画像から癌であるかを判断する
- 診断の損失を考えると,
「健康な人を癌と診断する」 < 「癌の人を健康と診断する」
前者の誤りを増やすことになっても,後者の誤りを減らしたい.
• 目標:損失関数(コスト関数)の最小化 ( 効用関数の最大化)
kjL : となるべきものを誤って としたときの損失kC jC 0 1000
1 0
 
 
 
癌 正常
癌
正常
損失関数は未知である真のクラスに依存する.
→与えられた𝔁に対して,真のクラスの不確実性は で表す.
→期待損失(損失の平均)を最小化する.
→ 損失関数の導入
( | )kp C x
期待損失の最小化
• 期待損失
• 期待損失を最小化する決定領域を決める
- 各𝔁を期待損失が最小になるように決定領域𝑅𝑗のどれかに割り当てる
各 𝔁ごとに を最小化すべき
より,
を最小化すれば良く,事後確率 で求まる.
E[ ]= ( , )
j
kj kR
k j
L L p C d x x
( , )kj k
k
L p C x
( , ) ( | ) ( )k kp C p C px x x
( | )kj k
k
L p C x ( | )kp C x
棄却オプション
• 𝔁がどのクラスに属するのか不確かな場合もある
- クラス分類の誤差が起きるのは が拮抗している場合.
不確かな場合は決定を避ける方が結果的に誤差が小さくなる可能性.
(棄却オプション)
• 事後確率に対して閾値θを導入する
- 事後確率 の最大値がθ以下なら入力𝔁を棄却.
・θ=1なら全て棄却.
・kクラスある場合,θ=1/kにすれば全て棄却されない.
・棄却時の損失を考慮した損失行列を与えれば,期待
損失を最小にする棄却の基準を一般化できる.
( | )kp C x
( | )kp C x
推論と決定
• 推論問題:訓練データから を学習する.
• 決定問題:3つのアプローチ
a. クラスの条件付き密度 と事前クラス確率 を求める方法.
(生成モデル)
b.最初にクラス事後確率を求める方法.(識別モデル)
c.入力𝔁から直接クラスラベルに写像する識別関数を求める方法.
これらの方法にはメリット・デメリットが存在.→ 順に見ていく
( , )p x t
( | )kp Cx ( )kp C
決定問題へのアプローチその1
a. クラスの条件付き密度 と事前クラス確率 を求めて,事後
確率を求める方法.
( | )kp Cx ( )kp C
• 外部から𝔁が与えられたときにそのクラス
属性を決定できるだけでなく, モデルから
サンプリングすることで人工的にデータ点
𝔁を生成することもできる.(生成モデル)
• データの周辺分布 を求めれる.
→ このモデル下で低い確率を取る新しい
データ点を発見できる.
(外れ値検出,新規性検出)
( | )kp Cx( )p x • クラス条件付き密度 を求め
るために多くの訓練データ集合が必要.
• クラス分類を決定したいだけなら,計
算資源の無駄.
決定問題へのアプローチその2 & 3
b.最初にクラス事後確率 を求めた後,決定理論を用いて𝔁がどの
クラスにふさわしいか決定する.事後確率を直接モデル化する方法.
(識別モデル)
c.入力𝔁から直接クラスラベルに写像する識別関数𝑓(𝑥)を求める方法.
2クラス分類問題なら𝑓(𝑥)は0か1の2値をとる.(事後)確率すら出てこない.
( | )kp C x
3つのアプローチのどれが良いのか
• 求める手間はa>b>cの順に大きい分,モデルを記述する情報量
もこの順に大きくなる.
• あくまで決定が目的なら生成モデルや事後確率なんて求める必
要はなく識別関数で良いように思われるが,事後確率を知りた
くなるのにはワケがある.
事後確率の何が嬉しいのか
• リスク最小化
損失行列が時間変化する場合
- 金融での応用など
→事後確率があれば, を計算し直すだけで良い.
→識別関数しかなければ(cのケース),決定問題だけでなく,
クラス分類問題からやり直す必要.
( | )kj k
k
L p C x
事後確率の何が嬉しいのか
• 棄却オプション
- 事後確率がなければ棄却オプションは使えない
→誤識別率,あるいは期待損失を最小にできない
事後確率の何が嬉しいのか
• クラス事前確率の補正
- 稀なケースへの対処
例:癌であるX線画像が1000件に1件の割合の場合
1000件全部「正常」と診断するだけで99.9%の精度
→ 学習のために大量の訓練データが必要
対処法:各クラスに対して同数程度の訓練データが使えると良い
→ 訓練データに修正を加えた分,事後確率を修正する必要あり.
事後確率の何が嬉しいのか
• クラス事前確率の補正
ベイズの定理
より,事後確率はクラス事前確率に比例.
- 補正に対して修正するには
・まず,補正したデータ集合から得られた事後確率を計算
・補正したデータのクラスの割合でそれぞれの事後確率を割る
・本来のデータのクラスの割合を掛ける
・最後に事後確率が足して1になるように正規化
→こうした補正には事後確率が必要
事後確率の何が嬉しいのか
• モデルの結合
- X線画像(𝔁𝐼)の他に,血液検査(𝔁 𝐵)の情報も利用できる場合
→ 1つの入力空間にまとめるより,それぞれ別々に処理した方が効率的
(それぞれクラスの事後確率があれば,確率の規則に則って統合できる)
各クラスのそれぞれについて𝔁𝐼と𝔁 𝑩が独立という仮定をおく.
条件付き独立(クラスで条件付けを行った時に独立になる)
I B I B( , | ) ( | ) ( | )k k kp C p C p Cx x x x
事後確率の何が嬉しいのか
• モデルの結合
- X線画像(𝔁𝐼)と血液検査(𝔁 𝐵)のデータが両方得られた時の事後確率は
・クラスの事前確率は各クラスのデータの比率から推定可能
・条件付き独立という仮定はナイーブベイズモデルの例
→ このモデルでは,同時分布は必ずしも分解可能とは限らない
I B I B( | , ) ( , | ) ( )k k kp C p C p Cx x x x
I B( | ) ( | ) ( )k k kp C p C p C x x
I B( | ) ( | )
( )
k k
k
p C p C
p C

x x
I B I B( , | ) ( | ) ( | )k k kp C p C p Cx x x x
回帰のための損失関数
• 曲線フィッティング(回帰問題)を損失関数を使って考える
- 曲線フィッティングとは
入力𝔁とそれに対応する出力𝒕の組(𝔁,𝒕)を訓練データとし,
与えられた新たな入力𝔁に対して出力𝒕の予測をする関数を決める.
- 決定は,各入力𝔁に対して出力𝒕をもたらす特定の推定値y(𝔁)を選ぶこと
その決定の際に,損失L(t, y(x))={y(x) − 𝑡}2
を被る.(回帰問題でよく使われる)
期待損失は
2
[ ] ( , ( )) ( , )d d
{ ( ) } ( , )d d
L L t y p t t
y t p t t

 


x x x
x x x
E
期待損失の最小化
• 目標:期待損失を最小にする を決める 変分法
これを について解くと,
はtの条件付き期待値
は損失関数を二乗誤差とした時, が理想
↑
回帰関数
各𝑥が与えられた下での𝑡の不確実さ
を表すのが𝑝(𝑡|𝑥).
その期待値が𝑦(𝑥)の値.
期待損失の最小化
期待損失についての注意
2
[ ] ( , ( )) ( , )d d
{ ( ) } ( , )d d
L L t y p t t
y t p t t

 


x x x
x x x
E
同時確率 は真の同時確率
→ 普通は求めることができない
→NNなどで近似を求める
これまでの期待損失最小の話は真の同時確率を前提として成り立つ
損失関数の変形
p(x,t) = p(t | x)p(x)
これを𝐸[𝐿]に代入,
||
0
損失関数の性質
の時,𝐸[𝐿]は最小 tの条件付き分散
目標データが本質的に持つ
変動(ノイズ)
回帰問題を解くための3つのアプローチ
a) まず同時分布 p(x, t) を推定する.それからp(t|x)を求めるた
め規格化し,最後に y(x)=E[t|x] を求める.
b) まず条件付き密度 p(t|x) を推定し, y(x)=E[t|x] を求める.
c) 回帰関数 y(x) をデータから直接推定する.
クラス分類問題の場合と同じ議論が成立する
ミンコフスキー損失
• q=2の時,二乗損失
悪い結果をもたらす場合がある
例: p(t|x)が多峰性を持つ時(逆問題 5.6節参照)

More Related Content

More from hiroki yamaoka (14)

PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

PRML1.5

Editor's Notes

  1. ピクセル強度とは,色のデータを数値化したもの