PRML 1.5-1.5.5 決定理論

Pattern Recognition and Machine Learning
1.5 – 1.5.5
新田晃大
関西学院大学理工学部
http://www.akihironitta.com
2017 年 8 月 21 日
1

本日の内容
• 1.5 決定理論（pp. 37-46）
p1.5.1 誤識別率の最小化
p1.5.2 期待損失の最小化
p1.5.3 棄却オプション
p1.5.4 推論と決定
p1.5.5 回帰のための損失関数
2

決定理論とは
決定理論（decision theory）
不確かさを含む状況における，最適な意思決定を導き出す理論．
推論（inference）：同時確率 p(x,t) を訓練データ集合から求めること
決定（decision）：不確かさを含む状況で，最適な決定をする
3

決定理論例
例 : X線画像から、癌かどうかを判定
出力 t : 0
1
t
t
=
=
入力 x : X線画像
癌あり（クラスC1）
癌なし（クラスC2）
同時分布 p(x,t) (= p(x,Ck)) を決める … 推論
最終的に患者に治療をするかどうかを決めなければならない … 決定
4

決定理論例
例 : X線画像から、癌かどうかを判定
出力 t : 0
1
t
t
=
=
入力 x : X線画像
癌あり（クラスC1）
癌なし（クラスC2）
( ) ( )
( | )
( )
k k
k
p C p C
p C
p
=
x |
x
x
新たなX線画像が与えられた条件下で各クラスの確率が知りたい
ベイズの定理に現れる量は
すべて同時分布から求めることができる
事前確率
X線画像を得る前に人が癌である確率
X線画像を得る前に人が癌でない確率
5

1.5.1 誤識別率の最小化
パターン認識と機械学習上 pp. 38‐40
6

決定のために，
xの各値にクラスの1つを割り振る規則が必要
Rk 上の点にはすべてクラス Ck を割り当てるという規則
決定領域：Rk
決定境界：決定領域の境界
決定境界
決定領域決定領域
7

1 2
1 2 2 1
2 1
(mistake) ( , ) ( , )
( , ) d ( , ) d
R R
p p R C p R C
p C p C
= Î + Î
= +ò ò
x x
x x x x
1.5.1 誤識別率
クラスに属する入力を，
クラスに割り当てる確率
クラスに属する入力を，
クラスに割り当てる確率
1C
2C
2C
1C
8

1 2
1 2 2 1
2 1
(mistake) ( , ) ( , )
( , ) d ( , ) d
R R
p p R C p R C
p C p C
= Î + Î
= +ò ò
x x
x x x x
誤識別率を最小化するには
1 2( , ) ( , )p C p C<x x
1 2( , ) ( , )p C p C>x x … クラス
… クラス
1C
2C
に割り当てる
乗法定理より( , ) ( | ) ( )k kp C p C p=x x x
誤識別率を最小化するには
1 2( | ) ( | )p C p C<x x
1 2( | ) ( | )p C p C>x x … クラス
… クラス
1C
2C
に割り当てるように Rk を設定
9

1
1
(correct) ( , )
( , ) d
k
K
k k
k
K
kR
k
p p R C
p C
=
=
= Î
=
å
åò
x
x x
より一般のKクラスの場合は，正解の確率を最大化するほうが少し優しい．
1 2
1 2(correct) ( , ) d ( , ) d
R R
p p C p C= +ò òx x x x
1 2
2 1(mistake) ( , ) d ( , ) d
R R
p p C p C= +ò òx x x x
10

1.5.2 期待損失の最小化
11

1.5.2 損失関数
医療診断問題
損失関数：何らかの決定，行動をとった時に生じる損失を表す関数
=> 損失関数は未知である真のクラスに依存
癌でない患者を，癌と診断 … まぁ問題 => 損失 1
2C 1C
癌の患者を，癌でないと診断 … すごい問題 => 損失 1000
2C1C
真のクラスがでクラスに割り当てたときにこうむる損失jCkC kjL
11 12
21 22
0 1000
1 0
L L
L
L L
æ ö æ ö
= =ç ÷ ç ÷
è øè ø
損失行列
癌
癌
正常
正常
12

1.5.2 期待損失を最小化
[ ] ( , ) d
j
kj kR
k j
L L p C= ååò x xE[期待損失
損失関数を最小化する代わりに，期待損失（損失の平均）を最小化
目標：期待損失が最小になるように決定領域 Rk を選ぶ
( | ) ( )kp C px x
arg min ( | )kj k
j
k
L p Cå x決定規則：に割り当てる
13

1.5.3 棄却オプション
パターン認識と機械学習上 p.41‐42
14

1.5.3 棄却オプション
クラス分類の誤差が起きるのは，
入力空間の事後確率の最大値が１よりかなり小さいとき
（= 同時確率の値が拮抗しているとき）
どのクラスに属すかが不確かなときは
決定しないでおこう => 棄却
1
2
ˆ( | ) 0.6
ˆ( | ) 0.4
p C
p C
=
=
x
x
( | )kp C x
( , )kp Cx
医療診断問題の場合
X線画像から正しいクラスに分類できるかどうかが，
はっきり => システムの結果をそのまま使う
曖昧 => 専門家に判断してもらう
“はっきり” と “曖昧” の境目を決める
15

事後確率の最大値が θ 以下なら，入力 x を棄却
1.5.3 しきい値 θ の導入
… どの事例も棄却されない
1q =
1
K
q <
… すべての事例が棄却される
0.5q =
( | )kp C x
16

1.5.4 推論と決定
18

1.5.4 決定問題のアプローチ
推論段階：訓練データからモデルを学習する
決定段階：事後確率を使って最適なクラスに割当てを行う
( | )kp C x
クラス分類問題（classification problem）
(a) とを求めることで，を求め，クラス決定．（生成モデル）
(b) を直接求め，クラス決定．（識別モデル）
(c) 入力から直接クラスラベルに写像する関数（識別関数）を見つける．
( | )kp Cx ( )kp C ( | )kp C x
( | )kp C x
19

(a) とを求めることで，を求め，
決定理論を用いてクラスを割り当てる．
( | )kp Cx ( )kp C ( | )kp C x
1.5.4 (a)生成モデル
生成モデル
出力の分布だけでなく，入力の分布もモデル化するアプローチ
モデルからのサンプリングにより，人口データ点を生成可能
利点
- 周辺分布が得られる => 外れ値検出（新規性検出）
欠点
- 同時分布を求めるための，計算コスト
- クラスの条件付き密度の学習に多くの訓練集合が必要( | )kp Cx
20

(a) 事後確率を直接求め，決定理論を用いてクラスを割り当てる．( | )kp C x
1.5.4 (b)識別モデル
識別モデル
事後確率を直接モデル化するアプローチ
利点
- 生成モデルに比べて，計算が少ない． - 分類だけが目的なら効率的．
クラス条件付き分布は
事後確率に影響しないこともある．
( | ) ( )
( | )
( )
k k
k
p C p C
p C
p
=
x
x
x
21

1.5.4 (c)識別関数
識別関数
入力から直接クラスラベルに写像する関数を見つける．
生成，識別モデルとは異なり，
推論と決定の段階が統合されている
欠点
- 事後確率が得られない． => 事後確率がほしい理由4つ
22

1.5.4 事後確率を計算する理由 <リスク最小化>
損失行列の要素が時間と共に変化する場合
事後確率があれば，
決定基準を計算しなおすだけ( | )kj k
k
L p Cå x
識別関数しかなければ，
一から訓練データを使って新たな識別関数を求めないといけない
23

1.5.4 事後確率を計算する理由 <棄却オプション>
事後確率の最大値がしきい値以下となるような入力は棄却
=> 事後確率がないと，棄却できない
棄却データ点に対する誤識別率・期待損失の最小化
=> 事後確率がないと，計算できない
24

1.5.4 事後確率を計算する理由 <クラス事前確率の補正>
X線画像をたくさん集めても，癌の画像は少ない（例えば，1000件中1件のみ癌)
- 癌でない画像多，癌の画像少，というデータセット
全てを癌でないクラスに割り当てる分類器でも，精度 99.9%
- 癌でない画像と癌の画像が同等数のデータセット
識別関数を直接学習した場合には，この方法が使えない．
ˆ( | ) ( ) ( ) ( | ) 1
( | )
( ) ( ) ( ) 1000
p p p p
p
p p p
= =
癌癌癌癌
癌
癌
x x
x
x x
25

1.5.4 事後確率を計算する理由 <モデルの結合>
複雑な問題では，問題を小さな部分問題に分割し，それぞれを解く．
医療診断問題：患者が癌であるかどうか判定したい
X線画像のほかに，血液検査も
X線画像と血液データの分布が独立と仮定すると，
２つのモデルがそれぞれクラスの事後確率があれば，
X線画像と血液データの両方が得られたときの事後確率が得られる
I B I B( | , ) ( , | ) ( )k k kp C p C p Cµx x x x
I B
I B
( | ) ( | ) ( )
( | ) ( | )
( )
k k k
k k
k
p C p C p C
p C p C
p C
µ
µ
x x
x x
26

1.5.5 回帰のための損失関数
27

1.5.5 回帰のための損失関数，期待損失
x … 入力
y(x) … t の値に対する特定の推定値
L(t, y(x)) … 損失関数（二乗誤差がよく使われる）
2
[ ] ( , ( )) ( , )d d
{ ( ) } ( , )d d
L L t y p t t
y t p t t
=
= -
òò
òò
x x x
x x x
E期待損失
目標：期待損失を最小にする y(x) を求めること
期待損失 … 汎関数
推定値 y(x) … 関数
=> 変分法
28

回帰関数
… x が与えられた下での t の条件付き平均
1.5.5 期待損失の最小化（変分法）
(
[ ]
2 { ( ) } (
)
, )d 0
L
y t p t
y
t
d
d
= - =ò x x
x
E
( ) ( , )d [ | ]ty tp t t t= =òx x xE
Additional notes here.
29

2
[ ] { ( ) [ | ]} ( )d var[ | ] ( )dL y t p t p= - +ò òx x x x x x xE E
1.5.5 回帰関数
2 2
2 2
{ ( ) } { ( ) [ | ] [ | ] }
{ ( ) [ | ]} 2{ ( ) [ | ]}{ [ | ] } { [ | ] }
y t y t t t
y t y t t t t t
- = - + -
= - + - - + -
x x x x
x x x x x x
E E
E E E E
損失関数に代入し，t で積分すると，
目標データが本質的に持つ変動（ノイズ）
( ) [ | ]y t=x xE のとき最小 t の分布の分散を
x に関して平均したもの
30

1.5.5 回帰問題のアプローチ
(a) 同時分布を求める．条件付き密度を求めるため規格化し，
条件付き平均を求める．
(b) 条件付き密度を求め，条件付き平均を求める．
(c) 回帰関数を直接データから計算する．
( , )p tx ( | )p t x
( | )p t x
31

1.5.5 ミンコフスキー損失
[ ] ( ) ( , )d d
q
qL y t p t t= -òò x x xE期待値
ミンコフスキー損失 … 二乗誤差の一般形 ( , ( )) ( )
q
qL t y y t= -x x
32

PRML 1.5-1.5.5 決定理論

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PRML 1.5-1.5.5 決定理論

Similar to PRML 1.5-1.5.5 決定理論 (20)

More from Akihiro Nitta

More from Akihiro Nitta (7)

Recently uploaded

Recently uploaded (10)

PRML 1.5-1.5.5 決定理論