PRML上巻勉強会 at 東京大学　資料　第1章後半

PRML 1.4-1.6
2013/11/21
東京大学大学院工学系研究科
航空宇宙工学専攻修士課程１年
櫻田麻由

1

次元の呪い

決定理論

情報理論

1.4 次元の呪い

2

次元の呪い

決定理論

情報理論

次元の呪いとは
• 次元とは、入力変数の数のこと（ここからはD
で表す）
• 次元Dが大きくなると、計算コストが増える
• 対策：次元が大きい時どうするか？
– 冗長な次元を削減して、低次元に落とす

• 分類と回帰で例を見ていきます→
3

次元の呪い

決定理論

情報理論

分類：マス目の中で多数決(1/2)
• 例）入力変数が縦軸と横軸の二つ(二次元)
訓練データ100個。点の色がラベル
（属するクラス）を表す

新たなデータ
（ラベルを予測したい）

マス目内の多数決
より赤と決定

4

次元の呪い

決定理論

情報理論

分類：マス目の中で多数決(2/2)
• 二次元ぐらいならうまく分類できそう？
• 入力変数の次元Dが大きくなると、

• マス目の数が次元Dに対して指数的に増加
• マス目内に訓練データがないと多数決できない
5

次元の呪い

決定理論

情報理論

回帰：多項式曲線フィッティング
• M次の多項式
– 入力変数が1個(1次元)

– 入力変数がD個(D次元)
・・・

• DMの係数を決定しなければならない
6

次元の呪い

決定理論

情報理論

1.5 決定理論 (DECISION THEORY)

7

次元の呪い

決定理論

情報理論

決定理論と確率論
• 問題設定の確認
– 入力ベクトルXと対応する目標変数tに対するデー
タを基に新たなXに対するtを予測することが目標
– 回帰問題の場合tは連続変数
クラス分類の場合tはクラスラベル

• 推論(inference)と決定(decision)
– 確率的な記述を得る＝推論
例：この患者が癌である確率は40％、そうでない確率は60％
p(t=0|X)=0.4 p(t=1|X)=0.6

– その確率からtを決める＝決定
例：この患者は癌である t=1

8

次元の呪い

決定理論

情報理論

よい決定をしたい
• 入力空間を各クラスに1つずつ対応する決定領
域と呼ばれる領域Rkに分割しRk上の点にはすべ
てクラスCkを割り当てる
• 決定領域同士の境界＝決定境界、決定表面
• 各決定領域は連続とは限らず、いくつかの領域
に分かれていることもあり得る
• よい決定を選ぶ方法
1. 誤識別率を最小化
2. 期待損失を最小化
3. 棄却オプション
9

次元の呪い

決定理論

情報理論

誤識別率の最小化
• 誤識別率
p(誤り  p( x  R1 , C2 )  p( x  R2 , C1 )
)
　　　　  p( x, C2 )dx   p( x, C1 )dx

R1

クラスC2に属する入力ベクトルを
C1に割り当ててしまう確率(緑と赤)

R2

クラスC1に属する入力ベクトルをC2
に割り当ててしまう確率(青と赤)

誤識別を最小化する
決定境界xはx0

10

次元の呪い

決定理論

情報理論

損失関数の最小化(1/2)
• 同じ誤識別でも、
– 正常な患者を癌と診断すると→念のため精密検査を
受け、結果陰性とわかる
– 癌の患者を正常と診断すると→大きな病気を見逃し
てしまう

• 後者の方が重大な誤り
→単純に誤識別を最小化するだけでなく両者を区
別したい
→損失関数(loss function)
コスト関数(cost function)を導入
11

次元の呪い

決定理論

情報理論

損失関数の最小化(2/2)
• 損失関数
E[ L]    Lkj p( x, Ck )dx
k

j

j=0
癌

Rj

j=1
正常

 0 1000  k=0 癌

L 
1
0  k=1正常
損失行列 


(誤識別率と比較すると)
p(誤り    Lkj p( x, Ck )dx
)
k

j=0
癌

j

Rj

j=1
正常

0 1
L 
1 0




k=0 癌
k=1 正常

12

次元の呪い

決定理論

情報理論

棄却オプション
• すべてクラス分けするのが良いとも限らない
• 正確に分類できるところだけ自動的に分類
し、曖昧なところ（確率がθ以下になる領域）
は分類を棄却し、人（専門家）に任せるという
方法

13

次元の呪い

決定理論

情報理論

生成モデル・識別モデル・識別関数
1. 生成モデルで推論→決定
をモデル化
ベイズの定理

を使う

2. 識別モデル推論→決定
を直接モデル化

3. 推論と決定を同時に行う
＝識別関数（discriminant function）

14

次元の呪い

決定理論

情報理論

1.6 情報理論

15

次元の呪い

決定理論

情報理論

情報量とは
• 情報の量は、事象xの値を得た際の驚き度h(x)
「まじで？」 ←h(x)高い
「あっそう」 ←h(x)低い

→h(x)は確率p(x)に関して単調減尐な関数
また、事象xと事象yが無関係なら
h( x, y)  h( x)  h( y) 、 p( x, y)  p( x)  p( y) が成立

h( x)   log 2 p( x)
単位：[bit]
16

次元の呪い

決定理論

情報理論

エントロピーとは(1/2)
• 情報量に確率をかけて足したもの
＝情報量の平均（＝期待値）をとったもの

• エントロピーは情報の乱雑さ、無秩序さ、あいま
いさ、不確実さを表す尺度
• 事象の発生確率がすべて同じとき、つまり何が起
こるか予測がつかないときに最大で、発生確率
の偏りが大きいとエントロピーは小さい
17

次元の呪い

決定理論

情報理論

エントロピーとは(2/2)
例） 8個の取り得る変数｛a, b, c, d, e, f, g, h｝の中
から変数の値を1つ伝える時のエントロピー
発生確率全て同じ
＝何が起こるかわからない

case1 それぞれの確率｛1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 ｝
→エントロピーは

1
1
H [ x]  8  log 2  3
発生確率偏りあり
8
8
＝だいたいaかbだろうと予想つく
case2 それぞれの確率｛1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64｝

→エントロピーは

1
1 1
1 1
1 1
1 1
1
H [ x]   log 2  log 2  log 2  log 2  log 2
2
2
2 4
4 8
8 16
16 64
64
18

次元の呪い

決定理論

情報理論

h( x)   log 2 p( x)
単位：[bit]

h( x)   ln p( x)
単位：[nat]

19

次元の呪い

決定理論

情報理論

多重度とエントロピー(1/3)
• N個の物体を、i番目の箱にni個入れるように
していくつかの箱に入れるとき、何通りの入
れ方があるか＝多重度
※物体同士は区別なし、箱同士は区別あり

• 例）N=8個の物体を4個の箱に入れる場合
n1 = n2 = n3 = n 4 = 2

n1 = n3 = n4 = 1
n2=5

W

8!
 5040
2!2!2!2!

8!
W
 336
1!5! ! !
11
20

次元の呪い

決定理論

情報理論

• エントロピーは多重度W
の対数を適当に定数倍
(1/N倍)したもの
H

1
1
1
ln W  ln N!  ln ni !
N
N
N i

• ni/Nを一定に保ったま
ま、N→∞という極限を考
ln N
え、近似式(1.96)! N ln N  N
を用いると教科書(1.97)
n  n 
H    i  ln  i     pi ln pi
 N  N  i
i  N 

が導出できる

H

1
1
1
ln W  ln N !
N
N
N

 ln n !
i

i

　　


1
N



( N ln N  N )   (ni ln ni  ni )

i



　　


1
N



( N ln N  N )   ni ln ni   ni 

i
i



1

 N ln N   ni ln ni 
N
i

1
　　 ln N   ni ln ni

N i
　　


 n

　　   i ln ni  ln N 

 i N

n
 n

　　   i ln ni   i ln N 

i N
 i N

n  n 
　　   i  ln  i     pi ln pi

 N  N  i
i  N 
21

次元の呪い

決定理論

情報理論

• 確率変数Xのエントロピーが定義できる
H   pi ln pi
i

H [ p]   p( xi ) ln p( xi )

p( X  xi )  pi

i

分布が広いほど
エントロピー大

（30個の箱うち）xi番目の箱に割り当てられる確率p(xi)の分布
22

次元の呪い

決定理論

情報理論

エントロピー最大となる分布は？
離散変数ver.


 p( xi ) 1  0
制約  p( xi )  1
i
i
のもと、 H [ p]   p( xi ) ln p( xi ) を最大化
i

• ラグランジュの未定乗数法を使う


~
H   p( xi ) ln p( xi )     p( xi )  1
i
 i


• 一様分布

1
p( xi ) 
M

~
~
H
H

0
p( xi ) 

のときにエントロピー最大
23

次元の呪い

決定理論

情報理論

離散変数から連続変数へ(1/2)
• xを等間隔の区間Δに分ける Δ
• p(x)が連続なら平均値の定理より
i 1
i p( x)dx  p( xi ) となるxiが必ず存在
• i番目の区間に入る任意の値xに値xiを割り当
て量子化→xiの値を観測する確率は p( xi )
p(x)
i番目の区間
• エントロピーは
p(x )
H    p( xi ) ln( p( xi ))

i

p(xi)Δ

i

　　  p( xi ) ln p( xi )  ln 

i

※ p( xi )  1
i

iΔ

Δ

(i+1)Δ
24

次元の呪い

決定理論

情報理論

離散変数から連続変数へ(2/2)
• 連続変数にするにはΔ→0とすればよい
H    p( xi ) ln p( xi )  ln 
i

微分エントロピー

Δ→0

Δ→0

  p( x) ln p( x)dx 発散

• 離散と連続の場合のエントロピーはln Δだけ
異なりこの値はΔ→0で発散
• これは連続変数を厳密に規定するのに無限
のビット数が必要なことを反映している
25

次元の呪い

決定理論

情報理論

エントロピー最大となる分布は？
連続変数ver.

制約
 p( x)dx  1　　 xp( x)dx  　　 ( x   )














2

p( x)dx   2

のもと、   p( x) ln p( x)dx を最大化

• ラグランジュの未定乗数法を使う
F    p( x) ln p( x)dx     p( x)dx  1








1





  xp ( x)dx        ( x   ) 2 p( x)dx   2 
　　　2  

 3  







• 正規分布のときエントロピー最大
 ( x   )2 
p ( x) 
exp 

2 1/ 2
(2 )
2 2 

1

26

次元の呪い

決定理論

情報理論

相対エントロピーと相互情報量
• 未知の分布p(x)があり、これを近似的にq(x)
でモデル化したとする
• 真の分布p(x)の代わりにq(x)を使うとxの値を
特定するのに必要な追加情報量の平均は



KL( p || q)    p( x) ln q( x)dx    p( x) ln p( x)dx
 q( x) 
　　　　　   p( x) ln 

dx
 p( x) 
（分布p(x)とq(x)の間の）



※KL( p || q)  KL(q || p)

相対エントロピー＝KLダイバージェンス
カルバック・ライブラー
27

次元の呪い

決定理論

情報理論

凸関数(convex function)
• 関数f(x)はすべての弦が関数に乗っている
か，それよりも上にあるとき凸であるという
• 逆の関係のとき、
凹(concave)である
（f(x)が凸関数なら、
-f(x)は凹関数）
λ
1-λ
• 凸関数では以下が成立
f (a  (1   )b)  f (a)  (1   ) f (b) λa+(1-λ)b
28

次元の呪い

決定理論

情報理論

KLダイバージェンス≧０
• 凸関数はイェンセンの不等式を満たす
M
 M
f   i xi    i f xi 
 i 1
 i 1

• λi=p(xi)と見ると
f

f E[ x]   f ( x)

 xp( x)dx   f ( x) p( x)dx

• KLダイバージェンスに適用すると
 q( x) 
KL( p || q)    p( x) ln 
dx   ln  q( x)dx  0
 p( x) 
※q(x)=p(x)のとき０

※ q( x)dx  1

29

次元の呪い

決定理論

情報理論

未知の確率分布のモデル化(1/2)
• KLダイバージェンスは０以上であり、０となる
のはp(x)=q(x)のときのみ
→KLダイバージェンスは２つの分布p(x)とq(x)の
間の隔たりを表す尺度。
• データの分布p(x)（未知）をパラメトリックな分
布q(x|θ) でモデル化してみる
• p(x)とq(x|θ)の間KLダイバージェンスをθにつ
いて最小化すれば、pに最も近いqができる
30

次元の呪い

決定理論

情報理論

未知の確率分布のモデル化(2/2)
• 完全なp(x)の分布はわからないがp(x)から得
られた有限個の訓練点xn{n=1,…..,N}が使える
• p(x)に関する期待値はそれらの点での有限
1
和で近似できる ※ p( x) f ( x)dx  N  f ( x ) (1.35)
N



n 1

n

KL( p || q)    p( x) ln q( x)dx    p( x) ln p( x)dx
1
　　　　　

N

N

  ln q( x
n 1

n



|  )  ln p( xn )
θとは無関係

• KLダイバージェンス最小化＝尤度最大化
31

次元の呪い

決定理論

情報理論

相互情報量(1/2)
• 変数集合xとyの同時分布p(x, y)を考える
• 変数の集合が独立であれば同時分布は周辺
分布の積 p(x, y)=p(x)p(y)
• 変数が独立でなければ、独立に近いかどうか
を知るために、同時分布と周辺分布の積の
間のKLダイバージェンスを考えることができる
I [ x, y ]  KL( p( x, y ) || p( x) p( y ))
=相互情報量
　　　  


 p ( x) p ( y ) 
p( x, y ) ln 
 p( x, y ) dxdy



32

次元の呪い

決定理論

情報理論

相互情報量(2/2)
I [ x, y]  H [ x]  H [ x | y]  H [ y]  H [ y | x]

• 相互情報量はyの値を知ることによってxに関
する不確実性がどれだけ減尐するかを表す．
• ベイズ的に言えばp(x)をxの事前分布、p(x|y)
は新たなデータyを観測した後の事後分布と
考えられる。したがって、新たにyを観測した
結果として、xに関する不確実性が減尐した
度合いを表している
33

参考にさせてもらったサイト
• http://research.microsoft.com/enus/um/people/cmbishop/PRML/
• http://bin.t.utokyo.ac.jp/prml2009/index.html

34

PRML上巻勉強会 at 東京大学 資料 第1章後半

More Related Content

What's hot

Similar to PRML上巻勉強会 at 東京大学 資料 第1章後半

More from Ohsawa Goodfellow