PRML上巻勉強会 at 東京大学 資料 第1章後半
Upcoming SlideShare
Loading in...5
×
 

PRML上巻勉強会 at 東京大学 資料 第1章後半

on

  • 1,100 views

PRML上巻勉強会 at 東京大学の資料です

PRML上巻勉強会 at 東京大学の資料です
詳細:https://www.facebook.com/PRML.Tokyo

Statistics

Views

Total Views
1,100
Views on SlideShare
1,098
Embed Views
2

Actions

Likes
4
Downloads
11
Comments
0

1 Embed 2

https://twitter.com 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

PRML上巻勉強会 at 東京大学 資料 第1章後半 PRML上巻勉強会 at 東京大学 資料 第1章後半 Presentation Transcript

  • PRML 1.4-1.6 2013/11/21 東京大学大学院 工学系研究科 航空宇宙工学専攻 修士課程1年 櫻田 麻由 1
  • 次元の呪い 決定理論 情報理論 1.4 次元の呪い 2
  • 次元の呪い 決定理論 情報理論 次元の呪いとは • 次元とは、入力変数の数のこと(ここからはD で表す) • 次元Dが大きくなると、計算コストが増える • 対策:次元が大きい時どうするか? – 冗長な次元を削減して、低次元に落とす • 分類と回帰で例を見ていきます→ 3
  • 次元の呪い 決定理論 情報理論 分類:マス目の中で多数決(1/2) • 例)入力変数が縦軸と横軸の二つ(二次元) 訓練データ100個。点の色がラベル (属するクラス)を表す 新たなデータ (ラベルを予測したい) マス目内の多数決 より赤と決定 4
  • 次元の呪い 決定理論 情報理論 分類:マス目の中で多数決(2/2) • 二次元ぐらいならうまく分類できそう? • 入力変数の次元Dが大きくなると、 • マス目の数が次元Dに対して指数的に増加 • マス目内に訓練データがないと多数決できない 5
  • 次元の呪い 決定理論 情報理論 回帰:多項式曲線フィッティング • M次の多項式 – 入力変数が1個(1次元) – 入力変数がD個(D次元) ・・・ • DMの係数を決定しなければならない 6
  • 次元の呪い 決定理論 情報理論 1.5 決定理論 (DECISION THEORY) 7
  • 次元の呪い 決定理論 情報理論 決定理論と確率論 • 問題設定の確認 – 入力ベクトルXと対応する目標変数tに対するデー タを基に新たなXに対するtを予測することが目標 – 回帰問題の場合tは連続変数 クラス分類の場合tはクラスラベル • 推論(inference)と決定(decision) – 確率的な記述を得る=推論 例:この患者が癌である確率は40%、そうでない確率は60% p(t=0|X)=0.4 p(t=1|X)=0.6 – その確率からtを決める=決定 例:この患者は癌である t=1 8
  • 次元の呪い 決定理論 情報理論 よい決定をしたい • 入力空間を各クラスに1つずつ対応する決定領 域と呼ばれる領域Rkに分割しRk上の点にはすべ てクラスCkを割り当てる • 決定領域同士の境界=決定境界、決定表面 • 各決定領域は連続とは限らず、いくつかの領域 に分かれていることもあり得る • よい決定を選ぶ方法 1. 誤識別率を最小化 2. 期待損失を最小化 3. 棄却オプション 9
  • 次元の呪い 決定理論 情報理論 誤識別率の最小化 • 誤識別率 p(誤り  p( x  R1 , C2 )  p( x  R2 , C1 ) )       p( x, C2 )dx   p( x, C1 )dx  R1 クラスC2に属する入力ベクトルを C1に割り当ててしまう確率(緑と赤) R2 クラスC1に属する入力ベクトルをC2 に割り当ててしまう確率(青と赤) 誤識別を最小化する 決定境界xはx0 10
  • 次元の呪い 決定理論 情報理論 損失関数の最小化(1/2) • 同じ誤識別でも、 – 正常な患者を癌と診断すると→念のため精密検査を 受け、結果陰性とわかる – 癌の患者を正常と診断すると→大きな病気を見逃し てしまう • 後者の方が重大な誤り →単純に誤識別を最小化するだけでなく両者を区 別したい →損失関数(loss function) コスト関数(cost function)を導入 11
  • 次元の呪い 決定理論 情報理論 損失関数の最小化(2/2) • 損失関数 E[ L]    Lkj p( x, Ck )dx k j j=0 癌 Rj j=1 正常  0 1000  k=0 癌  L  1 0  k=1正常 損失行列   (誤識別率と比較すると) p(誤り    Lkj p( x, Ck )dx ) k j=0 癌 j Rj j=1 正常 0 1 L  1 0    k=0 癌 k=1 正常 12
  • 次元の呪い 決定理論 情報理論 棄却オプション • すべてクラス分けするのが良いとも限らない • 正確に分類できるところだけ自動的に分類 し、曖昧なところ(確率がθ以下になる領域) は分類を棄却し、人(専門家)に任せるという 方法 13
  • 次元の呪い 決定理論 情報理論 生成モデル・識別モデル・識別関数 1. 生成モデルで推論→決定 をモデル化 ベイズの定理 を使う 2. 識別モデル推論→決定 を直接モデル化 3. 推論と決定を同時に行う =識別関数(discriminant function) 14
  • 次元の呪い 決定理論 情報理論 1.6 情報理論 15
  • 次元の呪い 決定理論 情報理論 情報量とは • 情報の量は、事象xの値を得た際の驚き度h(x) 「まじで?」 ←h(x)高い 「あっそう」 ←h(x)低い →h(x)は確率p(x)に関して単調減尐な関数 また、事象xと事象yが無関係なら h( x, y)  h( x)  h( y) 、 p( x, y)  p( x)  p( y) が成立 h( x)   log 2 p( x) 単位:[bit] 16
  • 次元の呪い 決定理論 情報理論 エントロピーとは(1/2) • 情報量に確率をかけて足したもの =情報量の平均(=期待値)をとったもの • エントロピーは情報の乱雑さ、無秩序さ、あいま いさ、不確実さを表す尺度 • 事象の発生確率がすべて同じとき、つまり何が起 こるか予測がつかないときに最大で、 発生確率 の偏りが大きいとエントロピーは小さい 17
  • 次元の呪い 決定理論 情報理論 エントロピーとは(2/2) 例) 8個の取り得る変数{a, b, c, d, e, f, g, h}の中 から変数の値を1つ伝える時のエントロピー 発生確率全て同じ =何が起こるかわからない case1 それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 } →エントロピーは 1 1 H [ x]  8  log 2  3 発生確率偏りあり 8 8 =だいたいaかbだろうと予想つく case2 それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64} →エントロピーは 1 1 1 1 1 1 1 1 1 1 H [ x]   log 2  log 2  log 2  log 2  log 2 2 2 2 4 4 8 8 16 16 64 64 18
  • 次元の呪い 決定理論 情報理論 h( x)   log 2 p( x) 単位:[bit] h( x)   ln p( x) 単位:[nat] 19
  • 次元の呪い 決定理論 情報理論 多重度とエントロピー(1/3) • N個の物体を、i番目の箱にni個入れるように していくつかの箱に入れるとき、何通りの入 れ方があるか=多重度 ※物体同士は区別なし、箱同士は区別あり • 例)N=8個の物体を4個の箱に入れる場合 n1 = n2 = n3 = n 4 = 2 n1 = n3 = n4 = 1 n2=5 W 8!  5040 2!2!2!2! 8! W  336 1!5! ! ! 11 20
  • 次元の呪い 決定理論 情報理論 多重度とエントロピー(2/3) • エントロピーは多重度W の対数を適当に定数倍 (1/N倍)したもの H 1 1 1 ln W  ln N!  ln ni ! N N N i • ni/Nを一定に保ったま ま、N→∞という極限を考 ln N え、近似式(1.96)! N ln N  N を用いると教科書(1.97) n  n  H    i  ln  i     pi ln pi  N  N  i i  N  が導出できる H 1 1 1 ln W  ln N ! N N N  ln n ! i i     1 N   ( N ln N  N )   (ni ln ni  ni )  i       1 N   ( N ln N  N )   ni ln ni   ni   i i   1   N ln N   ni ln ni  N i  1    ln N   ni ln ni  N i      n       i ln ni  ln N    i N  n  n       i ln ni   i ln N   i N  i N  n  n       i  ln  i     pi ln pi   N  N  i i  N  21
  • 次元の呪い 決定理論 情報理論 多重度とエントロピー(3/3) • 確率変数Xのエントロピーが定義できる H   pi ln pi i H [ p]   p( xi ) ln p( xi ) p( X  xi )  pi i 分布が広いほど エントロピー大 (30個の箱うち)xi番目の箱に割り当てられる確率p(xi)の分布 22
  • 次元の呪い 決定理論 情報理論 エントロピー最大となる分布は? 離散変数ver. • 問題設定の確認  p( xi ) 1  0 制約  p( xi )  1 i i のもと、 H [ p]   p( xi ) ln p( xi ) を最大化 i • ラグランジュの未定乗数法を使う   ~ H   p( xi ) ln p( xi )     p( xi )  1 i  i  • 一様分布 1 p( xi )  M ~ ~ H H  0 p( xi )  のときにエントロピー最大 23
  • 次元の呪い 決定理論 情報理論 離散変数から連続変数へ(1/2) • xを等間隔の区間Δに分ける Δ • p(x)が連続なら平均値の定理より i 1 i p( x)dx  p( xi ) となるxiが必ず存在 • i番目の区間に入る任意の値xに値xiを割り当 て量子化→xiの値を観測する確率は p( xi ) p(x) i番目の区間 • エントロピーは p(x ) H    p( xi ) ln( p( xi )) i p(xi)Δ i     p( xi ) ln p( xi )  ln   i ※ p( xi )  1 i iΔ Δ (i+1)Δ 24
  • 次元の呪い 決定理論 情報理論 離散変数から連続変数へ(2/2) • 連続変数にするにはΔ→0とすればよい H    p( xi ) ln p( xi )  ln  i 微分エントロピー Δ→0 Δ→0   p( x) ln p( x)dx 発散 • 離散と連続の場合のエントロピーはln Δだけ 異なりこの値はΔ→0で発散 • これは連続変数を厳密に規定するのに無限 のビット数が必要なことを反映している 25
  • 次元の呪い 決定理論 情報理論 エントロピー最大となる分布は? 連続変数ver. • 問題設定の確認 制約  p( x)dx  1   xp( x)dx     ( x   )         2 p( x)dx   2 のもと、   p( x) ln p( x)dx を最大化 • ラグランジュの未定乗数法を使う F    p( x) ln p( x)dx     p( x)dx  1       1     xp ( x)dx        ( x   ) 2 p( x)dx   2     2     3         • 正規分布のときエントロピー最大  ( x   )2  p ( x)  exp   2 1/ 2 (2 ) 2 2   1 26
  • 次元の呪い 決定理論 情報理論 相対エントロピーと相互情報量 • 未知の分布p(x)があり、これを近似的にq(x) でモデル化したとする • 真の分布p(x)の代わりにq(x)を使うとxの値を 特定するのに必要な追加情報量の平均は  KL( p || q)    p( x) ln q( x)dx    p( x) ln p( x)dx  q( x)          p( x) ln   dx  p( x)  (分布p(x)とq(x)の間の)  ※KL( p || q)  KL(q || p) 相対エントロピー=KLダイバージェンス カルバック・ライブラー 27
  • 次元の呪い 決定理論 情報理論 凸関数(convex function) • 関数f(x)はすべての弦が関数に乗っている か,それよりも上にあるとき凸であるという • 逆の関係のとき、 凹(concave)である (f(x)が凸関数なら、 -f(x)は凹関数) λ 1-λ • 凸関数では以下が成立 f (a  (1   )b)  f (a)  (1   ) f (b) λa+(1-λ)b 28
  • 次元の呪い 決定理論 情報理論 KLダイバージェンス≧0 • 凸関数はイェンセンの不等式を満たす M  M f   i xi    i f xi   i 1  i 1 • λi=p(xi)と見ると f f E[ x]   f ( x)  xp( x)dx   f ( x) p( x)dx • KLダイバージェンスに適用すると  q( x)  KL( p || q)    p( x) ln  dx   ln  q( x)dx  0  p( x)  ※q(x)=p(x)のとき0 ※ q( x)dx  1 29
  • 次元の呪い 決定理論 情報理論 未知の確率分布のモデル化(1/2) • KLダイバージェンスは0以上であり、0となる のはp(x)=q(x)のときのみ →KLダイバージェンスは2つの分布p(x)とq(x)の 間の隔たりを表す尺度。 • データの分布p(x)(未知)をパラメトリックな分 布q(x|θ) でモデル化してみる • p(x)とq(x|θ)の間KLダイバージェンスをθにつ いて最小化すれば、pに最も近いqができる 30
  • 次元の呪い 決定理論 情報理論 未知の確率分布のモデル化(2/2) • 完全なp(x)の分布はわからないがp(x)から得 られた有限個の訓練点xn{n=1,…..,N}が使える • p(x)に関する期待値はそれらの点での有限 1 和で近似できる ※ p( x) f ( x)dx  N  f ( x ) (1.35) N  n 1 n KL( p || q)    p( x) ln q( x)dx    p( x) ln p( x)dx 1        N N   ln q( x n 1 n  |  )  ln p( xn ) θとは無関係 • KLダイバージェンス最小化=尤度最大化 31
  • 次元の呪い 決定理論 情報理論 相互情報量(1/2) • 変数集合xとyの同時分布p(x, y)を考える • 変数の集合が独立であれば同時分布は周辺 分布の積 p(x, y)=p(x)p(y) • 変数が独立でなければ、独立に近いかどうか を知るために、同時分布と周辺分布の積の 間のKLダイバージェンスを考えることができる I [ x, y ]  KL( p( x, y ) || p( x) p( y )) =相互情報量         p ( x) p ( y )  p( x, y ) ln   p( x, y ) dxdy    32
  • 次元の呪い 決定理論 情報理論 相互情報量(2/2) I [ x, y]  H [ x]  H [ x | y]  H [ y]  H [ y | x] • 相互情報量はyの値を知ることによってxに関 する不確実性がどれだけ減尐するかを表す. • ベイズ的に言えばp(x)をxの事前分布、p(x|y) は新たなデータyを観測した後の事後分布と 考えられる。したがって、新たにyを観測した 結果として、xに関する不確実性が減尐した 度合いを表している 33
  • 参考にさせてもらったサイト • http://research.microsoft.com/enus/um/people/cmbishop/PRML/ • http://bin.t.utokyo.ac.jp/prml2009/index.html 34