PRML上巻勉強会 at 東京大学 資料 第1章後半

3,118 views

Published on

PRML上巻勉強会 at 東京大学の資料です
詳細:https://www.facebook.com/PRML.Tokyo

Published in: Technology

PRML上巻勉強会 at 東京大学 資料 第1章後半

  1. 1. PRML 1.4-1.6 2013/11/21 東京大学大学院 工学系研究科 航空宇宙工学専攻 修士課程1年 櫻田 麻由 1
  2. 2. 次元の呪い 決定理論 情報理論 1.4 次元の呪い 2
  3. 3. 次元の呪い 決定理論 情報理論 次元の呪いとは • 次元とは、入力変数の数のこと(ここからはD で表す) • 次元Dが大きくなると、計算コストが増える • 対策:次元が大きい時どうするか? – 冗長な次元を削減して、低次元に落とす • 分類と回帰で例を見ていきます→ 3
  4. 4. 次元の呪い 決定理論 情報理論 分類:マス目の中で多数決(1/2) • 例)入力変数が縦軸と横軸の二つ(二次元) 訓練データ100個。点の色がラベル (属するクラス)を表す 新たなデータ (ラベルを予測したい) マス目内の多数決 より赤と決定 4
  5. 5. 次元の呪い 決定理論 情報理論 分類:マス目の中で多数決(2/2) • 二次元ぐらいならうまく分類できそう? • 入力変数の次元Dが大きくなると、 • マス目の数が次元Dに対して指数的に増加 • マス目内に訓練データがないと多数決できない 5
  6. 6. 次元の呪い 決定理論 情報理論 回帰:多項式曲線フィッティング • M次の多項式 – 入力変数が1個(1次元) – 入力変数がD個(D次元) ・・・ • DMの係数を決定しなければならない 6
  7. 7. 次元の呪い 決定理論 情報理論 1.5 決定理論 (DECISION THEORY) 7
  8. 8. 次元の呪い 決定理論 情報理論 決定理論と確率論 • 問題設定の確認 – 入力ベクトルXと対応する目標変数tに対するデー タを基に新たなXに対するtを予測することが目標 – 回帰問題の場合tは連続変数 クラス分類の場合tはクラスラベル • 推論(inference)と決定(decision) – 確率的な記述を得る=推論 例:この患者が癌である確率は40%、そうでない確率は60% p(t=0|X)=0.4 p(t=1|X)=0.6 – その確率からtを決める=決定 例:この患者は癌である t=1 8
  9. 9. 次元の呪い 決定理論 情報理論 よい決定をしたい • 入力空間を各クラスに1つずつ対応する決定領 域と呼ばれる領域Rkに分割しRk上の点にはすべ てクラスCkを割り当てる • 決定領域同士の境界=決定境界、決定表面 • 各決定領域は連続とは限らず、いくつかの領域 に分かれていることもあり得る • よい決定を選ぶ方法 1. 誤識別率を最小化 2. 期待損失を最小化 3. 棄却オプション 9
  10. 10. 次元の呪い 決定理論 情報理論 誤識別率の最小化 • 誤識別率 p(誤り  p( x  R1 , C2 )  p( x  R2 , C1 ) )       p( x, C2 )dx   p( x, C1 )dx  R1 クラスC2に属する入力ベクトルを C1に割り当ててしまう確率(緑と赤) R2 クラスC1に属する入力ベクトルをC2 に割り当ててしまう確率(青と赤) 誤識別を最小化する 決定境界xはx0 10
  11. 11. 次元の呪い 決定理論 情報理論 損失関数の最小化(1/2) • 同じ誤識別でも、 – 正常な患者を癌と診断すると→念のため精密検査を 受け、結果陰性とわかる – 癌の患者を正常と診断すると→大きな病気を見逃し てしまう • 後者の方が重大な誤り →単純に誤識別を最小化するだけでなく両者を区 別したい →損失関数(loss function) コスト関数(cost function)を導入 11
  12. 12. 次元の呪い 決定理論 情報理論 損失関数の最小化(2/2) • 損失関数 E[ L]    Lkj p( x, Ck )dx k j j=0 癌 Rj j=1 正常  0 1000  k=0 癌  L  1 0  k=1正常 損失行列   (誤識別率と比較すると) p(誤り    Lkj p( x, Ck )dx ) k j=0 癌 j Rj j=1 正常 0 1 L  1 0    k=0 癌 k=1 正常 12
  13. 13. 次元の呪い 決定理論 情報理論 棄却オプション • すべてクラス分けするのが良いとも限らない • 正確に分類できるところだけ自動的に分類 し、曖昧なところ(確率がθ以下になる領域) は分類を棄却し、人(専門家)に任せるという 方法 13
  14. 14. 次元の呪い 決定理論 情報理論 生成モデル・識別モデル・識別関数 1. 生成モデルで推論→決定 をモデル化 ベイズの定理 を使う 2. 識別モデル推論→決定 を直接モデル化 3. 推論と決定を同時に行う =識別関数(discriminant function) 14
  15. 15. 次元の呪い 決定理論 情報理論 1.6 情報理論 15
  16. 16. 次元の呪い 決定理論 情報理論 情報量とは • 情報の量は、事象xの値を得た際の驚き度h(x) 「まじで?」 ←h(x)高い 「あっそう」 ←h(x)低い →h(x)は確率p(x)に関して単調減尐な関数 また、事象xと事象yが無関係なら h( x, y)  h( x)  h( y) 、 p( x, y)  p( x)  p( y) が成立 h( x)   log 2 p( x) 単位:[bit] 16
  17. 17. 次元の呪い 決定理論 情報理論 エントロピーとは(1/2) • 情報量に確率をかけて足したもの =情報量の平均(=期待値)をとったもの • エントロピーは情報の乱雑さ、無秩序さ、あいま いさ、不確実さを表す尺度 • 事象の発生確率がすべて同じとき、つまり何が起 こるか予測がつかないときに最大で、 発生確率 の偏りが大きいとエントロピーは小さい 17
  18. 18. 次元の呪い 決定理論 情報理論 エントロピーとは(2/2) 例) 8個の取り得る変数{a, b, c, d, e, f, g, h}の中 から変数の値を1つ伝える時のエントロピー 発生確率全て同じ =何が起こるかわからない case1 それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 } →エントロピーは 1 1 H [ x]  8  log 2  3 発生確率偏りあり 8 8 =だいたいaかbだろうと予想つく case2 それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64} →エントロピーは 1 1 1 1 1 1 1 1 1 1 H [ x]   log 2  log 2  log 2  log 2  log 2 2 2 2 4 4 8 8 16 16 64 64 18
  19. 19. 次元の呪い 決定理論 情報理論 h( x)   log 2 p( x) 単位:[bit] h( x)   ln p( x) 単位:[nat] 19
  20. 20. 次元の呪い 決定理論 情報理論 多重度とエントロピー(1/3) • N個の物体を、i番目の箱にni個入れるように していくつかの箱に入れるとき、何通りの入 れ方があるか=多重度 ※物体同士は区別なし、箱同士は区別あり • 例)N=8個の物体を4個の箱に入れる場合 n1 = n2 = n3 = n 4 = 2 n1 = n3 = n4 = 1 n2=5 W 8!  5040 2!2!2!2! 8! W  336 1!5! ! ! 11 20
  21. 21. 次元の呪い 決定理論 情報理論 多重度とエントロピー(2/3) • エントロピーは多重度W の対数を適当に定数倍 (1/N倍)したもの H 1 1 1 ln W  ln N!  ln ni ! N N N i • ni/Nを一定に保ったま ま、N→∞という極限を考 ln N え、近似式(1.96)! N ln N  N を用いると教科書(1.97) n  n  H    i  ln  i     pi ln pi  N  N  i i  N  が導出できる H 1 1 1 ln W  ln N ! N N N  ln n ! i i     1 N   ( N ln N  N )   (ni ln ni  ni )  i       1 N   ( N ln N  N )   ni ln ni   ni   i i   1   N ln N   ni ln ni  N i  1    ln N   ni ln ni  N i      n       i ln ni  ln N    i N  n  n       i ln ni   i ln N   i N  i N  n  n       i  ln  i     pi ln pi   N  N  i i  N  21
  22. 22. 次元の呪い 決定理論 情報理論 多重度とエントロピー(3/3) • 確率変数Xのエントロピーが定義できる H   pi ln pi i H [ p]   p( xi ) ln p( xi ) p( X  xi )  pi i 分布が広いほど エントロピー大 (30個の箱うち)xi番目の箱に割り当てられる確率p(xi)の分布 22
  23. 23. 次元の呪い 決定理論 情報理論 エントロピー最大となる分布は? 離散変数ver. • 問題設定の確認  p( xi ) 1  0 制約  p( xi )  1 i i のもと、 H [ p]   p( xi ) ln p( xi ) を最大化 i • ラグランジュの未定乗数法を使う   ~ H   p( xi ) ln p( xi )     p( xi )  1 i  i  • 一様分布 1 p( xi )  M ~ ~ H H  0 p( xi )  のときにエントロピー最大 23
  24. 24. 次元の呪い 決定理論 情報理論 離散変数から連続変数へ(1/2) • xを等間隔の区間Δに分ける Δ • p(x)が連続なら平均値の定理より i 1 i p( x)dx  p( xi ) となるxiが必ず存在 • i番目の区間に入る任意の値xに値xiを割り当 て量子化→xiの値を観測する確率は p( xi ) p(x) i番目の区間 • エントロピーは p(x ) H    p( xi ) ln( p( xi )) i p(xi)Δ i     p( xi ) ln p( xi )  ln   i ※ p( xi )  1 i iΔ Δ (i+1)Δ 24
  25. 25. 次元の呪い 決定理論 情報理論 離散変数から連続変数へ(2/2) • 連続変数にするにはΔ→0とすればよい H    p( xi ) ln p( xi )  ln  i 微分エントロピー Δ→0 Δ→0   p( x) ln p( x)dx 発散 • 離散と連続の場合のエントロピーはln Δだけ 異なりこの値はΔ→0で発散 • これは連続変数を厳密に規定するのに無限 のビット数が必要なことを反映している 25
  26. 26. 次元の呪い 決定理論 情報理論 エントロピー最大となる分布は? 連続変数ver. • 問題設定の確認 制約  p( x)dx  1   xp( x)dx     ( x   )         2 p( x)dx   2 のもと、   p( x) ln p( x)dx を最大化 • ラグランジュの未定乗数法を使う F    p( x) ln p( x)dx     p( x)dx  1       1     xp ( x)dx        ( x   ) 2 p( x)dx   2     2     3         • 正規分布のときエントロピー最大  ( x   )2  p ( x)  exp   2 1/ 2 (2 ) 2 2   1 26
  27. 27. 次元の呪い 決定理論 情報理論 相対エントロピーと相互情報量 • 未知の分布p(x)があり、これを近似的にq(x) でモデル化したとする • 真の分布p(x)の代わりにq(x)を使うとxの値を 特定するのに必要な追加情報量の平均は  KL( p || q)    p( x) ln q( x)dx    p( x) ln p( x)dx  q( x)          p( x) ln   dx  p( x)  (分布p(x)とq(x)の間の)  ※KL( p || q)  KL(q || p) 相対エントロピー=KLダイバージェンス カルバック・ライブラー 27
  28. 28. 次元の呪い 決定理論 情報理論 凸関数(convex function) • 関数f(x)はすべての弦が関数に乗っている か,それよりも上にあるとき凸であるという • 逆の関係のとき、 凹(concave)である (f(x)が凸関数なら、 -f(x)は凹関数) λ 1-λ • 凸関数では以下が成立 f (a  (1   )b)  f (a)  (1   ) f (b) λa+(1-λ)b 28
  29. 29. 次元の呪い 決定理論 情報理論 KLダイバージェンス≧0 • 凸関数はイェンセンの不等式を満たす M  M f   i xi    i f xi   i 1  i 1 • λi=p(xi)と見ると f f E[ x]   f ( x)  xp( x)dx   f ( x) p( x)dx • KLダイバージェンスに適用すると  q( x)  KL( p || q)    p( x) ln  dx   ln  q( x)dx  0  p( x)  ※q(x)=p(x)のとき0 ※ q( x)dx  1 29
  30. 30. 次元の呪い 決定理論 情報理論 未知の確率分布のモデル化(1/2) • KLダイバージェンスは0以上であり、0となる のはp(x)=q(x)のときのみ →KLダイバージェンスは2つの分布p(x)とq(x)の 間の隔たりを表す尺度。 • データの分布p(x)(未知)をパラメトリックな分 布q(x|θ) でモデル化してみる • p(x)とq(x|θ)の間KLダイバージェンスをθにつ いて最小化すれば、pに最も近いqができる 30
  31. 31. 次元の呪い 決定理論 情報理論 未知の確率分布のモデル化(2/2) • 完全なp(x)の分布はわからないがp(x)から得 られた有限個の訓練点xn{n=1,…..,N}が使える • p(x)に関する期待値はそれらの点での有限 1 和で近似できる ※ p( x) f ( x)dx  N  f ( x ) (1.35) N  n 1 n KL( p || q)    p( x) ln q( x)dx    p( x) ln p( x)dx 1        N N   ln q( x n 1 n  |  )  ln p( xn ) θとは無関係 • KLダイバージェンス最小化=尤度最大化 31
  32. 32. 次元の呪い 決定理論 情報理論 相互情報量(1/2) • 変数集合xとyの同時分布p(x, y)を考える • 変数の集合が独立であれば同時分布は周辺 分布の積 p(x, y)=p(x)p(y) • 変数が独立でなければ、独立に近いかどうか を知るために、同時分布と周辺分布の積の 間のKLダイバージェンスを考えることができる I [ x, y ]  KL( p( x, y ) || p( x) p( y )) =相互情報量         p ( x) p ( y )  p( x, y ) ln   p( x, y ) dxdy    32
  33. 33. 次元の呪い 決定理論 情報理論 相互情報量(2/2) I [ x, y]  H [ x]  H [ x | y]  H [ y]  H [ y | x] • 相互情報量はyの値を知ることによってxに関 する不確実性がどれだけ減尐するかを表す. • ベイズ的に言えばp(x)をxの事前分布、p(x|y) は新たなデータyを観測した後の事後分布と 考えられる。したがって、新たにyを観測した 結果として、xに関する不確実性が減尐した 度合いを表している 33
  34. 34. 参考にさせてもらったサイト • http://research.microsoft.com/enus/um/people/cmbishop/PRML/ • http://bin.t.utokyo.ac.jp/prml2009/index.html 34

×