Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

PRML輪読#2

2,162 views

Published on

東京大学松尾研究室におけるPRML輪読資料です。

Published in: Education
  • Be the first to comment

PRML輪読#2

  1. 1. PRML輪読会 2017 第2章 確率分布 東京⼤学⼤学院⼯学系研究科 技術経営戦略学専攻 松尾研究室 M1 ⽥村浩⼀郎
  2. 2. 第⼆章 確率分布の概要 • 標本データから確率変数の確率分布を推定(密度推定)をする – パラメトリック à 少数のパラメタによって確率分布が決定する – ノンパラメトリック à 少数のパラメタでは確率分布が決定しない • パラメトリックである場合 – パラメタさえ推定すれば良い • 最尤推定 • ベイズ推定 – 重要な確率分布の性質を⽤いる • 共役事前分布 • 指数型分布族 • ノンパラメトリックである場合 – ヒストグラム – 最近傍 – カーネル密度推定 2
  3. 3. 構成 2.1 ⼆値変数 2.2 多値変数 2.3 ガウス分布 2.4 指数型分布族 2.5 ノンパラメトリック法 3
  4. 4. 2.1 ⼆値変数 • ベルヌーイ分布 – 例:コイン投げ – 2値確率変数 𝑥 ∈ 0, 1 , 𝑝 𝑥 = 1|𝜇 = 𝜇 – 確率分布 𝐵𝑒𝑟𝑛 𝑥 𝜇 = 𝜇/(1 − 𝜇)34/ – 𝐸[𝑥] = 𝜇, 𝑣𝑎𝑟 𝑥 = 𝜇(1­𝜇) – 対数尤度関数 • ln 𝑝 𝐷 𝜇 ∝ ∑ 𝑥?? であるため、∑ 𝑥?? は⼗分統計量(確率分布の⼗分条件) • 𝜇 について微分して解くと、𝜇 の最尤推定量がもとまる – 𝜇 の最尤推定量 • サンプル平均 4 一つのパラメタ𝜇で決定している たまたま3回中3回表が出た場合を考えると、最尤推定では「必ず表が出る」という推定結果になる (過学習)。 𝜇 の事前分布を考えるベイズ推定を用いて常識的な結果を導く
  5. 5. 2.1 ⼆値変数 • ⼆項分布 – 例:コイン投げにおける表の出る「回数」 – N回のコイン投げでm回表が出るような全ての場合の数を考える 5
  6. 6. 2.1.1 ベータ分布 • 最尤推定ではサンプル数が少ないと過学習を起こしやすいため、ベイズ主義 的に扱う – パラメタ 𝜇 を確率変数と捉え、事前分布𝑝 𝜇 を導⼊する – 妥当なモデル(*妥当性は場合によって検証する必要がある)を事前分布に採⽤する – 共役性を持った関数を選択 • ベルヌーイ分布(⼆項分布)のパラメタ 𝜇 の事前分布に、ベータ分布を⽤い る – 𝜇A43(1−𝜇)B43 の部分がベルヌーイ分布(⼆項分布)と「共役」 – 事後分布 ∝ 尤度関数 × 事前分布 であるから、事後分布が尤度関数と同じ関数形 – 係数のガンマ関数によってベータ関数は正規化されている 6
  7. 7. 2.1.1 ベータ分布* • ベータ分布 – 平均と分散 – a, bはハイパーパラメタ • 有効観測数(事前に表がa回、裏がb回でたとするということ)と解釈できる – 係数のガンマ関数でベータ関数は正規化されている – ガンマ関数 Γ 𝑥 = ∫ 𝑢/43 𝑒4G 𝑑𝑢 I J • ガンマ関数は階乗の⼀般化 • 任意の整数nに対して、Γ 𝑛 + 1 = 𝑛! 7
  8. 8. 2.1.1 ベータ分布** • ベータ分布 8
  9. 9. 2.1.1 ベータ分布** • 逐次学習 – 新たなサンプルが追加されることで尤度関数が更新し、事後分布が更新される – 事後分布 ∝ 尤度関数 × 事前分布 を次のstepの事前分布とする – 逐次学習は、データが独⽴同分布に従えば成⽴し、 • 全てのデータが揃う前に予測しなければならない • ⼤規模データに対して、メモリを確保しなくて良い といった利点がある – 多くのデータを観測すればするほど事後分布の不確実性(分散)は恒常的に減少し、尤度 関数に収束する(*分散が単調に減少するとは限らないので注意) 9 × =
  10. 10. 2.2 多値変数 • ベルヌーイ分布、⼆項分布の多変数への拡張 – 𝑥M = 1となる確率を𝜇Mとすれば、xの確率分布は、 – 尤度関数は – k個の⼗分統計量 𝑚M = ∑ 𝑥?M ? で表現される – 対数尤度の最⼤化をラグランジュ未定乗数法を使って、最尤推定解を得る • 多項分布 10
  11. 11. 2.2.1 ディリクレ分布 • 多項分布のパラメタ 𝜇Mの事前分布として、ディリクレ分布を採⽤する – 𝛼J = ∑ 𝛼M P 3 , 𝜶 はハイパーパラメタ – 𝜇M の⾃由度はK-1(*総和が1という制約条件が⼀つあるため) 11
  12. 12. 2.3 ガウス分布 • 正規分布ともいう • 多変量ガウス分布は、 𝜇, 𝜮 によって決まる – 𝜇 : 平均ベクトル – 𝜮 : 共分散⾏列 • エントロピーを最⼤化する分布(1.6節で⽰した) • 中⼼極限定理より、複数の確率変数の和の確率分布はガウス分布に収束する – 確率変数が互いに独⽴であること、リンデベルグ条件が成⽴すれば中⼼極限定理が成⽴ – 同⼀性の仮定がなくても成⽴する 12
  13. 13. 2.3 ガウス分布 – x に依存するのは、マハラノビス距離: ∆U= 𝒙 − 𝜇 W 𝜮 43(𝒙 − 𝜇) – ∆U= ∑ XY Z [Y ]^3 と変形できる – 𝑦]で構成されるベクトル𝒚は、𝒙 を線形変換(平⾏移動、回転)したもの – ガウス分布が定義されるため(分布を正規化するため)には、𝜮 が正定値⾏列(*固有値が 全て正)である必要がある – 𝐔 は直交⾏列なので、 𝒙 を正規直交座標に変換し、式(2.43)をD個の独⽴な1次元ガウ ス分布の積で表すことができる 13 𝜮が対称行列であることが 重要 逆行列は反対称(正負が ひっくり返って対称) 直交行列の性質:Uのn本の行(列)ベクトルが正規直交基底をなす yが正規直交基底によって表現され、「確率変数が直交=独立」となった。
  14. 14. 2.3 ガウス分布 • ガウス分布の計算量の制約 – D次元のガウス分布は、 b(bcd) U のパラメタを持ち、計算量がO(𝐷U) – 計算量を減らすために共分散⾏列𝜮 に制約を与える – データの相関情報を失うことに注意 • ガウス分布の形状の制約 – 単峰形であるという条件があり、多峰形の分布を取り扱えない – 潜在変数の導⼊などで対処 14 引⽤:https://www.slideshare.net/kurotaki_weblab/prml-28752844
  15. 15. 2.3.1 条件付きガウス分布 15 • 2つの確率変数集合の同時分布𝑝(𝒙 𝒂, 𝒙 𝒃)がガウス分布に従うとき、条件つき 分布𝑝(𝒙 𝒂|𝒙 𝒃)もガウス分布に従う – 2.3.1はその証明 1. ガウス分布に従う確率変数 𝒙 を互いに素な2つの集合に分ける 2. それぞれの集合の平均ベクトルと共分散⾏列を定義する 3. 共分散⾏列の逆⾏列(精度⾏列)を計算する 4. 元のガウス分布の指数部分について、平均ベクトルと精度⾏列を⽤いてaとbの変数ごとに 分解する 5. 𝒙 𝒃 について分解した式を解釈すると、指数部分は2次形式になっているため、条件付き分 布もガウス分布に従う – 平均と共分散
  16. 16. 2.3.1 周辺ガウス分布 16 • 2つの確率変数集合の同時分布𝑝(𝒙 𝒂, 𝒙 𝒃)がガウス分布に従うとき、周辺分布 𝑝(𝒙 𝒂), 𝑝(𝒙 𝒃)もガウス分布に従う – 2.3.2はその証明 – 平均と共分散 • 条件付きガウス分布と周辺ガウス分布の解釈 – 条件付きガウス分布 • どのように同時分布の断⾯を切ってもガウス分布 – 周辺ガウス分布 • どちらも変数集合の周辺分布もガウス分布 • 条件付きガウス分布の命題よりもゆるい命題
  17. 17. 2.3.3 ガウス変数に対するベイズの定理 17 • ガウス周辺分布𝑝(𝒙)と、平均が𝒙 の線形関数で共分散は𝒙 と独⽴なガウス条 件付き分布𝑝 𝒚 𝒙 を以下のように定義する – 𝜦, 𝑳 は精度⾏列 • この時、yについてのガウス周辺分布𝑝(𝑦)とガウス条件付き分布𝑝 𝒙 𝒚 は、 • ガウス分布における変数においてベイズの定理的理解をした
  18. 18. 2.3.4 ガウス分布の最尤推定 • 多変量ガウス分布から標本𝑿 = 𝒙 𝟏, 𝒙 𝟐, 𝒙 𝟑, , , , 𝒙 𝑵 が得られた時、⺟集団の多 変量ガウス分布のパラメタを最尤推定で推定できる – ⼗分推定量 • 最尤推定 – ラグランジュ未定乗数法など(*共分散⾏列の推定は対称性を仮定し、結果が実際に対象になっていることを ⽰すといったやり⽅が無難) – 不偏推定の修正 18
  19. 19. 2.3.5 逐次推定 19 • ガウス分布の最尤推定において、逐次推定をすることを考える – 平均推定量について – 誤差信号の⽅向へ推定量を更新している – より汎⽤的なアルゴリズムが必要となる場合がある • Robbins-Monro アルゴリズム – より汎⽤的なアルゴリズム
  20. 20. 2.3.5 逐次推定 20 • 問題設定:回帰関数(2.127)が0となる解を求める – 最尤推定解𝜃qrは、負の対数尤度関数の停留点 – 微分と総和の演算の交換 • 結局、最尤推定解𝜃qrを求めること= 回帰関数の根𝜃*を求めること
  21. 21. 2.3.5 逐次推定 • Robbins-Monro アルゴリズム 1. 収束条件 2. 早すぎる収束の抑⽌ 3. ノイズ分散の発散の抑⽌ • Robbins-Monro アルゴリズムで、回帰関数の根𝜃* を求め、推定値を求め る 21
  22. 22. 2.3.6 ガウス分布によるベイズ推論 • ガウス分布における最尤推定の枠組みで、ベイズ主義的な扱い⽅をする – 事前分布にガウス分布を導⼊(*共役なのでok) – 最終的に – * – 以上より、以下の性質がわかる 22 引⽤:https://www.slideshare.net/devkato/233-236-28911396
  23. 23. 2.3.6 ガウス分布によるベイズ推論 • ベイズ的な観点から⾒た平均の逐次推定 – 最新のデータ𝒙 𝒏 によって 23
  24. 24. 2.3.6 ガウス分布によるベイズ推論 • ベイズ的な観点から⾒た分散の推定 – 平均を既知として分散を推定する – 分散の逆数:精度 𝜆 = 3 uZ⁄ の事前分布を考える – 𝜆の尤度関数 – 共役事前分布はガンマ分布 – a,bは有効観測数と捉えることができる – 𝜒の⼆乗分布に該当する 24
  25. 25. 2.3.6 ガウス分布によるベイズ推論 • ベイズ的な観点から⾒た平均と分散の推定 – 平均も分散も未知として推定する – 分散の逆数:精度 𝜆 = 3 uZ⁄ の事前分布を考える – 尤度関数と𝜇, 𝜆 の関係 – 事前分布に正規-ガンマ分布を⽤いる – 単純なガウス分布とガンマ分布の積ではないことに注意 • 𝜇 が 𝜆 の線形関数である 25
  26. 26. 2.3.7 スチューデントのt分布 • ガウス分布の精度パラメタの事前分布としてガンマ分布を⽤いた時、ス チューデントのt分布が知られている – 分散を未知とした時の𝒙 の分布 – ガウス分布に⽐べて「裾」が広く、頑健性(*外れ値に強い)を持つ 26
  27. 27. 2.3.8 周期変数 • ガウス分布対して周期変数を導⼊する • 周期変数の観測値の集合𝐷 = 𝜃3, 𝜃U, , , 𝜃x は、極座標表⽰できる – 極座標表⽰することによって、統計量が原点の位置に依存しない • フォン・ミーゼス分布 – 確率変数及び統計量を極座標表⽰することで、ガウス分布の周期変数への⼀般化を⾏う – 𝜃J:分布の平均, m:集中度パラメタ(精度) 27
  28. 28. 2.3.9 混合ガウス分布 • ガウス分布を線形結合することでデータの分布を表現する – 𝜋z:混合係数 • 確率的であり、k番⽬の混合要素を選択する事前確率と捉えることができる • 𝜋z = 𝑝(𝑘) – 事後確率𝑝(𝑘|𝒙) :負担率 – 最尤推定は閉会式の解析解では得られない->EMアルゴリズム 28
  29. 29. 2.4 指数型分布族 • 𝑥 上の指数型分布族 – 𝜂:分布の⾃然パラメタ – 𝑥:ベクトルでもスカラーでも良い、離散でも連続でも良い – 𝑔(𝜂): 正規化係数 • 指数型分布族の例 – ベルヌーイ分布 – 多項分布 – ガウス分布 29
  30. 30. 2.4.1 最尤推定と⼗分統計量 • モーメント – 正規化条件 – 𝜼 について両辺の勾配を求めると – 𝑢(𝑥)の期待値は𝑔(𝜂)のみに依存する • 指数型分布族の分布を正規化できれば、その分布のn次モーメントは𝑔(𝜂)のn回微分で求めら れる • 最尤推定の解と⼗分統計量 – 最尤推定で求められた推定量 𝜂qr ∝ ∑ 𝒖(𝒙) であるから、 ∑ 𝒖(𝒙) のみでデータの性質を 表していると⾔える->⼗分推定量(データの性質の⼗分条件) 30
  31. 31. 2.4.3 無情報事前分布 • 事前分布がわからない時に、できるだけ事後分布に影響を及ばさないような 分布 • 連続変数の時、𝑝 𝜆 = 𝑐𝑜𝑛𝑠𝑡とすると、不適切な場合がある – 変則事前分布(𝜆の有界でない場合、積分値が発散し正規化できない) – ⾮線形変換をする場合、変換先の確率密度が定数にならない • 無情報事前分布の例 – 平⾏移動性不変性 – 尺度不変性 31
  32. 32. 2.5 ノンパラメトリック法 • パラメトリック法 – 少数のパラメタから確率変数の分布の形状を決定する – あらかじめ確率分布の形状を仮定 – 仮定した分布が不適切な場合、予測性能が悪くなる • ノンパラメトリック法 – 分布の形状が制限されず、データによって形状を決定する – 分布の形状について僅かな家庭しかない 1. ヒストグラム密度推定法 • ⼀旦推定してしまえばデータを破棄できる->データが⼤規模な場合に有効 • 不連続性から応⽤には適さない 2. カーネル密度推定法 3. 最近傍法 32
  33. 33. 2.5 ノンパラメトリック法 • 近傍を考慮した密度推定 – あるD次元のユーグリッド空間中の未知の確率密度𝑝(𝑥)から、観測値の集合が得られて いるとする。この集合から𝑝(𝑥)を推定する – xを含むある⼩さな領域Rに割り当てられた確率Pは、 – Nが⼗分⼤きいとき、R内の総数Kは、 – また、Rが 𝑝(𝑥)がほぼ⼀定であるとするほどVが⼗分⼩さい時、 – よって、 – Kを固定しVを推定=>K近傍法 – Vを固定しKを推定=>カーネル密度推定法 33
  34. 34. 2.5.1 カーネル密度推定法 • 近傍を考慮した密度推定 – カーネル関数 に対して、⽴⽅体内部の総数をもとめ、(2.246)式に代⼊すると、推定密度 が得られる – ⽴⽅体の縁で確率密度が不連続となるので、ガウスカーネルなどを⽤いる 34
  35. 35. 2.5.2 最近傍法 • カーネル密度推定法では、カーネル幅(h)が常に⼀定であるため、 – hが⼤きいと全体的に平坦化されてしまう – hが⼩さいと全体的にノイズの多い推定になってします • データ空間内の位置に応じてhを変化させる • K近傍法 – 𝑝(𝑥)を推定したい点xを中⼼とした⼩球を考え、その半径を、k個のデータ点を含むまで 拡⼤する – この時の体積をVとして𝑝 𝑥 = P x„ から密度推定 • K近傍法を⽤いてクラス分類をすることができる – Xを中⼼に、K個の点を含む球を⾒つける – 各クラスに対してベイズの定理を⽤いて、クラスに属する事後確率を求める – 事後確率が最⼤のクラスに割り当てる 35
  36. 36. 参考資料 • パターン認識と機械学習 上 – C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監 訳), 村⽥ 昇 (監訳) • PRML勉強会第3回 2章前半 2013/11/28(⿊滝, slideshare) – https://www.slideshare.net/kurotaki_weblab/prml-28752844 • PRML上巻勉強会 at 東京⼤学 資料 第2章 2.3.3 〜 2.3.6 (加藤, SlideShare) – https://www.slideshare.net/devkato/233-236-28911396 • Prml2.1 2.2,2.4-2.5 (Takuto Kimura, SlideShare) – https://www.slideshare.net/TakutoKimura/prml21-222425 • [機械学習][PRML読書会] 第七回PRML勉強会Add Star(wilsonia) – http://d.hatena.ne.jp/wilsonia/20080911/1221143648 • 初級Mathマニアの寝⾔[中⼼極限定理](ogyahogya) – http://ogyahogya.hatenablog.com/entry/2014/10/23/%E4%B8%AD%E5%BF%83% E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86 36

×