Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703

3,272 views

Published on

PRML Revenge 2.4

Published in: Education

C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703

  1. 1. PRML 読書会復習レーン 2.4 指数型分布族 [email_address] Yoshinori Kabeya
  2. 2. 目次 <ul><li>2.4 指数型分布族とは </li></ul><ul><ul><li>ベルヌーイ分布 </li></ul></ul><ul><ul><li>多項分布 </li></ul></ul><ul><ul><li>ガウス分布 </li></ul></ul><ul><li>2.4.1 最尤推定と十分統計量 </li></ul><ul><li>2.4.2 共役事前分布 </li></ul><ul><li>2.4.3 無情報事前分布 </li></ul>
  3. 3. 指数型分布族とは(1/2) <ul><li>x 上の指数型分布族は η をパラメータ ( 自然パラメータと呼ぶ ) として (2.194) で定義されるものをいう </li></ul><ul><ul><li>x はスカラーでもベクトルでもよい </li></ul></ul>(2.194) (2.195) 自然パラメータ (natural parameter) 分布を正規化するための係数と解釈できる
  4. 4. 指数型分布族とは(2/2) <ul><li>今まで学んできた確率分布は指数型分布族である </li></ul><ul><ul><li>混合ガウス分布は除く </li></ul></ul>指数型分布族 混合ガウス分布 ガウス分布 ベータ分布 ディリクレ分布 スチューデントの t 分布
  5. 5. 指数型分布族であることの証明① <ul><li>ベルヌーイ分布 (Bernoulli distribution)(1/2) </li></ul>(2.196) (2.197) (2.198) (2.199) (2.194) の η u について解く ロジスティックシグモイド関数 (logistic sigmoid function)
  6. 6. 指数型分布族であることの証明① <ul><li>ベルヌーイ分布 (Bernoulli distribution) (2/2) </li></ul>(2.200) (2.201) (2.202) (2.203) を利用 (2.194) ベルヌーイ分布が指数分布族であることが確認された
  7. 7. 指数型分布族であることの証明② <ul><li>多項分布 (multinormial distribution)(1/5) </li></ul>(2.204) (2.205) (2.206) (2.208) を利用 (2.207) 多項分布が指数分布族であることが確認された Log とって exp をとる
  8. 8. 指数型分布族であることの証明② <ul><li>多項分布 (multinormial distribution) (2/5) </li></ul>(2.209) (2.210) ここで多項分布には下記の制約がある この制約を用いて多項分布を表記すると・・・
  9. 9. 指数型分布族であることの証明② <ul><li>多項分布 (multinormial distribution) (3/5) </li></ul>(2.211) (2.212)
  10. 10. 指数型分布族であることの証明② <ul><li>多項分布 (multinormial distribution) (4/5) </li></ul>(2.212) (2.213) (2.212) のすべての k について両辺を足し合わせて、式に再代入すると・・ (2.214) ソフトマックス関数 (softmax function) 正規化指数関数 (normalized exponential function)
  11. 11. 指数型分布族であることの証明② <ul><li>多項分布 (multinormial distribution) (5/5) </li></ul>(2.211) (2.214) 結局この場合の多項分布は (2.215) (2.216) (2.217) ソフトマックス関数を使った表記でも多項分布が指数分布族であることが確認された
  12. 12. 指数型分布族であることの証明③ <ul><li>ガウス分布 (Gaussian distribution) </li></ul>(2.218) (2.219) (2.220) (2.221) (2.222) (2.223) ガウス分布も指数分布族で あることが確認された
  13. 13. 2.4.1 最尤推定と十分統計量(1/3) <ul><li>最尤推定によって指数分布型族の一般系のパラメータベクトル η を推定しよう </li></ul>(2.195) η について両辺の勾配を求めると・・ (2.225) さらに u(x) の共分散は g(η) の 2 次微分で表せる より高次のモーメントについても微分することにより求められる (2.226) (2.300)
  14. 14. 2.4.1 最尤推定と十分統計量(2/3) <ul><li>問題 2.58   u(x) の共分散を求める </li></ul>η についてさらに微分すると・・
  15. 15. 2.4.1 最尤推定と十分統計量(3/3) <ul><li>独立に同分布に従うデータ (i.i.d) の集合 X={X1,X2 ・・・ Xn} を考える </li></ul><ul><li>この集合の尤度関数は </li></ul>(2.227) η について両辺の勾配を0とおいて求めると・・ (2.228) これにより最尤推定の解は       を通じてのみ依存 よって      を (2.194) の 十分統計量 と呼ぶ この性質によりデータ全体を保持する必要はなく、十分統計量の値だけ 保持しておけばよい ベルヌーイ分布・・・ {Xn} の和 ガウス分布・・・ {Xn} の和と {Xn}^2 の和 N->∞ の場合 (2.228) の右辺は E[u(x)] となる。->極限では真の値と等しくなる
  16. 16. 2.4.2 共役事前分布 <ul><li>指数型分布族 (2.194) の任意の分布について次の形で書ける共役事前分布が存在する </li></ul>(2.229) (2.230) これにより (2.229) と再び同じ関数形になっており、事前分布が共役であることが確認できた ν は事前の仮想観測値と解釈できる 共役であることを確かめるために尤度関数 (2.227) を掛けると
  17. 17. 2.4.3 無情報事前分布 無情報事前分布の定義 (1/2) <ul><li>確率的推論を実際の問題に適用するときに、事前に何かしら知識があればそれを事前分布によって表現できる </li></ul><ul><li>例:コインの表裏:形状から 1/2 と推定できる </li></ul><ul><li>しかし分布がどのような形状になるべきかについて知見があまりない場合が多い </li></ul><ul><li>その場合は 事後分布への影響がなるべく少なくなる ようにした </li></ul><ul><li>無情報事前分布 (noninformative prior distribution) という事前分布を求める </li></ul><ul><li>  「データ自身に語らせる (letting the data speak for themselves) 」 </li></ul><ul><li>パラメータ λ で定められる分布 p(x|λ) について p(λ)=const のような事前分布を用いたい </li></ul><ul><li> ①離散変数の場合 </li></ul><ul><li>   ・・・事前確率を p(λ)=1/K のようにすればよい </li></ul><ul><li>  </li></ul>
  18. 18. 2.4.3 無情報事前分布 無情報事前分布の定義 (2/2) <ul><li>② 連続変数の場合 </li></ul><ul><li>  ・・・ 2 つの問題点がある。 </li></ul><ul><li>Ⅰ .λ の定義域が有界でない場合、 λ 上での積分が発散してしまい、事前分布が正しく正規化できない。すなわち変則事前分布 ( 不完全事前分布 :improper prior) となる </li></ul><ul><li>    -> 変則事前分布となっても事後分布が適切で正しく正規化できる場合はよしとする。 </li></ul><ul><li> Ⅱ.非線形な変数変換をした時の確率密度の変化に起因する問題 </li></ul><ul><li>  単に関数が h(λ) が定数の場合、     のように変えても        も定数となる                             </li></ul><ul><li>  しかし確率密度 を定数とすると η の確率密度は (1.27) より </li></ul><ul><li>    </li></ul><ul><li>となり η 上の密度は定数とならない </li></ul><ul><li>  -> 事前分布が同じ形式を保つような表現を考察する必要がある </li></ul>(2.231)
  19. 19. 2.4.3 無情報事前分布 平行移動不変性 (translation invarance)(1/2) (2.232) この性質から x を定数分移動させて       としても ここから無情報事前分布の簡単な例について考える。 平行移動不変性とは・・・ 次式に記載させる確率密度の族は平行移動不変性をもつという (2.233) よって新しい変数でもとの変数と同じ形式を保ち、確率密度は原点の取り方に依存しない このような平行移動不変性をもつ事前分布を選ぶとすると A≦u≦B に入る確率が区間 A-c≦u≦B-c に入る確率が同じになるため この式が任意のAとBについて成立しなくてはならないため が得られ、この式より p(u) は 定数 となる (2.234) (2.235) 位置パラメータ (location parameter)
  20. 20. 2.4.3 無情報事前分布 平行移動不変性 (translation invarance)(2/2) 位置パラメータの例としてガウス分布の平均uがある ガウス分布の事前分布で        極限を取れば無情報事前分布となる u 上の事後分布に事前分布が全く影響していない (2.141)
  21. 21. 2.4.3 無情報事前分布 尺度不変性 (scale parameter)(1/5) (2.236) 尺度不変性とは・・・ 次式に記載させる確率密度は尺度不変性をもつという σは尺度パラメータ(scale parameter)という (2.237) f (x)が正規化されていれば、この分布も正規化されている よって x を定数倍して としても同じ形式が保たれる
  22. 22. 2.4.3 無情報事前分布 尺度不変性 (scale parameter)(2/5) (2.238) 尺度不変性をもつ事前分布を選ぶとすると A≦u≦B に入る確率が区間 A/c≦u≦B/c に入る確率が同じになるため (2.239) この式が任意 A と B について成立しなくてはならないので これより p(σ)∝1/σ の条件が得られる !? 除算した区間において積分が同じになるということは区間の差が比の形となる すなわち対数とならなければならない。よって p(σ)∝1/σ なる必要がある。
  23. 23. 2.4.3 無情報事前分布 尺度不変性 (scale parameter)(3/5) 尺度パラメータの事前分布を考えた場合、パラメータの対数密度を考えたほうが便利なことが多い。そこで (1.27) の変換規則を用いると p(lnσ)=const となる !? ここで p(σ)∝1/σ という制限があるため p(lnσ) は σ に対して const となる よって 1≦σ≦10 に入る確率は 10≦σ≦100,100≦σ≦1000 に入る確率と等しくなる
  24. 24. 2.4.3 無情報事前分布 尺度不変性 (scale parameter)(4/5) 尺度パラメータの例として位置パラメータuを考慮済みのガウス分布の標準偏差がある ここで σ よりも精度 λ=1/σ^2 のほうが扱いやすいので よって確率分布の p(σ)∝1/σ は p(λ)∝1/λ に相当 (2.240)
  25. 25. 2.4.3 無情報事前分布 尺度不変性 (scale parameter)(5/5) λの共役事前分布はガンマ分布であった。 ここで        の場合 (2.150),(2.151) から事後分布は事前分布の要因に影響を受けないことがわかり、 (2.150) (2.151) 無情報事前分布となることがわかる (2.146)
  26. 26. まとめ <ul><li>指数型分布族という考え方を導入するメリット </li></ul><ul><ul><li>共役事前分布の形がわかる </li></ul></ul><ul><ul><li>最尤推定量がわかる </li></ul></ul>

×