Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
機械学習基礎
パラメータ推定
本シリーズの目的
とりあえずデータを持ってきた
機械学習を使って何かやろう
 目的を決めて問題を設定する
 問題に対して適切な手法を決定する
万能感!
↑ができるようになる
今回の範囲
まず機械学習における基礎知識が必要
今回はパラメータ推定の基本について
 最尤推定
 ベイズ推定
パラメータ推定とは
パラメータ推定の概要
パラメータ推定とは
ex. データはポアソン分布でμの値が未知
→データからパラメータ推定で獲得
あるデータが観測された
データはある確率分布で生成されたと仮定する
パラメータを推定
確率分布(仮定)
観測データ
パラメータθ{μ,σ}
推定サンプリング
パラメータ推定とは
※イメージ補足
何が嬉しい?
データの分布が分かる
 クラスタリング・分類ができるようになる
仮説検定に利用できる
 統計的仮説検定
 BIC
分布から補間ができる
 内挿・外挿
などなど…
パラメータ推定手法
最尤推定とベイズ推定について
パラメータ推定
基本的なパラメータの推定手法
1.最尤推定
2.ベイズ推定
どっちを選べば?
最尤推定とベイズ推定 考え方の違い
最尤推定
 頻度主義
 真の値(モデル)から観測データが確率的に得られるという考え
 観測データが得られる尤もらしい真の値を推定する
ベイズ推定
 ベイズ主義
 真の値の確率分布を考えて観測デー...
最尤推定とベイズ推定 推定の仕方の違い
 尤度:ある仮説Hiのもとで事象Dが起こる度合い P(D|Hi)
 事後確率:事象Dを観測したとき仮説Hiが正しい確率 P(Hi|D)
最尤推定
最尤推定は尤度を最大化する仮説Hiを推定する
⇛パラメ...
仮定
独立に同一の確率分布に従うデータであるとする
 “独立に” = 観測データは各データの確率の積の形で書ける
 “同一の” = 1種類の確率関数p(x)で書ける
このP(D|θ)を尤度という
:パラメータがθであるときの確率関数
:観...
対数尤度とは
尤度が積の形で少し扱いにくい
→対数をとって和算の形に
このlog P(D|θ)を対数尤度という
推定の仕方
最尤推定とベイズ推定の手法
最尤推定
最尤推定は対数尤度が最も高くなるようにパラメータを決定
P(D|θ)についての最大化問題
 凸関数なら偏微分して0!
ベイズ推定
ベイズ推定はP(θ|D)の確率分布(事後分布)を求める
最尤推定ではθを未知パラメータとしたが、ベイズ推定はθを
確率変数とする
事前にあるθの分布をデータによって更新した分布を求めると
いう考え方
ただし、パラメータの事前...
ベイズ推定
事後分布P(θ|D) は、
↑事前分布
※θの確率ではなくθの確率分布(事後分布)
ベイズ推定
θの事後分布の導出はできたが,θを一つに定めたいときはど
うするのか?
 事後分布の期待値を使う
⇛ 一般的な手法
 事後分布が最大となる値を使う
⇛ 最大事後確率推定(MAP推定)
最大事後確率推定(MAP推定)
最大事後確率推定(maximum a posteriori estimation)の頭文字
とってMAP推定とか言ったりする
事後確率(事後分布)P(θ|D)が最大となるθを採用する
θの事後分布P(θ|D) は、
最大となるθを求めたいので、右式の分子のみについて考える
積の形は扱いにくいので対数をとって、
↑対数尤度
事前分布↑
最大事後確率推定(MAP推定)
これを計算して最大となったθを採用する
ところで…
事前分布P(θ)ってどうするの?
パラメータθの分布が既に分かっているならばその確率分布を
設定する
パラメータθについて何も知見が無い場合は事前分布を適当に
決める
 無情報自然分布(要は一様分布)
 階層事前分布(事前分布の事前分布...
データの予測
点推定の場合とベイズ推定の場合
データの予測
最尤推定・MAP推定・ベイズ推定でθの値or分布は入手できた
けど,値を予測したい場合はどうすれば?
以下予測したいデータの分布を(確率変数をyとして)
とする(予測分布)
点推定の場合
最尤推定とMAP推定はパラメータθの値を推定した
このとき求めたい予測分布を
として分布を決定する
ベイズ推定の場合
ベイズ推定の場合,得られたのはθの事後分布P(θ|D)
求めたい予測分布は,
として得られる
結局どれを選べばよいのか?(まとめ)
ベイズ推定は事前分布の導入が必要
点推定は外れ値に弱い
点推定は計算量が少ない
ベイズ推定は分布が出力されるので、最尤推定では得られな
い推定値の信頼度等が得られる
事前分布がベイズ推定に及ぼす影...
Upcoming SlideShare
Loading in …5
×

機械学習基礎(2)(パラメータ推定)

3,705 views

Published on

機械学習の基礎的なプレゼンを行った際のスライド(2)
今回はパラメータ推定(最尤推定・ベイズ推定)

Published in: Technology
  • Be the first to comment

機械学習基礎(2)(パラメータ推定)

  1. 1. 機械学習基礎 パラメータ推定
  2. 2. 本シリーズの目的 とりあえずデータを持ってきた 機械学習を使って何かやろう  目的を決めて問題を設定する  問題に対して適切な手法を決定する 万能感! ↑ができるようになる
  3. 3. 今回の範囲 まず機械学習における基礎知識が必要 今回はパラメータ推定の基本について  最尤推定  ベイズ推定
  4. 4. パラメータ推定とは パラメータ推定の概要
  5. 5. パラメータ推定とは ex. データはポアソン分布でμの値が未知 →データからパラメータ推定で獲得 あるデータが観測された データはある確率分布で生成されたと仮定する パラメータを推定
  6. 6. 確率分布(仮定) 観測データ パラメータθ{μ,σ} 推定サンプリング パラメータ推定とは ※イメージ補足
  7. 7. 何が嬉しい? データの分布が分かる  クラスタリング・分類ができるようになる 仮説検定に利用できる  統計的仮説検定  BIC 分布から補間ができる  内挿・外挿 などなど…
  8. 8. パラメータ推定手法 最尤推定とベイズ推定について
  9. 9. パラメータ推定 基本的なパラメータの推定手法 1.最尤推定 2.ベイズ推定 どっちを選べば?
  10. 10. 最尤推定とベイズ推定 考え方の違い 最尤推定  頻度主義  真の値(モデル)から観測データが確率的に得られるという考え  観測データが得られる尤もらしい真の値を推定する ベイズ推定  ベイズ主義  真の値の確率分布を考えて観測データによって分布を更新する  確率分布から真の値を決定する
  11. 11. 最尤推定とベイズ推定 推定の仕方の違い  尤度:ある仮説Hiのもとで事象Dが起こる度合い P(D|Hi)  事後確率:事象Dを観測したとき仮説Hiが正しい確率 P(Hi|D) 最尤推定 最尤推定は尤度を最大化する仮説Hiを推定する ⇛パラメータHiの点推定 ベイズ推定 事後確率の確率分布を求めて、パラメータHiを推定する ⇛事前分布(事前確率P(Hi)の分布)を導入する必要がある
  12. 12. 仮定 独立に同一の確率分布に従うデータであるとする  “独立に” = 観測データは各データの確率の積の形で書ける  “同一の” = 1種類の確率関数p(x)で書ける このP(D|θ)を尤度という :パラメータがθであるときの確率関数 :観測データ このとき観測データが得られる確率は 尤度って?
  13. 13. 対数尤度とは 尤度が積の形で少し扱いにくい →対数をとって和算の形に このlog P(D|θ)を対数尤度という
  14. 14. 推定の仕方 最尤推定とベイズ推定の手法
  15. 15. 最尤推定 最尤推定は対数尤度が最も高くなるようにパラメータを決定 P(D|θ)についての最大化問題  凸関数なら偏微分して0!
  16. 16. ベイズ推定 ベイズ推定はP(θ|D)の確率分布(事後分布)を求める 最尤推定ではθを未知パラメータとしたが、ベイズ推定はθを 確率変数とする 事前にあるθの分布をデータによって更新した分布を求めると いう考え方 ただし、パラメータの事前確率分布P(θ)が既知である必要が ある
  17. 17. ベイズ推定 事後分布P(θ|D) は、 ↑事前分布 ※θの確率ではなくθの確率分布(事後分布)
  18. 18. ベイズ推定 θの事後分布の導出はできたが,θを一つに定めたいときはど うするのか?  事後分布の期待値を使う ⇛ 一般的な手法  事後分布が最大となる値を使う ⇛ 最大事後確率推定(MAP推定)
  19. 19. 最大事後確率推定(MAP推定) 最大事後確率推定(maximum a posteriori estimation)の頭文字 とってMAP推定とか言ったりする 事後確率(事後分布)P(θ|D)が最大となるθを採用する
  20. 20. θの事後分布P(θ|D) は、 最大となるθを求めたいので、右式の分子のみについて考える 積の形は扱いにくいので対数をとって、 ↑対数尤度 事前分布↑ 最大事後確率推定(MAP推定) これを計算して最大となったθを採用する
  21. 21. ところで…
  22. 22. 事前分布P(θ)ってどうするの? パラメータθの分布が既に分かっているならばその確率分布を 設定する パラメータθについて何も知見が無い場合は事前分布を適当に 決める  無情報自然分布(要は一様分布)  階層事前分布(事前分布の事前分布を推定)  自然共役事前分布(事前分布と事後分布の形を同じにする)
  23. 23. データの予測 点推定の場合とベイズ推定の場合
  24. 24. データの予測 最尤推定・MAP推定・ベイズ推定でθの値or分布は入手できた けど,値を予測したい場合はどうすれば? 以下予測したいデータの分布を(確率変数をyとして) とする(予測分布)
  25. 25. 点推定の場合 最尤推定とMAP推定はパラメータθの値を推定した このとき求めたい予測分布を として分布を決定する
  26. 26. ベイズ推定の場合 ベイズ推定の場合,得られたのはθの事後分布P(θ|D) 求めたい予測分布は, として得られる
  27. 27. 結局どれを選べばよいのか?(まとめ) ベイズ推定は事前分布の導入が必要 点推定は外れ値に弱い 点推定は計算量が少ない ベイズ推定は分布が出力されるので、最尤推定では得られな い推定値の信頼度等が得られる 事前分布がベイズ推定に及ぼす影響は、観測回数nが小さいほ ど大きく、nが大きいほど小さい nが小さい場合は、事前分布が適切に設定されているならば、 ベイズ推定が有利 nが大きい場合は事前分布の重要度が小さくなるので、最尤推 定とベイズ推定の結果がほぼ一致し、両者に優劣は無い

×