More Related Content
Similar to 機械学習理論入門 3章 最尤推定法_遠藤
Similar to 機械学習理論入門 3章 最尤推定法_遠藤 (16)
More from Wataru Endo (6)
機械学習理論入門 3章 最尤推定法_遠藤
- 3. 最尤推定法とは
(さいゆうすいていほう : Maximum Likelihood Estimation)
ひとことで言うと?
あるデータが得られる確率を推定し、
特徴変数と目的変数の関数関係を説明できる、
もっとも良いパラメータを設定する方法のこと
最小二乗法とは何が違う?
最小二乗法では、誤差を最小にすることで、
もっとも良いパラメータを見つけた
誤差は誤差関数として定義した
最尤推定法では、尤度を最大にすることで、
もっとも良いパラメータを見つける
尤度は尤度関数として定義する
最尤推定は何が嬉しい?
「どの程度の範囲で外れそうか?」が分かる
- 8. 尤度関数
(ゆうどかんすう Likelihood function)
トレーニングセットに含まれるデータが得られる
確率を計算し、尤度関数を求める
𝑡 = 𝑡 𝑛を代入すると次式が得られる
𝑁 𝑡 𝑛|𝑓(𝑥 𝑛), 𝜎2
=
1
2𝜋𝜎2
𝑒
−
1
2𝜎2(𝑡 𝑛−𝑓(𝑥 𝑛))2
(3.7)
すべての観測点 𝑥 𝑛 𝑛=1
𝑁
について考えると、トレーニ
ングセット 𝑥 𝑛, 𝑡 𝑛 𝑛=1
𝑁
それぞれの確率の積になる
𝑃 = 𝑁 𝑡1 𝑓 𝑥1 , 𝜎2 × ⋯ × 𝑁 𝑡 𝑁 𝑓 𝑥 𝑁 , 𝜎2
= 𝑛=1
𝑁
𝑁(𝑡 𝑛|𝑓 𝑥 𝑛 , 𝜎2
) (3.8)
↑これが尤度関数
パラメータを入力とし、トレーニングセットのデータが得ら
れる確率が出力される関数ととらえることができる
- 10. パラメトリックモデルの3ステップ
3.最良の評価を与えるパラメーターを決定する(1/3)
パラメータを導く式展開
(3.7)を(3.8)に代入 (本より少し展開を詳しく)
𝑃 = 𝑛=1
𝑁 1
2𝜋𝜎2
𝑒
−
1
2𝜎2{𝑡 𝑛 −𝑓(𝑥 𝑛)}2
=
𝑛=1
𝑁
1
2𝜋𝜎2
×
𝑛=1
𝑁
𝑒
−
1
2𝜎2{𝑡 𝑛 −𝑓(𝑥 𝑛)}2
= (
1
2𝜋𝜎2)
𝑁
2 𝑒𝑥𝑝 −
1
2𝜎2 𝑛=1
𝑁
{𝑡 𝑛 − 𝑓 𝑥 𝑛 }2
(3.9)
ここで使っているもの
基本公式(P6) 指数関数の積は、引数の和に変換できる
𝑛=1
𝑁
𝑒 𝑥1 × ⋯ × 𝑒 𝑥 𝑁 = 𝑒 𝑥1+⋯+𝑥 𝑁 = 𝑒𝑥𝑝 𝑛=1
𝑁
𝑥 𝑛
総積(Π)内の係数のところ
𝑛=1
𝑁 1
2𝜋𝜎2
には変数がないので 𝑎 𝑛 = 𝐶 =
1
2𝜋𝜎2
定数 とおいて考えてみると
𝑛=1
𝑁
𝑎 𝑛 = 𝑎1 × 𝑎2 × ⋯ × 𝑎 𝑁 = 𝑎 𝑁
=
1
2𝜋𝜎2
𝑁
=
1
2𝜋𝜎2
𝑁
2
- 11. パラメトリックモデルの3ステップ
3.最良の評価を与えるパラメーターを決定する(2/3)
(3.9)の指数関数の中に最小二乗法で使用した二乗誤差と同じものが含まれ
ている
二乗誤差
𝐸 𝐷 =
1
2 𝑛=1
𝑁
𝑓 𝑥 𝑛 − 𝑡 𝑛
2
を使って尤度関数を表現すると、
𝑃 = (
1
2𝜋𝜎2)
𝑁
2 𝑒
−
1
𝜎2 𝐸 𝐷
(3.11)
パラメーターに対する依存性(式に含まれるパラメーターがどこに影響するか)を確認する
と、
1
𝜎2 のみ含まれているので、計算を簡単にするために𝛽と置く
β =
1
𝜎2 (3.12)
二乗誤差𝐸 𝐷は多項式wに依存している。明示すると次のようになる
𝑃 𝛽, 𝒘 = (
𝛽
2𝜋
)
𝑁
2 𝑒−𝛽𝐸 𝐷(𝑾)
(3.13)
(3.11)に(3.12)を代入して、多項式wを追加した式です。
対数を取って計算を簡単にする
ln 𝑃 𝛽, 𝒘 =
𝑁
2
ln 𝛽 −
𝑁
2
ln 2𝜋 − 𝛽𝐸 𝐷(𝑾) (3.14)
対数は単調増加関数なので、lnPが最大になるとPが最大になる
lnPを対数尤度関数と呼ぶ
- 12. パラメトリックモデルの3ステップ
3.最良の評価を与えるパラメーターを決定する(3/3)
対数尤度関数を最大にする(β,W)は、次の条件で決まる
𝜕(ln 𝑃)
𝜕𝑤 𝑚
= 0 𝑚 = 0, … , 𝑀 (3.15)
𝜕(ln 𝑃)
𝜕𝛽
= 0 (3.16)
(3.14)を(3.15)に代入する
𝜕𝐸 𝐷
𝜕𝑤 𝑚
= 0 𝑚 = 0, … , 𝑀 (3.17)
↑は2.1.3誤差関数を最小にする条件と同じ
なので、最尤推定法の多項式の係数は最小二乗法と同じ値になる
(3.14)を(3.16)に代入すると以下が得られる
1
𝛽
=
2𝐸 𝐷
𝑁
(3.18)
(3.18)を(3.12)に代入すると、標準偏差σを決定する式が得られる
σ =
1
𝛽
=
2𝐸 𝐷
𝑁
= 𝐸 𝑅𝑀𝑆 (3.19)
この𝐸 𝑅𝑀𝑆は2.1.4サンプルコードによる確認の(2.20)で定義した平方根平均二条誤差
と同じ
つまり、(3.19)はトレーニングセットに含まれるデータの「多項式で推定される値
𝑓 𝑥 𝑛 に対する平均的な誤差」を標準偏差σの推定値として採用することを意味する