機械学習理論入門 3章最尤推定法_遠藤

ITエンジニアのための機械学習理論入門
第3章:
最尤推定法
確率を用いた推定理論
2016.7.14 機械学習勉強会
Wataru Endo

はじめに
 前回はすいませんでした！
（山田さんありがとう！）
 今日は数式メインに頑張ってみました。
 前回説明のあった部分は省略してますので山
田さんの資料をご確認ください。

最尤推定法とは
(さいゆうすいていほう : Maximum Likelihood Estimation)
 ひとことで言うと？
 あるデータが得られる確率を推定し、
特徴変数と目的変数の関数関係を説明できる、
もっとも良いパラメータを設定する方法のこと
 最小二乗法とは何が違う？
 最小二乗法では、誤差を最小にすることで、
もっとも良いパラメータを見つけた
 誤差は誤差関数として定義した
 最尤推定法では、尤度を最大にすることで、
もっとも良いパラメータを見つける
 尤度は尤度関数として定義する
 最尤推定は何が嬉しい？
 「どの程度の範囲で外れそうか？」が分かる

パラメトリックモデルの3ステップ
1.パラメーターを含むモデル(数式)を設定する(1/2)
 M次の多項式の関係を仮定する
（最小二乗法の場合と同じ）
 𝑓 𝑥 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥2
+ ・・・𝑤 𝑀 𝑥 𝑀
= 𝑚=0
𝑀
𝑤 𝑚 𝑥 𝑚 (3.1)

1.パラメーターを含むモデル(数式)を設定する(2/2)
 観測点𝑥 𝑛における観測値𝑡は、𝑓 𝑥 𝑛 を中心と
して𝑓 𝑥 𝑛 ± 𝜎の範囲に正規分布で散らばると
する。平均𝜇,分散𝜎2
 正規分布
 𝑁 𝑥|𝜇, 𝜎2
=
1
2𝜋𝜎2
𝑒
−
1
2𝜎2(𝑥−𝜇)2
(3.2)
 今回の場合、散らばるのは観測値𝑡、散らばりの
中心は𝑓 𝑥 𝑛 なので、𝑥と𝜇を置き換える。
 𝑁 𝑡|𝑓(𝑥 𝑛), 𝜎2
=
1
2𝜋𝜎2
𝑒
−
1
2𝜎2(𝑡−𝑓(𝑥 𝑛))2
(3.3)

2.パラメーターを評価する基準を決める
 ステップ1で用意したモデル
 𝑁 𝑡|𝑓(𝑥 𝑛), 𝜎2 =
1
2𝜋𝜎2
𝑒
−
1
2𝜎2(𝑡−𝑓(𝑥 𝑛))2
(3.5)
 𝑓 𝑥 = 𝑚=0
𝑀
𝑤 𝑚 𝑥 𝑚
(3.6)
 ※(3.5)は(3.3)、(3.6)は(3.1)と同じ
 パラメータはどれだ？
 多項式の係数 𝑤 𝑚 𝑚=0
𝑀
 標準偏差𝜎
 これらのパラメータを、最も良いものを見つける

尤度関数
(ゆうどかんすう Likelihood function)
 トレーニングセットに含まれるデータが得られる
確率を計算し、尤度関数を求める
 𝑡 = 𝑡 𝑛を代入すると次式が得られる
 𝑁 𝑡 𝑛|𝑓(𝑥 𝑛), 𝜎2
=
1
2𝜋𝜎2
𝑒
−
1
2𝜎2(𝑡 𝑛−𝑓(𝑥 𝑛))2
(3.7)
 すべての観測点 𝑥 𝑛 𝑛=1
𝑁
について考えると、トレーニ
ングセット 𝑥 𝑛, 𝑡 𝑛 𝑛=1
𝑁
それぞれの確率の積になる
 𝑃 = 𝑁 𝑡1 𝑓 𝑥1 , 𝜎2 × ⋯ × 𝑁 𝑡 𝑁 𝑓 𝑥 𝑁 , 𝜎2
= 𝑛=1
𝑁
𝑁(𝑡 𝑛|𝑓 𝑥 𝑛 , 𝜎2
) (3.8)
 ↑これが尤度関数
パラメータを入力とし、トレーニングセットのデータが得ら
れる確率が出力される関数ととらえることができる

最尤推定法とは(再び)
 「観測されたデータは、最も発生確率が高い
データに違いない」と信じて、式(3.8)確率Pを
最大になるようにパラメータを決定する手法
 …とも言える

3.最良の評価を与えるパラメーターを決定する(1/3)
 パラメータを導く式展開
 (3.7)を(3.8)に代入 (本より少し展開を詳しく)
 𝑃 = 𝑛=1
𝑁 1
2𝜋𝜎2
𝑒
−
1
2𝜎2{𝑡 𝑛 −𝑓(𝑥 𝑛)}2
=
𝑛=1
𝑁
1
2𝜋𝜎2
×
𝑛=1
𝑁
𝑒
−
1
2𝜎2{𝑡 𝑛 −𝑓(𝑥 𝑛)}2
= (
1
2𝜋𝜎2)
𝑁
2 𝑒𝑥𝑝 −
1
2𝜎2 𝑛=1
𝑁
{𝑡 𝑛 − 𝑓 𝑥 𝑛 }2
(3.9)
 ここで使っているもの
 基本公式(P6) 指数関数の積は、引数の和に変換できる
 𝑛=1
𝑁
𝑒 𝑥1 × ⋯ × 𝑒 𝑥 𝑁 = 𝑒 𝑥1+⋯+𝑥 𝑁 = 𝑒𝑥𝑝 𝑛=1
𝑁
𝑥 𝑛
 総積(Π)内の係数のところ
 𝑛=1
𝑁 1
2𝜋𝜎2
には変数がないので 𝑎 𝑛 = 𝐶 =
1
2𝜋𝜎2
定数とおいて考えてみると
𝑛=1
𝑁
𝑎 𝑛 = 𝑎1 × 𝑎2 × ⋯ × 𝑎 𝑁 = 𝑎 𝑁
=
1
2𝜋𝜎2
𝑁
=
1
2𝜋𝜎2
𝑁
2

 (3.9)の指数関数の中に最小二乗法で使用した二乗誤差と同じものが含まれ
ている
 二乗誤差
 𝐸 𝐷 =
1
2 𝑛=1
𝑁
𝑓 𝑥 𝑛 − 𝑡 𝑛
2
 を使って尤度関数を表現すると、
 𝑃 = (
1
2𝜋𝜎2)
𝑁
2 𝑒
−
1
𝜎2 𝐸 𝐷
(3.11)
 パラメーターに対する依存性(式に含まれるパラメーターがどこに影響するか)を確認する
と、
1
𝜎2 のみ含まれているので、計算を簡単にするために𝛽と置く
 β =
1
𝜎2 (3.12)
 二乗誤差𝐸 𝐷は多項式wに依存している。明示すると次のようになる
 𝑃 𝛽, 𝒘 = (
𝛽
2𝜋
)
𝑁
2 𝑒−𝛽𝐸 𝐷(𝑾)
(3.13)
 (3.11)に(3.12)を代入して、多項式wを追加した式です。
 対数を取って計算を簡単にする
 ln 𝑃 𝛽, 𝒘 =
𝑁
2
ln 𝛽 −
𝑁
2
ln 2𝜋 − 𝛽𝐸 𝐷(𝑾) (3.14)
 対数は単調増加関数なので、lnPが最大になるとPが最大になる
 lnPを対数尤度関数と呼ぶ

 対数尤度関数を最大にする(β,W)は、次の条件で決まる

𝜕(ln 𝑃)
𝜕𝑤 𝑚
= 0 𝑚 = 0, … , 𝑀 (3.15)

𝜕(ln 𝑃)
𝜕𝛽
= 0 (3.16)
 (3.14)を(3.15)に代入する

𝜕𝐸 𝐷
𝜕𝑤 𝑚
= 0 𝑚 = 0, … , 𝑀 (3.17)
 ↑は2.1.3誤差関数を最小にする条件と同じ
 なので、最尤推定法の多項式の係数は最小二乗法と同じ値になる
 (3.14)を(3.16)に代入すると以下が得られる

1
𝛽
=
2𝐸 𝐷
𝑁
(3.18)
 (3.18)を(3.12)に代入すると、標準偏差σを決定する式が得られる
 σ =
1
𝛽
=
2𝐸 𝐷
𝑁
= 𝐸 𝑅𝑀𝑆 (3.19)
 この𝐸 𝑅𝑀𝑆は2.1.4サンプルコードによる確認の(2.20)で定義した平方根平均二条誤差
と同じ
 つまり、(3.19)はトレーニングセットに含まれるデータの「多項式で推定される値
𝑓 𝑥 𝑛 に対する平均的な誤差」を標準偏差σの推定値として採用することを意味する

なぜ最小二乗法と最尤推定法の結
果が同じになるのか
 最小二乗法は最尤推定法の、正規分布の誤差
を仮定した特別な場合とみなせる
 尤度関数の中に二乗誤差が含まれていたため、同
じ多項式が得られた
 二乗誤差は正規分布の式(3.5)に含まれていたもの

End Of Document.
 (力尽きました。。)

機械学習理論入門 3章最尤推定法_遠藤

Recommended

Recommended

More Related Content

Similar to 機械学習理論入門 3章最尤推定法_遠藤

Similar to 機械学習理論入門 3章最尤推定法_遠藤 (16)

More from Wataru Endo

More from Wataru Endo (6)