最尤推定法(NNでの応用)

最尤推定法
-NNにおける応用例-
2018/12/10
東京工業大学工学院経営工学系 3年松井諒生
1

推定とは
母集団全てを調査して、母集団の特徴を知ることは現実的に難しい
母集団から一部分(標本)だけを取り出しその取り出したものの特徴
から母集団の特徴を予測する
知りたい母集団の特徴の例
・平均・割合・分散など
2

推定の簡単な例
ある一部分のデータの割合から全体の割合を推測する
ex）
画鋲を投げて針が下になる確率は？
コインと違って、画鋲の重さや重心、形、空気抵抗などを計算しない
と理論上の確率は割り出せない。
→数回繰り返し、そこから近似値を求める
100回のうち３0回針が下になったからおおよその確率は3/10
3

本当にそうなのか？
ここで最尤推定法が用いられる
画鋲の例で考える。
標本の大きさはn、針が下になる確率をθとすると、
x回成功する確率Pは
P 𝑥, 𝜃 =
𝑛
𝑥
𝜃 𝑥
1 − 𝜃 𝑛−𝑥
この式はxを変数と見れば、xに関する確率分布を表す確率関数と
みなせ、 𝑥=0
𝑛 𝑛
𝑥
𝜃 𝑥
(1 − 𝜃) 𝑛−𝑥
= 1となる
しかし、この例のように実際にはθでなくｘがわかっていること
も多い。 4

θを変数と見れば、xが定められたときにθがいかに適切か(尤も
らしいか)を示す「尤度」を表す尤度関数だとみなせる。
したがって、P(x,θ)を実験で求められたｘの値で固定して、θ
を変数としてみると、この実験での尤度関数がとなる。
尤度関数が最大⇔θが最も適切
となることから、この尤度関数を最大にさせるθが理論上の値に
最も近いとみなせる。
5

理論値(と推定できる値)を求める
log 𝑃 = 𝑥 log(𝜃) − (𝑛 − 𝑥) log(1 − 𝜃) + log(
𝑛
𝑥
)
𝑑
𝑑𝜃
log 𝑃 =
𝑥
𝜃
−
𝑛 − 𝑥
1 − 𝜃
𝑑
𝑑𝜃
log 𝑃 = 0 ⟺ 𝜃 =
𝑥
𝑛
logP
x/n
Max(logP)
100回中、30回針が下になったとき、針が下になる確率は3/10
と事が推定することが最も適当であることが確かめられた
6

二値分類ニューラルネットでは
出力を一つのノードにし、0~1の値を出力させる
その入力が0.5より小さければ０、大きければ１と決定する。
0.5~1 → 1
0~0.5 → 0
7

まずは1入力を2値分類する場合
8

入力A(X,t)は判断させたいベクトルXと教師データ値tをもっている
ｔは０か１である
出力関数をf(X,W)とすると、
(Wは全重みと全バイアスを成分に持つベクトル)
・t=0のときはf(X,W)<0.5で正解、f(X,W)>0.5で不正解
・t=1のときはf(X,W)<0.5で不正解、f(X,W)>0.5で正解
このように整理できる。
(入力ベクトル1個)
9

これをまとめるとp(x)を以下のように置いたとき、
𝑝 𝑿, 𝑾 = 𝑓 𝑿, 𝑾
𝑡
(1 − 𝑓 𝑿, 𝑾 )1−𝑡
p(X,W)<0.5で不正解、p(X,W)>0.5で正解となるといえる
10

Xは簡単に知ることができるデータ(針が下になる回数)
Wは知りたい、適切なパラメータ(針が下になる確率)
p(X,W)は正解となる確率(厳密には少し違う)であり、かつWがど
れだけ適切かを表す尤度関数である。
したがってWを変数として、
p(X,W)を最大とするWを求めれば最も
適切なパラメータが算出できる
11

𝑝 𝑿, 𝑾 = 𝑓 𝑿, 𝑾
𝑡
(1 − 𝑓 𝑿, 𝑾 )1−𝑡
p(X,W)が最大⇔logp(x)が最大⇔-logp(x)が最小だから
𝐸 𝑾 = − log 𝑝 𝑿, 𝑾 = − tlog 𝑓 𝑿, 𝑾 + 1 − 𝑡 log(1 − 𝑓 𝑿, 𝑾 )
E(W)を損失関数として、これを最小にしていくことを考える
12

𝑑
𝑑𝑊
𝐸 𝑾∗ = 0
⟺ 任意の 𝑘, 𝑖, 𝑗 で
𝜕
𝜕𝑤𝑘𝑖𝑗
𝐸 𝑾∗ = 0
となるときE(W)が最小、つまりXにとって最も適切なWとなる。
W* W
13

n個の入力を2値分類する場合
14

入力が A1(X1,t1) A2(X2,t2) ・・・ An(Xn,tn) と、ｎ個ある場合を考
えると、k回目の入力の尤度は下のようにあらわせる。
𝑝𝑘 𝑿𝒌, 𝑾 = 𝑓 𝑿𝒌, 𝑾
𝑡𝑛
(1 − 𝑓 𝑿𝒌, 𝑾 )1−𝑡𝑛
k回目の出力は p(Xk,W)<0.5で不正解、p(Xk,W)>0.5で正解
k回の試行はすべて独立であるから1~n回目の全体の尤度関数(確率関数)
は下のようにあらわせる。
𝑝 𝑿𝟏, 𝑿𝟐, ⋯ 𝑿𝒏, 𝑾 =
𝑘=1
𝑛
𝑝(𝑿𝒌, 𝑾)
(入力ベクトルn個)
15

入力ベクトル1個のときと同様に対数とって符号をかえることで、
𝐸 𝑾 = −log(
𝑘=1
𝑛
𝑝(𝑿𝒌, 𝑾)) =
𝑘=1
𝑛
−log(𝑝(𝑿𝒌, 𝑾))
を損失関数として定義できる。
(＊ミニバッチではそれぞれの平均をとる操作があり、右辺に1/Nが
かけられていることがあるが、学習係数に含まれるためあまり意味
はない)
16

1入力を多値分類する場合
17

出力N個のノードにし、0~1の値を出力させる
その入力が最も大きいクラスの出力を1、そのほかの出力を0と
することで一つのクラスに分類する。
多値分類ニューラルネットでは
g1(X,W) 0~1
gN(X,W) 0~1
g(X,W)
18

入力(X,t)は判断させたいベクトルXと教師ベクトルtをもっている
t=(t1,t2,t3・・・tN)で、例えば3番目のクラスに分けたいときは
t=(0,0,1,0,0・・・0)となる。
出力関数g(X,W)のm番目の成分をgm(X,W)とすると、これはｍ番目
のクラスに分類される確率とみなせるので、
・tm=0であるmは考えず、
・tm=1であるmで、gm(X,W)が大きいほど正解に近づく
と、整理できる
19

これをまとめると、p(x)を以下のように置いたとき、
𝑝 𝑿, 𝑾 =
𝑚=1
𝑁
𝑔𝑚 𝑿, 𝑾
𝑡𝑚
これが大きいほど正解に近いといえる。
(右辺はm番目以外１なので、実質はk=1のfm(X,W)を表す)
20

これまでと同様に、このp(X,W)をXを固定してWの尤度関数とみて、
E 𝒘 = −log 𝑝 𝑿, 𝑾 = −
𝑚=1
𝑁
𝑡m(log 𝑔 𝑿, 𝑾 ))
と、損失関数を定義することで、最適なWを求めていく。
21

1入力を多値分類する場合
22

入力が A1(X1,t1) A2(X2,t2) ・・・ An(Xn,tn) と、ｎ個ある場
合を考えると、k回目の入力の尤度は
𝑝 𝑿𝒌, 𝑾 =
𝑚=1
𝑁
𝑔𝑚 𝑿𝒌, 𝑾
𝑡𝑚
すべてのkについて、これが大きいほど正解に近づくので、
1~n回目の全体の尤度関数は下のようにあらわせる
𝑝 𝑿𝟏, 𝑿𝟐, ⋯ 𝑿𝒏, 𝑾 =
𝑘=1
𝑛
𝑚=1
𝑁
𝑔𝑚(𝑿𝒌, 𝑾)
23

これまでと同様に、対数とって符号を変えることで、
𝐸 𝒘 = −log(
𝑘=1
𝑛
𝑚=1
𝑁
𝑔𝑚(𝑿𝒌, 𝑾))
= −
𝑘=1
𝑛
𝑚=1
𝑁
𝑡 𝑘𝑚 log 𝑔 𝑚(𝑿 𝒌, 𝑾)
として、損失関数を決定できる。
また、このE(W)をクロスエントロピーと呼ぶ
24

関数f(x)、g(x)について
𝑓 𝑥 =
1
1+𝑒−𝑦:シグモイド関数
𝑔 𝑥 =
𝑒 𝑦𝑖
𝑘 𝑒 𝑦𝑘:ソフトマックス関数
y=WX+B
ソフトマックス関数の𝑦 𝑘のすべてに定数ｓを加えた時も約分され
て値は変わらない。よって、制約を付けなければ出力層に入る結
合の重みW、Bが一つに定まらない。
重み減衰重み上限ドロップアウトなどを取り入れる
25

最尤推定法(NNでの応用)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from MatsuiRyo

More from MatsuiRyo (8)

最尤推定法(NNでの応用)