16. 平均二乗誤差
MSE = ( − y )
∣∣x∣∣ = より
∣∣ − y ∣∣ =
MSE = ∣∣ − y ∣∣
test
m
1
i
∑ y^test test 2
2 √ (x )∑i i
2
y^test test
2 √ ( − y )∑i y^test test 2
test
m
1
y^test test
2
2
5.1学習アルゴリズム 16
17. MSE の最小化...勾配が0となる点を求めれば良い
∇wMSE = 0
⇒ ∇w ∥y − y ∥ = 0
⇒ ∇w∥X w − y ∥ = 0
⇒ ∇w(X w − y ) − (X w − y )
⇒ ∇w(w X w − 2wX y + y y ) = 0
⇒ 2X X w − 2X y = 0
⇒ w = (X X ) X y ...正規方程式
train
train
m
1 train train
2
2
m
1 (train) train
2
2
train train T train train
T trainT
train train train train
train train train train
train train −1 train train
5.1学習アルゴリズム 17
62. 具体的に、どのくらい計算量が増えるのか?
訓練データの負の条件付き対数尤度
J(θ) = E L(x, y, θ) = L(x , y , θ)
事例毎の損失 L(x, y, θ) = − log p(y∣x; θ)
勾配を求めるための計算コスト:O(m)
(データ数による増え方が単純にデータ数に依存)
...訓練データの事例集が多いほど、
1回の勾配を求めるステップにかかる時間が長くなる!
x,y∼p^data
m
1
i=1
∑
m
i i
5.9確率的勾配降下法 62