PRML復々習レーン#9 6.3-6.3.1

PRML復々習レーン#9
6.3 RBFネットワーク
6.3.1 Nadaraya-Watson モデル
2013-03-10
Yoshihiko Suhara
@sleepy_yoshi

1

もくじ
• 6.3 RBFネットワーク
– 6.3.1 Nadaraya-Watson モデル

2

復習の復習

3.6 固定された基底関数の限界
ポイントだよ

基底関数をたくさん用意すれば線形モデルでいいじゃん
⇒ ＮＯ！ソンナコトハナイ！

•  訓練データを観測する前に基底関数𝜙 ⋅ を決定する必要
がある
•  入力空間の次元数に対して指数的に基底関数を増やして
いく必要性
• ただし
– データベクトルは本質的な次元数が入力次元数よりも小さい非線形
多様体に大体分布しているという性質がある
– うまいこと基底関数を選べればよい (NN@5章) or 基底関数を明示的
に選ばない方法を用いられればよいのでは? (カーネル法@6章, 7章)
3

6.3 RBFネットワーク

4

Radial Basis Funciton (RBF)
• 動径 (放射) 基底関数
• 中心𝝁からの距離のみに依存する基底関数
𝜙 𝒙 =ℎ 𝒙− 𝝁
– RBFの例
• ガウス基底関数: exp −𝛾 𝒙 − 𝝁 2
• Thin plate spline: 𝒙 − 𝝁 2 log 𝒙 − 𝝁
ガウス基底関数のイメージ Thin plate splineのイメージ
45

40

35

30

25

20

15

10

5

0

-5
-5 -4 -3 -2 -1 0 1 2 3 4 5

5
𝝁 𝝁

RBFはなんでもよい?
• [Chen+ 91] から抜粋

6

RBFによる関数補間
• RBFが初めて使われたのは関数補間
– 関数補間：目的変数の値を正確に再現する関数を
求める問題
– 各データ点を中心においたRBFの線形結合で実現
𝑁

𝑓 𝑥 = 𝑤𝑛 ℎ 𝒙− 𝒙𝑛
𝑛=1

• 重みは最小二乗法によって求める
– 参考: (3.15)式 𝒘 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕

7

RBFネットワークのイメージ
• RBFの線形結合の直感的イメージ
𝑁

𝑓 𝑥 = 𝑤ℎ ℎ 𝒙− 𝒙𝑛
𝑛=1
各RBFの線形和を出力

入力𝒙
𝜙1 𝜙2 𝜙3
𝒙1 𝑤1

𝒙2 𝑤2 𝑓(𝒙)
…

…
𝑤𝑛

𝒙𝑛
𝒙 8

入力変数にノイズがある場合
• 入力変数xに含まれるノイズを，確率分布𝜈(𝜉)
に従う𝜉によって表した際の二乗誤差関数
𝑁
1 2
𝐸= 𝑦 𝒙𝑛+ 𝝃 − 𝑡𝑛 𝜈 𝝃 𝑑𝝃 (6.39)
2
𝑛=1

• 変分法を用いて最適化
𝑁

𝑦 𝑥 = 𝑡 𝑛ℎ 𝒙 − 𝒙 𝑛 (6.40)

𝑛=1

9

基底関数の正規化
• (6.41)により，任意のxに対して 𝑛 ℎ(𝒙 − 𝒙 𝑛) =
1に正規化されている
– 正規化後は右図のようになっている

10

計算コストの削減
• 各データ点に基底関数が用意されているた
め，入力データに対して特徴次元数×基底
関数の数だけ計算コストがかかる

• 計算コストの削減するために基底関数を絞
り込むことを考える
– データ点の部分集合をランダムに選択
– 直交最小二乗法 [Chen+ 91]
– k-Means?

11

6.3.1
Nadaraya-Watsonモデル
別名: カーネル回帰モデル

12

Nadaraya-Watsonモデル (1/3)
• カーネル回帰モデル(3.61)をカーネル密度推定の観
点から導く
𝑁

𝑦 𝒙, 𝒎 𝑁 = 𝑘 𝒙, 𝒙 𝑛 𝑡 𝑛 (3.61)
𝑛=1

• 訓練集合を{𝑥 𝑛 , 𝑡 𝑛 } として，同時分布p(x,t)を推定する
ためにParzen推定法を用いる
– 例えばf(x,t)はガウス分布の確率密度関数
𝑁
1
𝑝 𝑥, 𝑡 = 𝑓 𝒙 − 𝒙 𝑛, 𝑡 − 𝑡 𝑛 (6.42)
𝑁
𝑛=1

13

• 𝑓(𝒙)を求めるため，入力変数で条件付けられ
た目標変数の条件付き期待値を考える
∞
𝑦 𝒙 = 𝔼 𝑡 𝒙 = 𝑡 𝑝 𝑡 𝒙 𝑑𝑡
−∞
∫ 𝑡 𝑝 𝒙, 𝑡 𝑑𝑡 𝑛∫ 𝑡 𝑓 𝒙 − 𝒙 𝑛 , 𝑡 − 𝑡 𝑛 𝑑𝑡
= =
∫ 𝑝 𝒙, 𝑡 𝑑𝑡 𝑚∫ 𝑓 𝒙 − 𝒙 𝑚, 𝑡 − 𝑡 𝑚 𝑑𝑡

↑の補足
∫ 𝑡 𝑝 𝑡 𝒙 𝑝 𝒙 𝑑𝑡 ∫ 𝑡 𝑝 𝑡, 𝒙 𝑑𝑡
∫ 𝑡 𝑝 𝑡|𝒙 𝑑𝑡 = =
𝑝 𝒙 ∫ 𝑝 𝑡, 𝒙 𝑑𝑡
14

• 変数を置き換えてNadaraya-Watsonモデルを
得る
𝑛 𝑔 𝒙− 𝒙𝑛 𝑡𝑛
𝑦 𝑥 = = 𝑘 𝒙, 𝒙 𝑛 𝑡 𝑛
𝑚 𝑔 𝒙− 𝒙 𝑚
𝑛

• ただし，
𝑔 𝒙− 𝒙𝑛
𝑘 𝑥, 𝑥 𝑛 =
𝑚 𝑔 𝒙− 𝒙 𝑚
∞
𝑔 𝑥 = 𝑓 𝒙, 𝑡 𝑑𝑡
−∞

1 1 2
たとえば，𝑓 𝑥 = 2
exp − 2𝜎2 𝑥 − 𝜇 15
2𝜋𝜎

Nadaraya-Watsonモデルの例
• 三角関数データに対してガウスカーネルを用いた際
のNadaraya-Watsonカーネル回帰モデル

16
x, yのスケールが違うため目玉のようになっているが，等方的なガウスカーネル

PRML復々習レーン#9 6.3-6.3.1

More Related Content

What's hot

Similar to PRML復々習レーン#9 6.3-6.3.1

More from sleepy_yoshi

Recently uploaded

PRML復々習レーン#9 6.3-6.3.1