PRML復々習レーン#9
      6.3 RBFネットワーク
6.3.1 Nadaraya-Watson モデル
         2013-03-10
       Yoshihiko Suhara
        @sleepy_yoshi

                            1
もくじ
• 6.3 RBFネットワーク
 – 6.3.1 Nadaraya-Watson モデル




                               2
復習の復習

 3.6 固定された基底関数の限界
 ポイントだよ




   基底関数をたくさん用意すれば線形モデルでいいじゃん
         ⇒ NO!ソンナコトハナイ!


•  訓練データを観測する前に基底関数𝜙 ⋅ を決定する必要
  がある
•  入力空間の次元数に対して指数的に基底関数を増やして
  いく必要性
• ただし
  – データベクトルは本質的な次元数が入力次元数よりも小さい非線形
    多様体に大体分布しているという性質がある
  – うまいこと基底関数を選べればよい (NN@5章) or 基底関数を明示的
    に選ばない方法を用いられればよいのでは? (カーネル法@6章, 7章)
                                       3
6.3 RBFネットワーク




                4
Radial Basis Funciton (RBF)
• 動径 (放射) 基底関数
• 中心𝝁からの距離のみに依存する基底関数
                    𝜙 𝒙 =ℎ     𝒙− 𝝁
   – RBFの例
     • ガウス基底関数: exp −𝛾 𝒙 − 𝝁 2
     • Thin plate spline: 𝒙 − 𝝁 2 log 𝒙 − 𝝁
ガウス基底関数のイメージ             Thin plate splineのイメージ
                                45

                                40

                                35

                                30

                                25

                                20

                                15

                                10

                                 5

                                 0

                                -5
                                 -5   -4   -3   -2   -1   0   1   2   3   4   5


                                                                                  5
            𝝁                                             𝝁
RBFはなんでもよい?
• [Chen+ 91] から抜粋




                     6
RBFによる関数補間
• RBFが初めて使われたのは関数補間
   – 関数補間:目的変数の値を正確に再現する関数を
     求める問題
   – 各データ点を中心においたRBFの線形結合で実現
                         𝑁

                𝑓 𝑥 =         𝑤𝑛 ℎ   𝒙− 𝒙𝑛
                        𝑛=1



• 重みは最小二乗法によって求める
  – 参考: (3.15)式 𝒘 𝑀𝐿 = 𝚽 𝑇 𝚽 −1 𝚽 𝑇 𝒕


                                             7
RBFネットワークのイメージ
• RBFの線形結合の直感的イメージ
                        𝑁

               𝑓 𝑥 =         𝑤ℎ ℎ   𝒙− 𝒙𝑛
                       𝑛=1
                                                 各RBFの線形和を出力

                        入力𝒙
𝜙1    𝜙2       𝜙3
                                            𝒙1         𝑤1


                                            𝒙2    𝑤2        𝑓(𝒙)
                             …




                                            …
                                                       𝑤𝑛

                                            𝒙𝑛
           𝒙                                                       8
入力変数にノイズがある場合
• 入力変数xに含まれるノイズを,確率分布𝜈(𝜉)
  に従う𝜉によって表した際の二乗誤差関数
             𝑁
        1                        2
     𝐸=           𝑦 𝒙𝑛+ 𝝃 − 𝑡𝑛       𝜈 𝝃 𝑑𝝃   (6.39)
        2
            𝑛=1

• 変分法を用いて最適化
                   𝑁

       𝑦 𝑥 =            𝑡 𝑛ℎ 𝒙 − 𝒙 𝑛          (6.40)

                  𝑛=1


                                                   9
基底関数の正規化
• (6.41)により,任意のxに対して   𝑛 ℎ(𝒙   − 𝒙 𝑛) =
  1に正規化されている
 – 正規化後は右図のようになっている




                                     10
計算コストの削減
• 各データ点に基底関数が用意されているた
  め,入力データに対して特徴次元数×基底
  関数の数だけ計算コストがかかる

• 計算コストの削減するために基底関数を絞
  り込むことを考える
 – データ点の部分集合をランダムに選択
 – 直交最小二乗法 [Chen+ 91]
 – k-Means?

                        11
6.3.1
Nadaraya-Watsonモデル
    別名: カーネル回帰モデル




                     12
Nadaraya-Watsonモデル (1/3)
• カーネル回帰モデル(3.61)をカーネル密度推定の観
  点から導く
                             𝑁

             𝑦 𝒙, 𝒎 𝑁 =           𝑘 𝒙, 𝒙 𝑛 𝑡 𝑛   (3.61)
                            𝑛=1



• 訓練集合を{𝑥 𝑛 , 𝑡 𝑛 } として,同時分布p(x,t)を推定する
  ためにParzen推定法を用いる
  – 例えばf(x,t)はガウス分布の確率密度関数
                      𝑁
                 1
        𝑝 𝑥, 𝑡 =           𝑓 𝒙 − 𝒙 𝑛, 𝑡 − 𝑡 𝑛    (6.42)
                 𝑁
                     𝑛=1

                                                      13
Nadaraya-Watsonモデル (2/3)
• 𝑓(𝒙)を求めるため,入力変数で条件付けられ
  た目標変数の条件付き期待値を考える
                                   ∞
            𝑦 𝒙 = 𝔼 𝑡 𝒙 =              𝑡 𝑝 𝑡 𝒙 𝑑𝑡
                                  −∞
        ∫ 𝑡 𝑝 𝒙, 𝑡 𝑑𝑡       𝑛∫   𝑡 𝑓 𝒙 − 𝒙 𝑛 , 𝑡 − 𝑡 𝑛 𝑑𝑡
    =                   =
        ∫ 𝑝 𝒙, 𝑡 𝑑𝑡         𝑚∫   𝑓 𝒙 − 𝒙 𝑚, 𝑡 − 𝑡   𝑚   𝑑𝑡



 ↑の補足
                 ∫ 𝑡 𝑝 𝑡 𝒙 𝑝 𝒙 𝑑𝑡 ∫ 𝑡 𝑝 𝑡, 𝒙 𝑑𝑡
  ∫ 𝑡 𝑝 𝑡|𝒙 𝑑𝑡 =                 =
                        𝑝 𝒙        ∫ 𝑝 𝑡, 𝒙 𝑑𝑡
                                                             14
Nadaraya-Watsonモデル (3/3)
• 変数を置き換えてNadaraya-Watsonモデルを
  得る
               𝑛    𝑔 𝒙− 𝒙𝑛 𝑡𝑛
      𝑦 𝑥 =                    =                     𝑘 𝒙, 𝒙 𝑛 𝑡 𝑛
                   𝑚 𝑔 𝒙− 𝒙 𝑚
                                             𝑛

• ただし,
                                 𝑔 𝒙− 𝒙𝑛
              𝑘 𝑥, 𝑥 𝑛 =
                                 𝑚 𝑔 𝒙− 𝒙            𝑚
                               ∞
                   𝑔 𝑥 =               𝑓 𝒙, 𝑡 𝑑𝑡
                              −∞


                    1              1             2
    たとえば,𝑓 𝑥 =           2
                           exp − 2𝜎2 𝑥 − 𝜇                          15
                   2𝜋𝜎
Nadaraya-Watsonモデルの例
• 三角関数データに対してガウスカーネルを用いた際
  のNadaraya-Watsonカーネル回帰モデル




                                          16
 x, yのスケールが違うため目玉のようになっているが,等方的なガウスカーネル
おわり



      17

PRML復々習レーン#9 6.3-6.3.1