PRML 4.3.3~4.4.1
山岡大輝
4章の流れ
4章は分類問題へのアプローチ
3つのアプローチを取り上げている
• 入力ベクトル𝐱から直接クラスを推定する識別関数を構築する方法 (4.1節)
ex) 識別関数 𝑦 = 𝐰 𝑇 𝐱 において 𝑦 ≥ 0 ⟺ 𝐱はクラス𝐶1
• 𝑝 𝐱 𝐶 𝑘 (ガウス分布を仮定)と𝑝(𝐶 𝑘)からベイズの定理で𝑝 𝐶 𝑘 𝐱 を計算する方法
(生成モデル) (4.2節)
• 𝑝 𝐶 𝑘 𝐱 を一般化線形モデル(GLM)として直接モデル化 (確率的識別モデ
ル)(4.3節)
確率的識別モデル(復習)
𝑝 𝐶 𝑘 𝐱 を一般化線形モデル(GLM)として直接モデル化
一般化線形モデル
𝑦 𝐱 = 𝑓(𝐰 𝑇 𝐱) 𝑓(∙) 活性化関数 𝑓−1 ∙ 連結関数
例)
ロジスティック回帰 𝑦 𝐱 = 𝜎(𝐰 𝑇
𝐱)
確率的識別モデルの利点
・一般的に学習パラメータが少ない
GLMのパラメータ𝐰の最尤解を探索するアルゴリズムとして,
反復再重み付け最小二乗(IRLS)が知られている.
ロジスティックシグモイド関数
IRLSの下準備(復習)
クラスの条件付き確率密度が指数型分布族で記述される場合,2クラス分類問題
において,クラス𝐶1の事後確率は以下のように書ける(4.2節参照)
ロジスティック回帰
ロジスティック回帰モデルのパラメータwを最尤法で求める
・尤度関数
・交差エントロピー誤差関数
誤差関数はロジスティックシグモイド関数の非
線形により,最尤解を解析的に導出できない
反復再重み付け最小二乗(iterative reweighted least squares
method)
・目的値と予測値の誤差と基底関数ベクトルの積
・線形回帰モデルにおける二乗和誤差の勾配の式と同じ
3.1.1 最尤推定と最小二乗
     
   
   
   
1
1
2
1
1
1
ln | , , ln | ,
1
2
ln | , ,
3.15
N
n n D
n
N
D n n
n
N
n n n
n
p N t E
E t
p t
 
 





 
 
  
 



T
T
T
T T
ML
t x w w φ w
w w φ
t x w w φ φ
w Φ Φ Φ t
→シグモイド関数の非線形性により(3.15)のように最尤解を解析的に導出できない
対数尤度関数の局所二次近似を利用するニュートン・ラフソン法を用いて誤差関
数を最小化するwを得る(誤差関数は凸関数なので唯一の最小値を持つため可能
(後述))
反復再重み付け最小二乗
ニュートン・ラフソン法
   
1
1
2
1 , 1
2
1
1
...
0
n n
i i j
i i ji i j
n
j
ji i j
f f
f f x x x
x x x
f f
x
x x x
f
f
f
 
 
 
 
 
   


 


 
        
  
 
  
  
   
    
  
 

x x x
H x
x H
x x H
3次以上の項は無視できるほど小さいと考え,∆𝑥𝑖で偏微分して0とおく
※収束してもGlobal Minimumとは限らない
反復再重み付け最小二乗(iterative reweighted least squares
method)
パラメータwの更新式
まず,線形回帰モデルの二乗和誤差関数にニュートン法を適用
より,更新式は以下.
誤差関数は二次式なので,一回
のみの反復で厳密解が得られる.
反復再重み付け最小二乗(iterative reweighted least squares
method)
ロジスティック回帰における交差エントロピー関数にニュートン法を適用
ヘッセ行列はwに依存
より,0 < 𝑦𝑛 < 1であることからHは正定値行列
⇨ 誤差関数は凸関数であり唯一の最小解を持つ
よって更新式は以下
反復再重み付け最小二乗(iterative reweighted least squares
method)
Rはwに依存しているので,wが更新される度に重み付け行列Rを計算する必要がある
→ 反復再重み付け最小二乗法
以下のようにRの要素は目的変数値の分散であると解釈できる
反復再重み付け最小二乗(iterative reweighted least squares
method)
𝑎 𝑛 = 𝐰 𝑇 𝜙 𝑛として,𝐳のn番目の要素に相当する𝑧 𝑛はロジスティックシグモイド関数を現在の点
𝐰 𝑜𝑙𝑑の周りで局所線形近似(一次のテイラー展開)して得られる空間での目的変数値であると解釈
できる
多クラスロジスティック回帰
多クラス分類問題におけるクラス事後確率(4.2節参照)
活性:
今回も同様に最尤法でパラメータwを決定
・尤度関数 ・yの微分
・交差エントロピー誤差関数
多クラスロジスティック回帰
活性化関数に正準連結関数 (後述)を用いた結
果
・目的値と予測値の誤差と基底関数ベクトルの積
・線形回帰モデルにおける二乗和誤差の勾配の式と同じ
プロビット回帰
クラスの条件付き確率密度が指数型分布族でない(混合ガウス分布など)場合,ク
ラス事後確率はロジスティック回帰のように簡単に表せるとは限らない.
例)雑音しきい値モデル(2クラス分類)
入力𝜙 𝑛に対して𝑎 𝑛 = 𝐰 𝑇 𝜙 𝑛を評価し,以下の式で目的変数値を設定
1
0
n n
n
t a
t
 

のとき
それ以外.
( 1| ) ( ) ( )
a
p t f a p d 

   x
・プロビット関数(probit function)の逆関数
( ) ( | 0,1)
a
a d 

   N
2
( | 0, ) ( | 0,1)
a a
d d

    
 
 N N
プロビット回帰
プロビット活性化関数に基づくGLMはプロビット回帰と呼ばれ,今までの議論と同様,最尤法の
用いてパラメータを決定できる.
ロジスティック回帰の結果と似る傾向があるが,活性化関数の指数部分から明らかなようにプロ
ビット回帰はロジスティック回帰より外れ値に敏感.
2
0
2
erf ( ) exp( )
a
a d 

 
の数値計算の際にはerf関数(誤差関数)が用いられる
以下のように目的変数値tが間違っている確率εをモデルに組み込むことで,外れ値に対するある
程度の頑健性を持たせることも可能.
( ) ( | 0,1)
a
a d 

   N
正準連結関数
これまで扱った3つのモデルの誤差関数の勾配を以下に示す
ガウス分布する雑音を持つ線形回帰モデル
ロジスティック回帰モデル
多クラスロジスティック回帰モデル
全て目的値と予測の「誤差」と基底関数の積で表されている
これは,活性化関数に正準連結関数を選び,指数型分布族の中から目的変数に
対する条件付き確率分布を選んだ場合の結果である
これを示す
正準連結関数
以下の式で与えられる目的変数tの条件付き確率分布を考える
指数型分布族
2.4.1と同様の議論でtの条件付き期待値は以下のようになる
ηについて解けるとすると とかける
また,一般化線形モデル を定義する
上式の対数尤度関数は以下のようになる
指数型分布族の一般形のパラメータ𝜼を求める(2.4.1)
(2.195) の,𝜼についての勾配を求
める
左辺2項目を右辺に移項してから両辺を(2.195)で割ると,
したがって,
(演習2.58より)
・より高次のモーメントについても同様
・指数型分布族の分布を正規化できれば,その分布のモーメントは単に微分す
れば求まる.
正準連結関数
対数尤度関数のwに関する微分
連結関数 を用いると, ↔
したがって,誤差関数の勾配は以下になる
ガウス分布雑音モデルの場合𝑠 = 𝛽−1,ロジスティックモデルの場合s=1
ラプラス近似
4.5節でロジスティック回帰のベイズ的な取り扱いを議論するために,ラプラス近似を導入する
複雑な確率分布をガウス分布で近似するフレームワーク
連続変数zで定義される以下の分布を仮定する
正規化係数 は未知と仮定
p(z)のモードを中心とするガウス分布で近似
ラプラス近似
上式を正規化すると,A > 0 (局所最大)においてガウス分布で近似できる
ラプラス近似を多変数に拡張する
ラプラス近似(多変数)
上式を正規化すると,多変量ガウス分布で近似できる
精度行列Aが正定値行列であれば,上の確率分布を適切にガウス分布として定義される
ラプラス近似
・ラプラス分布を適用するには,数理最適化アルゴリズムなどを用いてモードを知る必要がある
・真の分布の正規化係数Zを知る必要なく,ラプラス近似は可能
・データ数が多いほど近似の精度は良くなる(中心極限定理)
・ガウス分布による近似のため,実数変数の場合のみラプラス近似は適用可能
・真の分布のモードにおける局所近似のため,全体の特徴を捉えることはできない
モデルの比較とBIC
ベイズモデルの比較といえばモデルエビデンス
必要な正規化変数Zをラプラス近似の結果から近似
データ集合 を持つモデルの集合パラメータD { }iM{ }i
尤度関数 : 事前確率 : モデルエビデンス :( | , )i ip D  M ( | )i ip  M ( | )ip D M
モデルの比較とBIC
( ) ( | ) ( )p D p D p d   
Z ( )f 
( | ) ( )
( | )
( )
p D P
p D
p D
 
  ( )f  MAPのモードはより
1
( ) exp ( ) ( )
2
MAP MAP MAPf d     
 
   
 

T
A;
 
2
1 2
2
( )
M
MAPf


A
1
ln ( ) ln ( | ) ln ( ) ln(2 ) ln
2 2
MAP MAP
M
p D p D p     A;
Occam係数(ペナルティ項)
ln ( | ) ( ) ln ( | )MAP MAP MAPp D P p D     Aヘッセ行列 :
対数尤度
モデルの比較とBIC
0( ) ( | , ),P   m VN を仮定
1
0ln ( )p  
  V
ln ( | )MAPp D  H とすると
1
0ln ( | ) ln ( )MAP MAPp D P  
    A H V H;
1
0

V 0;
   1
0 0
1 1 1
ln ( ) ln ( | ) ln ln
2 2 2
MAP MAP MAPp D p D   
    
T
m V m V H;
データ点が独立同分布から生成されると仮定(非退化)
1
ln ( | ) ln ( | )
N
n
n
p D p D 

 
1
1
ln ( | ) ln ( | )
N
MAP n MAP
n
p D N p D
N
 

   
nH
1
ˆ
N
n
n
N N

 H H H
ˆ ˆ ˆln ln ln ln lnM
N N M N   H H H Hが正則だと仮定するとH
ベイズ情報量規準(Bayeisan Information Criterion, BIC)
M : パラメータ数 N : データ
数
ln ( | )MLp D M AICでは を最大化
・長所
・短所
評価が簡単
多くのパラメータが「well-determined」でないために,ヘッセ行列が正則
という仮定が多くの場合妥当でない
ニューラルネットワークの枠組みで,もっと精度良くモデルエビデンスを推定可能

PRML4.3

Editor's Notes