PRML 
4.3 確率的識別モデル 
1
Agenda 
✓ 確率的識別モデル 
✓ ロジスティック回帰(ほとんどコレ) 
✓ プロビット回帰 
2
確率的識別モデル 
生成モデル(Generative Model) 
✓ 周辺分布p(x)から人口データを生成できる 
✓ 外れ値検出などができる点で有利 
識別モデル(Discriminative Model) 
✓ まずp(Ck|x)の形を決めてそのパラメータを求める 
✓ パラメータが少ない 
3
ロジスティック回帰 
✓ 回帰という名前が付いているが分類のためのモデル 
(紛らわしい...) 
✓ ロジスティックシグモイド関数を活性化関数に選ん 
でいる 
✓ 誤差関数を求め,最小化するパラメータを求める 
✓ 解析的に解けないためNewton-Raphson法を用いる 
4
ロジスティックシグモイド関数 
微分すると, 
5 
(a) = 
1 
1 + exp(a)
事後確率 
✓ ロジスティック回帰でそれぞれのクラスの事後確率を求めた 
い 
✓ 2クラス分類を考える 
✓ 事後確率はロジスティックシグモイド関数を用いて表される 
➡ 最尤推定でパラメータを決定する 
6 
p(C1|x) 
p(C2|x) 
識別関数 
(識別関数に関して)
最尤推定 
✓ データ集合(t=0:C2, t=1:C2 , Φ:基底関数) 
✓ 尤度関数 
✓ 誤差関数を尤度関数の負の対数とする(交差エントロピー誤差関数) 
✓ この誤差関数を最小化するパラメータwを求める 
✓ ロジスティックシグモイド関数の非線形性により解析的に解を求められない 
➡ 数値的解法を用いる(Newton-Raphson法) 
7 
C1 C2 
t 1 0 
p(Ck |x) y 1-y
Newton-Raphson法 
✓ 関数f(x)のゼロ点を求める解法 
xn+1 = xn  f0(xn)−1f(xn) 
✓ 適当な値から出発して値を更新し 
ていき,最終的に解が求まる 
8 
f0(xn)−1f(xn) 
f(xn) 
ここを求めたい
Newton-Raphson法 
✓ ロジスティック回帰の誤差関数∇E(w)のゼロ点をNewton-Raphson法で求める 
✓ f(x)→∇E(w)として更新の式が求められる 
✓ ベクトル表記(Rはy(1-y)を要素とする対角行列) 
✓ Rは定数でなくステップごとにを計算し直すので反復重み付き最小二乗法 
(IRLS)という 
9 
where
最小解の唯一性 
✓ ヘッセ行列Hが正定値行列 
✓ よってEは凸関数 
✓ よってEは唯一の最小解を持つ 
✓ (時間があったら証明...) 
10
過学習 
✓ 線形分離可能なデータに対して,交差エントロピー 
誤差関数の最小化は過学習を起こしてしまう 
✓ ∵wの大きさが無限大のときに尤度関数が最大にな 
るため 
✓ このときロジスティックシグモイド関数は 
Heaviside-step関数になる 
✓ つまり,全てのデータに対してp(C|x)が1になって 
しまう.(確率的識別ではなく単なる判別関数と同 
義) 
✓ この問題は正則化項の付与で回避できる 
11 
p(C1|x) 
p(C2|x) 
Heaviside-step function 
(a) = 
1 
1 + exp(a)
パラメータ数 
✓ 識別モデルでは生成モデルに比べてパラメータ数が少なくて済む 
✓ M次元特徴空間で調整可能なパラメータ数を考える 
✓ 生成モデルではクラス条件付き密度p(x|Ck)をガウス分布で表し 
た 
➡ 共分散行列のパラメータの決定を含むのでパラメータの数は 
O(M^2) 
✓ 一方,ロジスティック回帰で必要なパラメータ数はO(M)(実際 
にはM個ちょうど) 
12
プロビット回帰 
✓ ロジスティック回帰とかなり似ている(実際に分類をすると似た結果となる) 
✓ ロジスティックシグモイド関数の代わりにプロビット関数(の逆関数)を活性化関数に選ぶ 
(分散1,平均0のガウス分布の累積分布関数) 
✓ 外れ値に関しては若干異なる振るまいをする 
✓ ロジスティックシグモイド関数:exp(-x)で減衰 
✓ ブロビット関数:exp(-x^2)で減衰 
13 
p(C1|x) 
p(C2|x) 
青い点線はプロビット関数の逆関数
他の形の活性化関数 
✓ クラス条件付き分布はロジスティックシグモイド関数やブロ 
ビット関数で表せるとは限らない 
✓ 活性化関数をクラス条件付き分布の累積確率分布とする 
✓ プロビット回帰のより一般的な場合である 
クラス条件付き分布がガウス混合分布の場合 
14

Prml 4.3