Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

PRML輪読#4

2,078 views

Published on

東京大学松尾研究室におけるPRML輪読資料です。

Published in: Education
  • Be the first to comment

PRML輪読#4

  1. 1. PRML輪読会 2017 第4章 線形識別モデル 東京⼤学⼯学部システム創成学科 B4 ⻄村弘平
  2. 2. 構成 4.1 識別関数(判別関数) 4.2 確率的⽣成モデル 4.3 確率的識別モデル 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 2
  3. 3. 4章でやりたいこと • 分類問題 – ⼊⼒xに対してK個の離散モデルの𝐶", 𝐶$, … , 𝐶&クラスの1つに割り当てる • つまり, ⼊⼒空間を決定領域に分割 – K > 2クラスの場合は⽬的変数に対して1-of-K符号化法を利⽤するのが便利 • K=5クラス, K=2のパターンは以下のように表現する. • 𝑡 = 0, 1, 0, 0, 0 + – 離散値をとるクラスラベル, 領域(0, 1)の値をとる事後確率を予測したい. • 3章の線形回帰モデルは予測値が実数. • ⼀般化線形識別モデルでは⾮線形関数𝑓(.)によって変換 • 決定⾯𝑦 = (定数)なので決定⾯はxの線形関数となる. 3
  4. 4. 1章の振り返り • 推論と決定 – 識別関数 • ⼊⼒を直接ラベルに写像する関数を学習 • 確率は⽤いない – 識別モデル • 事後確率のみを推論して決定理論でクラス割当 • 出⼒の分布をモデル化 – ⽣成モデル • 同時分布を推論 • ベイズの定理より⼊出⼒の分布を両⽅ともモデル化 4
  5. 5. 4.1 識別関数(判別関数) 判別とは • 判別 – ⼊⼒ベクトルxを𝐾クラスの1つ𝐶&に割り当てる関数 – 線形識別のみを考える • 決定⾯が超平⾯となる – ※超平⾯とは • n次元空間における超平⾯の定義 – 次元がn-1の平坦な部分空間 • 特質 – 1つの超平⾯は全体空間を2つの半空間に分割する. 5
  6. 6. 4.1.1 2クラス 識別関数 • もっとも簡単な線形識別関数の表現 • wは重みベクトル, はバイアスパラメータ • 𝑦 ≥ 0ならばクラス𝐶"に割り当てる. • 対応する決定境界は𝑦 𝑥 = 0で定義される. – 原点から決定⾯までの距離は • wは決定⾯の法線ベクトルで有り,𝑤5は決定⾯の位置を決定する. • 決定⾯から点xへの直交距離は 𝑟 = 7 8 | : | • 決定今⽇はD次元⼊⼒空間中のD-1次元超平⾯に対応する. – ダミー変数𝑥5 = 1を導⼊し, と定義すると, – 𝑦 𝑥 = 𝑤+ 𝑥 + 𝑤5は と表現できる. – 決定⾯ 𝑦 𝑥 = 0は と表されるので決定⾯は D+1次元の⼊⼒空間の原点を通るD次元の超平⾯ 6 y(x) = wT x + w0 w0 ˜w = (w0, w), ˜x = (x0, x) y(x) = ˜wT ˜x ˜wT ˜x = 0
  7. 7. 4.1.2 多クラス 識別関数 • 2クラス分類器をK-1個⽤いた1対他分類器や2クラス分類器をK個⽤いた1対 1分類器では曖昧な領域が存在してしまう. 7
  8. 8. 4.1.2 多クラス 識別関数 • 曖昧な領域が存在する問題への解決策 – K個の線形関数で構成される単独のKクラス識別を考える. – 全ての𝑗 ≠ 𝑘に対してy@ 𝑥 > 𝑦B(𝑥)であるときに点xをクラス𝐶↓ 𝑘 に割り振る. – このときの決定境界は以下の式で定義され, (D-1)次元の超平⾯に相当する. – 領域𝑅&に属する𝑥E, 𝑥Fを結ぶ直線上にある任意の点 は領域𝑅&に属する • すなわち決定領域は凸領域である. 8 yk(x) = wT k (x) + wk0 (wk wj)T x + (wk0 wj0) = 0 ˆx
  9. 9. 4.1.2 識別関数 多クラスのパラメータ学習 • 線形識別関数のパラメータ学習アプローチ – 最⼩⼆乗法 – フィッシャーの線形判別 – パーセプトロンアルゴリズム 9
  10. 10. 4.1.2 最⼩⼆乗法 • 各クラス𝐶&は各クラスごとの線形モデルで記述される. • 𝑦& 8 = 𝑤& +8 + 𝑤&5 • ダミー⼊⼒𝑥5 = 1を加えると⼆乗和誤差関数は • に関する導関数を0とおき, 整理すると識別関数は以下の通り. 10 ˜W
  11. 11. 4.1.2 最⼩⼆乗法 問題点 • 問題点 – 外れ値に弱く, 頑健さが⽋ける. – 誤分類してしまう. • 原因 – 最⼩⼆乗法は条件付き確率分布に ガウス分布を仮定した場合の最尤法. – 例で⽤いた2値⽬的変数ベクトルは 明らかにガウス分布からかけ離れるため うまく使えない 11 外れ値に影響を受けた例 誤分類が起きた事例
  12. 12. 4.1.4 フィッシャーの線形判別 • これまで考えてきた線形識別関数は次元の圧縮と考えられる. • D次元の⼊⼒モデルを1次元に射影している – 当然情報量は落ちるが, 重みベクトルwを調整することでうまく分類できる. – 射影されたクラス内の分散を⼩さくし, 射影されたクラス平均の分離度を最⼤化するこ とでうまく分離する. • フィッシャーの線形判別 – 総クラス内共分散⾏列 – フィッシャーの線形判別 – フィッシャーの線形判別は次元削減する⽅向の選択を⾏なっている. 12
  13. 13. 4.1.6 多クラスにおけるフィッシャーの判別 • クラス数Kが⼊⼒空間の次元Dよりも⼤きいとする. • Dʼ > 1である線形「特徴」𝑦& = 𝑤& + 𝑥導⼊して, クラス間共分散が⼤きく, ク ラス内共分散が⼩さい場合に⼤きくなるスカラーを基準として考える. が⼀例である • ただし, • このような全て規準は共通して, K個以上の線形「特徴」を⾒つけることが できない. 13
  14. 14. 4.1.7 パーセプトロンアルゴリズム • パーセプトロンアルゴリズム – 2クラスの線形識別アルゴリズム – ⼀般化線形モデル • 𝑦 𝑥 = 𝑓(𝑤+∅(𝑥)) • ∅(𝑥)は特徴ベクトル – ⾮線形活性化関数𝑓 . はステップ関数 – 活性化関数との相性のため, ⽬的変数の表記は 𝑡 ∈ {−1, 1} 14
  15. 15. 4.1.7 パーセプトロンアルゴリズム 𝑤の決定アルゴリズム • 𝑤の決定アルゴリズム (誤差関数の選択) – 誤識別したパターン総数 • 決定境界がデータ点を横切るたびに不連続隣, 誤差関数の勾配が0となってしまう. – パーセプトロン規準 • 𝐸M 𝑊 = −∑ 𝑤+ ∅Q 𝑡QQ∈S • ∅↓ 𝑛=∅ 𝑥Q であり, Mは誤分類された全てのパターン集合 – 確率的最急降下アルゴリズム – 𝜂 は学習率パラメータで𝜏はアルゴリズムのステップ数(整数) • パーセプトロンの収束定理 – パーセプトロン学習規則は各ステップで総誤差関数を減少させることは保証していない. – パーセプトロンの収束定理 • 学習データが線形に分離可能な場合に, パーセプトロン学習アルゴリズムは有限回の繰り返し で厳密解に収束することを保証. – 実⽤的には, 分離できない問題と収束が遅い問題の区別が収束するまでわからない. 15
  16. 16. 4.2 確率的⽣成モデル • ⽣成的アプローチ – モデル化された条件付き確率密度𝑝 𝑥 𝐶& とクラスの事前確率𝑝(𝐶&)から ベイズの定理を⽤いて事後確率𝑝 𝐶& 𝑥 を計算する. • 2クラスの場合, クラス𝐶"に対する事後確率は - と定義すると𝑝 𝐶" 𝑥 = 𝜎(𝑎) – はロジスティックシグモイド関数と呼ばれる. 16
  17. 17. 4.2 確率的⽣成モデル • 多クラスの場合 – 事後確率𝑝 𝐶& 𝑥 は – 𝑎&は以下の式で定義され, 正規化指数関数(ソフトマックス関数)として知られる. 17
  18. 18. 4.2.1 連続値⼊⼒ • クラスの条件付き確率密度関数をガウス分布と仮定する. • 全てのクラスが同じ共分散⾏列を共有する場合のクラス𝐶&の確率密度は – 正規化指数関数の引数が𝑥の線形関数になる. • 各クラスの条件付き確率密度𝑝 𝑥 𝑐& が 各々の共分散⾏列Σ&を持つ場合 2次判別関数がxの2次関数となる. 18
  19. 19. 4.2.2 最尤解 • 𝑥の観測値とそれに対応するクラスラベルで構成される学習データ集合が与 えられていると仮定. – 𝑛 = 1, 2, … , 𝑁 – 𝑡Q = ^ 1 𝑓𝑜𝑟 𝐶" 0 𝑓𝑜𝑟 𝐶$ • クラスの条件付き確率密度𝑝 𝑥 𝐶& に対するパラメトリックな関数形を決め て, クラスの事前確率𝑝(𝐶&)とともにパラメータの値を最尤法で決める. • 尤度関数は • ただし, 𝑡 = 𝑡", … , 𝑡` + , 𝜋 = 𝑝 𝐶" 19
  20. 20. 4.2.2 最尤解 • 最尤法で𝜋に関数る微分を0として式を整理すると, – 𝜋 = `b ` – 𝜇" = " `b ∑ 𝑡Q 𝑥Q ` Qd" – 𝜇$ = " `e ∑ 1 − 𝑡Q 𝑥Q ` Qd" • 共有共分散⾏列∑に対する最尤解を求めると, – 多クラスに拡張可能な結果 • ガウス分布の最尤推定が外れ値に対して頑健ではないため, クラス分布にガウス 分布をフィットするアプローチは外れ値に対して頑健ではない. 20
  21. 21. 4.2.3 離散特徴 • 特徴が離散値の場合を考える. • 特徴は𝑥f ∈ {0, 1}の離散値の場合にクラス𝐶&の条件付き確率は ナイーブベイズを仮定すると • 正規化指数関数(ソフトマックス関数)に代⼊すると となり, ⼊⼒値𝑥fの線形関数となる. 21
  22. 22. 4.2.4 指数型分布族 • ガウス分布と離散値⼊⼒の両⽅に対してクラスの事後確率がロジスティック シグモイド関数またはソフトマックス活性化関数であることが⽰された. • これらはクラスの条件付き確率密度が指数型分布族のメンバーであるという 過程によって得られる⼀般的な結果の特殊な例. • 指数型分布族のメンバーに対する式を⽤いると𝑥の式は以下の式でかける. • 𝑢 𝑥 = 0となるような分布の部分クラスに着⽬するとクラスの条件付き確率 密度の指数型分布の部分集合は 各クラスでパラメータベクトル𝜆&, 同⼀尺度 パラメータ𝑠持つと仮定すると 22
  23. 23. 4.2.4 指数型分布族 • 2クラス分類問題の場合, クラスの事後確率はxの線形関数a(x)のロジス ティックシグモイド関数によって • 同様に多クラス分類の場合, クラスの事後確率は ともに, 𝑥の線形関数である. 23
  24. 24. これまでの振り返り • 2クラス分類問題 – 多くのクラスの条件付き確率密度𝑝(𝑥|𝐶&)に対して, クラス𝐶"の事後確率がxの線形関数 のロジスティックシグモイド関数としてかける. • 多クラス分類問題 – クラス𝐶&の事後確率はxの線形関数のソフトマックス変換によってかける. • 特定のクラスの条件付き確率密度に対して, その条件付き確率密度のパラ メータとクラスの次元確率を最尤法によって決定でき, ベイズ定理を⽤いて クラスの事後確率を求めることができることを⽰してきた. 24
  25. 25. 4.3. 確率的識別モデル • これまでのアプローチ(⽣成的アプローチ) – クラスの条件付き確率密度と事前確率を別々にフィットし、それらにベイズの定理を適 ⽤して⼀般線形モデルのパラメータを探索するアプローチ • この節で取り組むアプローチ(識別アプローチ) – ⼀般化線形モデルの関数形式を陽に仮定し, 最尤法を利⽤して⼀般化線形モデルのパラ メータを直接決定する. – このアプローチのメリット • ⼀般に決めるべき適応パラメータが少ない. • クラスの条件付き確率密度の過程がうまく真の確率分布を近似できなくても良い予測性能を ⽰す. 25
  26. 26. 4.3.1 固定基底関数 • 固定基底関数 – 基底関数ベクトルを⽤いて⼊⼒の⾮線形変換を⾏う. – 決定境界を⾮線形にすることができる. • ⾮線形基底関数による役割の図⽰ 26 ⼊⼒に対する線形決定境界⼊⼒に対する⾮線形決定境界
  27. 27. 4.3.2 ロジスティック回帰 • 2クラスの場合を考える. – クラス𝐶"に対する事後確率は – 確率の定義よりクラス𝐶$に対する事後確率は – パラメータの数=∅の次元数 • 最尤法によるパラメータ決定 – データ集合 𝜙Q, 𝑡Q , 𝑡Q ∈ {0, 1}であり, 𝜙Q = 𝜙 𝑥Q で𝑛 = 1, 2, … , 𝑁 に対する尤度関数は – 誤差関数(交差エントロピー誤差関数)は尤度の負の対数をとって 27
  28. 28. 4.3.2 ロジスティック回帰 • 𝑦Q = 𝜎(𝑎Q)であり, 𝑎Q = 𝑤+ 𝜙Qである. • 𝑤に対する誤差関数の誤差を取ると • 線形分離可能なデータ集合に対しては最尤法は過学習を起こしてしまう. – 最尤解が𝑤+ 𝜙 = 0で決まる超平⾯がクラスを分離するときに得られ, 各クラスkのすべて の学習データが事後確率𝑝 𝐶& 𝑥 = 1に割り当てられてしまうため. • どの分離超平⾯も学習データに対して同じ事後確率を⽣じるため, 解が連続 して無限に⽣じる. – 事前分布を考慮し, wに対するMAP解を⾒つけることで避けられる – 誤差関数に正則化項を付加することでも避けられる.s 28
  29. 29. 4.3.3 反復再重み付け最⼩⼆乗 • 3章の振り返り – 対数尤度関数がパラメータベクトルwの2次関数となるために最尤解を解析的に導出で きることを⽰した. • ロジスティック回帰では最尤法を解析的に導出することはできない. • 誤差関数は凸関数なので唯⼀の最⼩解をもつ • ニュートン・ラフソン法を⽤いて誤差関数は最⼩化できる. – w更新は以下の式 – Hはwに関するE(w)の2階微分を要素とするヘッセ⾏列 • ⼆乗和誤差関数の勾配とヘッセ⾏列は 29
  30. 30. 4.3.3 反復再重み付け最⼩⼆乗 • ニュートン・ラフトン法の式に誤差関数の勾配とヘッセ⾏列を代⼊すると • ここでzは次を要素とするN次元ベクトル • zのn番⽬の要素に相当する𝑧Qは 30
  31. 31. 4.3.4 多クラスロジスティック回帰 • 事後確率は • ここでソフトマックス関数 • このとき, 尤度関数は • 以降の計算は2クラス分類と同様 31
  32. 32. 4.3.5 プロビット回帰 • 2クラスに問題を限定し, 以下の⼀般化線形モデルのフレームワークを超え ない議論を⾏う. • 𝑝 𝑡 = 1 𝑎 = 𝑓 𝑎 , 𝑎 = 𝑤+ 𝜙 ただし 𝑓 . は活性化関数 • 雑⾳しきい値モデルを考える – ⽬的変数値は以下の通り – 𝜃がある確率密度𝑝(𝜃)から得られる場合に対応する活性化関数は – 𝑝(𝜃)の概略図は右図 32
  33. 33. 4.3.5 プロビット関数 • 𝜃の値がある確率密度𝑝(𝜃)から得られ, 確率密度𝑝(𝜃)が平均0, 分散が1のガ ウス分布で与えられるとき対応する累積分布関数は • この関数の逆関数をプロビット関数という. • ここで以下のようにerf関数を定義すると • プロビット関数の逆関数は以下のように表せる. 33
  34. 34. 4.3.5 プロビット関数 • プロビット関数はロジスティックシグモイド関数と似た値となる. • 関数の端で減衰する傾きに差があるために外れ値に対して異なる振る舞いを し, より外れ値に敏感である. – ロジスティックシグモイドでは漸近的にexp −𝑥 – プロビット活性化関数では漸近的にexp −𝑥$ • プロビット関数とガウス分布との畳み込み積分が別のプロビット関数の逆関 数で解析的に表現でき, ロジスティック回帰のベイズ的な扱いで有⽤となる. 34
  35. 35. 4.3.5 [補⾜] プロビット関数 35
  36. 36. 4.3.6 正順連結関数 • 活性化関数を正順連結関数, ⽬的変数に対する条件付き確率分布を指数型分 布から選択するときに, ⼀般的に誤差関数の勾配は 誤差𝑦Q − 𝑡Qと特徴ベクトル𝜙Qとの積で表される. • 対数尤度関数は • 対数尤度関数の勾配は • このとき, 誤差関数の勾配は誤差と特徴ベクトルの積になる – シンプルな形で表現でき, IRLSで便利になる. 36
  37. 37. 4.4 ラプラス近似 • ラプラス近似の⽬的 – ロジスティック回帰のベイズ的取り扱いへの準備 • 事後確率がガウス分布ではないので近似が必要. – 分布𝑝(𝑧)が与えられたとき, モード𝑧5を中⼼とするガウス分布𝑝(𝑧)を近似すること. – 1変数の場合を考え, 分布𝑝(𝑧)を仮定する. 𝑝 𝑧 = " p 𝑓(𝑧) ここでZは正規化係数 – 𝑧5を中⼼として𝑙𝑜𝑔𝑓 𝑧 をTaylor展開し, 2次の項でまとめると – ここで – fが𝑧5で極⼤となるのでTaylor展開の1次の項が現れていないことに注意すると – 正規化するとpを近似する分布は 37
  38. 38. 4.4.1 モデルの⽐較とBIC • 分布𝑝(𝑧)を近似するのと同様に 正規化係数のZを近似を得ることができ, • データ集合Dとパラメータ{𝜃f}を持つモデルの集合 𝑀f を考える. – 各モデルに対し尤度関数𝑝 𝐷 𝜃f, 𝑀f を定義し、パラメータ{𝜃f}条で事前確率𝑝 𝜃f 𝑀f) を導⼊する場合, ベイズの定理よりモデルエビデンスは – としてZの近似式を適応すると, ヘッセ⾏列が⾮退化という過程 の上で – これをBIC, ベイズ情報量基準(シュワルツ基準)と呼ぶ. • AIC: 𝑙𝑛𝑝 𝐷 𝜃SEM − 𝑀 (M:可変パラーメータの数)と似た形になる. • BICの⽅がモデルの複雑さに重いペナルティーが課されている. • こうした基準はパラメータの不確実性が考慮されていない. 38
  39. 39. 4.5 ベイズロジスティック回帰 • ロジスティック回帰に対する厳密なベイズ推論は困難 – 事後確率分布の表には事前確率分布と尤度関数の積を全てのデータごとに計算し,正規 化する必要がある. • ロジスティック回帰問題にラプラス近似を適⽤させることを考える. – 事後確率分布のラプラス近似 – 近似されたガウス分布の周辺化 39
  40. 40. 4.5.1 事後確率分布のラプラス近似 • 事後確率分布のガウス分布表現を探索するので事前分布もガウス分布を仮定 する. – 事前確率分布を とおくと, wの上の事後確率分布は – 尤度関数を整理すると – 共分散を次の式で定義すると, – 事後確率分布のラプラス近似は 以下の式(𝑤SEMはガウス分布の平均を定義) – 事後確率分布をガウス分布で近似できたので, 近似されたガウス分布を周辺化すること で予測ができる. 40
  41. 41. 4.5.2 予測分布 • 新たな特徴ベクトル𝜙(𝑥)が与えられたときのクラス𝐶"に対する予測分布は • 𝑎 = 𝑤+ 𝜙とするとデルタ関数𝛿(𝑎)の性質より • 上の式に代⼊すると – 𝑝 𝐶" 𝜙, 𝑡) = – ここで • 𝑞 𝑤 もガウス分布なので平均, 共分散は 41
  42. 42. 4.5.2 予測分布 • 最終的にクラス𝐶"事後確率分布の予測分布は • この積分はシグモイド関数でのガウス分布の畳み込み積分なので解析的評価 は難しい • シグモイド関数とプロビット関数の類似性から畳み込み積分は近似的に解析 解を得られる. – 𝜆$ = 𝜋/8とするとシグモイド関数とプロビット関数の原点の傾きが同じになるので – ただし – の形で解析的に予測分布を表現できる. • 複雑な決定基準に対しては周辺化は重要な役割を果たす. – 事後確率分布のガウス分布による近似の下でのロジスティックシグモイドモデルの周辺 化は変分推論の枠組みで10章で説明. 42
  43. 43. 参考資料 • パターン認識と機械学習 上 – C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕治 (監訳), 村⽥ 昇 (監訳) • PRML 第4章 – https://www.slideshare.net/pecorarista/prml04 • PRML勉強会@⻑岡 第4章線形識別モデル – https://www.slideshare.net/ShoheiOkada/prml-4-39963385 • 線形識別モデル(PRML 第4章) – 確率的識別モデル(4.3), ラプラス近似(4.4), ベイズロジスティック回帰(4.5) – http://www.chokkan.org/publication/survey/prml_chapter4_discriminative_slid es.pdf 43

×