Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

PRML勉強会@長岡 第4章線形識別モデル

3,512 views

Published on

Published in: Science
  • Be the first to comment

PRML勉強会@長岡 第4章線形識別モデル

  1. 1. 第4章線形識別モデル PRML勉強会@長岡 presented by 岡田正平
  2. 2. おことわり • 勉強会用資料です – 口頭で説明することを前提にしているため, スライド単体では説明不十分な部分があります • スライド中の情報の正しさは保証しません 2
  3. 3. はじめに 3
  4. 4. この章について • 分類問題について扱います • 決定領域 • 決定境界 – 決定面とも 4
  5. 5. 目的変数の表現 • 1-of-K符号化法 – 퐾=5クラスの例 t=0,1,0,0,0T – 푡푘の値はクラスが퐶푘である確率と解釈可能 5
  6. 6. 3つのアプローチ (recall that 1章) 6
  7. 7. 3つのアプローチ (recall that 1章) • 識別関数 • 生成モデル • 識別モデル – みんな大好きSVM 7
  8. 8. ちょっと3章も思い出して • 入力xに対して出力値を予測 • 最も簡単なモデル 푦x=wTx+푤0 푦∈ℝ 8
  9. 9. 分類問題では? • 푦は離散値を取るクラスラベル – もっと一般的には領域(0,1)の値を取る事後確率 9
  10. 10. 分類問題では? • 푦は離散値を取るクラスラベル – もっと一般的には領域(0,1)の値を取る事後確率 • 非線形関数푓(⋅)によって変換 푦x=푓(wTx+푤0):一般化線形モデル 푓(⋅):活性化関数 10
  11. 11. 4章の構成 4.1 識別関数(判別関数) 4.2 確率的生成モデル 4.3確率的識別モデル ---------------------------------------------------- 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 11 ↓ 省略
  12. 12. 4.1 識別関数(判別関数) 12
  13. 13. 識別とは • 入力ベクトルxをクラス퐶푘に割り当てる関数 • 本章では決定面が超平面となる 線形識別のみを扱う 13
  14. 14. 2クラス • 最も簡単な線形識別関数 푦x=퐰T퐱+푤0 퐰:重みベクトル 푤0:バイアスパラメータ 푦퐱≥0ならばクラス퐶1 決定面は푦퐱=0 14
  15. 15. 2クラス • 퐰は決定面の法線ベクトル • 푤0は決定面の位置を決定する • 決定面から点퐱への距離は 푟=푦퐱 퐰 15
  16. 16. 16
  17. 17. 2クラス • ダミー入力値푥0=1を導入 퐰෥=푤0,퐰,퐱෤=푥0,퐱を導入 푦퐱=퐰෥T퐱෤ スッキリ! – ベクトルの次元が1増えてる 17
  18. 18. 多クラス • 1対多分類器・1対1分類器 – 曖昧な領域が存在 18
  19. 19. 多クラス • 퐾個の線形関数で構成される単独の퐾クラス 識別を考える 푦푘퐱=퐰푘 T퐱+푤0=퐰෥T퐱෤ – すべての푗≠푘に対して푦푘(퐱)>푦푗(퐱)である場合 点퐱はクラス퐶푘 19
  20. 20. 多クラス • 퐶푘,퐶푗間の決定境界は푦푘퐱=푦푗퐱=0 • つまり 퐰푘−퐰푗 T퐱+푤푘푘−푤푗푗=0 – 2クラスの時と同様の幾何学的性質が適用される – 各決定領域は凸領域 20
  21. 21. 21
  22. 22. パラメータの学習 • 最小二乗 • フィッシャーの線形判別 • パーセプトロンアルゴリズム 22
  23. 23. 最小二乗法 • (結論)学習データ集合{퐱푛,퐭푛}に対して 퐖෩ =퐓T퐗෩ †T 퐓:푛番目の行が퐭푛T である行列 퐗෩ :푛番目の行が퐱푛 Tである行列 퐗෩ †:퐗෩ の擬似逆行列(→3.1.1) – が,いろいろ問題がある 23
  24. 24. 最小二乗法の問題 • 分類問題においては外れ値に特に弱い (「正し過ぎる」予測にペナルティ) 24 分類問題に対する誤 差関数(→7.1.2)に よりある程度は避け られるが...
  25. 25. 最小二乗法の問題 • 3クラス分類問題の例 25 (´・ω・`)
  26. 26. そもそも • 最小二乗法は確率分布にガウス分布を仮定 • 2値目的変数ベクトルはガウス分布から かけ離れている  ハナから無理があるってもんですよ  適切な確率モデルを採用しよう! (次回?) 26
  27. 27. フィッシャーの線形判別 • 次元の削除という観点から • これまでは퐷次元入力ベクトルを1次元(実 数)に射影していた – 当然情報は落ちるが,重みベクトル퐰を調整す ることでうまく分離する – 最も単純な方法は射影されたクラス平均の分離 度を最大化 27
  28. 28. フィッシャーの線形判別 しかし... 28 (・A・)イマイチ
  29. 29. フィッシャーの線形判別 • フィッシャーさん,考えた • 射影されたクラス内の分散が小さくなるよ うにすれば... 29
  30. 30. フィッシャーの線形判別 30 (・∀・)イイ!!
  31. 31. フィッシャーの線形判別 実は目的変数に1-of-K符号化法とは異なる表現を もちいた場合の最小二乗法と等価 푡푛= 푁 푁1 for 퐶1 푁 푁2 for 퐶2 31
  32. 32. パーセプトロンアルゴリズム • 2クラスのモデル • 入力ベクトルを変換して得られる特徴ベク トル휙(퐱)に対して 푦퐱=푓(퐰T휙퐱) ただし,푓푎=ቄ+1,푎≥0−1.푎<0 32
  33. 33. パーセプトロンアルゴリズム • 目的変数の表記は푡∈{−1,1} – 活性化関数との相性がいい 33
  34. 34. パーセプトロンアルゴリズム • 誤差関数の選択 – 誤識別したパターン総数  殆どの場合で勾配0  学習アルゴリズムが難しい – パーセプトロン規準 34
  35. 35. パーセプトロンアルゴリズム • パーセプトロン規準 퐸푃퐰=−Σ퐰퐓휙푛푡푛푛∈ℳ 휙푛=휙퐱푛 ℳ:誤分類された全てのパターン集合 • 確率的最急降下アルゴリズム(→3.1.3) – 퐰휏+1=퐰휏−휂훻퐸푃퐰=w휏+휂휙푛푡푛 35
  36. 36. パーセプトロンアルゴリズム 36
  37. 37. パーセプトロンアルゴリズム • パーセプトロンの収束定理 – 厳密解が存在する場合,パーセプトロン学習ア ルゴリズムは有限回の繰り返しで厳密解に収束 することを保証  実用的には,分離できない問題なのか,単に収 束が遅いのかの区別が収束するまでわからない という点に注意 37
  38. 38. 4.2 確率的生成モデル 38
  39. 39. ベイズ! • 2クラスの場合を考える 푝퐶1x=푝x퐶1푝퐶1 푝x퐶1푝퐶1+푝x퐶2푝(퐶2) =11+exp (−푎)=휎푎 푎=ln푝x퐶1푝퐶1 푝x퐶2푝(퐶2) 39
  40. 40. ロジスティックシグモイド関数 • 휎푎=11+exp (−푎) • 「スカッシング(押し込み)関数」とも 40
  41. 41. 多クラスの場合 • 푝퐶푘=푝x퐶푘푝퐶푘 Σ푝x퐶푗푝(퐶푗)푗 =exp푎푘 Σexp (푎푗)푗 푎푘=ln(푝x퐶푘푝퐶푘) – 正規化指数関数 • ソフトマックス関数とも 41
  42. 42. 連続値入力 • クラスの条件付き確率密度がガウス分布と 仮定 • すべてのクラスが同じ共分散行列を仮定 푝x퐶푘 = 12휋 퐷2 1 횺 12 exp − 12x−흁푘 T횺−1(x−흁푘) 42
  43. 43. 連続値入力 • 指数部分にあるxの二次の項がキャンセルさ れるため,正規化指数関数の引数が퐱の線形 関数になる 43
  44. 44. 連続値入力 • 共分散行列が異なる場合は?  境界が非線形(二次関数) 44
  45. 45. 最尤解 • もう一度2クラス,ガウス分布,共通の共分 散の場合を考える • データ集合x푛,푡푛が与えられていると仮定 푛=1,⋯,푁 푡푛= ൜ 1 for 퐶10 for 퐶2 45
  46. 46. 最尤解 • 尤度関数は 푝t,X휋,흁1,흁2,횺 =ෑ휋휋x푛흁1,횺푡푛1−휋풩x푛흁2,횺1−푡푛 푁 푛=1 ただし푡=푡1,⋯,푡푁 T,휋=푝퐶1 46
  47. 47. 最尤解 • 各パラメータの最大化は 휋=푁1 푁 흁1=1 푁1Σ푡푛x푛 푁푛=1 흁2=1 푁2Σ(1−푡푛)x푛 푁푛 =1 47
  48. 48. 最尤解 횺=푁1 푁S1+푁2 푁S2S1=1 푁1Σx푛−흁1x푛−흁1 푇 푛∈퐶1S2=1 푁2Σx푛−흁2x푛−흁2 푇 푛∈퐶2 • この結果は多クラスにも拡張可能 48
  49. 49. 離散特徴 • 特徴が離散値푥푖の場合を考える • 2値푥푖∈1,0, 特徴数퐷個の場合 – 特徴量を抑えるためナイーブベイズを仮定 푝x퐶푘=ෑ휇푘푖 푥푖1−휇푘푖 1−푥푖 퐷 푖=1 49
  50. 50. 離散特徴 • 正規化指数関数の引数は 푎푘푥 =෍{푥푖ln휇푘푘+1−푥푖ln1−휇푘푘} 퐷 푖=1+ln 푝(퐶푘)  入力値푥푖の線形関数となる 50
  51. 51. 指数型分布族 • クラスの条件付き確率が指数型分布族のメ ンバーであると仮定 • 푝x휆푘=ℎx푔λ푘exp {λ푘 Tux} • ux=xとなるような分布については,正規 化指数関数の引数がxの線形関数となる 51
  52. 52. 4.3 確率的識別モデル 52
  53. 53. 識別アプローチの利点 • 決めるべき適用パラメータが少ない 53
  54. 54. 固定基底関数 • 基底関数ベクトル휙(x)を使って入力を非線 形変換 – 決定境界を非線形にできる – SVMでいうところのカーネル関数 54
  55. 55. 固定基底関数 55
  56. 56. ロジスティック回帰 • 事後確率(2クラスの場合) 푝퐶1흓=푦흓=휎(wT흓) • ロジスティックシグモイド関数 푝퐶2흓=1−푝(퐶1|흓) • パラメータの数=흓の次元数 56
  57. 57. 最尤法によるパラメータ決定 • データ集合흓푛,푡푛,푡푛∈0,1, 휙푛=휙푥푛,푛=1,⋯,푁に対する尤度関数 푝tw=ෑ푦푛푡 푛1−푦푛 1−푡푛 푁 푛=1 – t=푡1,⋯,푡푁 T,푦푛=푝(퐶1|흓풏) 57
  58. 58. 最尤法によるパラメータ決定 • 負の対数をとって誤差関数とする 퐸w=−ln푝tw =−Σ푡푛ln푦푛+1−푡푛ln1−푦푛 푁푛=1 – 交差エントロピー誤差関数 58
  59. 59. 最尤法によるパラメータ決定 • 誤差関数の勾配をとると 훻퐸w=෍푦푛−푡푛휙푛 푁 푛=1 – なんか簡単な形に! 59
  60. 60. 最尤法に寄るパラメータ推定 • 線形分離可能なデータに対して,過学習を 起こしてしまう点に注意 60
  61. 61. 反復重み付け最小二乗 • ロジスティック回帰では最尤解を解析的に 導出することはできない • しかし誤差関数は凸関数  唯一の最小解を持つ • ニュートン・ラフソン法を用いる w(new)=wold−H−1훻퐸(w) 61
  62. 62. 反復重み付け最小二乗 • 二乗和誤差関数の場合 훻퐸w=ΣwT흓푛−푡푛흓푛=ΦTΦw−ΦTt푁푛 =1 H=Σ흓푛흓풏푻 푁푛 =1=Φ푇Φ – Φは푛番目の行が흓푛 Tで与えられる푁×푀行列 62
  63. 63. 反復重み付け最小二乗 • 代入して,整理すると wnew=Φ푇Φ−1Φ푇t – woldが消えた  反復回数1回で正確な解が求められる 63
  64. 64. 反復重み付け最小二乗 • 交差エントロピー誤差関数の場合 • wnew=ΦTRΦ−1ΦTRz – Rは要素が푅푛푛={푦푛1−푦푛}の対角行列 – z=Φwold−R−1(y−t) – 重み付き最小二乗問題に対する正規方程式集合 64
  65. 65. 多クラスロジスティック回帰 • 事後確率 푝퐶푘흓=푦푘흓=exp푎푘 Σexp푎푗푗 • ソフトマックス関数 푎푘=w푘 T흓 65
  66. 66. 多クラスロジスティック回帰 • 尤度関数(1-of-K符号化法を使用) 푝푇푤1,⋯,푤퐾=ΠΠ푦푛푛 푡푛푛퐾푘 =1 푁푛 =1 • 以下,2クラスの場合と同様に導出可能 66
  67. 67. プロビット回帰 • ロジスティック回帰で,どんなときでも事 後確率が簡単な形になるわけではない  別のタイプの識別確率モデルも見てみよう • 2クラスの場合を考えます 푝푡=1푎=푓(푎) 푎=wT휙,푓⋅:活性化関数 67
  68. 68. プロビット回帰 • 雑音しきい値モデル 푡푛=ቄ1 if 푎푛≤휃 0 otherwise • 휃の値が確率密度푝(휃)で与えら得る場合 푓푎=න푝휃푑푑 푎 −∞ 68
  69. 69. 69
  70. 70. プロビット回帰 • 푝(휃)が標準正規分布の場合の푓(푎)  プロビット関数 • プロビット関数に基づく一般化線形モデル をプロビット回帰という 70
  71. 71. プロビット回帰 • 点線部分がプロビット関数 – (実線はロジスティックシグモイド関数) 71
  72. 72. プロビット回帰 • ロジスティク回帰の結果と似る傾向がある • より外れ値に敏感 • ロジスティック回帰のベイズ的な扱いにお いて,利用法がある(4.5節) 72
  73. 73. 4.4 ラプラス近似 73
  74. 74. ラプラス近似とは • 連続確率密度分布をガウス分布に近似 74
  75. 75. 4.5 ベイズロジスティック回帰 75
  76. 76. この節では... • ロジスティック回帰のベイズ的取り扱い  厳密に適用するのは難しい  ラプラス近似を適用して考える 76

×