Successfully reported this slideshow.
Your SlideShare is downloading. ×

「統計的学習理論」第1章

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 42 Ad

More Related Content

Slideshows for you (20)

Advertisement

Recently uploaded (20)

「統計的学習理論」第1章

  1. 1. 統計的学習理論読み Kota Matsui October 4, 2018 理研 AIP データ駆動型生物医科学チーム
  2. 2. 導入 I • 機械学習の文脈でよく見る • モデルが汎化する • モデルの汎化性能が高い • 予測損失 (期待損失) が小さいことと定義される • practical にはテスト誤差 (学習データとは独立に取得した テストデータで評価した誤差) で汎化性能を評価している 素朴な疑問 (学習理論が答えようとしていること) • 上記の方法はどのように正当化されているのか? • 経験損失最小化でなぜ予測損失を小さくできるのか? • 経験損失と予測損失にどんなギャップがあるのか? 1
  3. 3. 導入 II Vapnik の思想 [Vapnik, 98] Nothing is more practical than a good theory. 理論に基づいたアルゴリズム • カーネル法 (サポートベクターマシン) • ブースティング (アダブースト)... このセミナーでは [4] を読んで機械学習の理論的側面に親しみ たい. 本スライドは [4] の第 1 章のまとめである. 2
  4. 4. Table of contents 1. 統計的学習理論の枠組み 3
  5. 5. 統計的学習理論の枠組み 4
  6. 6. 統計的学習理論の枠組み 1.1 問題設定 5
  7. 7. 問題設定 I (p. 1∼3) Data Training Valida,on Test Cross Valida,on Cross validated hypothesis Generaliza,on Performance data spli<ng input : x X Rd output : y Y R Observed Data h h Hypothesis (h(x), y) Loss func,on 6
  8. 8. 問題設定 II 判別問題 (§1.1.1) • |Y| < ∞ のとき, input data から label を予測する. • |Y| = 2 : 2 値判別 (e.g. 迷惑メール分類 Y = {“spam”, “nonspam”}) • |Y| ≥ 3 : 多値判別 • 判別問題における loss function (0-1 loss) ℓ(ˆy, y) = 1[ˆy ̸= y] =    1 if y ̸= ˆy 0 otherwise  =    ℓy if y ̸= ˆy 0 otherwise   損失が真ラベルに依存する場合 7
  9. 9. 問題設定 III 回帰問題 (§1.1.2) • Y = R のとき input から output を予測 (e.g. 株価や電力需 要の予測) • 回帰問題の loss function (squared loss) ℓ(ˆy, y) = |ˆy − y|2 8
  10. 10. 問題設定 IV ランキング問題 (§1.1.3) • 3 つ組 data (x, x′, y) ∈ X2 × Y を観測 y =    +1 if x ≻ x′ −1 if x ≺ x′ • 以下のような仮説 h : X → R を学習 x ≻ x′ ⇒ h(x) > h(x′ ) x ≺ x′ ⇒ h(x) ≤ h(x′ ) • ランキング問題の loss function (0-1 loss) ℓ(ˆh, y) =    1 if y(h1 − h2) ≤ 0 0 otherwise ここで h1 = h(x), h2 = h(x′), ˆh = (h1, h2) ∈ R2. 0 − 1 損失の下でランキング問題は判別として扱える. 9
  11. 11. 統計的学習理論の枠組み 1.2 予測損失と経験損失 10
  12. 12. 予測損失と経験損失 I Definition 1 (予測 (期待) 損失) test data (X, Y) の従う分布 D の下での仮説 h の予測損失を以 下で定義 R(h) := E(X,Y)∼D[ℓ(h(X), Y)] Example 1 (0-1 loss) 0-1 loss の予測損失 (期待判別誤差) は Rerr(h) = Pr[h(X) ̸= Y] = E[1[h(X) ̸= Y]] 学習の目標 data の真の分布が未知なため直接計算不可能な期待損失を観 測 data のみを用いて小さくする 11
  13. 13. 予測損失と経験損失 II Definition 2 (経験損失) {(Xi, Yi)}n i=1 : observed data 仮説 h の経験損失を以下で定義 ˆR(h) := 1 n n∑ i=1 ℓ(h(Xi), Yi) 経験分布による表現 ˆD : 経験分布 i.e. (X, Y) ∼ D ⇐⇒ Pr[(X, Y) = (Xi, Yi)] = 1 n とするとき, ˆR(h) = E(X,Y)∼ ˆD[ℓ(h(X), Y)] 予測損失 R(h) と経験損失 ˆR(h) の違いは期待値を真の分布 D で取るか, 経験分布 ˆD で取るかの違い 12
  14. 14. 予測損失と経験損失 III Fact 1 (Xi, Yi) ∼ D (identically distributed) =⇒ E[ˆR(h)] = R(h) i.e. ˆR は R の不偏推定量. (∵) Dn : (Xi, Yi), i = 1, ..., n の joint distribution とするとき, EDn [ˆR(h)] = EDn [ 1 n n∑ i=1 ℓ(h(Xi), Yi) ] = 1 n n∑ i=1 ED[ℓ(h(Xi), Yi)] R(h) = R(h) 2 13
  15. 15. 予測損失と経験損失 IV 経験損失は予測損失の不偏推定量: E[ˆR(h)] = R(h) • 上の事実は data の独立性を仮定していない. 独立性がある と, さらに一致性が示せる(大数の弱法則) : Proposition 1 (Xi, Yi) ∼i.i.d. D のとき, ∀ε > 0, lim n→∞ PrDn [|ˆR(h) − R(h)| > ε] = 0 • 様々な学習問題は, 予測損失 R の最小化が目標 (分布 D が 未知なので R も未知) −→ 代理として経験損失 ˆR の最小化を通して R を小さ くする 14
  16. 16. 統計的学習理論の枠組み 1.3 ベイズ規則とベイズ誤差 15
  17. 17. ベイズ規則とベイズ誤差 I Definition 3 (Bayes error / Bayes rule) • ℓ : loss 関数 • Hall : 可測関数全体 のとき, Bayes error は予測誤差の最小値を達成する仮説: Bayes error := inf h∈Hall R(h) また, Bayes error を達成する仮説 h0 を Bayes rule という i.e. R(h0) = Bayes error 16
  18. 18. ベイズ規則とベイズ誤差 II Bayes rule を具体的に求めてみる. • ℓ(ˆy, y) : loss 関数 • P : test distribution とするとき, R(h) = E(X,Y)∼P[ℓ(ˆy, y)] = EX [EY [ℓ(ˆy, y)|X]] (∵) EX[EY [ℓ(h(x), y)|X] (⋄) ] = ∫ X {∫ Y ℓ(h(x), y)dP(y|x) } dP(x) = ∫ X×Y ℓ(h(x), y)dP(x, y) = R(h) 2 積分の単調性から (⋄) を小さくする h を選べば予測損失も小さ くなる 17
  19. 19. Example 1.1 判別問題 • 0-1loss を用いると, (⋄) = ∑ y∈Y ℓ(h(X), Y)P(Y = y|X) = 1 − P(Y = h(X)|X) より, h0(X) = arg max y∈Y P(Y = y|X) が予測誤差を最小にする仮説 (input に対して最も出現確 率の大きなラベルを出力) • このときの Bayes error は R∗ = 1 − EX [ max y∈Y P(Y = y|X) ] 18
  20. 20. Example 1.2 回帰問題 • 2 乗 loss を用い, Y の分散を V[Y] とおくと, EY[ℓ(h, Y)] = E[h2 − 2hY + Y2 ] = E[h2 ] − 2E[hY] + E[Y2 ] + E[Y2 ] − E[Y]2 = h2 − 2hE[Y] + E[Y]2 + E[Y2 ] − E[Y]2 V[Y] = (h − E[Y])2 + V[Y] 第 1 項を最小にする h が Bayes rule • このとき, Bayes error は R∗ = R(h0) = EX[EY[ℓ(h0(X), Y)|X] V[Y|X] ] = E[V[Y|X]] 条件付き分散が一定値 σ2 ならば, Bayes error も σ2 19
  21. 21. Example 1.3 ランキング問題 I ランキングを 2 値判別として定式化すると, 仮説空間が H = {sign(h(x) − h(x′ ))} なる形の関数空間に制限される. → 2 値判別の Bayes rule からランキングの Bayes rule は構成 できない → data 分布に仮定をおき, Bayes rule を特徴づける 設定 • input を (x+, x−) ∈ X2 とおき, 常に x+ ≻ x−, y = +1 とする • もし (x, x′, −1) なる data があれば (x′, x, +1) と変換 • x+ ∼i.i.d. D+, x− ∼i.i.d. D− とし, ランキング関数 h : X → R を学習 20
  22. 22. Example 1.3 ランキング問題 II Definition 4 (true positive rate / false positive rate) しきい値 a ∈ R に対して, TPh(a) := Ex+∼D+ [1[h(x+) > a]] FPh(a) := Ex−∼D− [1[h(x−) > a]] • TPh(a) : しきい値 a において positive sample を正しく positive と判定出来ている割合. • FPh(a) : しきい値 a において negative sample を誤って positive と判定している割合. a ∈ R に対して, (FPh(a), TPh(a)) ∈ [0, 1]2 21
  23. 23. Example 1.3 ランキング問題 III Definition 5 (ROC curve) a → ∞ とするとき, (FPh(a), TPh(a)) は (0, 0) → (1, 1) と動く. その軌跡の描く曲線を ROC curve という 2015/1/24(21:30) 14 統計的学習理論の枠組 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 false positive truepositive (FPh0 , TPh0 ) 図 1.3 ROC 曲線のプロット.適切に仮説を選ぶと ROC 曲線は 45◦ の線 (TP = FP) より大 きくなり,AUC は 0.5 を越えます. Figure 1: “統計的学習理論” 図 1.3 より抜粋 • AUC : ROC curve と (1, 0) で 囲まれる領域の面積 • ランダムな仮説 (TP=FP, 45 度直線) は AUC = 0.5 • AUC が大きいほど TP が大 きいので良い 22
  24. 24. Example 1.3 ランキング問題 IV 期待損失と AUC との関係 0-1 loss の下で, R(h) = 1 − Ex±∼D± [1[h(x+) − h(x−) > 0]] = 1 − Ex−∼D− [Ex+∼D+ [1[h(x+) > h(x−)]] TPh(h(x−)) ] = 1 − Ex−∼D− [TPh(h(x−))] AUC(h) = 1 − AUC(h) よって x+x− のとき, • h0 = arg max AUC(h) • Bayes error = 1 − AUC(h0) 23
  25. 25. 統計的学習理論の枠組み 1.4 学習アルゴリズムの性能評価 24
  26. 26. 学習アルゴリズムの性能評価 I Definition 6 (学習アルゴリズム) 学習アルゴリズムは観測データ集合から仮説集合への map : A :2X×Y −→ H S → A(S) = hS ここで, S = {(Xi, Yi)}n i=1 25
  27. 27. 学習アルゴリズムの性能評価 II A の性能の評価指標 1. 予測損失の学習データに関する期待値をとる: ES∼Dn [R(hS)] −→ A の平均的な性能を評価 2. 汎化誤差の分布を評価: Bayes error を R∗ = inf R(h) とおく. ε > 0 と δ ∈ (0, 1) に 対して Pr[R(hS) − R∗ < ε] > 1 − δ が成り立つとする. → 十分大きい確率 1 − δ に対して ε を十分小さく取れれば Bayes error に近い予測損失を達成する仮説が求まる 26
  28. 28. 学習アルゴリズムの性能評価 III Fact 2 (評価指標 1 と 2 の関係) PS∼Dn [R(hS) − R∗ ≥ ε] ≤ ES∼Dn [R(hS)] − R∗ ε • 予測損失と Bayes error の差が ε 以上である確率は, 予測損 失の期待値と Bayes error の差で上から抑えられる (∵) Markov’s inequality : P(|X| ≥ a) ≤ E[|X|] a , a > 0 より, |X| = R(hS) − R∗, a = ε とおくと直ちに従う 2 27
  29. 29. 学習アルゴリズムの性能評価 IV Definition 7 (統計的一致性) ∀D : distribution, ∀ε > 0 に対して, 学習アルゴリズム A : S → hS が統計的一致性をもつ :⇐⇒ lim n→∞ PS∼Dn [R(hS) − R∗ ≤ ε] = 1 “data が多ければ最適な仮説を達成する” という良い学習アル ゴリズムの性質 28
  30. 30. 統計的学習理論の枠組み 1.5 有限仮説集合を用いた学習 29
  31. 31. 予測判別誤差 (0-1 loss の汎化誤差) の評価 I 問題設定 • 2 値判別問題 (ℓ : 0-1 loss) • 有限仮説集合: H := {h1, ..., hT}, ht : X → {+1, −1} • 学習データ: S = {(Xi, Yi)}n i=1, (Xi, Yi) ∼i.i.d. P このとき, 学習アルゴリズムとして経験判別誤差を最小にする 仮説を出力するものを考える: A :2X×Y → H S → A(S) = hS = arg min h∈H ˆRerr(h) 1 n ∑n i=1 ℓ(h(Xi),Yi) 分布 P の下での 0-1 loss に関する Bayes rule を h0 とする (一 般に h0 ̸∈ H) 30
  32. 32. 予測判別誤差 (0-1 loss の汎化誤差) の評価 II 予測判別誤差と Bayes error の gap Rerr(hS) − Rerr(h0) を評価. いま, hH := arg min h∈H Rerr(h) とおくと以下が成立: • Rerr(h0) 全可測関数で min ≤ Rerr(hH) H 内で min ≤ Rerr(hS) • ˆRerr(hS) ≤ ˆRerr(hH) 31
  33. 33. 予測判別誤差 (0-1 loss の汎化誤差) の評価 III Rerr(hS) − Rerr(h0) = Rerr(hS) − ˆRerr(hS) + ˆRerr(hS) − Rerr(hH) + Rerr(hH) − Rerr(h0) ≤ Rerr(hS) − ˆRerr(hS) + ˆRerr(hH) − Rerr(hH) + Rerr(hH) − Rerr(h0) ≤ max h |ˆRerr(h) − Rerr(h)| + max h |ˆRerr(h) − Rerr(h)| + Rerr(hH) − Rerr(h0) = 2 max h |ˆRerr(h) − Rerr(h)| + Rerr(hH) − Rerr(h0) − (⋄) ここで (⋄) の第 1 項に Hoeffding’s inequality を使う Lemma 1 (Hoeffding’s inequality) Z : [0,1]-valued r.v. で Z1, ..., Zn ∼i.i.d. PZ のとき, ε > 0, P [ 1 n n∑ i=1 Zi − E[Z] ≥ ε ] ≤ 2e−2nε2 32
  34. 34. 予測判別誤差 (0-1 loss の汎化誤差) の評価 IV Hoeffding’s inequality の Z として 1[h(X) ̸= Y] を取ると, P [ 2 max h∈H |ˆRerr(h) − Rerr(h)| ≥ ε ] ≤ ∑ h∈H P [ |ˆRerr(h) − Rerr(h)| ≥ ε 2 ] ≤2e−2nε2/4 ≤ 2|H|e−nε2/2 ここで, δ = 2|H|e−nε2/2 とおくと, 学習データ S が given の下で P [ Rerr(hS) − Rerr(h0) ≤ Rerr(hH) − Rerr(h0) + √ 2 n log 2|H| δ ] ≥ 1 − δ が成立. 33
  35. 35. 予測判別誤差 (0-1 loss の汎化誤差) の評価 V P [ Rerr(hS) − Rerr(h0) ≤ Rerr(hH) − Rerr(h0) + √ 2 n log 2|H| δ ] ≥ 1 − δ (∵) δ = 2|H|e−nε2/2 ⇐⇒ δ 2|H| = e−nε2/2 ⇐⇒ log δ 2|H| = −nε2 2 ⇐⇒ ε2 = 2 n log 2|H| δ より, P [ 2 max h∈H |ˆRerr(h) − Rerr(h)| ≥ ε ] ≤ 2|H|e−nε2/2 ⇐⇒ P [ 2 max h∈H |ˆRerr(h) − Rerr(h)| ≤ √ 2 n log 2|H| δ ] ≥ 1 − δ 34
  36. 36. 予測判別誤差 (0-1 loss の汎化誤差) の評価 VI (⋄) の第 1 項を上の評価で置き換えると, Rerr(hS) − Rerr(h0) ≤ √ 2 n log 2|H| δ + Rerr(hH) − Rerr(h0) w.p. 1 − δ が言える 2 • 仮説集合 H が Bayes rule を含むとき (hH = h0 のとき) : Rerr(hH) − Rerr(h0) = 0 =⇒ Rerr(hS) −→ Rerr(h0) as n → ∞ • 確率オーダー表記 (cf 例 2.1): Rerr(hS) = Rerr(h0) + Op (√ log |H| n ) i.e. lim z→∞ lim sup n→∞ P[|Rerr(hS)|/ √ log |H|/n > z] = 0 35
  37. 37. 近似誤差と推定誤差 I Definition 8 (近似誤差 (bias) / 推定誤差 (variance) 分解) 評価式 Rerr(hS) − Rerr(h0) ≤ √ 2 n log 2|H| δ + Rerr(hH) − Rerr(h0) において, 近似誤差 (bias) と推定誤差 (var) を以下で定義. biasH := Rerr(hH) − Rerr(h0) varH := √ 2 n log 2|H| δ • bias はモデルが外れている (Bayes rule を含まない) こと で生じる誤差 (一般に h0 ̸∈ H より biasH ≥ 0) • var は学習データ (サンプルサイズ) に由来するばらつき 36
  38. 38. 近似誤差と推定誤差 II bias-variance trade-off 仮説空間の増大列 H1 ⊂ · · · ⊂ HM, |HM| < ∞ に対して biasH1 ≥ · · · ≥ biasHM , varH1 ≤ · · · ≤ varHM • 仮説空間が広いほど Bayes rule に近い仮説が手に入りやす い • サンプルサイズを止めて H を広げるとばらつきが増大 • サンプルサイズが十分大 ⇒ 大きな H でも var は bias に対して大きくない • サンプルサイズが小さい ⇒ var は H の大きさの影響を受けやすい 37
  39. 39. 近似誤差と推定誤差 III 予測誤差を小さくする仮説集合 Hˆm として, 以下を満たすもの が良さそう ˆm = arg min 1≤m≤M [biasHm + varHm ] • bias が data 分布に依存するため上手い基準ではない → 正則化 38
  40. 40. 正則化 I アイデア: 大きな仮説集合から仮説を選ぶことに対してペナル ティを課す Definition 9 (ペナルティ関数) 仮説集合の増大列 H1 ⊂ · · · ⊂ HM. Φ : Hm → R≥0 が仮説 h に 対するペナルティ関数 :⇐⇒ m1 < m2 に対して, h ∈ Hm1 , h′ ∈ Hm2 Hm1 ⇒ Φ(h) ≤ Φ(h′) Example 2 (大きい仮説集合ほどペナルティも大きい) H0 = ∅ として, 0 < w1 < · · · < wM に対して Φ(h) = M∑ m=1 wm1[h ∈ HmHm−1] 39
  41. 41. 正則化 II 正則化付き経験誤差最小化 min h∈HM ˆRerr(h) + λΦ(h) • 想定する最大の仮説空間で最適化を実行 • λ の決め方: • data 数に依存させ, 適切なオーダーで λn → 0 as n → ∞ と する • クロスバリデーション 40
  42. 42. References [1] Olivier Bousquet, Stéphane Boucheron, and Gábor Lugosi. Introduction to statistical learning theory. In Advanced lectures on machine learning, pages 169–207. Springer, 2004. [2] Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of machine learning. MIT press, 2012. [3] Shai Shalev-Shwartz and Shai Ben-David. Understanding machine learning: From theory to algorithms. Cambridge university press, 2014. [4] 金森敬文. 統計的学習理論 (機械学習プロフェッショナルシ リーズ), 2015. 41

×