Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)

371 views

Published on

7月2日 於 MLSE夏合宿2020
https://mlxse.connpass.com/event/175970/

Published in: Science
  • Be the first to comment

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)

  1. 1. 深層学習の原理の理解に向けた 理論の試み 2020/07/02 MLSE夏合宿2020 今泉允聡(東京⼤学) 1
  2. 2. 導⼊︓深層学習の登場 基礎研究 ~2000 ブレイクスルー 2012 実⽤化の進展 2016~ ⾃動運転[1] 医療診断[2] 技術的 課題 技術 発展 ⾼精度を発揮 画像識別精度: 75% → 96% なぜDNNは⾼性能なのか︖ ⇒ 原理の解明はまだ発展途上 内部の解釈や効率的運⽤に向けて
  3. 3. 理解の不在による壁 深層学習の運⽤にはまだ問題点が多い 実⽤化の進展には、原理の理解が必要 ブラックボックスな挙動 失敗したが 原因は不明︕ 信頼できる 製品が作れない 膨⼤な計算コスト うまい設定が 分からない ⼤量に試験しよう 計算がとても⼤変 4
  4. 4. 発展する深層学習 実運⽤ 基礎 応⽤ 理論 拡 張 基盤となるべき理論 • 実現象との橋渡しはある • 今後の拡張が必要 橋渡し (発⾒) 実運⽤ • 発展するAI技術 • 賢いアルゴリズム
  5. 5. 深層学習とは 6
  6. 6. 深層学習 多層ニューラルネット(DNN)モデル • 多くの層を持つ(変換を繰り返す)関数 ⼊ ⼒ ! Θℓ: ℓ層のパラメタ (⾏列) #: 活性化関数(sigmoid, ReLUなど) 層ℓでの変換 層ℓ 出 ⼒ ! 全#層 7 全パラメータ Θ = (Θ$, … , Θ%) DNNによる関数 (&: * ↦ , ℎℓ = #(Θℓ " ℎℓ#$)
  7. 7. 問題設定 • 訓練データからパラメータを学習 • 経験誤差を最⼩化し、汎化誤差を評価 8 経験誤差(訓練誤差) ℒ Θ = $$%Σ&'% ( ℓ '&, )) *& 汎化誤差(≈テスト誤差) , ℒ -Θ ℒ Θ を⼩さくするように-Θを学習 訓練データ(-個) .' = *(, ,( ()$ ' ℓ: 損失関数 期待値で性能評価 (新しいデータ上の平均値)
  8. 8. 汎化誤差の分解 誤差を三つの要素で説明 DNNの集合 データ 近似誤差 *"# 最適化 誤差 E ℒ #Θ ≤ inf !" ℒ Θ" + * ℒ #Θ − ℒ #Θ + ℒ #Θ − inf !" ℒ Θ" 近似誤差 DNNの表現⼒ 最適化誤差 学習がうまくいくか 複雑性誤差 DNNの集合の⼤きさ 汎化誤差 本講演のトピック ・近似誤差 ・複雑性誤差 9 深層学習は、各項⽬を どの程度改善しているのか︖
  9. 9. 汎化誤差の分解 • 実際の学習との対応 エポック (学習の進展) 損失 0 訓練損失 テスト損失 複雑性誤差 (汎化ギャップ) 近似誤差 最適化誤差 10
  10. 10. 近似誤差 DNNと既存法の差を⽰す関数近似理論 11
  11. 11. 近似誤差とは • DNN (& が表現できるデータの構造で決まる 回帰の例(損失ℓは⼆乗損失) データが . = )∗ / + 1 から⽣成されている時︓ inf )! ℒ Θ+ ≤ inf ) )∗ − )) , - + Noise Terms / )) * . データ 0 データの構造を 表現できている 表現できてない Θ: パラメタ 0! : DNN 12
  12. 12. 普遍近似定理 よく知られている結果 13 普遍近似定理 (Cybenko (1989)など) 層が2つのニューラルネットワーク(NN)は、⼗分な数のパラ メタがあれば、連続関数を任意の精度で近似できる。 • 層2つで成⽴ → 深層でなくて良い • 普遍近似は多くの他⼿法でも成⽴ → NNでなくて良い ➡ なんでDNNを使うの︖
  13. 13. より詳細に近似を調べるには 近似誤差の減衰レート • パラメタ(エッジ)が増えるときの誤差減少スピード • レートを出すには、)∗が滑らかである必要 ➡ )∗が微分可能である状況を調べる inf ) ‖)∗ − ))‖ = ?(A$1) 近似誤差の減衰レート+ *∗: 近似対象の関数 *#: ,個のパラメタを持つDNN パラメタ数 2 近似 誤差 0 速い減衰(-⼤) 遅い減衰(-⼩) 近似誤差 パラメタ増で 減少 14
  14. 14. 滑らかな関数に対する近似レート )∗︓近似対象(⼊⼒C次元、D回微分可能) ))︓DNN(E層, パラメタA個、活性化関数F) Gがsigmoid等の場合 (Mhaskar (1996)など) DNNは E = 2 のもとで以下を達成︓ inf ) ‖)∗ − ))‖ = ?(A$3/5) 活性化関数がReLUの場合 (Yarotsky (2017)など) E層のDNNは以下を達成︓ inf ) ‖)∗ − ))‖ = ?(A$3/5 + 2$6) 誤差レートD/Cは、 )∗の滑らかさで増加、⼊⼒次元で減少。 ReLUの尖りから 来る影響 15
  15. 15. 活性化関数!による違い • /が滑らかな場合(sigmoid, softplus) • /が滑らかでない場合(ReLU, LeakyReLU) 2層NN 8層DNN ノード毎に多項式近似 ⾜し上げ テイラー多項式を表現 層を重ねて細かい⻭を表現 ⾜し上げ 区分線形関数で テイラー多項式を近似16
  16. 16. 良いレートなの︖ • 誤差レート0/2は理論的に最適 • しかし、他⼿法も同じように最適 近似誤差の最適性 (DeVore+ (1989)など) 近似誤差レート?(A$3/5)は理論上の最適値。 すごいぞ︕ やはりDNNは 最適なんだ︕ 他⼿法の近似レート (Newman+ (1964)など) フーリエ基底、多項式基底などによる近似は レート?(A$3/5)を達成する。 他のも最適だから 結局同じ︖ )∗が滑らかなら、DNNと他⼿法の理論的性能は同等。17
  17. 17. DNNが重要になる状況1 • (∗ が滑らかでない場合、DNNが他に優越 区分上でのみ滑らかな関数 (∗ = Σ"(" ⊗ 1#! 0": 滑らかな関数, 1#! : 区分上の指⽰関数 近似レートの差別化 (Imaizumi & Fukumizu (2019)) DNNのレート︓ ?(max{A$3/5, A$:/-(5$%)}) 他⼿法(カーネル等)のレート︓ ?(max{A$3/5, A$:/=(5$%)}) ($は区分の境界線の滑らかさ) 区分の境界が複雑な形 ➡ DNNが速いレートを達成 %% %& &∗ %%, %& 汎化性能も優越するが、 ここでは近似性能のみ記述 18
  18. 18. DNNが重要になる状況2 • (∗ が不均⼀な滑らかさを持つ場合、DNNが優越 領域A 領域B 近似レートの差別化 (Suzuki (2019)) DNNのレート︓ ?(A$3/5) 他⼿法(カーネル等)のレート︓ ?(A$(3$(%/>$%/-)")/5) (?は不均⼀さの程度) 不均⼀さがより強い ➡ DNNが速いレートを達成 Besov空間の関数 (∗ = Σ(6(7( + Σ(,)6(,)9(,) @⋅ % + Σ&2'& ()*/,-*/% @⋅,& % ' */' < ∞ 汎化性能も優越するが、 ここでは近似性能のみ記述 19
  19. 19. DNNは局所構造を表現できる • これまで︓均⼀な滑らかさ・構造を表現 • DNN︓局所的に滑らかさを変えられる カーネル法 スプライン法 フーリエ法 など 分断 関数 前半の層で 関数の台を分割 後半の層で 関数を表現 E 0 E 20
  20. 20. 更なるDNNの役割︓特徴量抽出 特徴量変換+関数表現を考える 抽出 関数 前半の層で 特徴量を抽出 後半の層で 関数を表現 21 Cat DNNは複数回の四則演算をする ➡ 既存の変換(フーリエ変換など)が近似的に可能
  21. 21. DNNが重要になる状況3 • 特徴空間への写像がある場合、DNNのレート改善 近似レート (Peterson et al. (2019)) (Schmidt-Hieber (2019a)) DNNのレート︓ ?(max{A$F/5, A$3/G}) ⼀般的なレート︓ ?(A$3/5) 特徴写像N(未知)と関数Oの合成 (∗ = : ∘ 7 < = > ⼊⼒空間 (H次元) 特徴空間 (I < H次元) 出⼒ )∗ (J回微分可能) O (J回微分可能)N (K回微分可能) 特徴量が低次元・ Nがシンプル ➡ DNNのレート改善 22
  22. 22. DNNが重要になる状況3+ • 特徴空間の具体例︓低次元集合 低次元集合Ω上の関数 (∗ < , Supp < = Ω < > ⼊⼒空間 (H次元) 出⼒ ➡ DNNのレート改善 低次元特徴量がある時の 近似レート (Nakada & Imaizumi (2019)) DNNのレート︓ Q?(A$3/G) ⼀般的なレート︓ ?(A$3/5) (*: 低次元集合の次元) 低次元集合 例︓フラクタル (I < H次元) )∗ (J回微分可能) 23
  23. 23. DNNが重要になる状況3+ • 特徴空間の具体例︓低次元多様体 多様体上への変換を持つ関数 (∗ = : ∘ 7 < > ⼊⼒空間 (H次元) 低次元多様体 (I < H次元) 出⼒ )∗ (J回微分可能) ➡ DNNのレート改善 多様体特徴量がある時の 近似レート (Schmidt-Hieber (2019b)) DNNのレート︓ Q?(A$3/G) ⼀般的なレート︓ ?(A$3/5) 24
  24. 24. 近似誤差のまとめ • DNNが優位・改善する状況の発⾒ • 知⾒1︓局所構造を持つ関数ではDNNが優位 • 既存法(カーネル法など)に対する優位性も⽰される • 知⾒2︓特徴量抽出が有効ならDNNは改善 • 狭い関数クラスだが、特徴量の構造がDNNに合う 25 局所構造を持つ関数 (区分滑・Besov) (⼀様に)滑らかな関数 拡張 特徴量変換を含む関数 構造追加
  25. 25. 近似誤差の未解決点 • まだ未解決な点も多い 超深層(100層など)の意義は不明 ・上記の結果は3~5層で成⽴ ・ReLUの場合も+(log 0)層くらい 使える特徴量概念は抽象的 ・解析できる特徴は次元などに限定 ・具体的な特徴付けは今後の課題 ラフな差別化は出来つつあるが、現象を説明するにはまだ壁 結局、層は すごく多いのが いいの︖ どんな特徴量が 必要なの︖ 議論︓Yarotsky(2018)など 議論︓Alemi+(2016)など 26
  26. 26. 複雑性誤差 なぜ巨⼤モデルでも汎化する︖ 27
  27. 27. そもそも複雑性誤差とは︖ • 汎化誤差(期待値)と訓練誤差(経験平均)との差 既存評価︓可能な全てのC上での E ℒ Θ − ℒ Θ Θの集合 E[ℒ Θ ] ℒ(Θ) ' ℒ )Θ − ℒ )Θ 学習した-Θ ここの⼤きさで評価 , ℒ -Θ − ℒ -Θ ≤ sup )! , ℒ Θ+ − ℒ Θ+ 28 × 本当に知りたいもの
  28. 28. なぜ全てのΘを考える︖ • データ.2から学習されるΘを全てカバーする必要 • 期待値=可能なW(すべての場合の平均値を考えること 汎化誤差(期待値)を考える DNNの集合(⼤) データ3' 学習された0/0 可能な3' 取りうる0/0 取りうる3'をすべて考慮 可能な3'から定まる&"(を すべて考慮 アルゴリズムの ランダムを考慮することもある 29
  29. 29. 既存の理論の考え⽅ モデルの⼤きさが重要 • 複雑性誤差=可能な(4の集合 の⼤きさ DNNの集合(⼤) データ3' 可能な3' 可能なW(から定まる)LMを すべて考慮 可能な)LMの候補集合が ⼤きいほど 複雑性誤差が増加 30
  30. 30. 複雑性評価の数学的⽅法 複雑性評価(e.g. Anthony & Bartlett (1999)) sup 5 E ℒ Θ − ℒ Θ = H 1 - I 6 7 log M8 2N N: データ数 O: パラメタ数 Θ sup ! |E ℒ Θ − ℒ Θ Θ Θ× × × × ⼀様誤差 Rademacher複雑性 N-*/, E sup ! Σ12* 3 W1ℓ X1, 0! E1 Dudley積分 N-*/, Z 4 5 log ^6 H_ →集合の⼤きさを評価 W1: Rademacher変数 ^6: {0!}の最⼩_被覆数 ×: 離散点(被覆球の中⼼) 導出の流れ レートは改善可だが ⼤きさへの依存は不可 可能な))の集合の⼤きさ 31
  31. 31. 複雑性はパラメタ数が主 DNNの複雑性評価(e.g. Anthony & Bartlett (1999)) H 1 - I 6 7 log M8 2N = H O log P - ➡ パラメタ数 O が主な要素 • この理論はDNNの実性能を説明できない ⾼精度DNNは 膨⼤なパラメタ数 Alex Net →6千万 VGG Net →1億 ⽭盾 ⼤量のパラメタは 複雑性誤差を上げる 統計・学習理論の(⼤)原則 32
  32. 32. これは深層学習の実際と乖離 33 CLR 2017 p-1 vali- el archi- hoice of hout this nt archi- otice that hue, for Figure 2: Top1 vs. operations, size / parameters. Top-1 one-crop accuracy versus amount of operations required for a single forward pass. The size of the blobs is proportional to the number of network pa- rameters; a legend is reported in the bottom right cor- ner, spanning from 5⇥106 to 155⇥106 params. Both these figures share the same y-axis, and the grey dots highlight the centre of the blobs. 有名ネットワークの 精度とパラメタ数の関係 パラメータ数(丸の⼤きさ)が増加 することで精度(縦軸)が向上 精度(%) 実データの実験結果 ニューラルネットワークのサイズ (横軸)の拡⼤に伴って 汎化誤差(⾚線・⻘線)が減少 (Neyshabur+ 2018)
  33. 33. 新しい理論の潮流 汎化の原理︓深層学習最⼤の謎(のひとつ) • 現象を説明する新しい理論を紹介をします。 • 既存の理論 • 近年の理論の試み 34 モデルの⼤きさ A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下 過学習しやすさ =モデルの⼤きさ (パラメタ数) いやいや違うんだよ (諸説)
  34. 34. 理論A︓暗黙的正則化 着想︓可能な (5すべてを考える必要は無いのでは︖ • データ依存で実現しうる))の部分集合がありそう DNNの集合 データ3' 可能な3' データ依存 部分集合 これまでの複雑性誤差 可能な全DNN の⼤きさ →巨⼤な複雑性 新しい着想 データ依存集合 の⼤きさ →⼩さい複雑性 35
  35. 35. この着想を⽀持する実験 • データ依存集合の重要性を⽰す実験(Zhang+ (2017)) • 全然違うデータW(, W( + でも、 DNNの近似誤差・複雑性誤差は両⽅とも⼩さい ⼤きな複雑性 3' 3' )&# &#! ⼤きな近似誤差 3' 3' ) &# &#! or 近似誤差︓どちらも⼩ 複雑性誤差︓⼤ 既存理論︓複雑性誤差= の⼤きさ 近似誤差︓どちらかは⼤ 複雑性誤差︓⼩ 36
  36. 36. データ依存集合は実験を説明 • データ依存集合の重要性を⽰す実験(Zhang+ (2017)) • 全然違うデータW(, W( + でも、 DNNの近似・複雑性誤差は両⽅とも⼩さい 3' 3' ) &# &#! 近似誤差︓どちらも⼩ 複雑性誤差︓常に⼩ 新しい着想︓複雑性誤差=データ依存集合 の⼤きさ DNNの集合 実験・実現象と⼀致︕ 37
  37. 37. 暗黙的正則化︓データ依存集 合を考える • データ依存集合の重要性を⽰す実験(Zhang+ (2017)) • 全然違うデータW(, W( + でも、 DNNの近似・複雑性誤差は両⽅とも⼩さい 試みの⼀部 1. ノルム制約(暗黙的正則化) 2. 学習アルゴリズム 3. 各種正則化⼿法 何によって は 決まっているの︖ 新しい着想︓複雑性誤差=データ依存集合 の⼤きさ 他多数38
  38. 38. 試み1. 原点近傍仮説 • 多くのパラメタΘはゼロ近傍に集中 →各層ℓ = 1, … , Eの Θℓ がZℓで抑えられると仮定 DNNの集合 {)): Θℓ ≤ Zℓ, ∀ ℓ} 制約された集合 0 ノルム制約下での複雑性誤差 (Neyshabur+ (2015a)) (Golowich+ (2019)) ? ] E ∏ℓ'% 6 Zℓ $ 9 = max * %* : データの⼤きさ 他、Bertlett+ (2017)など Πℓcℓ • パラメタ数Aには(陽には)依存しない。 • Zℓが⼩さいほど、誤差は⼩さくなる。 39
  39. 39. 試み1.原点近傍仮説 • 他ノルムや、各層の勾配を抑えることも DNNの集合 ノルムと勾配が 制約された集合 0 ノルム・ヤコビアン制約下の誤差 (Wei & Ma (2019)) Q? Σℓ'% 6 Zℓ + _ℓ -/d + Zℓ ++ _ℓ + -/d d/- $ >ℓ ) , >ℓ )) : Θℓの別ノルムでの上限 @ℓ, @ℓ ) : ℓ層のヤコビアンの上限 40
  40. 40. 試み1.原点近傍仮説 • ノルム制約の実現性に課題 ➡ まだ明確な特徴づけは明らかでない 数学的発⾒による仮説はある (線形モデルの収束など: Neyshabur+ (2014), Arora+(2019)) じゃあどういう時にノルムが⼩さいの︖ それはDNN特有なの︖ パラメタのノルムが常に⼩さければ 複雑性誤差も⼩さい︕ 41
  41. 41. 試み2. 学習アルゴリズムの影響 • 学習アルゴリズム(勾配法)の性能を評価 • 探索される範囲=実現する(5の集合 DNNの集合 勾配法による最適化 初期値を設定 Θ(e) パラメタ更新 ` = 1, … , a Θ(fg%) ← Θ(f) − cf∇)ℒ Θ f cf: ステップサイズ 探索される範囲 勾配法で探索 初期値))($) 確率的勾配法(SGD)にも 拡張可能 42
  42. 42. 試み2. 学習アルゴリズムの影響 • 探索性能を下げる → 実現する(5の集合も減少 探索範囲は縮⼩ 早く学習をやめれば誤差減 (Hardt+ (2016)) (Kuzborskij+ (2017)) B+ = O(1/F)とする ? ah $ G ≥ 1: パラメタの更新回数 I ∈ (0,1): 減衰率 ステップサイズ・更新回数を減 DNNの集合 • 探索範囲を狭めれば、複雑性誤差は⼩さくなる。 43
  43. 43. 試み2. 学習アルゴリズムの影響 • ノルム制約の実現性に課題 ➡ 近似・最適化誤差との関係は明らかでない。 損失関数の形状の研究が必要。 それは良いパラメタが 学習できないんじゃないの︖ 学習を控えめにすれば 複雑性誤差は⼩さい︕ 44
  44. 44. この理論への批判 45→ 理論をより現実に近づける必要 実験︓パラメタは原点・初期値近傍に留まらない 理論︓留まることは理論的にも保障されない 計算機実験で、データ数(横軸)が増えることにパラメタが原点・初期値から遠 ざかる(縦軸は距離)様⼦(Nagarajan+ NeurIPS2019 卓越論⽂)
  45. 45. 新しい理論の潮流 汎化の原理︓深層学習最⼤の謎(のひとつ) • 現象を説明する新しい理論を紹介をします。 • 既存の理論 • 近年の理論の試み 46 モデルの⼤きさ A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下 過学習しやすさ =モデルの⼤きさ (パラメタ数) いやいや違うんだよ (諸説)
  46. 46. 理論B︓PAC-Bayes理論 学習パラメタがランダム(摂動付)だと⾒なす → この摂動の影響を事前分布を⽤いて分析 Θの集合 E[ℒ Θ ] ℒ(Θ) 学習した-Θ × LΘ+i, i ∼ k 事前分布l 摂動分布eと事前分布fで複雑性誤差を評価 事前分布の設定によって誤差を操作できる
  47. 47. どういう理論か 摂動で期待値を取った誤差評価 → パラメータ-Θの近傍を摂動で探索・集計 48 QL∼N Q ℒ RΘ + S − ℒ RΘ + S = H TP(U||W) - eとfの違いに 依存した上限 摂動付き複雑性誤差の期待値 カルバック=ライブラー ダイバージェンス @O(P| R = ∫ log(I/T) UP e, fは状況に応じて⾃由に設定可 → モデルの⼤きさを受けづらい誤差評価
  48. 48. 平坦最⼩解とのつながり 平坦最⼩解(flat minima) • 性能の良いパラメータの近辺では、損失関数が平坦 だという実験的発⾒ 49 Keskar (2017)による 平坦最⼩解のイメージ PAC-Bayes理論は、平坦最⼩解を再現する E8∼: m ℒ LΘ + i − ℒ LΘ ≤ m;∼: ℒ LΘ + i − ℒ LΘ + o( p8(k||l)/N) 複雑性誤差 (摂動平均との誤差) 解の平坦さの期待値
  49. 49. 実験によるPAC-Bayes理論の有⽤性 • 最も実験と整合的な理論 • 既存理論(VC次元・ラデマッハ複雑性)や、 新しい理論(暗黙正則化など)よりも実精度を予測 50 当該論⽂の タイトル・著者 (Jiang+ 2018) Googleによる⼤規模実験 40種類の理論評価の妥当性を約2000種類のCNNで評価
  50. 50. いくつかの批判 51 • 設定はまだすり合わせの余地がある ➡ 特殊な評価⽅法なので、 よりスタンダードな形に寄せる必要 PAC-Bayes⾃体は古くから知られる⽅法だが、やはり設定の特殊さがネック でもこれ、実際の汎化誤差とは 違う値を評価してるよね︖ モデルの⼤きさを緩和できるし 実験と合ってるし、最⾼では︖
  51. 51. 新しい理論の潮流 汎化の原理︓深層学習最⼤の謎(のひとつ) • 現象を説明する新しい理論を紹介をします。 • 既存の理論 • 近年の理論の試み 52 モデルの⼤きさ A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下 過学習しやすさ =モデルの⼤きさ (パラメタ数) いやいや違うんだよ (諸説)
  52. 52. 理論C︓⼆重降下理論 ⼆重降下 • モデルを過剰に⼤きくすると、バリアンス(複雑性 誤差)が逆に減少する現象 53 モデルの⼤きさ(表現⼒) 誤差 図はBelkin+ 2019より 既存理論の考え このギャップが複雑性誤差 (テスト誤差-訓練誤差)
  53. 53. 理論C︓⼆重降下理論 ⼆重降下 • モデルを過剰に⼤きくすると、バリアンス(複雑性 誤差)が逆に減少する現象 54 図はBelkin+ 2019より⼆重降下現象 ng risk risk H ting Risk Training risk Test risk Capacity of H under-parameterized “modern” interpolating regime interpolation threshold over-parameterized “classical” regime (b) モデルの⼤きさ(表現⼒) 誤差 減少する 複雑性誤差 深層学習の巨⼤モデルと相性が良い考え
  54. 54. 実験による発⾒ ⼆重降下現象 • シンプルな⼿法で確認 (線形回帰や⼆層NN) • パラメタを増やすと誤差が 増加ののち減少 (Belkin+ 2019) • その後、深層学習でも確認 • 多層のCNN, ResNetなどで 結果が再現 (Nakkiran+ 2020) 55 Harvard University OpenAI ABSTRA We show that a variety of modern deep lear phenomenon where, as we increase model s then gets better. Moreover, we show that function of model size, but also as a functi We unify the above phenomena by definin the effective model complexity and conjectu respect to this measure. Furthermore, our no identify certain regimes where increasing (e samples actually hurts test performance. 1 INTRODUCTION :1912.02292v1[cs.LG]4Dec2019 パラメータ数 パラメータ数 汎化誤差 汎化誤差
  55. 55. これを理論で説明できるか︖ • 線形回帰モデルでは厳密に⽰される X: モデルの⼤きさの尺度 56 汎化誤差 V = パラメタ数 データ数 線形回帰の分散(複雑性誤差) (Hastie+ (2019)) F-g g − 1 , (g < 1) F- g − 1 , (g > 1) W&: ノイズの分散 g モデルの⼤きさKが増えて、 誤差が増加・減少する様⼦
  56. 56. キーとなる数学 Marchenko-Pastur則(MP則) • ランダム⾏列理論 • 線形回帰の分散項 57 MP則による スペクトル密度 jΣ$%: データの分散共分散⾏列 → ランダム⾏列理論を使える /X - tr [ΣYZ Σ モデルを⼤きくする → データが持つ不確実性が相対的に低下
  57. 57. ニューラルネットワークは︖ • 限定的な⼆層NNなら理論が通⽤する 考える⼆層NN • ⼀層⽬︓乱数パラメタ • ⼆層⽬︓学習する → 擬似的な線形回帰 58 g モデルの⼤きさKが増えて、 誤差が増加・減少する様⼦ 分散(複雑性誤差) ランダム⾏列理論を使うため 線形回帰に近い設定に持って いくのがミソ
  58. 58. いくつかの批判 59 • 理論としてはまだ発展途上 ➡ 今後の発展が望まれる理論 実は、元の現象と理論は20年前に発⾒されており、今回のは 焼き直しの側⾯も。今度のブームでどの程度更新されるか 実は、まだ限界が多い理論なんだ… モデルを拡⼤すれば誤差消滅︕ これで全て解決︕︕ 多層NNに使えない、近似誤差が消えない、など 説明できる状況はまだ限定的。
  59. 59. 複雑性誤差の理論まとめ • どの理論も⼀⻑⼀短 60 モデルの⼤きさ A: 暗黙正則化 B: PAC-Bayes C: ⼆重降下 ✔ ❌ 汎⽤的 ⾮深層法では良い評価 深層学習の 実際と乖離 解釈しやすい 多様なバリエーション 実験で反証 実験と整合的 設定に難あり ⾰新的 新しい理論の地平 設定に難あり 使える状況が限定的 今後の継続的な探求・深化が望まれる
  60. 60. まとめと展望 68
  61. 61. まとめ・展望 近似誤差 • 進捗しているが更なる発展の余地 複雑性誤差 • 実現象との⼤きな⽭盾 • 新しい理論が多く提案 実運⽤ DNNの 理論 実験的発⾒ 実現象の発⾒から 理論の拡張へ 69
  62. 62. ご静聴ありがとうございました。 70

×