[DL輪読会]Understanding deep learning requires rethinking generalization

Understanding Deep Learning
Requires Rethinking Generalization
D3 Yusuke IWASAWA
1

書誌情報
• ICLR2017 oral accepted
• Rating9.5 (1st!!!)
• Chiyuan Zhang, Samy Bengio, Moritz Harbd, Benjamin Recht,
Oriol Vinyasls
• MIT, Berkeley, Google Brain, DeepMindの混合
• 1st authorがGoogle Brainでインターンしてた時の研究
• Harbdさん，Rechtさんはそもそも汎化性能に関する研究をしている人っぽい
• 反省：輪読して質問が出やすい系の論文じゃないかもしれない
(じっくり考えないとよくわからない)
2

RQ: 良い汎化性能を達成する理由は?
• 一般的なDLの問題設定：サンプル数 <<<< パラメタの数
• しかし，汎化性能は◎
• 一方で汎化性能の悪いNNを考えることも簡単
• 汎化性能の「良い」NNと「悪い」 NNを分けるのは何か？
“What is it then that distinguishes neural networks that
generalize well from those that don’t?”
4

汎化性能に関する従来指標
1. 仮説集合Hの複雑さ
1. VC dimension [Vapnik, 1998]
2. Rademacher complexity [Bartlett, 2003]
2. アルゴリズムAの安定性
1. Uniform stability [Mukherjee et al., 2002]
複雑なモデルの汎化性能の保証には正則化が必須である
5

本論文の◯✕
◯ DLの汎化性能が従来の理論的枠組みで説明できないこと
◯ DLが訓練データをすべて覚えているという実証結果
◯ DLにおいて正則化が汎化性能に必須でも最重要でもないこと
◯ 2層のMLPが特定条件化でデータを完全に記憶できること
◯ SGDが暗黙的正則化として機能すること
✕ DLがなぜ汎化性能が良いかの統一的理解
✕ DLの汎化性能をどうすれば高められるかの提案
6

本発表の◯✕
◯◯ DLの汎化性能が従来の理論的枠組みで説明できないこと
◯◯ DLが訓練データをすべて覚えているという実証結果
◯◯ DLにおいて正則化が汎化性能に必須でも最重要でもないこと
◯✕ 2層のMLPが特定条件化でデータを完全に記憶できること
◯△ SGDが暗黙的正則化として機能すること
✕✕ DLがなぜ汎化性能が良いかの統一的理解
✕✕ DLの汎化性能をどうすれば高められるかの提案
7

実験1：無作為化テスト
• 目的
• どのくらいのパラメタを持つNNが良いモデルなのか？
• 方法
• 無作為化テスト
• 出力ラベルをランダムに変更したデータで学習
• （普通に考えるとランダム度合いを高めれば学習できないはず）
• 結果
• 多くのモデルがランダムにしても100%の精度で学習
8

実験1：検証方法
• 無作為化の方法
• 1. ラベルをランダムに変更する
• 2. 入力をランダムに変更する (Random，Shuffle，Gaussian)
• データセット
• CIFAR10とImageNet
• モデル
• Inception v3、Alxexnet、MLPs
• 詳細は付録A参照
9

実験1：結果（CIFAR10）
いずれも
err=0%
10

実験1：ランダム度合いの変更
ランダム強
=>収束遅
ランダム強
=>過学習
11

詳細設定・結果
1. 学習率のスケジューリングは行っていない
2. なんならハイパーパラメタも調整してない（Trueと同じ）
3. 適合し始めたらすぐ収束（Trueよりは遅い）
4. 完全に（過）学習
5. 収束速度は
True < Shuffle Pixel < Gaussian = Rand Pixel < Rand Label
6. ImageNetではtop-1が95.20%、top-5は99.14%
• ※100万枚、1000カテゴリ、全部ランダムなラベルでの結果
12

実験1から得られた示唆
• Radermacher complexity and VC-dimension
• 仮説集合Hの複雑さの指標
• ランダムなラベルに対する予測精度の上界の期待値
• 今回の結果からRademacher complexityは1
=>何の上界も抑えない（DLは悪いモデルということになる）
• Uniform stability
• 訓練アルゴリズムAの安定性の指標
• ランダムに1つ事例を変えたときに結果がどう変わるか
• データの性質を考慮していない？
13

実験2：正則化のオフ
• 目的
• DLにおける正則化の効果の確認
• 方法
• 各モデルの正則化をオフにする
1. データ拡張 (Data augmentation)
2. 重み減衰 (Weight decay)
3. ドロップアウト (Dropout)
14

実験2：正則化のオフ (CIFAR10)
正則化無し
15

実験2：正則化のオフ(ImageNet)
正則化無し
16

実験2：結果詳細
• ImageNetでは正則化なくすとtop-1が18%低下
• Top-1: 59.80%
• Top-5: 80.38%
• ただし正則化なくても十分よい
• vs.ランダム予測（0.1% in top-1）
• vs. ILSCRC winner（83.6% in top-5）
• ちなみにデータ拡張の効果が最も大きい
• データ拡張のみでtop-1は72.95%まで向上
17

実験3：暗黙的な正則化
• 暗黙的な正則化
• 副次的な効果として正則化的な効果を持つもの
• 例1：早期終了 [Yao et al., 2007; Lin et al.,2016]
• 例2：バッチ正規化 [Szegedy et al., 2015;He tet al., 2016]
• 明示的な正則化
• 明示的に関数の複雑さを制限するもの
• 例1：ドロップアウト
• 例2：重み減衰
こちらの効果を検証
18

実験3：早期終了
19
早期終了の効果低

実験3：早期終了+ バッチ正規化
20
訓練はほぼおなじ
早期終了はほぼ効果
なし
BNの効果も数%

実験1, 2, 3で得られた示唆
• モデル自体の複雑さではDLの汎化性能を評価できない
• DLはランダムな訓練データにも完全に適合する（実験1）
• 正則化は汎化性能を改善するが決定的でも必須でもない
• 実験2: 明示的な正則化無しでも良い汎化性能
• 実験3: 早期終了やバッチ正規化の影響は軽微
結局何がDLの汎化性能を高めているのか？
21

仮説：SGDの利用による暗黙的正則化
• 5章に線形モデルでの説明が書いてある
• ざっくりまとめると，SGDは暗黙的に正則化として機能する
• フォーラム見ると議論あるのでそちらを参考にすると良いかも
22

仮説：学習の速さ
23
同じ著者の別論文

まとめ
• 主張
• DLの汎化性能は従来の枠組みで説明できない
• サポート
• DLはランダムな訓練データにもほぼ完璧にフィットする
（データを完全に記憶している）
• DLにおいて正則化は汎化性能を改善するが，正則化ゼロでも良い
（モデル構造や学習方法などその他の部分に鍵がありそう）
• 含まれないこと
• 良い汎化性能を達成する方法，達成するための将来課題
24

• H：仮説集合
• h：仮説
• σ：ランダムなラベル
• としたときに最も適合する仮説hの期待値
Rademacher complexity
25

VC次元
• 仮説集合に含まれる仮説が細部（Shatter）できる点の数
• Shatterとは，任意の2クラスに分類できること
• 経験損失はVC次元で抑えられる
26

Uniform Stability
• 訓練アルゴリズムAの安定性の指標
• ランダムに1つ事例を変えたときに結果がどう変わるか
• データの性質を考慮していない？
27

関連研究
• [Hardt 2016]
• Uniform stabilityに基づく分析
• => uniform stabilityはランダムなラベルと正しいラベルの結果を区別
できない
• [Cybenko, 1989;Mhaskar, 1993]など
• これらの研究は関数レベルの近似能力
• => 有限サンプルの近似能力を検証
28

[DL輪読会]Understanding deep learning requires rethinking generalization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (7)

[DL輪読会]Understanding deep learning requires rethinking generalization