1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Dropout Reduces Underfitting
4/12 Taichi Okunishi
Taichi Okunishi
DL輪読会 2
2023/4/21
2023/4/21
書誌情報
■ タイトル
 Dropout Reduces Underfitting [1]
■ 出典
 https://arxiv.org/abs/2303.01500
■ 著者
 Meta AI, UC Berkeley の研究者ら
■ 出版年月
 2023年3月
■ コード
 https://github.com/facebookresearch/dropout
Taichi Okunishi
DL輪読会 3
2023/4/21
2023/4/21
概要
■ ドロップアウト
 本来、ニューラルネットの overfitting を防ぐための正則化手法として Hinton らによって導入 [2]
■ 本研究
 ドロップアウトが初期段階において、underfitting も軽減していることを実証
 ドロップアウトがミニバッチ間の勾配のばらつきを減らす役割
 モデルがデータに適合するのを助ける
 early dropout と late dropoutを提案・有用性の検証
 early dropout は初期の underfitting を低減
 late dropout は後期の overfitting を低減
 early dropout, late dropout はタスクで使い分け
Taichi Okunishi
DL輪読会 4
2023/4/21
2023/4/21
前提知識:ドロップアウトの原理 [2]
■ ドロップアウト
 訓練時に一定割合のユニットをランダムにドロップ
 推論時は,全てのユニットを使って推論
 データ目線では,異なるネットワークに入力
 ネットワークのアンサンブルとして機能
 overfitting を低減・汎化性能を向上
本研究: ドロップアウトは、 underfitting も低減させているのではないか?
図: ドロップアウトの原理 [2]
Taichi Okunishi
DL輪読会 5
2023/4/21
2023/4/21
ドロップアウトが underfitting を防ぐ理由 (1/3)
■ 実験から分かった2つの事実
 勾配のノルム
 𝑔 2
を計算
 ドロップアウトを用いると小さく
 勾配更新量 (歩幅) は小さく
 初期点からの移動距離
 𝑊1 − 𝑊2 2
を計算
 ドロップアウトを用いると移動距離は大きく
■ ドロップアウトを用いると、歩幅は小さいが、移動距離は大きい
→ 仮説: 勾配が蛇行をせずに一定方向に進んでいるのでは?(右図)
図: 勾配のノルム
図: 移動距離
Taichi Okunishi
DL輪読会 6
2023/4/21
2023/4/21
ドロップアウトが underfitting を防ぐ理由 (2/3)
■ 本当に一定方向に進んでいるのか?
 勾配の方向の分散を算出
 ドロップアウトありの方が、初期段階で分散は小さい
→ 一定方向に進むという仮説は妥当
→ その方向は,正しい方向なのかという新しい疑問
Taichi Okunishi
DL輪読会 7
2023/4/21
2023/4/21
ドロップアウトが underfitting を防ぐ理由 (3/3)
■ 正しい方向に進んでいるのか?
 真の勾配とミニバッチの勾配方向の誤差を算出
 学習初期では,ドロップアウトありの方が,真の勾配方向に近い
 正しい方向に一定に進んでいる
 モデルがデータに適合しやすくなり、 underfitting を低減
 学習後期では、ドロップアウトありだと、真の勾配から離れる
 勾配のノイズにより、フラットな解に収束し、overfitting を低減
Taichi Okunishi
DL輪読会 8
2023/4/21
2023/4/21
実験
■ 実験目的: Early dropout と late dropout の有用性の確認
 early dropout を用いて underfitting の低減を期待
 late dropout を用いて overfitting の低減を期待
■ ImageNet-1K 分類タスクで,通常のドロップアウト,early dropout, late dropout を比較
■ stochastic depth [3] も同様に検証
 Stochastic depth: 残差ブロックを一定確率でドロップ
 スキップ接続のドロップアウトとみなせる
 ドロップアウトと同様な特性を持つはず
図: stochastic depth[3] の概要
Taichi Okunishi
DL輪読会 9
2023/4/21
2023/4/21
結果 | early dropout の結果
■ 比較的サイズの小さいモデル (ViT-T) を使用し,underfitting が問題になるように設定
■ 標準のドロップアウト・標準の s.d. により,正解率は劣化,訓練誤差は上昇
 大量のデータが利用可能な場合,標準のドロップアウトは,適切ではない可能性
■ early dropout ・early s.d. により、正解率を改善、訓練誤差は減少
 初期段階の underfitting を低減し,訓練誤差を減らす
 モデルがデータに適合しやすくなる
Taichi Okunishi
DL輪読会 10
2023/4/21
2023/4/21
結果|late dropout (late s.d.) の結果
■ 比較的サイズの大きいモデル (ViT-B) を使用し,overfitting が問題になるように設定
■ ドロップアウトの代わりに stochastic depth で実験
■ late s.d. は,標準の s.d. と比べて,精度が改善
 先行研究の linear-increasing s.d. , curriculum s.d. [4] よりも高い精度
 効果的に overfiting を低減
Taichi Okunishi
DL輪読会 11
2023/4/21
2023/4/21
まとめ
■ 背景
 ドロップアウトは,overfitting を低減するために Hinton らによって導入
■ 本研究
 いくつかの実験事実から,ドロップアウトは学習初期で underfitting を低減するという仮説を提唱
 early dropout, late dropout を提案,その有用性を検証
■ 実験・結果
 ImageNetの分類タスクで,early dropout と late dropout を標準のドロップアウトと比較
 early dropout はunderfitting を低減させ,late dropout はoverfitting を低減することを実証
Taichi Okunishi
DL輪読会 12
2023/4/21
2023/4/21
参考文献
[1] Z. Liu, Z. Xu, J. Jin, Z. Shen, and T. Darrell, “Dropout Reduces Underfitting.” arXiv,
Mar. 02, 2023. doi: 10.48550/arXiv.2303.01500.
[2] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov,
“Dropout: A Simple Way to Prevent Neural Networks from Overfitting”.
[3] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with
Stochastic Depth.” arXiv, Jul. 28, 2016. Accessed: Apr. 14, 2023. [Online].
[4] P. Morerio, J. Cavazza, R. Volpi, R. Vidal, and V. Murino, “Curriculum Dropout.”
arXiv, Aug. 03, 2017. Accessed: Apr. 14, 2023. [Online].

【DL輪読会】Dropout Reduces Underfitting

  • 1.
    1 DEEP LEARNING JP [DLPapers] http://deeplearning.jp/ Dropout Reduces Underfitting 4/12 Taichi Okunishi
  • 2.
    Taichi Okunishi DL輪読会 2 2023/4/21 2023/4/21 書誌情報 ■タイトル  Dropout Reduces Underfitting [1] ■ 出典  https://arxiv.org/abs/2303.01500 ■ 著者  Meta AI, UC Berkeley の研究者ら ■ 出版年月  2023年3月 ■ コード  https://github.com/facebookresearch/dropout
  • 3.
    Taichi Okunishi DL輪読会 3 2023/4/21 2023/4/21 概要 ■ドロップアウト  本来、ニューラルネットの overfitting を防ぐための正則化手法として Hinton らによって導入 [2] ■ 本研究  ドロップアウトが初期段階において、underfitting も軽減していることを実証  ドロップアウトがミニバッチ間の勾配のばらつきを減らす役割  モデルがデータに適合するのを助ける  early dropout と late dropoutを提案・有用性の検証  early dropout は初期の underfitting を低減  late dropout は後期の overfitting を低減  early dropout, late dropout はタスクで使い分け
  • 4.
    Taichi Okunishi DL輪読会 4 2023/4/21 2023/4/21 前提知識:ドロップアウトの原理[2] ■ ドロップアウト  訓練時に一定割合のユニットをランダムにドロップ  推論時は,全てのユニットを使って推論  データ目線では,異なるネットワークに入力  ネットワークのアンサンブルとして機能  overfitting を低減・汎化性能を向上 本研究: ドロップアウトは、 underfitting も低減させているのではないか? 図: ドロップアウトの原理 [2]
  • 5.
    Taichi Okunishi DL輪読会 5 2023/4/21 2023/4/21 ドロップアウトがunderfitting を防ぐ理由 (1/3) ■ 実験から分かった2つの事実  勾配のノルム  𝑔 2 を計算  ドロップアウトを用いると小さく  勾配更新量 (歩幅) は小さく  初期点からの移動距離  𝑊1 − 𝑊2 2 を計算  ドロップアウトを用いると移動距離は大きく ■ ドロップアウトを用いると、歩幅は小さいが、移動距離は大きい → 仮説: 勾配が蛇行をせずに一定方向に進んでいるのでは?(右図) 図: 勾配のノルム 図: 移動距離
  • 6.
    Taichi Okunishi DL輪読会 6 2023/4/21 2023/4/21 ドロップアウトがunderfitting を防ぐ理由 (2/3) ■ 本当に一定方向に進んでいるのか?  勾配の方向の分散を算出  ドロップアウトありの方が、初期段階で分散は小さい → 一定方向に進むという仮説は妥当 → その方向は,正しい方向なのかという新しい疑問
  • 7.
    Taichi Okunishi DL輪読会 7 2023/4/21 2023/4/21 ドロップアウトがunderfitting を防ぐ理由 (3/3) ■ 正しい方向に進んでいるのか?  真の勾配とミニバッチの勾配方向の誤差を算出  学習初期では,ドロップアウトありの方が,真の勾配方向に近い  正しい方向に一定に進んでいる  モデルがデータに適合しやすくなり、 underfitting を低減  学習後期では、ドロップアウトありだと、真の勾配から離れる  勾配のノイズにより、フラットな解に収束し、overfitting を低減
  • 8.
    Taichi Okunishi DL輪読会 8 2023/4/21 2023/4/21 実験 ■実験目的: Early dropout と late dropout の有用性の確認  early dropout を用いて underfitting の低減を期待  late dropout を用いて overfitting の低減を期待 ■ ImageNet-1K 分類タスクで,通常のドロップアウト,early dropout, late dropout を比較 ■ stochastic depth [3] も同様に検証  Stochastic depth: 残差ブロックを一定確率でドロップ  スキップ接続のドロップアウトとみなせる  ドロップアウトと同様な特性を持つはず 図: stochastic depth[3] の概要
  • 9.
    Taichi Okunishi DL輪読会 9 2023/4/21 2023/4/21 結果| early dropout の結果 ■ 比較的サイズの小さいモデル (ViT-T) を使用し,underfitting が問題になるように設定 ■ 標準のドロップアウト・標準の s.d. により,正解率は劣化,訓練誤差は上昇  大量のデータが利用可能な場合,標準のドロップアウトは,適切ではない可能性 ■ early dropout ・early s.d. により、正解率を改善、訓練誤差は減少  初期段階の underfitting を低減し,訓練誤差を減らす  モデルがデータに適合しやすくなる
  • 10.
    Taichi Okunishi DL輪読会 10 2023/4/21 2023/4/21 結果|latedropout (late s.d.) の結果 ■ 比較的サイズの大きいモデル (ViT-B) を使用し,overfitting が問題になるように設定 ■ ドロップアウトの代わりに stochastic depth で実験 ■ late s.d. は,標準の s.d. と比べて,精度が改善  先行研究の linear-increasing s.d. , curriculum s.d. [4] よりも高い精度  効果的に overfiting を低減
  • 11.
    Taichi Okunishi DL輪読会 11 2023/4/21 2023/4/21 まとめ ■背景  ドロップアウトは,overfitting を低減するために Hinton らによって導入 ■ 本研究  いくつかの実験事実から,ドロップアウトは学習初期で underfitting を低減するという仮説を提唱  early dropout, late dropout を提案,その有用性を検証 ■ 実験・結果  ImageNetの分類タスクで,early dropout と late dropout を標準のドロップアウトと比較  early dropout はunderfitting を低減させ,late dropout はoverfitting を低減することを実証
  • 12.
    Taichi Okunishi DL輪読会 12 2023/4/21 2023/4/21 参考文献 [1]Z. Liu, Z. Xu, J. Jin, Z. Shen, and T. Darrell, “Dropout Reduces Underfitting.” arXiv, Mar. 02, 2023. doi: 10.48550/arXiv.2303.01500. [2] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”. [3] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with Stochastic Depth.” arXiv, Jul. 28, 2016. Accessed: Apr. 14, 2023. [Online]. [4] P. Morerio, J. Cavazza, R. Volpi, R. Vidal, and V. Murino, “Curriculum Dropout.” arXiv, Aug. 03, 2017. Accessed: Apr. 14, 2023. [Online].

Editor's Notes

  • #6 実験事実を詳しく 図のキャプション 勾配が、蛇行
  • #7 勾配の方向
  • #8 勾配方向 ノイズを打ち消し
  • #9 late dropout が急に出てきた early s.d. late .s.d.
  • #11 * の意味は?
  • #12 科学習