SlideShare a Scribd company logo
1 of 22
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
AutoDropout: Learning Dropout Patterns to Regularize
Deep Networks
Jun Hozumi, Matsuo Lab
書誌情報
• Title: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks
• Author: Hieu Pham and Quoc V. Le
• Google Research, Brain Team
• Date: 5 Jan 2021
• Conf.: AAAI 2021 (Accepted)
• Paper: https://arxiv.org/abs/2101.01761v1
• スライド中の図表は本論文から引用
• 詳細な議論は元論文やgithub上のコードを参照してください
2
背景
• 近年のNNは過学習を避けるための正則化が必要で、その一般的なものがDropout
• Dropoutの仕方を特定のパターンにすることで、ランダムより高い性能を発揮することが
知られている
• その事例によって、その適したパターンは異なる
• たとえば、多層LSTMでは垂直に接続されたニューロンのみをDropすべき
• Variational Dropoutでは時間次元に沿ってDropパターンを共有
• だけど、どっちもTransformerでは用いられない
• 一方で、画像分野ではVanilla DropoutはConvNetの全結合層のみ用いられる
• Stochastic DepthやDropPath、DropBrockなど特定の構造でDropする手法もある
• などなど…
3
目的
• 過去の研究を調査するだけで最適なDropoutパターンを設計することは困難である
• ならば、それ自体を学習させてしまえばいいのではないか?
• 本研究では対象とするモデルやタスク、ドメインに特化したDropOutパターンを自動で設
計するAutoDropoutを提案する
4
目的
• AutoDropoutの主な貢献として構造化されたDropOutパターンの探索空間の提案がある
• その探索空間によって、多くの既存のDropOutパターンを一般化する
• AutoDropoutは強化学習で訓練されたコントローラを持つ
• その報酬は対象とするモデルでのvalidationスコア
• 分散強化学習ベースの探索アルゴリズム
• AutoAugmentと同様、既存のパイプラインに埋め込めるようにする
5
関連研究(本研究の位置づけ)
• 本研究はNeural Architecture SerachやAutoAugmentと同じ系列の研究
• 探索空間を設計して、そこから強化学習で探索するアプローチ
• また、AutoDropoutは隠れ状態のデータ拡張の研究であるとも捉えられる
• ドメイン固有のデータ拡張ではなく、画像と文章でも同じ哲学で設計される
6
本研究での記法
• 本研究ではDropOutパターンは既存研究と同様に、要素ごとの乗算マスクで表現する
• ℎ層へDropoutするために、ℎと同サイズのバイナリマスク𝑚を適用し、スケールする
• 本研究では、テンソルを(𝑁, 𝑑1, 𝑑2, … , 𝑑𝑘, 𝐶)と表現する
• 𝑁はバッチの次元、𝐶は特徴量の次元、𝑑は時空間の次元
• ConvNetは(𝑁, 𝐻, 𝑊, 𝐶)、𝐻と𝑊は層の高さと幅
• Transformerの出力は(𝑁, 𝑇, 𝐶)、𝑇はトークン数を表す時間次元
• ConvNetとTransformerでテンソル表現が異なるので、前者から考えていく
7
ConvNetでのDropoutパターン
• 隣接する長方形からなる基本パターンを作成し、それに幾何学的変換を行う
• そのパターンをどの位置に適用するか決定し、バッチ正規化層の出力に適用する
• 他の位置で適用すると、検索時に訓練が不安定になるため
• Residualコネクションに適用するかもコントローラで選択する
8
Dropoutパターンを決めるパラメータ
• パターンを決めるパラメータは以下の通り
9
パターンの探索アルゴリズム(1)
• コントローラをTransformerネットワークでパラメータ(𝜃)化し、訓練する
• 移動平均を用いたREINFORCEアルゴリズムで探索する
10
パターンの探索アルゴリズム(2)
• 𝜃をモンテカルロ勾配推定で最適化する
• 𝑏は移動平均ベースライン、𝑀はバッチサイズ(𝑀 = 16)
• Perf(𝑟)はDropoutパターン𝑟でプロキシタスクの検証セットを学習することで測定する
• 全データセットを使うと時間がかかるので、一部データのみを使用したプロキシタスクを用いる
11
コントローラの並行訓練のための工夫
• 探索を効率よく並行して行えるようにするために、Importance Samplingを行う
• 従来手法では𝑀個のDropoutパターンのミニバッチ学習を待ってから𝜃を更新するが、学習に時間
がかかったり失敗したりするので、そこがボトルネックになることがあるため
12
Transformerの場合
• 対象がTransformerの場合は、以下のように変わる
• sizeは適用トークン数、strideはスキップされるトークン数
• share_tはsize数のトークン間で、share_cはチャネル間でパターンを共有するか否か
• Word Dropoutは「share_c=True」、VariationalDropoutは「size=𝑇」と「share_t=True」で実現する
13
Dropoutパターンの適用箇所
• TransformerはConvNetと異なり、Dropoutパターンが様々なサブレイヤーに適用できる
• それぞれに独立したDropoutパターンを適用する
• そのパターンのサイズが0となった場合、そこにはDropoutが適用されない
14
実験概要
• AutoDropoutをConvNetとTransformerの両方に適用して実験を行う
• ConvNet: 教師あり画像分類、半教師あり画像分類
• Transformer: 言語モデリング、機械翻訳
• 最後に、パターン探索性能をランダムサーチと比較する
15
結果: ConvNet(教師あり学習)
• AutoDropoutは他の正則化手法に比べて高いパフォーマンスを示した
• 他のデータ拡張手法と組み合わせた場合、AutoDropout+RandAugmentが、CIFAR-10と
ImageNetの両方のパフォーマンスを向上させた
16
Dropoutパターンの定性分析
• 得られたDropOutパターンを可視化したところ、最初と最後に異なるパターンのDropout
をかけると有効であることが分かった
• マスクされる場所を変えると精度が1%低下した(ResNet-50)
17
結果: ConvNet(半教師あり学習)
• 半教師あり学習でもAutoDropoutの効果を検証した
• CIFAR-10では4000、ImageNetでは10%のみラベルを付与
• Unpervised Data Augmentation(UDA)と組み合わせたところ、最も良い結果を示した
18
実験: Transformer
• PennTreebankデータセットを用いたTransformer-XLの言語モデリングにAutoDropoutを
適用した
• そのモデルをWikitext-2の言語モデリングや他データセットの機械翻訳に転移させた
• いずれの実験においても高いパフォーマンスを記録した
19
Dropoutパターンの定性分析
• 得られたパターンはVariational Dropoutに類似しているが、少し異なる
• 全レイヤーにVariational Dropoutを適用するとPerprexityが59.8となり性能は悪化する
20
探索手法の比較
• Neural Architecture Searchにおいては、ランダムサーチが良いベースラインであることが
知られている
• AutoDropoutの探索とランダムサーチでパターンのサンプリングを比較した
• AutoDropOutで発見されたパターンのほうが高いパフォーマンスを示した
21
結論
• 本研究ではDropOutパターンを自動設計するAutoDropoutを提案した
• 本手法によりConvNetやTransformerに適したDropoutパターンを発見できた
• AutoDropoutの弱点は計算量が多くなることであるため、今後の方向性としては、より効
率的な検索アプローチが求められる
• 計算コストが高くても、AutoAugmentと同様に、発見されたパターンをSOTAモデルに適
用することで簡単に利用できる
• Autoaugmentで発見した拡張パターンはCIFAR-10やImageNetのSOTAモデルに使用されている
22

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Recently uploaded

Structuring Teams and Portfolios for Success
Structuring Teams and Portfolios for SuccessStructuring Teams and Portfolios for Success
Structuring Teams and Portfolios for Success
UXDXConf
 
Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...
Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...
Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...
panagenda
 

Recently uploaded (20)

The Metaverse: Are We There Yet?
The  Metaverse:    Are   We  There  Yet?The  Metaverse:    Are   We  There  Yet?
The Metaverse: Are We There Yet?
 
Oauth 2.0 Introduction and Flows with MuleSoft
Oauth 2.0 Introduction and Flows with MuleSoftOauth 2.0 Introduction and Flows with MuleSoft
Oauth 2.0 Introduction and Flows with MuleSoft
 
Where to Learn More About FDO _ Richard at FIDO Alliance.pdf
Where to Learn More About FDO _ Richard at FIDO Alliance.pdfWhere to Learn More About FDO _ Richard at FIDO Alliance.pdf
Where to Learn More About FDO _ Richard at FIDO Alliance.pdf
 
State of the Smart Building Startup Landscape 2024!
State of the Smart Building Startup Landscape 2024!State of the Smart Building Startup Landscape 2024!
State of the Smart Building Startup Landscape 2024!
 
Secure Zero Touch enabled Edge compute with Dell NativeEdge via FDO _ Brad at...
Secure Zero Touch enabled Edge compute with Dell NativeEdge via FDO _ Brad at...Secure Zero Touch enabled Edge compute with Dell NativeEdge via FDO _ Brad at...
Secure Zero Touch enabled Edge compute with Dell NativeEdge via FDO _ Brad at...
 
Structuring Teams and Portfolios for Success
Structuring Teams and Portfolios for SuccessStructuring Teams and Portfolios for Success
Structuring Teams and Portfolios for Success
 
TEST BANK For, Information Technology Project Management 9th Edition Kathy Sc...
TEST BANK For, Information Technology Project Management 9th Edition Kathy Sc...TEST BANK For, Information Technology Project Management 9th Edition Kathy Sc...
TEST BANK For, Information Technology Project Management 9th Edition Kathy Sc...
 
Portal Kombat : extension du réseau de propagande russe
Portal Kombat : extension du réseau de propagande russePortal Kombat : extension du réseau de propagande russe
Portal Kombat : extension du réseau de propagande russe
 
Powerful Start- the Key to Project Success, Barbara Laskowska
Powerful Start- the Key to Project Success, Barbara LaskowskaPowerful Start- the Key to Project Success, Barbara Laskowska
Powerful Start- the Key to Project Success, Barbara Laskowska
 
IESVE for Early Stage Design and Planning
IESVE for Early Stage Design and PlanningIESVE for Early Stage Design and Planning
IESVE for Early Stage Design and Planning
 
Microsoft CSP Briefing Pre-Engagement - Questionnaire
Microsoft CSP Briefing Pre-Engagement - QuestionnaireMicrosoft CSP Briefing Pre-Engagement - Questionnaire
Microsoft CSP Briefing Pre-Engagement - Questionnaire
 
A Business-Centric Approach to Design System Strategy
A Business-Centric Approach to Design System StrategyA Business-Centric Approach to Design System Strategy
A Business-Centric Approach to Design System Strategy
 
PLAI - Acceleration Program for Generative A.I. Startups
PLAI - Acceleration Program for Generative A.I. StartupsPLAI - Acceleration Program for Generative A.I. Startups
PLAI - Acceleration Program for Generative A.I. Startups
 
Designing for Hardware Accessibility at Comcast
Designing for Hardware Accessibility at ComcastDesigning for Hardware Accessibility at Comcast
Designing for Hardware Accessibility at Comcast
 
Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...
Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...
Easier, Faster, and More Powerful – Alles Neu macht der Mai -Wir durchleuchte...
 
Overview of Hyperledger Foundation
Overview of Hyperledger FoundationOverview of Hyperledger Foundation
Overview of Hyperledger Foundation
 
AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101
 
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdfIntroduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
Introduction to FDO and How It works Applications _ Richard at FIDO Alliance.pdf
 
What's New in Teams Calling, Meetings and Devices April 2024
What's New in Teams Calling, Meetings and Devices April 2024What's New in Teams Calling, Meetings and Devices April 2024
What's New in Teams Calling, Meetings and Devices April 2024
 
WebAssembly is Key to Better LLM Performance
WebAssembly is Key to Better LLM PerformanceWebAssembly is Key to Better LLM Performance
WebAssembly is Key to Better LLM Performance
 

【DL輪読会】AutoDropout: Learning Dropout Patterns to Regularize Deep Networks