【DL輪読会】AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
AutoDropout: Learning Dropout Patterns to Regularize
Deep Networks
Jun Hozumi, Matsuo Lab

書誌情報
• Title: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks
• Author: Hieu Pham and Quoc V. Le
• Google Research, Brain Team
• Date: 5 Jan 2021
• Conf.: AAAI 2021 (Accepted)
• Paper: https://arxiv.org/abs/2101.01761v1
• スライド中の図表は本論文から引用
• 詳細な議論は元論文やgithub上のコードを参照してください
2

背景
• 近年のNNは過学習を避けるための正則化が必要で、その一般的なものがDropout
• Dropoutの仕方を特定のパターンにすることで、ランダムより高い性能を発揮することが
知られている
• その事例によって、その適したパターンは異なる
• たとえば、多層LSTMでは垂直に接続されたニューロンのみをDropすべき
• Variational Dropoutでは時間次元に沿ってDropパターンを共有
• だけど、どっちもTransformerでは用いられない
• 一方で、画像分野ではVanilla DropoutはConvNetの全結合層のみ用いられる
• Stochastic DepthやDropPath、DropBrockなど特定の構造でDropする手法もある
• などなど…
3

目的
• 過去の研究を調査するだけで最適なDropoutパターンを設計することは困難である
• ならば、それ自体を学習させてしまえばいいのではないか？
• 本研究では対象とするモデルやタスク、ドメインに特化したDropOutパターンを自動で設
計するAutoDropoutを提案する
4

目的
• AutoDropoutの主な貢献として構造化されたDropOutパターンの探索空間の提案がある
• その探索空間によって、多くの既存のDropOutパターンを一般化する
• AutoDropoutは強化学習で訓練されたコントローラを持つ
• その報酬は対象とするモデルでのvalidationスコア
• 分散強化学習ベースの探索アルゴリズム
• AutoAugmentと同様、既存のパイプラインに埋め込めるようにする
5

関連研究（本研究の位置づけ）
• 本研究はNeural Architecture SerachやAutoAugmentと同じ系列の研究
• 探索空間を設計して、そこから強化学習で探索するアプローチ
• また、AutoDropoutは隠れ状態のデータ拡張の研究であるとも捉えられる
• ドメイン固有のデータ拡張ではなく、画像と文章でも同じ哲学で設計される
6

本研究での記法
• 本研究ではDropOutパターンは既存研究と同様に、要素ごとの乗算マスクで表現する
• ℎ層へDropoutするために、ℎと同サイズのバイナリマスク𝑚を適用し、スケールする
• 本研究では、テンソルを(𝑁, 𝑑1, 𝑑2, … , 𝑑𝑘, 𝐶)と表現する
• 𝑁はバッチの次元、𝐶は特徴量の次元、𝑑は時空間の次元
• ConvNetは(𝑁, 𝐻, 𝑊, 𝐶)、𝐻と𝑊は層の高さと幅
• Transformerの出力は(𝑁, 𝑇, 𝐶)、𝑇はトークン数を表す時間次元
• ConvNetとTransformerでテンソル表現が異なるので、前者から考えていく
7

ConvNetでのDropoutパターン
• 隣接する長方形からなる基本パターンを作成し、それに幾何学的変換を行う
• そのパターンをどの位置に適用するか決定し、バッチ正規化層の出力に適用する
• 他の位置で適用すると、検索時に訓練が不安定になるため
• Residualコネクションに適用するかもコントローラで選択する
8

Dropoutパターンを決めるパラメータ
• パターンを決めるパラメータは以下の通り
9

パターンの探索アルゴリズム(1)
• コントローラをTransformerネットワークでパラメータ(𝜃)化し、訓練する
• 移動平均を用いたREINFORCEアルゴリズムで探索する
10

パターンの探索アルゴリズム(2)
• 𝜃をモンテカルロ勾配推定で最適化する
• 𝑏は移動平均ベースライン、𝑀はバッチサイズ(𝑀 = 16)
• Perf(𝑟)はDropoutパターン𝑟でプロキシタスクの検証セットを学習することで測定する
• 全データセットを使うと時間がかかるので、一部データのみを使用したプロキシタスクを用いる
11

コントローラの並行訓練のための工夫
• 探索を効率よく並行して行えるようにするために、Importance Samplingを行う
• 従来手法では𝑀個のDropoutパターンのミニバッチ学習を待ってから𝜃を更新するが、学習に時間
がかかったり失敗したりするので、そこがボトルネックになることがあるため
12

Transformerの場合
• 対象がTransformerの場合は、以下のように変わる
• sizeは適用トークン数、strideはスキップされるトークン数
• share_tはsize数のトークン間で、share_cはチャネル間でパターンを共有するか否か
• Word Dropoutは「share_c=True」、VariationalDropoutは「size=𝑇」と「share_t=True」で実現する
13

Dropoutパターンの適用箇所
• TransformerはConvNetと異なり、Dropoutパターンが様々なサブレイヤーに適用できる
• それぞれに独立したDropoutパターンを適用する
• そのパターンのサイズが0となった場合、そこにはDropoutが適用されない
14

実験概要
• AutoDropoutをConvNetとTransformerの両方に適用して実験を行う
• ConvNet: 教師あり画像分類、半教師あり画像分類
• Transformer: 言語モデリング、機械翻訳
• 最後に、パターン探索性能をランダムサーチと比較する
15

結果: ConvNet(教師あり学習)
• AutoDropoutは他の正則化手法に比べて高いパフォーマンスを示した
• 他のデータ拡張手法と組み合わせた場合、AutoDropout+RandAugmentが、CIFAR-10と
ImageNetの両方のパフォーマンスを向上させた
16

Dropoutパターンの定性分析
• 得られたDropOutパターンを可視化したところ、最初と最後に異なるパターンのDropout
をかけると有効であることが分かった
• マスクされる場所を変えると精度が1%低下した(ResNet-50)
17

結果: ConvNet(半教師あり学習)
• 半教師あり学習でもAutoDropoutの効果を検証した
• CIFAR-10では4000、ImageNetでは10%のみラベルを付与
• Unpervised Data Augmentation(UDA)と組み合わせたところ、最も良い結果を示した
18

実験: Transformer
• PennTreebankデータセットを用いたTransformer-XLの言語モデリングにAutoDropoutを
適用した
• そのモデルをWikitext-2の言語モデリングや他データセットの機械翻訳に転移させた
• いずれの実験においても高いパフォーマンスを記録した
19

Dropoutパターンの定性分析
• 得られたパターンはVariational Dropoutに類似しているが、少し異なる
• 全レイヤーにVariational Dropoutを適用するとPerprexityが59.8となり性能は悪化する
20

探索手法の比較
• Neural Architecture Searchにおいては、ランダムサーチが良いベースラインであることが
知られている
• AutoDropoutの探索とランダムサーチでパターンのサンプリングを比較した
• AutoDropOutで発見されたパターンのほうが高いパフォーマンスを示した
21

結論
• 本研究ではDropOutパターンを自動設計するAutoDropoutを提案した
• 本手法によりConvNetやTransformerに適したDropoutパターンを発見できた
• AutoDropoutの弱点は計算量が多くなることであるため、今後の方向性としては、より効
率的な検索アプローチが求められる
• 計算コストが高くても、AutoAugmentと同様に、発見されたパターンをSOTAモデルに適
用することで簡単に利用できる
• Autoaugmentで発見した拡張パターンはCIFAR-10やImageNetのSOTAモデルに使用されている
22

【DL輪読会】AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (20)

【DL輪読会】AutoDropout: Learning Dropout Patterns to Regularize Deep Networks