ResNest: split-attention networks

ResNeSt: Split-Attention Networks
2020/04/27
神戸瑞樹
Hang Zhang, Chongruo Wu†, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang,
Yue Sun, Tong He, Jonas Mueller, R. Manmatha, Mu Li, and Alexander Smola
Amazon, University of California, Davis†
{hzaws,chongrwu,zhongyue,yzaws,haibilin,zhiz,ysunmzn,
htong,jonasmue,manmatha,mli,smola}@amazon.com
https://arxiv.org/abs/2004.08955

概要
• Split-Attention blockを備えたResNestを提案
• 物体検出，セグメンテーションなど幅広く適用
できる
• 全てのタスクで精度向上
• パラメータ数は同程度
2

Introduction
• 画像認識のネットワークは様々なタスクで使われ
る
• 物体検出，セグメンテーション，ポーズ推定
• 最近はNASで作成されたものが高精度
• ハードウェアに対して最適化されていない
• メモリ使用量とか
• ResNet系列が主流
• 画像サイズなどの制限があり，他のタスクに使うには拡
張が必要
• すべての用途に適した拡張はできていない
• ResNetにSplit-Attention blockを導入
• 既存のresnet系列のモデルより少ない計算量と労力で他
のタスクに適用可能
• 精度も既存のネットワークよりも良い
3

Feature-map Group
• 特徴をチャネル方向で分割
• cardinality Kで分割→cardinal group
• さらにradix R でcardinal groupを分割
• 合計のfeature groupはKR個
4

Split Attention
• 各チャネルに重み付け
5

ネットワークの微調整
• 最近のresnetの実装ではstrided convolutionに
おいて1*1でなく3*3レイヤーが使われる
• このほうが空間情報を保持できる
• 一方で畳み込みはfeature-mapの境界をゼロパディ
ングで処理する必要がある
• 他の密なタスクに転用するときに最適でない場合
• そこで，遷移ブロックにおいてstrided
convolutionの代わりに3*3の平均プーリングを
使用
6

ネットワークの微調整
7
26. He, T., Zhang, Z., Zhang, H., Zhang, Z., Xie, J., Li, M.: Bag of tricks
for im-age classification with convolutional neural networks. In:
Proceedings of the IEEEConference on Computer Vision and Pattern
Recognition. pp. 558–567 (2019)
• [26]で提案されたものを導入
• 最初の7*7の畳み込みを連続する3つの3*3畳み
込みに変更
• ショートカットコネクションの1*1畳み込みの
前にストライド2の2*2平均プーリングを追加

Training Strategy
• Large Mini-batch Distributed Training
• 8server 64GPUs
• initial learning rate is
• 𝜂 𝑏𝑎𝑠𝑒 = 0.1
• 5エポックかけて0から初期学習率に向かう
• その後はコサインスケジューリング
8

Training Strategy
• Label Smoothing
• 正解ラベルを右の式で変更
• overfitとoverconfidenceの抑制
• Auto Augmentation
• 最適なAugmentation方法を自動で探索
• Mixup Training
9

Training Strategy
• Large Crop Size
• ResNet系列のモデルや他のアプローチの公正な比
較のために224か256を使用
• Regularization
• dropout
• 確率0.2で最後の全結合層に適用
• DropBlock
• 中間層の特徴量に対してcutout的なことを行う
• 最後の2つのステージの畳込みに適用
10
https://www.slideshare.net/DeepLearningJP2016/dldrop
block-a-regularization-method-for-convolutional-
networksより

Image classification result
• 2s1x64d（2ページ先参照）を使用
• ベースとしたResNet-Dより1％以上向上
• ResNest-fastは3*3畳み込みの前にaverage
downsamplingを挿入
• fastがつかないやつは畳み込みのあとでdownsampling
11

Image classification result
• ResNet系列意外との比較
• 精度，スピード，大きさなどで勝利
12

Ablation study（radix vs cardinality）
• ネットワークの幅を調整して計算コストはresnet
系列と同じくらいに調整
• sはradix，xはcardinality，dはネットワークの幅
• 0sは通常の残差ブロック
• radixを上げると精度は上がるがレイテンシとメモ
リ使用量が上がる
13

Object Detection
• 物体検出でも精度向上
• 汎化能力を持ち，容易に他のタスクに転用できる
14

Segmentation
• Semantic Segmentation
• 画像のpixelを「どの物体クラス(カテゴリー)に属するか」で
分類するタスク
• Instance Segmentation
• 画像のpixelを「どの物体クラス(カテゴリー)に属するか、ど
のインスタンスに属するか」で分類するタスク
15
https://blog.negativemind.com/2
019/04/27/general-object-
detection-and-instance-
segmentation-mask-r-cnn/より

Instance Segmentation
• バウンディングボックスとカテゴリの確率に加
え，オブジェクトマスクも予測するのでより正
確で高密度な画像表現が求められる
• 精度向上
16

Semanti Segmentation
• 精度向上
17

まとめ
• Split-Attention blockを備えたResNestを提案
• 物体検出，セグメンテーションではバックボー
ンをこれに置き換えるだけで大幅な改善
• ヴィジョンタスクに幅広く適用できる
18

ResNest: split-attention networks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (10)

ResNest: split-attention networks