More Related Content
Similar to Densely Connected Convolutional Networks (20)
More from harmonylab (20)
Densely Connected Convolutional Networks
- 2. 1
論文情報
• タイトル
• Densely Connected Convolutional Networks
• 投稿日
• 2016/8/25(ver1)
• 2016/11/29(ver2)
• 2016/12/3(ver3)
• 2017/8/27(ver4)
• 発表学会
• CVPR2017
• Best Paper Awards
- 12. 11
• Bottleneckの導入
• Dense blockの𝐻𝑙をBN-ReLU-Conv(1×1)-BN-ReLU-
Conv(3×3)に変更
• Compression
• Transition layerで特徴量マップの数を減らす
• Transition layer内のconvolution層で出力マップサイズを
𝜃倍にする(0 < 𝜃 ≤ 1)
• 今回の実験では𝜃 = 0.5とした
効率化手法
これらを導入したものと
導入していないものの両方について実験
出典: https://liuzhuang13.github.io/posters/DenseNet.pdf
- 13. 12
• CIFAR, SVHN用
• ベーシックなdense net (𝐿 = 40)
実験で用いたネットワーク
Layers detail
Initial Convolution [3×3 conv (output channel=16)]
Dense Block(1) [3×3 conv]×12
Transition(1) [1×1 conv]
[2×2 average pool stride=2]
Dense Block(2) [3×3 conv]×12
Transition(2) [1×1 conv]
[2×2 average pool stride=2]
Dense Block(3) [3×3 conv]×12
Classification [global average pool]
[softmax]
3×3Conv層では
ゼロパディング
𝐿は3𝑛 + 4でなければならない
3×Dense block + Initial conv + 2×transition + classification
- 14. 13
• 実験ではgrowth rate 𝑘 = 12, 24 𝐿 = 40,100のもので実験
• {𝐿 = 40, 𝑘 = 12}, {𝐿 = 100, 𝑘 = 12}, {𝐿 = 100, 𝑘 = 24}
• Bottleneck layerを採用したものに対しては以下のような
設定で実験
• {𝐿 = 100, 𝑘 = 12}, {𝐿 = 250, 𝑘 = 24}, {𝐿 = 190, 𝑘 = 40}
実験で用いたネットワーク
- 15. 14
• ImageNet用
• DenseNet with bottleneck and compressionを使用
• Dense blockの数は4
• 後述のResNetとの比較のため、最初のconv層と最
後の判別層の形を合わせてある
実験で用いたネットワーク
- 17. 16
• CIFARとSVHNに対して実験をおこなった
• SVHN
• Street View House Numbers
• Google street viewから抽出した数字の画像
• 32×32 カラー画像
• Train: 73257枚+531131枚, Test: 26032枚
• Trainのうち6000枚をvalidationに
実験1 CIFAR and SVHN
- 18. 17
• 最適化手法: SGD
• Mini-batchサイズ64
• エポック数 CIFAR: 300, SVHN:40
• 学習率は学習の進み具合で変化させる
• 初期0.1, 50%学習後0.01, 75%学習後0.001
• 重み減衰10−4
• Nesterov momentum 0.9
• データの拡張を行っていないデータセットに対しては
各conv層の後に0.2のドロップアウト層を追加
訓練詳細
- 20. 19
• Accuracy
• CIFAR
• ResNetやその他のネットワークよりも低いエ
ラー率を達成
• SVHN
• L=100, k=24のDenseNetでResNetよりも低いエ
ラー率
• DenseNet-BCではあまり性能が良くなっていな
いが、これはSVHNが簡単な問題のためoverfitし
やすいという理由が考えられる
結果について
- 21. 20
• Capacity
• 基本的に𝐿, 𝑘が大きくなればなるほど性能が良く
なっている
• DenseNetでは大きく深いモデルの表現力を利用で
きている
• つまりoverfitting, 最適化の困難が発生しにくい
結果について
- 24. 23
• Train: 1.2million validation: 50000
• データ拡張をおこなう
• Validation setに対するエラー率を調査
• 訓練
• バッチサイズ256, 90エポック
• 学習率は初期0.1,30エポック後0.01, 60エポック後
0.001
• GPUメモリの制約によりDenseNet-161ではバッチ
サイズを128, エポック数を100に
• 90エポック後に学習率を0.0001にする
実験2 ImageNet
- 28. 27
特徴量の再利用性
• すべての層で重みが同ブロックの多くの入力に分散している
• 浅い層の出力特徴量がdense block全体で使われている
• Transition layerでも重みが分散している
• 最初の層の情報が直接最後の層に伝わっている
• Dense block2,3ではtransition layerからの出力がほとんど利用されていない
• Transition layerの出力は冗長
• DenseNet-BCで出力を圧縮してうまくいくことと合致している
• Classification layerでは最後の方の出力を重視している
• 最後の方の層で高レベルな特徴を抽出できている