Densely Connected Convolutional Networks

Densely Connected
Convolutional Networks
Gao Huang, Zhuang Liu, Kilian Q. Weinbeger,
Laurens van der Maaten
https://arxiv.org/abs/1608.06993v4
2017/10/26
DLゼミ
B4 幡本昂平

1
論文情報
• タイトル
• Densely Connected Convolutional Networks
• 投稿日
• 2016/8/25(ver1)
• 2016/11/29(ver2)
• 2016/12/3(ver3)
• 2017/8/27(ver4)
• 発表学会
• CVPR2017
• Best Paper Awards

2
• 新しいCNNアーキテクチャであるDenseNetを提案
• 従来よりもコンパクトなモデルでありながら高い性能
を実現
概要

3
• 近年の計算機の発展により深いネットワークを訓練す
ることが可能となり、CNNによる画像認識が進歩
• LeNet5: 5層
• VGG19: 19層
• ネットワークが深くなると勾配消失の問題が発生し、
学習がうまくいかないので更に層数を増やすのは難し
かった
• 2015年のResNetsなどの登場により100層以上のネッ
トワークが構成できるようになり、更に精度が向上
Introduction

4
• 入力をスキップさせて後の層の入力に足し込む
ResNetなどのアイデア
出典: Deep Residual Learning for Image Recogition(2015)
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
他にも様々な方法でネットワークを深くできるように工夫したものが存在
Ex) Highway Networks, FractalNets

5
• ResNet等のアーキテクチャに共通する考え方
浅い層から深い層へのパスを作っている
• この論文ではこの点に着目し、層間の情報の伝達を
最大化するためにすべての同特徴量サイズの層を結合
させている
• Feed forwardを保つため、ある層より前の層の出力
を入力とする
• 層間が密に結合している
ことから、DenseNetと
よぶ
DenseNet

6
DenseNetの基本構造
以下の要素で構成される
• Initial Convolution
• Dense Block
• Transition layer
• Classification layer

7
• 第𝑙層の出力を𝑥𝑙とすると、Dense Blockの第l層の出力は以下
の式で表される
• ここで𝐻𝑙は
• Bacth normalization
• ReLU
• 3×3 Convolution
の合成関数を表す
• 上式は入力のテンソル 𝑥0, 𝑥1, … , 𝑥𝑙−1を結合して入力すること
を表す
• Ex) 𝑥𝑖が16×32×32のとき、入力は
入力のチャネル数 + ((𝑙 − 1) ×16) ×32×32
Dense Block

8
• 前ページで示したDense Blockの式は特徴量マップの
サイズが変わってしまうと使えない
• しかし、CNNの重要な要素であるマップサイズを変え
るダウンサンプリングを行う層を入れないわけにはい
かない
Pooling層をどうするか

9
• ネットワークをdense blockが複数結合した構造にし、
間にpoolingを行う層をいれる
• これをtransition layerと呼ぶ
• 実験で使用したものは
• Batch normalization
• 1×1 convolution
• 2×2 平均プーリング
で構成される
Transition layer

10
• Dense blockの式で確認したように、𝐻𝑙がチャネル数𝑘
の特徴量マップを出力する場合、𝑙番目のレイヤへの
入力は 𝑘 × 𝑙 − 1 + 𝑘0となる
(𝑘0はblockへ入力される画像のチャネル数)
• ネットワークが大きくなりすぎるのを防ぐため𝑘は小
さい整数に設定 ex)𝑘 = 12
この𝑘をネットワークのgrowth rateと呼ぶ
Growth rate

11
• Bottleneckの導入
• Dense blockの𝐻𝑙をBN-ReLU-Conv(1×1)-BN-ReLU-
Conv(3×3)に変更
• Compression
• Transition layerで特徴量マップの数を減らす
• Transition layer内のconvolution層で出力マップサイズを
𝜃倍にする(0 < 𝜃 ≤ 1)
• 今回の実験では𝜃 = 0.5とした
効率化手法
これらを導入したものと
導入していないものの両方について実験
出典: https://liuzhuang13.github.io/posters/DenseNet.pdf

12
• CIFAR, SVHN用
• ベーシックなdense net (𝐿 = 40)
実験で用いたネットワーク
Layers detail
Initial Convolution [3×3 conv (output channel=16)]
Dense Block(1) [3×3 conv]×12
Transition(1) [1×1 conv]
[2×2 average pool stride=2]
Transition(2) [1×1 conv]
[2×2 average pool stride=2]
Classification [global average pool]
[softmax]
3×3Conv層では
ゼロパディング
𝐿は3𝑛 + 4でなければならない
 3×Dense block + Initial conv + 2×transition + classification

13
• 実験ではgrowth rate 𝑘 = 12, 24 𝐿 = 40,100のもので実験
• {𝐿 = 40, 𝑘 = 12}, {𝐿 = 100, 𝑘 = 12}, {𝐿 = 100, 𝑘 = 24}
• Bottleneck layerを採用したものに対しては以下のような
設定で実験
• {𝐿 = 100, 𝑘 = 12}, {𝐿 = 250, 𝑘 = 24}, {𝐿 = 190, 𝑘 = 40}

14
• ImageNet用
• DenseNet with bottleneck and compressionを使用
• Dense blockの数は4
• 後述のResNetとの比較のため、最初のconv層と最
後の判別層の形を合わせてある

15
• CIFARとSVHNに対して実験をおこなった
• CIFAR
• 32×32のカラー画像
• C10,C100に対して実験
• Train: 50000枚, Test: 10000枚
• Trainのうち5000枚をvalidationセットとした
• データの拡張を行ったものとそうでないもの両
方について実験
実験1 CIFAR and SVHN

16
• CIFARとSVHNに対して実験をおこなった
• SVHN
• Street View House Numbers
• Google street viewから抽出した数字の画像
• 32×32 カラー画像
• Train: 73257枚+531131枚, Test: 26032枚
• Trainのうち6000枚をvalidationに
実験1 CIFAR and SVHN

17
• 最適化手法: SGD
• Mini-batchサイズ64
• エポック数 CIFAR: 300, SVHN:40
• 学習率は学習の進み具合で変化させる
• 初期0.1, 50%学習後0.01, 75%学習後0.001
• 重み減衰10−4
• Nesterov momentum 0.9
• データの拡張を行っていないデータセットに対しては
各conv層の後に0.2のドロップアウト層を追加
訓練詳細

18
結果データ拡張を行ったもの
エラー率パラメータ数
(重みの数)

19
• Accuracy
• CIFAR
• ResNetやその他のネットワークよりも低いエ
ラー率を達成
• SVHN
• L=100, k=24のDenseNetでResNetよりも低いエ
ラー率
• DenseNet-BCではあまり性能が良くなっていな
いが、これはSVHNが簡単な問題のためoverfitし
やすいという理由が考えられる
結果について

20
• Capacity
• 基本的に𝐿, 𝑘が大きくなればなるほど性能が良く
なっている
• DenseNetでは大きく深いモデルの表現力を利用で
きている
• つまりoverfitting, 最適化の困難が発生しにくい
結果について

21
• Parameter Efficiency
結果について
DenseNet-BCはパラメータ
数に対するエラー率が
DenseNetを比較した中で
は最も低い
同程度の性能の
ResNetよりもパラ
メータ数が少ない
ResNet-1001の90%パラ
メータ数で同程度の性能を
実現

22
• DenseNetにはOverfittingしにくいという特性がある
• データ拡張をおこなっていないCIFARに対しても従来
よりも高い性能を発揮
• パラメータ数を増やすことによりoverfittingをする傾向
が見られるが、bottleneckとcompressionで対処できる
Overfitting

23
• Train: 1.2million validation: 50000
• データ拡張をおこなう
• Validation setに対するエラー率を調査
• 訓練
• バッチサイズ256, 90エポック
• 学習率は初期0.1,30エポック後0.01, 60エポック後
0.001
• GPUメモリの制約によりDenseNet-161ではバッチ
サイズを128, エポック数を100に
• 90エポック後に学習率を0.0001にする
実験2 ImageNet

24
結果
ResNetより良いパラメータ効率・
計算効率で同程度の性能を実現ハイパーパラメータ設定はResNetに
最適化されたものを用いているので、
設定しなおせばより良い性能を発揮する
事も考えられる

25
• 損失関数からの教師情報が各層に伝わりやすい
• dense blockでは浅い層と深い層が直接結合しているの
で教師情報が直接伝播する
なぜ性能がよくなったか
出典: https://liuzhuang13.github.io/posters/DenseNet.pdf

26
• 特徴量の再利用性
• DenseNet(𝐿 = 40, 𝑘 = 12)をCIFAR10+で訓練した
ときの各層の重みの平均値をヒートマップで可視化
なぜ性能がよくなったか

27
特徴量の再利用性
• すべての層で重みが同ブロックの多くの入力に分散している
• 浅い層の出力特徴量がdense block全体で使われている
• Transition layerでも重みが分散している
• 最初の層の情報が直接最後の層に伝わっている
• Dense block2,3ではtransition layerからの出力がほとんど利用されていない
• Transition layerの出力は冗長
• DenseNet-BCで出力を圧縮してうまくいくことと合致している
• Classification layerでは最後の方の出力を重視している
• 最後の方の層で高レベルな特徴を抽出できている

28
• 最適化が難しくなることなく100層以上のDenseNetを
作ることができる
• パラメータを増やしてもoverfittingすることなく性能が
よくなる傾向にある
• 各データセットで従来よりも少ないパラメータ数で
state of the art(2016年8月時点)の性能
• ハイパーパラメータの調整をすることでさらなる性能
を発揮することが期待できる
• シンプルな結合規則にもかかわらず、高い性能を発揮
• よい特徴量抽出器であるといえるので、今後はこれを
用いた特徴量変換について研究する予定
まとめ

Densely Connected Convolutional Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Densely Connected Convolutional Networks

Similar to Densely Connected Convolutional Networks (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (11)

Densely Connected Convolutional Networks