CNNの構造最適化手法について

Deep SLAMにも使えるCNN構造最適化
菅沼雅徳
RIKEN Center for AIP / 東北大学
第3回 3D勉強会 Deep SLAM論文読み会 (2018.09.29)

菅沼雅徳（すがぬままさのり）
2
自己紹介
• 所属
• 2017.09 博士卒
• 2017.10 - 理化学研究所 AIP 特別研究員（東北大@岡谷研）
• 2018.10 - 東北大学〇〇
• 研究分野
• 進化計算＋深層学習
• [M. Suganuma et al.] Exploiting the potential of standard convolutional autoencoders for
image restoration by evolutionary search, ICML 2018
• [M. Suganuma et al.] A genetic programming approach to designing convolutional neural
network architectures, GECCO 2017 (Best paper award)

DLベースのSLAMにおいてもネットワーク構造は重要 (なはず)
• 精度，処理速度に大きな影響
• 構造設計には労力がかかる
3
Why architecture search?
CodeSLAM [Bloesch et al. 2018] DeepTAM [Zhou et al. 2018]
CNN-SLAM [Tateno et al. 2017]

4
Manual vs Auto
PSNR results
Noise
level
REDNet
[Mao et al., 2016]
MemNet
[Tai et al., 2017]
Designed arch.
[Suganuma et al., 2018]
𝜎 = 30 27.95 28.04 28.23
𝜎 = 50 25.75 25.86 26.17
𝜎 = 70 24.37 24.53 24.83
REDNet 30
MemNet 80
Designed arch. 15
Depth of the network
MemNet architecture [Tai et al. ICCV 2017] Designed architecture [Suganuma et al. ICML 2018]

CNNの構造最適化手法の概要
• 探索アルゴリズム，探索空間，研究例などの紹介
性能と処理速度を考慮した構造最適化手法の紹介
• MnasNet: Platform-Aware Neural Architecture Search for Mobile
• Mingxing Tan et al., Google Brain
• arXiv:1807.11626v1
5
発表内容

6
構造最適化手法の大まかな内訳
探索範囲
• ネットワーク全体 (macro)
• 1つ or 複数のセル (micro)
探索アルゴリズム
• Reinforcement Learning (RL)
• Evolutionary Algorithm (EA)
• Gradient-based method (GB)
• Sequential Model-based Optimization (SMBO)
高速化テクニック
• Weight sharing
• Proxy metrics
+
+

7
最近の構造最適化手法 (CIFAR-10での性能)
GPU days
Accuracy
1.0
16800
0.9308
0.5 10
MetaQNN
[ICLR 2017]
NAS
[ICLR 2017]
0.9635 Efficient AS
[AAAI 2018]
0.9577
ENAS
[ICML 2018]
0.9711
NASNet-A
[CVPR 2018]0.9735
1800
CGPCNN
[GECCO 2017]
30
0.9503 Large-scale Evolution
[ICML 2017]
2700
0.9460
Hierarchical Evolution
[ICLR 2018]
300
AmoebaNet
[arXiv 2018]0.9745
3150
PNAS
[ECCV 2018]
0.9659
225
DARTS
[arXiv 2018]
4
RL EA
……
DenseNet SMBOGB

Large-scale Evolution [Real et al., ICML2017]
• シンプルな遺伝的アルゴリズム (GA)を用いた手法
• GPU250台使用
8
進化計算による構造最適化例
進化の様子

Large-scale Evolution [Real et al., ICML2017]
• Mutationの種類
• Conv層の追加
• Conv層の除去
• strideの変更
• チャネル数の変更
• フィルタサイズの変更
• skip connectionの追加
• skip connectionの削除
• 学習率の変更
• 重みの初期化
9
current
individuals
next
individuals
a. 2個体を選択
b. 2個体を比較し，
良い方を残す
c. 新しい個体を
生成 (mutation)
d. a〜cの繰返し

CGP-CNN [Suganuma et al., GECCO2017]
• 遺伝的プログラミングの一種であるCartesian Genetic Programming (CGP)を
用いた手法．CNNをDirected acyclic graphで表現．
• 計算コストを抑えつつ，柔軟な構造探索が可能
• 層数やskip connectionも自動で調整可能
10
CGP → CNN
獲得された構造例

11
強化学習による構造最適化例
Neural Architecture Search (NAS) [Zoph et al., ICLR2017]
1. RNNでCNNの各層のハイパーパラメータ（フィルタ数/サイズなど）を出力
2. CNNをtraining setで訓練し，validation setで性能評価（報酬R）
3. 報酬Rの期待値を最大化するように強化学習(policy gradient)でRNNの
パラメータを最適化
• GPU800台使用（＞人間を大学まで通わせる金額）
𝐽 𝜃𝑐 = 𝐸 𝑃(𝑎1:𝑇;𝜃)[𝑅]
∇ 𝜃 𝑐
𝐽 𝜃𝑐
=
𝑡=1
𝑇
𝐸 𝑃(𝑎1:𝑇;𝜃 𝑐)[∇ 𝜃 𝑐
log𝑃 𝑎 𝑡 𝑎 𝑡−1:1; 𝜃𝑐 𝑅]

12
Neural Architecture Search (NAS) [Zoph et al., ICLR2017]
• CIFAR-10で獲得された構造
• 各層の入力が複数ある場合はチャネルを結合
• 7 × 7のフィルタが多く使われている
• skip connectionが多い
• Large-scale evolutionとは対照的

13
NASNet [Zoph et al., CVPR2018]
• ネットワーク全体ではなく，2種類のセルの最適化を行う
• それらのセルを繰り返したものがネットワーク全体の構造を表す
• セル内のハイパーパラメータ（演算種類や接続関係）をRNNで探索（NASと同様）
• GPU500台使用
セルの例全体のネット
ワーク構造

DPP-Net: Device-aware Progressive Search for Pareto-optimal Neural
Architectures [Dong et al., ECCV 2018]
• childすべてを学習するのではなく，surrogate functionによって性能○と判断された
childのみ学習を行う
• surrogate functionはRNN．入力はarch.の符号化したもの，出力はchildのaccuracy
• Mutation → surrogate functionによる予測 → 選択 → Train → Mutation → … の繰り返し
• Mutationは層の追加 (conv. or norm/act)
14
SMBOによる構造最適化例
処理の流れ Surrogate function

15
DPP-Net results
CIFAR-10
ImageNet

DARTS: Differentiable Architecture Search [Liu et al., arXiv:1806.09055v1]
• NASの問題設定を微分可能にし，勾配法によって構造最適化を行う
• 各エッジには演算処理（e.g., conv, pool）が予め複数個定義されており，各エッジにどの
演算を割り当てるかという問題設定（左下図(a)）
• conv層などのweight parameterとは別に演算ごとに重み𝛼を付与し，それぞれ交互に最適化
• 最終的に𝛼が大きい演算を残す（左下図(b)）
• 下式のように，各ノードの出力を各演算結果と各演算の重み𝛼の重み付き和として定義
することで微分可能にしている
16
Gradient-based methodによる構造最適化例
セルの表現
𝑜 𝑖,𝑗 𝑥
=
𝑜∈𝑂
exp 𝛼 𝑜
𝑖,𝑗
𝑜′∈𝑂 exp 𝛼 𝑜′
𝑖,𝑗
𝑜(𝑥)
(a) (b)
𝑖, 𝑗は接続関係を表す
構築されたセルの例

Efficient Neural Architecture Search via Parameter Sharing [Pham et al., ICML2018]
• 探索空間をDirected acyclic graphで定義し，subgraphをchildとみなす
• child間で重みを共有する（スクラッチから学習しない）
• あらかじめ入力しうる数の重みを保持しておき，入力に応じて切り替える
• 1GPU, 0.45 day の探索で 2.89% の error rateを達成 (CIFAR-10)
17
Weight sharing
DAG（探索空間） RNN (DAGのノード数が4の場合)
Child

MnasNet: Platform-Aware Neural Architecture Search for Mobile
• Mingxing Tan et al., Google Brain
• arXiv:1807.11626v1
18
紹介する論文
• 性能だけでなく，modelの処理速度も考慮した多目的構造最適化
手法
• mobile phoneでの実行速度を最適化に使用

Contributions
• 性能と処理速度の多目的最適化によるCNNの構造最適化を達成
• 新しい探索空間の提案
• 従来のmobile CNN modelsと比較して，ImageNetでのクラス分類と
COCOでの物体検出において優れた性能を示した
19
従来研究との差異
• 明示的に処理速度情報を目的関数に導入
• 従来研究では性能(accuracy)のみをもとに最適化していた
• 新しい探索空間の提案
• factorized hierarchical search space
Latency
Errorrate

ただ1つの最適解を求めるのではなく，パレート最適解の集合を求める
パレート最適解
ある解𝐱0を優越する解𝐱が存在しないとき，𝐱 𝟎をパレート最適解という
※ 𝑓𝑖 𝐱1 ≤ 𝑓𝑖 𝐱2 (∀i = 1,2, … , 𝑘) のとき，𝐱 𝟏は𝐱 𝟐を優越するという
20
多目的最適化
例. 𝑘 = 2の場合 ( 𝑓1 𝐱 = 𝑒𝑟𝑟𝑜𝑟 𝐱 , 𝑓2 𝐱 = 𝑙𝑎𝑡𝑒𝑛𝑐𝑦 𝐱 )
解領域
𝑓1
𝑓2
パレート最適解

Procedures
1. RNNからCNN modelをサンプル (NASNetと同様)
2. 対象タスクで訓練，性能評価
3. モバイル上で実行し，推論時のlatencyを取得
4. 報酬を計算
5. 報酬の期待値を最大化するようにRNNの
パラメータをProximal Policy Optimizationで更新
21
𝑅𝑒𝑤𝑎𝑟𝑑(𝑚) = 𝐴𝐶𝐶(𝑚) ∙
𝐿𝐴𝑇 𝑚
𝑇
𝑤
𝑤 =
𝛼, 𝑖𝑓 𝐿𝐴𝑇(𝑚) ≤ 𝑇
𝛽, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
𝑇 = 80𝑚𝑠, 𝛼 = 𝛽 = −0.07 を論文では使用
wはlatencyに関する制約

Factorized Hierarchical Search Space
• 全体のネットワークを複数のBlockに分割
• 各Block i では，同じレイヤがNi層繰り返される
• 各Block i でレイヤを探索する
• この点が先行研究との違い
• 先行研究では同一のレイヤを積み重ねて全体ネットワークを構築
22

各ブロックの探索空間
• Convolutionの種類
• regular conv, depth-wise conv, mobile inverted bottleneck conv
• カーネルサイズ
• 3 × 3, 5 × 5
• Skip operation
• max or average pooling, identity residual skip, no skip path
• 出力チャネル数
• レイヤのstack数
23
identity residual skip

24
実験に使用したmobile phone
Pixel Phone
https://smhn.info/201610-google-pixel-phone-by-google

25
ImageNet Classification results
MobileNet (manual) と比べても優れた性能を示している
• 精度が同等のとき，1.55✕ faster
• latencyが同等のとき，2%の精度向上

26
ハイパーパラメータに対する頑健性
MobileNetと比べてハイパーパラメータや入力画像の変化に対して頑健

27
多目的最適化結果
αとβを変更することで解の
分布を調整可能
青点：パレート曲線
緑点：サンプルされたモデル

28
獲得された構造例
先行研究と比べて5 × 5フィルタが多く使
用されている
• チャネル数が7以上のときは2つの3 × 3
フィルタより1つの5 × 5フィルタの方が
計算量は少ない (depthwise conv.を使用)

MnasNet-92をSSD300と比較して
• パラメータ数が 1/7
• 演算数が 1/35
• 性能は同等
29
COCO object detection results
MnasNetをSSDのfeature extractorとして利用

とにかく計算コストが高い
• 抑えるために探索空間を削減すると，experts’ design biasが入ってしまう＆
ランダムサーチでも十分な結果を取得可能 →探索の必要性？
30
構造最適化手法に対する所感
依然として人間の design bias が入っている
• 本当の意味で新しい構造探索をしているとは思えない
• が，性能の底上げとしては○．先行研究の構造を最適化することでSOTAを
出すことも
Future work
• いろんなタスクに適用し，有用性をもう少し検証する必要あり
• ResNet みたいな汎用的な構造の探索にフォーカス？

CNNの構造最適化手法について

More Related Content

What's hot

Similar to CNNの構造最適化手法について

CNNの構造最適化手法について

Editor's Notes