輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions

Xception: Deep Learning
with Depthwise Separable Convolutions
Submitted on 7 Oct 2016 (v1), last revised 4 Apr 2017 (this version, v3)
Franc¸ois Chollet Google, Inc.
fchollet@google.com
輪読資料
電気通信大学
吉浦研究室修士1年
浅見航太朗
スライドの公開日時: 20180209
1

この論文について
• 論文名:
Xception: Deep Learning with Depthwise
Separable Convolutions
• 著者: Francois Chollet (Google, Inc.)
• 公開日: 2017年4月
• Pythonの深層学習ライブラリKerasの作者による
もの
2

前提知識: Convolution
• Convolution(畳み込み)とは
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 0 1
0 1 2
1 0 2
＊
入力データフィルタ
3

• Convolution(畳み込み)とは:
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 0 1
0 1 2
1 0 2
＊
15 16
6 15
入力データ X
フィルター W
(重み)
カーネルともいう
畳み込み演算を＊で表すことにする4

• Convolution(畳み込み): バイアス項の追加
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 0 1
0 1 2
1 0 2
＊
15 16
6 15
入力データ X
フィルター W
(重み)
+ 3
バイアス b
18 19
9 18
出力データ Y
Y = W ＊ X + b と書けそう
どっかで見たことありますね?
5

• 畳み込み演算: 3次元データ
＊
63 55
18 51
3次元の入力データ X
3次元のフィルタ W
畳み込み演算を＊で表すことにする
4 2 1 2
0 1 2 4
3 0 1 2
2 3 0 5
3 0 6 5
0 1 2 3
3 0 1 0
2 3 0 1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
4 0 2
0 1 0
1 0 2
0 1 3
0 1 2
1 0 0
2 0 1
0 1 2
1 0 2
6

63 90
18 5177 55
96 53
6 2 1
0 1 7
9 0 2
86 63
85 24
0 9 6
0 1 4
1 0 0
2 0 4
0 1 0
1 0 2
• チャネル方向に
複数枚の出力を
もたせる
＊
3次元のフィルタn個 W
4 2 1 2
0 1 2 4
3 0 1 2
2 3 0 5
3 0 6 5
0 1 2 3
3 0 1 0
2 3 0 1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
4 0 2
0 1 0
1 0 2
0 1 3
0 1 2
1 0 0
6 2 1
0 1 7
9 0 2
5 0 3
0 1 0
1 0 9
4 0 2
0 1 0
1 0 2
0 1 3
0 1 2
1 0 1
2 0 1
0 1 2
1 0 2
出力のチャネル数は
フィルタの数nにな
る
6 2 1
0 1 7
9 0 2
6 2 1
0 1 7
86 63
10
0
63
7

前提となる
知識はここまで
8

論文の概要
• Xceptionとは
• Inception V3より精度がよいアーキテクチャ
• Inception moduleをdepthwise separable
convolutionに変えたら精度向上した
• パラメータの数はInception V3と同等で、
性能が向上したのはパラメータの効率的な利用に
よるもの
9

Xception?
• 名前の由来
• An “extreme” version of
an Inception module
• Inception moduleの仮説より
強力な仮説に基づくもの
10

Inception module?
• Convolutionの際に
複数のフィルタ、Pooling
を並列に用いて、
その結果を結合する
• どのフィルタが良い精度を
もたらすかということは
学習の過程で決めていく
• これを積み重ねたものが
GoogLeNet
https://youtu.be/VxhSouuSZDY
フィルターのサイズで悩まなくてよい
11

Inception moduleの畳み込み
•チャネル方向に畳み込みをして、普通の畳み込みをしている
•1×1の畳み込みは次元圧縮のため
Pointwise convolution
(チャネル方向の畳み込み)
普通の畳み込み
ReLU
https://qiita.com/yu4u/items/34cd33b944d8bdca142d12
計算量は(F^2)(K^2)NM

13 2 27 20
15
2
5
1
0
Pointwise Convolution
• 1×1のフィルタ
を用いる
＊
1×1のフィルタ W
4 2 1 2
4
2
5
3 0 6 5
3
0
1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
4
1
2
3
13 8 22 12
0 19 20 19
13 4 5 8
7 11 0 10
モデルを少ない計算量で深くできる
パラメータの数を増やせる
13

Xception?
• 名前の由来
• An “extreme” version of an Inception
module
• Inception moduleの仮説より
強力な仮説に基づくもの
14

Inception moduleの仮説
• 空間方向の相関と
チャネル方向の相関は
十分に分離できる
15

Xceptionの仮説
•空間方向の相関と
チャネル方向の相関は
完全に分離できる
•-> Depthwise Separable Convolution
16

Depthwise Separable Convolution
(Separable Convolution)
• 空間方向の畳み込みとチャネル方向の畳み込みを分離
• 計算量: (K^2)(F^2)N + (F^2)MN < (F^2)(K^2)MN Inception Moduleの計算量
(チャネルの畳み込み)
Depthwise convolution
(空間の畳み込み）
17

2 2 4
7
2
3 20 25
12
3
Depthwise Convolution
• チャネルごとに畳み込みをする
＊
4 2 1 2
0 1 2 4
2
5
3 0 6 5
0 1 2 3
0
1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 4 6
0 2 4
3 0 1
1 0
0 1
1 3
2 0
＊
＊
0 1
1 0
18

Depthwise Separable Convolution
(Separable Convolution)
• Xceptionでは間にReLU等の活性化関数を入れていない
(チャネルの畳み込み)
Depthwise convolution
(空間の畳み込み）
活性化関数なし
https://qiita.com/yu4u/items/34cd33b944d8bdca142d19

活性化関数の影響
• 右図のように、
実験した結果、
活性化関数がない方が
Accuracyが高かった
20

Xception Architecture
• Separable Convolutionを積み上げたもの
21

実験
• Xception vs Inception V3
• パラメータ数はほぼ同じであることから、
Accuracyから、どれだけ良いパラメータを選べているか
がわかる
22

実験に用いたデータセット
• ImageNet
• 約1400枚の画像、単一ラベル
• JFT
• Google社内のデータセット
• 3.5億枚以上、17000クラス、マルチラベル
• 学習に使用
• 評価用データセット: FastEval14k
• 14000枚、6000クラス(一枚あたり平均36.5のラベル)
• 評価手法: Map@100
• 予想したラベル上位100個のうち当たったラベル数の平均
23

最適化について
• XceptionとInception V3で
同じ最適化のパラメータを用いた
• パラメータはInception V3でもっとも精度が
よいものを選んだ
24

結果(ImageNet)
• XceptionがInception V3をわずかに上回った
25

結果(JFT)
• 全結合層がある場合も
ない場合もXceptionの圧
勝
26

結果(ImageNetとJFTの比較)
• ImageNetのときよりJFTの時の方が精度の差が大きい
• Inception V3がImageNetに対してOver-fitしている?
ImageNet JFT27

結論
• ImageNetとJFTの両方でXceptionは
Inception V3より精度がよかった
• Depthwise Separable Convolutionは
Inception moduleとよく似た特性を持ち
簡単に使えることから
将来的にConvolutional Neural Networkの
基盤となるだろう
28

参考・引用文献
• 下記はWeb上の資料
• [DL輪読会]
https://www.slideshare.net/DeepLearningJP2016/dlxception-deep-
learning-with-depthwise-separable-convolutions
• Kerasの作者@fcholletさんのCVPR’17論文XceptionとGoogleのMobileNets論文を読んだ
https://qiita.com/yu4u/items/34cd33b944d8bdca142d
• http://tensorflow.classcat.com/category/xception/
• http://st-hakky.hatenablog.com/entry/2017/11/07/174113
• convolution network:
https://www.youtube.com/watch?v=jajksuQW4mc
29

参考にした資料
• 参考にした書籍
• O’REILLY ゼロから作る Deep Learning
Pythonで学ぶディープラーニングの理論と
実装
30

図について
• 引用した図にはURLを近くに記述しました
• 前提知識のConvolutionの図や13, 18枚目の
スライドの図は自作です
どうぞ使ってください
• その他の図は論文中のものを使っています
31

論文に対する感想
• 発想はあまり難しくはなく、
読みやすい論文だった
• 計算量の話が書いていなかった？
• すでにKerasに実装されているらしいので、
ぜひ使ってみたい
32

このスライドについて
• 私の専門外の論文であるため、
正確性に欠けるかもしれません
• 理解するための助けになればと
思います
• Keynoteからの変換のため、若干汚いかも
33

輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions

Similar to 輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions (17)

輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions

Editor's Notes