SlideShare a Scribd company logo
Xception: Deep Learning
with Depthwise Separable Convolutions
Submitted on 7 Oct 2016 (v1), last revised 4 Apr 2017 (this version, v3)
Franc¸ois Chollet Google, Inc.
fchollet@google.com
輪読資料
電気通信大学
吉浦研究室 修士1年
浅見 航太朗
スライドの公開日時: 20180209
1
この論文について
• 論文名:
Xception: Deep Learning with Depthwise
Separable Convolutions
• 著者: Francois Chollet (Google, Inc.)
• 公開日: 2017年4月
• Pythonの深層学習ライブラリKerasの作者による
もの
2
前提知識: Convolution
• Convolution(畳み込み)とは
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 0 1
0 1 2
1 0 2
*
入力データ フィルタ
3
前提知識: Convolution
• Convolution(畳み込み)とは:
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 0 1
0 1 2
1 0 2
*
15 16
6 15
入力データ X
フィルター W
(重み)
カーネルともいう
畳み込み演算を*で表すことにする4
前提知識: Convolution
• Convolution(畳み込み): バイアス項の追加
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 0 1
0 1 2
1 0 2
*
15 16
6 15
入力データ X
フィルター W
(重み)
+ 3
バイアス b
18 19
9 18
出力データ Y
Y = W * X + b と書けそう
どっかで見たことありますね?
5
前提知識: Convolution
• 畳み込み演算: 3次元データ
*
63 55
18 51
3次元の入力データ X
3次元のフィルタ W
畳み込み演算を*で表すことにする
4 2 1 2
0 1 2 4
3 0 1 2
2 3 0 5
3 0 6 5
0 1 2 3
3 0 1 0
2 3 0 1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
4 0 2
0 1 0
1 0 2
0 1 3
0 1 2
1 0 0
2 0 1
0 1 2
1 0 2
6
63 90
18 5177 55
96 53
6 2 1
0 1 7
9 0 2
86 63
85 24
0 9 6
0 1 4
1 0 0
2 0 4
0 1 0
1 0 2
前提知識: Convolution
• チャネル方向に
複数枚の出力を
もたせる
*
3次元の入力データ X
3次元のフィルタn個 W
4 2 1 2
0 1 2 4
3 0 1 2
2 3 0 5
3 0 6 5
0 1 2 3
3 0 1 0
2 3 0 1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
4 0 2
0 1 0
1 0 2
0 1 3
0 1 2
1 0 0
6 2 1
0 1 7
9 0 2
5 0 3
0 1 0
1 0 9
4 0 2
0 1 0
1 0 2
0 1 3
0 1 2
1 0 1
2 0 1
0 1 2
1 0 2
出力のチャネル数は
フィルタの数nにな
る
6 2 1
0 1 7
9 0 2
6 2 1
0 1 7
86 63
10
0
63
7
前提となる
知識はここまで
8
論文の概要
• Xceptionとは
• Inception V3より精度がよいアーキテクチャ
• Inception moduleをdepthwise separable
convolutionに変えたら精度向上した
• パラメータの数はInception V3と同等で、
性能が向上したのはパラメータの効率的な利用に
よるもの
9
Xception?
• 名前の由来
• An “extreme” version of
an Inception module
• Inception moduleの仮説より
強力な仮説に基づくもの
10
Inception module?
• Convolutionの際に
複数のフィルタ、Pooling
を並列に用いて、
その結果を結合する
• どのフィルタが良い精度を
もたらすかということは
学習の過程で決めていく
• これを積み重ねたものが
GoogLeNet
https://youtu.be/VxhSouuSZDY
フィルターのサイズで悩まなくてよい
11
Inception moduleの畳み込み
•チャネル方向に畳み込みをして、普通の畳み込みをしている
•1×1の畳み込みは次元圧縮のため
Pointwise convolution
(チャネル方向の畳み込み)
普通の畳み込み
ReLU
https://qiita.com/yu4u/items/34cd33b944d8bdca142d12
計算量は(F^2)(K^2)NM
13 2 27 20
15
2
5
1
0
Pointwise Convolution
• 1×1のフィルタ
を用いる
*
3次元の入力データ X
1×1のフィルタ W
4 2 1 2
4
2
5
3 0 6 5
3
0
1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
4
1
2
3
13 8 22 12
0 19 20 19
13 4 5 8
7 11 0 10
モデルを少ない計算量で深くできる
パラメータの数を増やせる
13
Xception?
• 名前の由来
• An “extreme” version of an Inception
module
• Inception moduleの仮説より
強力な仮説に基づくもの
14
Inception moduleの仮説
• 空間方向の相関と
チャネル方向の相関は
十分に分離できる
15
Xceptionの仮説
•空間方向の相関と
チャネル方向の相関は
完全に分離できる
•-> Depthwise Separable Convolution
16
Depthwise Separable Convolution
(Separable Convolution)
• 空間方向の畳み込みとチャネル方向の畳み込みを分離
• 計算量: (K^2)(F^2)N + (F^2)MN < (F^2)(K^2)MN Inception Moduleの計算量
Pointwise convolution
(チャネルの畳み込み)
Depthwise convolution
(空間の畳み込み)
17
2 2 4
7
2
3 20 25
12
3
Depthwise Convolution
• チャネルごとに畳み込みをする
*
3次元の入力データ X
4 2 1 2
0 1 2 4
2
5
3 0 6 5
0 1 2 3
0
1
1 2 3 0
0 1 2 3
3 0 1 2
2 3 0 1
2 4 6
0 2 4
3 0 1
1 0
0 1
1 3
2 0
*
*
0 1
1 0
18
Depthwise Separable Convolution
(Separable Convolution)
• Xceptionでは間にReLU等の活性化関数を入れていない
Pointwise convolution
(チャネルの畳み込み)
Depthwise convolution
(空間の畳み込み)
活性化関数なし
https://qiita.com/yu4u/items/34cd33b944d8bdca142d19
活性化関数の影響
• 右図のように、
実験した結果、
活性化関数がない方が
Accuracyが高かった
20
Xception Architecture
• Separable Convolutionを積み上げたもの
21
実験
• Xception vs Inception V3
• パラメータ数はほぼ同じであることから、
Accuracyから、どれだけ良いパラメータを選べているか
がわかる
22
実験に用いたデータセット
• ImageNet
• 約1400枚の画像、単一ラベル
• JFT
• Google社内のデータセット
• 3.5億枚以上、17000クラス、マルチラベル
• 学習に使用
• 評価用データセット: FastEval14k
• 14000枚、6000クラス(一枚あたり平均36.5のラベル)
• 評価手法: Map@100
• 予想したラベル上位100個のうち当たったラベル数の平均
23
最適化について
• XceptionとInception V3で
同じ最適化のパラメータを用いた
• パラメータはInception V3でもっとも精度が
よいものを選んだ
24
結果(ImageNet)
• XceptionがInception V3をわずかに上回った
25
結果(JFT)
• 全結合層がある場合も
ない場合もXceptionの圧
勝
26
結果(ImageNetとJFTの比較)
• ImageNetのときよりJFTの時の方が精度の差が大きい
• Inception V3がImageNetに対してOver-fitしている?
ImageNet JFT27
結論
• ImageNetとJFTの両方でXceptionは
Inception V3より精度がよかった
• Depthwise Separable Convolutionは
Inception moduleとよく似た特性を持ち
簡単に使えることから
将来的にConvolutional Neural Networkの
基盤となるだろう
28
参考・引用文献
• 下記はWeb上の資料
• [DL輪読会]
https://www.slideshare.net/DeepLearningJP2016/dlxception-deep-
learning-with-depthwise-separable-convolutions
• Kerasの作者@fcholletさんのCVPR’17論文XceptionとGoogleのMobileNets論文を読んだ
https://qiita.com/yu4u/items/34cd33b944d8bdca142d
• http://tensorflow.classcat.com/category/xception/
• http://st-hakky.hatenablog.com/entry/2017/11/07/174113
• convolution network:
https://www.youtube.com/watch?v=jajksuQW4mc
29
参考にした資料
• 参考にした書籍
• O’REILLY ゼロから作る Deep Learning
Pythonで学ぶディープラーニングの理論と
実装
30
図について
• 引用した図にはURLを近くに記述しました
• 前提知識のConvolutionの図や13, 18枚目の
スライドの図は自作です
どうぞ使ってください
• その他の図は論文中のものを使っています
31
論文に対する感想
• 発想はあまり難しくはなく、
読みやすい論文だった
• 計算量の話が書いていなかった?
• すでにKerasに実装されているらしいので、
ぜひ使ってみたい
32
このスライドについて
• 私の専門外の論文であるため、
正確性に欠けるかもしれません
• 理解するための助けになればと
思います
• Keynoteからの変換のため、若干汚いかも
33

More Related Content

What's hot

[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
 
Chainerで流体計算
Chainerで流体計算Chainerで流体計算
Chainerで流体計算
Preferred Networks
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
Yusuke Uchida
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
Hirokatsu Kataoka
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)
ShunsukeNakamura17
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
Yosuke Shinya
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
Toru Tamaki
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
Deep Learning JP
 

What's hot (20)

[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
Chainerで流体計算
Chainerで流体計算Chainerで流体計算
Chainerで流体計算
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
文献紹介:Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 

Similar to 輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions

20190123_Journal Club16_Xception
20190123_Journal Club16_Xception20190123_Journal Club16_Xception
20190123_Journal Club16_Xception
Tomohisa Seki
 
Characeter-Level CNN
Characeter-Level CNNCharaceter-Level CNN
Characeter-Level CNN
tdualdir
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
Shuntaro Ohno
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
Shuntaro Ohno
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
kunihikokaneko1
 
DeepCas
DeepCasDeepCas
深層学習入門
深層学習入門深層学習入門
深層学習入門
Danushka Bollegala
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
Hirono Jumpei
 
FPGAX2019
FPGAX2019FPGAX2019
FPGAX2019
Hiroki Nakahara
 
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
grafi_tt
 
WaveNet
WaveNetWaveNet
WaveNet
Tsuguo Mogami
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
Deep Learning JP
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Yutaka KATAYAMA
 
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
The University of Tokyo
 

Similar to 輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions (17)

20190123_Journal Club16_Xception
20190123_Journal Club16_Xception20190123_Journal Club16_Xception
20190123_Journal Club16_Xception
 
Characeter-Level CNN
Characeter-Level CNNCharaceter-Level CNN
Characeter-Level CNN
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
DeepCas
DeepCasDeepCas
DeepCas
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
 
FPGAX2019
FPGAX2019FPGAX2019
FPGAX2019
 
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
 
WaveNet
WaveNetWaveNet
WaveNet
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
 
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
 
Scrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pubScrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pub
 

輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions

Editor's Notes

  1. それでは始めましょう
  2. この論文はPythonの深層学習ライブラリKerasの作者が書いたもの 公開は最近のこと
  3. XceptionはGoogleが開発したInception V3より精度が良いアーキテクチャ まずXceptionの名前について
  4. まず、名前の由来について話さなければならない Inception moduleの強化版
  5. Inception moduleとは一体何か 畳み込み演算をするときに、どの大きさのフィルタをもちいるか、 またはストライド数をどうするか等の悩みがある -> 全部やってしまえば良い
  6. Inceptionモジュールでのたたみこみでは、この図のように1×1の畳み込みの後に 普通の畳み込みをしています この1×1の畳み込みは次元圧縮を目的にしたものらしい
  7. 1×1の畳み込みをPointwise convolutionと呼びます。 このメリットはモデルを少ない計算量で深くできることとです
  8. ここまではInception moduleの話をしました。 さて、ここからはなぜExtremeなのかという説明をします
  9. Inception moduleの仮説は「十分」 空間方向 = 写真で言えば高さと幅 チャネル方向 = 写真で言えば色味
  10. 十分 - > 完全 というところが重要
  11. というわけで論文のキモであるDepthwise Separable Convolutionについて解説します これはまず、空間方向に畳み込みをした後、チャネル方向に畳み込みをするという方法
  12. 理解をするために図解してみた 空間方向の畳み込みではこの図のように それぞれのチャネルに対して畳み込みをして結合する
  13. 実はInception moduleでは間に活性化関数としてReLUを入れていたが、 Separable Convolutionでは、あいだに活性化関数をいれていない
  14. これは実験の結果 特徴空間が深い場合では活性化関数は有効だが、Depthwise Separable Convolution のような浅い場合はおそらく情報を失ってしまう
  15. さっきのSeparable convolutionを積み上げたもので実験をした
  16. データセットは二つ ImageNet JFT(Google 社内)