Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
DEEP LEARNING JP
[DL Seminar]
EfficientDet: Scalable and Efficient Object Detection
Hiromi Nakagawa ACES, Inc.
https://dee...
• Mingxing Tan, Ruoming Pang, Quoc V. Le(Google Research, Brain Team)
– EfficientNet の著者チーム
– Submitted to arXiv on 2019/1...
Introduction
• 近年のObject Detectionのモデルは巨大化しがち
– AmoebaNet-based NAS-FPN:167M parameters, 3045B FLOPs(30x more than RetinaNet)
– ロボティクスや...
• 高精度と高効率を両立することはできるか?Detectorの設計について体系的に調査
• Challenge 1: Efficient Multi-Scale Feature Fusion
– マルチスケールの特徴を簡潔かつ効果的に抽出する ...
Proposed Method
• Multi-scale fusion => aggregate features at different resolutions:𝑃 𝑖𝑛
= (𝑃𝑙1
𝑖𝑛
, … , 𝑃𝑙 𝑛
𝑖𝑛
)
7
BiFPN: Bi-directional...
• (a) Conventional top-down FPN
– Limited by the one-way information flow
8
BiFPN: Bi-directional Feature Pyramid Network
• (b) PANet
– Adds extra bottom-up path aggregation
network
9
BiFPN: Bi-directional Feature Pyramid Network
• (c) NAS-FPN
...
• (e) Simplified PANet
– PANet: Accurate but needs more parameters
and computations
– Remove the nodes whit only 1 input e...
• Weighted feature fusion:How to fuse multi-scale features?
– Equally sum? → x
– Introduce additional weights, let the net...
• Backbone: ImageNet pretrained EfficientNet
• Repeat BiFPN Layer
• Class & Box prediction networks share weights across a...
• Use compound coefficient 𝝓 to jointly scale up all dimensions
– Object detection model has much more scaling dimensions ...
Experiments
• Trained with batch size 128 on 32 TPUv3 chips
• COCO2017で精度/パラメータ数/速度などでSoTAを達成
15
Experiments
• Trained with batch size 128 on 32 TPUv3 chips
• COCO2017で精度/パラメータ数/速度などでSoTAを達成
16
Experiments
• Real-world latency:Run 10 times with batch size 1
• GPU( Titan-V ): Up to 3.2x faster
• CPU( Single-thread Xeon ):Up to ...
• Ablation Study
18
Experiments
 EfficientNet BackboneにするだけでもRetinaNetから改善
 FPNをBiFPNにすると更に改善
 BiFPNは他のfeature networks...
• Ablation Study
19
Experiments
 Feature fusionをSoftmaxからFast Fusionにすると
ほとんど精度低下せずに30%ほど高速化できる
 Compound Scalingによって個別に...
Conclusion
• 高速・高精度・省計算な物体検出モデルであるEfficientDetを提案
– EfficientNetをBackboneに
– マルチスケールの特徴を効率的に抽出するBiFPNモジュールを提案、複数積み重ねて高次の特徴も抽出
– 共通の変数...
• シンプルな工夫/拡張で精度/速度を改善。そりゃ良くなるよな、という感じ
– NAS-FPNみたいな魔改造感がない
• YOLOv3(arXiv18.04)の某グラフと比べると進展の速さを感じる
• その他
– Efficientだし精度もS...
You’ve finished this document.
Download and read it offline.
Upcoming SlideShare
What to Upload to SlideShare
Next
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

Share

[DL輪読会]EfficientDet: Scalable and Efficient Object Detection

Download to read offline

2019/11/22
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

[DL輪読会]EfficientDet: Scalable and Efficient Object Detection

  1. 1. DEEP LEARNING JP [DL Seminar] EfficientDet: Scalable and Efficient Object Detection Hiromi Nakagawa ACES, Inc. https://deeplearning.jp
  2. 2. • Mingxing Tan, Ruoming Pang, Quoc V. Le(Google Research, Brain Team) – EfficientNet の著者チーム – Submitted to arXiv on 2019/11/20 • 物体検出でEfficientNetする – Weighted Bi-directional Feature Pyramid Network (BiFPN): マルチスケールの特徴を効率的に抽出 – Compound Scaling: resolution, depth, widthを一つの変数でスケール • COCOで精度/サイズ/速度などでSoTAを更新 – #Params: 4x smaller – FLOPs: 9.3x fewer 2 Overview
  3. 3. Introduction
  4. 4. • 近年のObject Detectionのモデルは巨大化しがち – AmoebaNet-based NAS-FPN:167M parameters, 3045B FLOPs(30x more than RetinaNet) – ロボティクスや自動運転といったReal-worldへのdeployの妨げに – モデルをEfficientにすることの重要性が高まっている • 軽量化の傾向もあるが、精度が犠牲になっている – One-stage, Anchor-free, Compression • 特定のリソースに最適化するだけでもダメ。いろんなリソース制約に対応できるモデルがほしい – 3B FLOPs ~ 300B FLOPs ? 4 Introduction
  5. 5. • 高精度と高効率を両立することはできるか?Detectorの設計について体系的に調査 • Challenge 1: Efficient Multi-Scale Feature Fusion – マルチスケールの特徴を簡潔かつ効果的に抽出する Bidirectional Feature Pyramid Network (BiFPN) を提案 • Challenge 2: Model Scaling – 入力画像の解像度に加えてネットワークの幅や深さなどをまとめてスケーリングするCompound Scalingを提案 • そもそも強いEfficientNetもBackboneに使う 5 Introduction
  6. 6. Proposed Method
  7. 7. • Multi-scale fusion => aggregate features at different resolutions:𝑃 𝑖𝑛 = (𝑃𝑙1 𝑖𝑛 , … , 𝑃𝑙 𝑛 𝑖𝑛 ) 7 BiFPN: Bi-directional Feature Pyramid Network [Lin+CVPR’17] Feature Pyramid Networks ex. Faster-RCNN,YOLO 上層の解像度が低くなる ex. SSD 下層の特徴抽出が不十分 下層も大域特徴(コンテキスト)を 利用でき、解像度も高い Ref. https://www.slideshare.net/ren4yu/single-shot
  8. 8. • (a) Conventional top-down FPN – Limited by the one-way information flow 8 BiFPN: Bi-directional Feature Pyramid Network
  9. 9. • (b) PANet – Adds extra bottom-up path aggregation network 9 BiFPN: Bi-directional Feature Pyramid Network • (c) NAS-FPN – Neural architecture search – Requires thousands of GPU hours for search – Irregular network, difficult to interpret or modify
  10. 10. • (e) Simplified PANet – PANet: Accurate but needs more parameters and computations – Remove the nodes whit only 1 input edge 10 BiFPN: Bi-directional Feature Pyramid Network • (f) BiFPN – Extra edges from input to output at the same level – Repeat feature network layer (=bidirectional path)
  11. 11. • Weighted feature fusion:How to fuse multi-scale features? – Equally sum? → x – Introduce additional weights, let the network to learn the importance of each input feature – Unbound fusion: • 𝑤𝑖:scalar(per-feature), vector(per-channel), tensor(per-pixel) • scalar is enough but needs bounding for stable training – Soft-max fusion: • Slowdown on GPU – Fast normalized fusion: • Efficient 11 BiFPN: Bi-directional Feature Pyramid Network
  12. 12. • Backbone: ImageNet pretrained EfficientNet • Repeat BiFPN Layer • Class & Box prediction networks share weights across all level of features 12 EfficientDet Architecture
  13. 13. • Use compound coefficient 𝝓 to jointly scale up all dimensions – Object detection model has much more scaling dimensions than image classification models 13 Compound Scaling Input size 𝑅𝑖𝑛𝑝𝑢𝑡 #channels 𝑊𝑏𝑖𝑓𝑝𝑛 #layers 𝐷 𝑏𝑖𝑓𝑝𝑛 #layers 𝐷𝑐𝑙𝑎𝑠𝑠 Backbone Network 𝐵0, … , 𝐵6 = 64 ∙ (1.35 𝜙 ) = 3 + 𝜙/3 = 2 + 𝜙 = 512 + 𝜙 ∙ 128
  14. 14. Experiments
  15. 15. • Trained with batch size 128 on 32 TPUv3 chips • COCO2017で精度/パラメータ数/速度などでSoTAを達成 15 Experiments
  16. 16. • Trained with batch size 128 on 32 TPUv3 chips • COCO2017で精度/パラメータ数/速度などでSoTAを達成 16 Experiments
  17. 17. • Real-world latency:Run 10 times with batch size 1 • GPU( Titan-V ): Up to 3.2x faster • CPU( Single-thread Xeon ):Up to 8.1x faster 17 Experiments
  18. 18. • Ablation Study 18 Experiments  EfficientNet BackboneにするだけでもRetinaNetから改善  FPNをBiFPNにすると更に改善  BiFPNは他のfeature networksに比べて 高精度かつ少パラメータ/低FLOPs
  19. 19. • Ablation Study 19 Experiments  Feature fusionをSoftmaxからFast Fusionにすると ほとんど精度低下せずに30%ほど高速化できる  Compound Scalingによって個別にスケールを最適化 するより優れたmAP/FLOPsのモデルが得られる Softmax Fusion Fast Fusion
  20. 20. Conclusion
  21. 21. • 高速・高精度・省計算な物体検出モデルであるEfficientDetを提案 – EfficientNetをBackboneに – マルチスケールの特徴を効率的に抽出するBiFPNモジュールを提案、複数積み重ねて高次の特徴も抽出 – 共通の変数で解像度/幅/深さを複合的にスケーリングするCompound Scalingによる効率的なパラメータ探索 • COCOデータでSoTAの精度/速度を達成 – 4x smaller and 9.3x fewer FLOPs – Latency:3.2x faster @GPU、8.1x faster@CPU 21 まとめ
  22. 22. • シンプルな工夫/拡張で精度/速度を改善。そりゃ良くなるよな、という感じ – NAS-FPNみたいな魔改造感がない • YOLOv3(arXiv18.04)の某グラフと比べると進展の速さを感じる • その他 – Efficientだし精度もSoTAを更新した。 より精度を上げるためにEfficientさを捨てるとしたらどの方向? – 最小解像度が512からの比較。それより小さくなると? – 他の評価指標(mAPxx)やデータセットでのパフォーマンスは? – Compound Scalingにおけるヒューリスティック、どれくらいセンシティブ? – Keypointベースのアプローチと組み合わせるとどんな感じになる? 22 感想 ここらへん?
  • KiichiOkuno2

    Sep. 13, 2020
  • BibhasMondal6

    Jul. 18, 2020
  • jima0720

    Jul. 4, 2020
  • y990066

    Mar. 19, 2020
  • YutaUeno2

    Dec. 7, 2019
  • DaehanKim5

    Nov. 22, 2019

2019/11/22 Deep Learning JP: http://deeplearning.jp/seminar-2/

Views

Total views

6,372

On Slideshare

0

From embeds

0

Number of embeds

742

Actions

Downloads

44

Shares

0

Comments

0

Likes

6

×