SlideShare a Scribd company logo
Takanori Ogata
Deep Snake for Real-Time Instance Segmentation
Copyright © ABEJA, Inc. All rights reserved
Self-Introduction
緒方 貴紀@ ABEJA, Inc. Twitter: @conta_
研究開発からプロトタイプ開発・セールス・
人事・雑用まで何でもやります。
趣味は 音楽・お酒・筋トレ ←New
Copyright © ABEJA, Inc. All rights reserved
Deep Snake for Real-Time Instance Segmentation
• CVPR2020 (Oral)
• 物体輪郭を用いたInstance Segmentationの論文
• circular convolutionという仕組みを導入し、輪郭頂点の位置をIterativeに修正
することで物体輪郭を推定、高精度なInstance Segmentationを実現
Copyright © ABEJA, Inc. All rights reserved
先行研究
Pixel-based methods
PANet [Liu+, CVPR2018]
Mask RCNN [He+, ICCV2017]
課題: 小さな物体の位置ずれやBboxのズレに対応できない
Copyright © ABEJA, Inc. All rights reserved
先行研究
Contour-based method
HuanLing,JunGao,AmlanKar,WenzhengChen,andSanja Fidler. Fast interactive object annotation with curve-gcn. In CVPR, 2019
https://tech-blog.abeja.asia/entry/annotation-survery
DSAC [Marcos+, CVPR2018]
精度はPixel Basedに及ばず
Instance SegmentationとしてはPipelineが不足(Bboxが与えられた上での評価)
Contourモデルの特別な場合に対応していない(おそらくトポロジーの分割)
CurveGCN [Ling+, CVPR2019]
Copyright © ABEJA, Inc. All rights reserved
先行研究
Snakes: 元祖Active Contour Models
Copyright © ABEJA, Inc. All rights reserved
Active Contour Model
• Active Contour Model
対象 空間 領域 性質 表 指標 他 特
徴量 複数 領域 分割
分割 領域 時間変化 境界線 連続的
変化
• 手法 大 2種
Snakes法
Level set法
引用: https://www.slideshare.net/Arumaziro/ss-37035661
Copyright © ABEJA, Inc. All rights reserved
Snakesとは
前提1: 曲線はパ タ表現される
前提2: 曲線のエネ ギ を設定
𝑣 𝛼
𝑑𝑣 𝑠
𝑑𝑠
𝑑𝑠
𝑑 𝑣 𝑠
𝑑𝑠
𝑑𝑠
𝛻 𝐺 ⊗ 𝐼 𝑣 𝑠 𝑑𝑠
:弧長に対応する項
:曲率に対応する項
:勾配強度に対応する項
v 𝑠
𝑥 𝑠
𝑦 𝑠
s ∈ 0,1
引用: https://www.slideshare.net/Arumaziro/ss-37035661
Snakes 貪欲法
𝑣 𝑣
𝑣 𝑣 2𝑣
𝐼′ 𝑣
:弧長に対応す 項
:曲率に対応す 項
:勾配強度に対応す 項
𝑣
Copyright © ABEJA, Inc. All rights reserved
Deep Snake
Copyright © ABEJA, Inc. All rights reserved
Proposed approach: Learning-based snake algorithm
• Snake
• 頂点から構成される曲線のエネルギー関数最小化
• エネルギー関数は非凸・handcrafted・低レベルの画像特徴を利用
• Deep Snake
• End-to-endで頂点から構成されるcontourから直接学習
• CNN backboneはObject DetectionとShareし特徴量をハイブリッドに利用
• Contor+cnn featureを入力として頂点の移動量を出力、Iterativeに処理
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• 物体検出アルゴリズムによりBboxを予測
• BboxからDiamond Contorを機械的に作成
• Extremepointsを予測(Deformation1)
• 予測ポイントからOctagon contourを機械的に作成
• Octagon contourから初期頂点を機械的に作成し
• Contourを再帰的に予測(Deformation2)
詳細は後ほど
Copyright © ABEJA, Inc. All rights reserved
Contour with NNs
vertex+featureをどうNNで扱うか?
• 初期位置は?
• 頂点情報の伝搬は?
Polygon RNN++ [Acuna+, CVPR2018] CurveGCN [Ling+, CVPR2019]
CNN+RNNで頂点生成
Gated Graph Neural Networkを利用して最適化
Bboxを元に静的なものを与える
Graph Convを利用
Copyright © ABEJA, Inc. All rights reserved
Circular Convolution
Contour = 周期的な1Dの離散信号だと思って捉える
(x, y, features) x N に対して1D-Convで対処可能(シンプル)
Contour上の特徴からの影響を考えることで
Object-Levelの構造を捉えることが出来る
Copyright © ABEJA, Inc. All rights reserved
Network architecture
Backbone・fusion block・prediction headの3つから構成される
*CirConv = Circular Convolution
Contourを入力として、Offsetを出力する
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• 物体検出アルゴリズムによりBboxを予測
• BboxからDiamond Contorを機械的に作成
• Extremepointsを予測(Deformation1)
• 予測ポイントからOctagon contourを機械的に作成
• Octagon contourから初期頂点を機械的に作成し
• Contourを再帰的に予測(Deformation2)
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• 物体検出アルゴリズムによりBboxを予測
• CenterNetを活用
• BBox + Centerを出力
CenterNet[Zhou+, CVPR2019]
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• BboxからDiamond Contorを機械的に作成
• 足して2で割るを計算するだけ
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• Extremepointsを予測(Deformation1)
• Ground TruthはObject boundarからサンプリング
• Top, Left, Right, Bottomを持ってくる
• 最適化は下記のロスを利用
Extreme Clicking [Papadopoulos+, CVPR2017]
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• Octagon contourから初期頂点を機械的に作成
• Extreme Pointsから4点を予測し、8角形を作成
• (Extreme Pointsから辺の1/4を拡張して
Bbox上に引いた辺の上に頂点を置くらしい)
• => Octagon Contour
CenterNet[Zhou+, CVPR2019]
Copyright © ABEJA, Inc. All rights reserved
アルゴリズム全体像
• Contourを再帰的に予測(Deformation2)
• GTはObject Boundaryから等間隔にN点サンプル
• (N=128)
• 再帰的にDeformationを繰り返す
• 最適化は下記のLossを利用
• (実験ではIter = 3)
Copyright © ABEJA, Inc. All rights reserved
Multi-component detection
Contourを利用するときに課題であったオクルージョン問題へのアプローチ
Detection時に物体の分割を行い、分割した物体それぞれにDeep Snakeを適用
最後に統合することでオクルージョンを配慮
Copyright © ABEJA, Inc. All rights reserved
補足
Curve GCN Deep Snake
初期位置 楕円 Extrepe Pointsの予測 + Octagon
Contour
最適化 面積の差を微分(微分レンダリング 頂点情報をL1で最適化
目的 アノテーションの効率化
Bboxは与えられる前提
Instance Segmentation(Object
Detectionも含まれる)
Copyright © ABEJA, Inc. All rights reserved
Experiments
これ
Copyright © ABEJA, Inc. All rights reserved
Ablation studies
Circlar Convが有効なのか?・初期位置予測は必要か?
Baseline=CenterNet + Curve-GCN
+GraphConv+Proposed Architecture
+ExtremePointsの予測
GraphConv -> CircularConv
Iterは3以上ではパフォーマンスは上がらない
Copyright © ABEJA, Inc. All rights reserved
Qualitative Result (GCN vs Circular Conv)
Copyright © ABEJA, Inc. All rights reserved
Performance
PANet [Liu+, CVPR2018]が比較対象
Copyright © ABEJA, Inc. All rights reserved
Performance
Copyright © ABEJA, Inc. All rights reserved
Qualitative Results
Copyright © ABEJA, Inc. All rights reserved
Copyright © ABEJA, Inc. All rights reserved
Running time
はやい(GPU)
Copyright © ABEJA, Inc. All rights reserved
まとめ
• Circular Convを提案することでシンプルかつ高精度なEnd-to-endのInstance
Sentmentationを実現
• GPU上で32.3fps(at 512x512px)を達成

More Related Content

What's hot

最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
Shota Imai
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
MobileRoboticsResear
 
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
Akiyoshi Hara
 
20211004 XRメタバース時代における触覚の役割について
20211004 XRメタバース時代における触覚の役割について20211004 XRメタバース時代における触覚の役割について
20211004 XRメタバース時代における触覚の役割について
GREE VR Studio Lab
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
順也 山口
 
20150930
2015093020150930
20150930
nlab_utokyo
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
Deep Learning JP
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
Tenki Lee
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
Sho Kagami
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
IROS2020 survey
IROS2020 surveyIROS2020 survey
IROS2020 survey
robotpaperchallenge
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
Deep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
ICRA 2019 速報
ICRA 2019 速報ICRA 2019 速報
ICRA 2019 速報
cvpaper. challenge
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
 
【DL輪読会】Variable Bitrate Neural Fields
【DL輪読会】Variable Bitrate Neural Fields【DL輪読会】Variable Bitrate Neural Fields
【DL輪読会】Variable Bitrate Neural Fields
Deep Learning JP
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
Toru Tamaki
 

What's hot (20)

最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
 
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
 
20211004 XRメタバース時代における触覚の役割について
20211004 XRメタバース時代における触覚の役割について20211004 XRメタバース時代における触覚の役割について
20211004 XRメタバース時代における触覚の役割について
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
 
20150930
2015093020150930
20150930
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
 
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
IROS2020 survey
IROS2020 surveyIROS2020 survey
IROS2020 survey
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
ICRA 2019 速報
ICRA 2019 速報ICRA 2019 速報
ICRA 2019 速報
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
【DL輪読会】Variable Bitrate Neural Fields
【DL輪読会】Variable Bitrate Neural Fields【DL輪読会】Variable Bitrate Neural Fields
【DL輪読会】Variable Bitrate Neural Fields
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 

More from Takanori Ogata

20210108 Tread: Circuits
20210108 Tread: Circuits20210108 Tread: Circuits
20210108 Tread: Circuits
Takanori Ogata
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
Takanori Ogata
 
190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会
Takanori Ogata
 
190410 ML@LOFT
190410 ML@LOFT190410 ML@LOFT
190410 ML@LOFT
Takanori Ogata
 
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
Takanori Ogata
 
Unsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddingsUnsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddings
Takanori Ogata
 
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnnAnnotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
Takanori Ogata
 
Training object class detectors with click supervision
Training object class detectors with click supervisionTraining object class detectors with click supervision
Training object class detectors with click supervision
Takanori Ogata
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
 
160924 Deep Learning Tuningathon
160924 Deep Learning Tuningathon160924 Deep Learning Tuningathon
160924 Deep Learning Tuningathon
Takanori Ogata
 
Convolutional Pose Machines
Convolutional Pose MachinesConvolutional Pose Machines
Convolutional Pose Machines
Takanori Ogata
 
Deep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめDeep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめ
Takanori Ogata
 
Cv20160205
Cv20160205Cv20160205
Cv20160205
Takanori Ogata
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
 
DeepAKB
DeepAKBDeepAKB

More from Takanori Ogata (15)

20210108 Tread: Circuits
20210108 Tread: Circuits20210108 Tread: Circuits
20210108 Tread: Circuits
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
 
190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会
 
190410 ML@LOFT
190410 ML@LOFT190410 ML@LOFT
190410 ML@LOFT
 
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
 
Unsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddingsUnsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddings
 
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnnAnnotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
 
Training object class detectors with click supervision
Training object class detectors with click supervisionTraining object class detectors with click supervision
Training object class detectors with click supervision
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
160924 Deep Learning Tuningathon
160924 Deep Learning Tuningathon160924 Deep Learning Tuningathon
160924 Deep Learning Tuningathon
 
Convolutional Pose Machines
Convolutional Pose MachinesConvolutional Pose Machines
Convolutional Pose Machines
 
Deep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめDeep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめ
 
Cv20160205
Cv20160205Cv20160205
Cv20160205
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 
DeepAKB
DeepAKBDeepAKB
DeepAKB
 

Recently uploaded

YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 

Recently uploaded (16)

YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 

20200704 Deep Snake for Real-Time Instance Segmentation

  • 1. Takanori Ogata Deep Snake for Real-Time Instance Segmentation
  • 2. Copyright © ABEJA, Inc. All rights reserved Self-Introduction 緒方 貴紀@ ABEJA, Inc. Twitter: @conta_ 研究開発からプロトタイプ開発・セールス・ 人事・雑用まで何でもやります。 趣味は 音楽・お酒・筋トレ ←New
  • 3. Copyright © ABEJA, Inc. All rights reserved Deep Snake for Real-Time Instance Segmentation • CVPR2020 (Oral) • 物体輪郭を用いたInstance Segmentationの論文 • circular convolutionという仕組みを導入し、輪郭頂点の位置をIterativeに修正 することで物体輪郭を推定、高精度なInstance Segmentationを実現
  • 4. Copyright © ABEJA, Inc. All rights reserved 先行研究 Pixel-based methods PANet [Liu+, CVPR2018] Mask RCNN [He+, ICCV2017] 課題: 小さな物体の位置ずれやBboxのズレに対応できない
  • 5. Copyright © ABEJA, Inc. All rights reserved 先行研究 Contour-based method HuanLing,JunGao,AmlanKar,WenzhengChen,andSanja Fidler. Fast interactive object annotation with curve-gcn. In CVPR, 2019 https://tech-blog.abeja.asia/entry/annotation-survery DSAC [Marcos+, CVPR2018] 精度はPixel Basedに及ばず Instance SegmentationとしてはPipelineが不足(Bboxが与えられた上での評価) Contourモデルの特別な場合に対応していない(おそらくトポロジーの分割) CurveGCN [Ling+, CVPR2019]
  • 6. Copyright © ABEJA, Inc. All rights reserved 先行研究 Snakes: 元祖Active Contour Models
  • 7. Copyright © ABEJA, Inc. All rights reserved Active Contour Model • Active Contour Model 対象 空間 領域 性質 表 指標 他 特 徴量 複数 領域 分割 分割 領域 時間変化 境界線 連続的 変化 • 手法 大 2種 Snakes法 Level set法 引用: https://www.slideshare.net/Arumaziro/ss-37035661
  • 8. Copyright © ABEJA, Inc. All rights reserved Snakesとは 前提1: 曲線はパ タ表現される 前提2: 曲線のエネ ギ を設定 𝑣 𝛼 𝑑𝑣 𝑠 𝑑𝑠 𝑑𝑠 𝑑 𝑣 𝑠 𝑑𝑠 𝑑𝑠 𝛻 𝐺 ⊗ 𝐼 𝑣 𝑠 𝑑𝑠 :弧長に対応する項 :曲率に対応する項 :勾配強度に対応する項 v 𝑠 𝑥 𝑠 𝑦 𝑠 s ∈ 0,1 引用: https://www.slideshare.net/Arumaziro/ss-37035661 Snakes 貪欲法 𝑣 𝑣 𝑣 𝑣 2𝑣 𝐼′ 𝑣 :弧長に対応す 項 :曲率に対応す 項 :勾配強度に対応す 項 𝑣
  • 9. Copyright © ABEJA, Inc. All rights reserved Deep Snake
  • 10. Copyright © ABEJA, Inc. All rights reserved Proposed approach: Learning-based snake algorithm • Snake • 頂点から構成される曲線のエネルギー関数最小化 • エネルギー関数は非凸・handcrafted・低レベルの画像特徴を利用 • Deep Snake • End-to-endで頂点から構成されるcontourから直接学習 • CNN backboneはObject DetectionとShareし特徴量をハイブリッドに利用 • Contor+cnn featureを入力として頂点の移動量を出力、Iterativeに処理
  • 11. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • 物体検出アルゴリズムによりBboxを予測 • BboxからDiamond Contorを機械的に作成 • Extremepointsを予測(Deformation1) • 予測ポイントからOctagon contourを機械的に作成 • Octagon contourから初期頂点を機械的に作成し • Contourを再帰的に予測(Deformation2) 詳細は後ほど
  • 12. Copyright © ABEJA, Inc. All rights reserved Contour with NNs vertex+featureをどうNNで扱うか? • 初期位置は? • 頂点情報の伝搬は? Polygon RNN++ [Acuna+, CVPR2018] CurveGCN [Ling+, CVPR2019] CNN+RNNで頂点生成 Gated Graph Neural Networkを利用して最適化 Bboxを元に静的なものを与える Graph Convを利用
  • 13. Copyright © ABEJA, Inc. All rights reserved Circular Convolution Contour = 周期的な1Dの離散信号だと思って捉える (x, y, features) x N に対して1D-Convで対処可能(シンプル) Contour上の特徴からの影響を考えることで Object-Levelの構造を捉えることが出来る
  • 14. Copyright © ABEJA, Inc. All rights reserved Network architecture Backbone・fusion block・prediction headの3つから構成される *CirConv = Circular Convolution Contourを入力として、Offsetを出力する
  • 15. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • 物体検出アルゴリズムによりBboxを予測 • BboxからDiamond Contorを機械的に作成 • Extremepointsを予測(Deformation1) • 予測ポイントからOctagon contourを機械的に作成 • Octagon contourから初期頂点を機械的に作成し • Contourを再帰的に予測(Deformation2)
  • 16. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • 物体検出アルゴリズムによりBboxを予測 • CenterNetを活用 • BBox + Centerを出力 CenterNet[Zhou+, CVPR2019]
  • 17. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • BboxからDiamond Contorを機械的に作成 • 足して2で割るを計算するだけ
  • 18. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • Extremepointsを予測(Deformation1) • Ground TruthはObject boundarからサンプリング • Top, Left, Right, Bottomを持ってくる • 最適化は下記のロスを利用 Extreme Clicking [Papadopoulos+, CVPR2017]
  • 19. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • Octagon contourから初期頂点を機械的に作成 • Extreme Pointsから4点を予測し、8角形を作成 • (Extreme Pointsから辺の1/4を拡張して Bbox上に引いた辺の上に頂点を置くらしい) • => Octagon Contour CenterNet[Zhou+, CVPR2019]
  • 20. Copyright © ABEJA, Inc. All rights reserved アルゴリズム全体像 • Contourを再帰的に予測(Deformation2) • GTはObject Boundaryから等間隔にN点サンプル • (N=128) • 再帰的にDeformationを繰り返す • 最適化は下記のLossを利用 • (実験ではIter = 3)
  • 21. Copyright © ABEJA, Inc. All rights reserved Multi-component detection Contourを利用するときに課題であったオクルージョン問題へのアプローチ Detection時に物体の分割を行い、分割した物体それぞれにDeep Snakeを適用 最後に統合することでオクルージョンを配慮
  • 22. Copyright © ABEJA, Inc. All rights reserved 補足 Curve GCN Deep Snake 初期位置 楕円 Extrepe Pointsの予測 + Octagon Contour 最適化 面積の差を微分(微分レンダリング 頂点情報をL1で最適化 目的 アノテーションの効率化 Bboxは与えられる前提 Instance Segmentation(Object Detectionも含まれる)
  • 23. Copyright © ABEJA, Inc. All rights reserved Experiments これ
  • 24. Copyright © ABEJA, Inc. All rights reserved Ablation studies Circlar Convが有効なのか?・初期位置予測は必要か? Baseline=CenterNet + Curve-GCN +GraphConv+Proposed Architecture +ExtremePointsの予測 GraphConv -> CircularConv Iterは3以上ではパフォーマンスは上がらない
  • 25. Copyright © ABEJA, Inc. All rights reserved Qualitative Result (GCN vs Circular Conv)
  • 26. Copyright © ABEJA, Inc. All rights reserved Performance PANet [Liu+, CVPR2018]が比較対象
  • 27. Copyright © ABEJA, Inc. All rights reserved Performance
  • 28. Copyright © ABEJA, Inc. All rights reserved Qualitative Results
  • 29. Copyright © ABEJA, Inc. All rights reserved
  • 30. Copyright © ABEJA, Inc. All rights reserved Running time はやい(GPU)
  • 31. Copyright © ABEJA, Inc. All rights reserved まとめ • Circular Convを提案することでシンプルかつ高精度なEnd-to-endのInstance Sentmentationを実現 • GPU上で32.3fps(at 512x512px)を達成