SlideShare a Scribd company logo
1 of 24
OHS#3 論文紹介
Object Detection & Instance Segmentation
半谷
Contents
• Object Detection
• タスクについて
• R-CNN
• Faster R-CNN
• Region Proposal Networkのしくみ
• SSD: Single Shot Multibox Detector
• Instance Segmentation
• タスクについて
• End-to-End Instance Segmentation and Counting with Recurrent
Attention
2
一般物体認識分野でのDeep Learning
• 静止の分類タスクは、CNNによる特徴量抽出および学習により発展
• より高度なタスクである物体検出、物体領域抽出へと発展
Classification Object Detection Semantic
Segmentation
Instance
Segmentation
Plants
http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html
Plants
Plants Plants
より高度
3
Object Detection
紹介する論文:
SSD: Single Shot MultiBox Detector
Object Detection
• 画像中の複数の物体を漏れなく/重複無く検出することが目的。
• 物体の検出精度(Precision)と、漏れなく検出できているかの指標である適合率
(Recall)の関係(Precision-recall curve)から算出した、Average Precision (AP)
が主な指標。
• 実問題への応用が期待され、APのほか予測時の計算時間も重要で、リアルタイム性が求め
られている。
http://host.robots.ox.ac.uk/pascal/VOC/voc2007/
Precision
Recall1
1
面積 = AP
5
主なモデル(1): Regions with CNN
• R-CNN (Regions with CNN)
• 物体領域候補の生成にSelective Search(SS)などの手法を利用
• 生成した領域を画像分類用のCNNに入力し、各領域に何が写っているか(あるいは
背景か)を分類する。
• Recallを確保するためには領域候補が2000程度必要であり、全てをCNNに入力し
計算するため非常に時間が掛かる
• また多段階の学習が必要となり煩雑である
R-CNN: http://arxiv.org/abs/1311.2524 6
主なモデル(2): Faster R-CNN
• Faster R-CNN
• 特徴抽出部分を共通化(これはFast R-CNNで提案された方法)
• 特徴マップを入力に物体領域候補を生成するRegion Proposal Networkを提案
• 300程度の領域候補で十分な精度が確保できる
• 1枚あたり0.2~0.3秒で処理できる
Region Proposal Net
(RPN)
CNN
(特徴抽出)
Classifier
物体領域候補を生成
(~300程度)
各領域候補に写る物体を
分類する
Faster R-CNN: http://arxiv.org/abs/1506.014977
Region Proposal Network
• 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ)
• 各Anchor毎にk個のAnchor Boxを定義(スケールとアスペクト比の組み合わせ)
• 各Anchor Box毎に、物体らしさのスコアと位置・サイズの修正項を予測するように訓練する
Faster R-CNN: http://arxiv.org/abs/1506.01497
画像
特徴
マップ
CNN
(特徴抽出)
・・・
スケール アスペクト比
×
各アンカーごとにk個のBox
(例: k = 3 × 3)
2k scores
(物体 or 背景)
4k coordinates
(x, y, w, hの
修正項)
H x W x 3 H/16 x W/16 x 3
8
SSD: Single Shot Multibox Detector
Region Proposal Net
(RPN)
CNN
(特徴抽出)
Classifier
① 物体領域候補を生成
(物体らしさのスコア)
② 各クラスに分類
CNN
(特徴抽出)
Region
Proposal
+
Classifier
物体領域候補を生成
(クラス毎のスコア)SSD
Faster
R-CNN
• Faster RCNNよりも高速で精度も良いモデル
• 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成
• Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で
行っていた処理を一気に行う。
• 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。
SSD: http://arxiv.org/abs/1512.02325
9
SSD: Single Shot Multibox Detector
• Faster RCNNよりも高速で精度も良いモデル
• 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成
• Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で
行っていた処理を一気に行う。
• 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。
(深さにより、デフォルトのBoxサイズを変えている)
浅い側の特徴マップからは
小さい物体を検出する
深い側の特徴マップからは
大きい物体を検出する
SSD: http://arxiv.org/abs/1512.02325
10
SSD: Single Shot Multibox Detector
• Pascal VOC 2007のDetectionタスクの結果
• 入力画像サイズが300x300のモデル(SSD300)では58FPSを達成し、mean AP
も70%を超えている。
• 入力画像サイズが500x500のモデル(SSD500)では、Faster R-CNNより精度も高
く処理速度も速い。
SSD: http://arxiv.org/abs/1512.02325
11
Instance Segmentation
紹介する論文:
End-to-End Instance Segmentation and Counting with
Recurrent Attention
Instance Segmentation
• 領域分割(Segmentation)
• ピクセル毎のラベルを予測する
• 形状や面積といった情報が得られるため応用先も多く、活発に研究されている。
• タスクの分類
• Semantic Segmentation
• 各ピクセルにクラスのラベルを付与する問題。
• ボトルが4本ある場合でも、全て「ボトルクラス」のラベルをつける
• Instance Segmentation
• 個々の物体ごとに別のラベルを付与する問題
• ボトルが4本ある場合、別々のラベルを付与する
(b) Instance ~ (a) Semantic ~Raw Image
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html 13
突然ですが問題です。
葉っぱは何枚あるでしょうか?
http://juser.fz-juelich.de/record/154525/files/FZJ-2014-03837.pdf 14
どのように数えましたか?
http://juser.fz-juelich.de/record/154525/files/FZJ-2014-03837.pdf
• 目線を移しながら一枚一枚注目する
• 一度見たものは記憶しておく
といった感じで数えたのではないでしょうか・・・?
15
End-to-End Instance Segmentation and
Counting with Recurrent Attention
• Instance Segmentation用のニューラルネットワーク
• ステップ毎に1つの物体に注目して領域分割する
• 一度見た領域は記憶しておく
(人間の数え方を参考にしている)
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
16
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
• モデルの全体像:
17
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
一度見た領域を記憶しておく部品
18
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
どこに注目するかを決める
19
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
注目した領域のSegmentationを行う
20
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
物体が見つかったかどうかの判定を行う
(スコアが0.5以下になったら終了)
21
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
一度見た部分は記憶する。
(以下繰返し)
22
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
• 結果(1)葉っぱの領域分割
23
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
• 結果(2)車両の領域分割
24

More Related Content

What's hot

[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with TransformersDeep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Kuninobu SaSaki
 
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてtmtm otm
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!Kazuhide Okamura
 
Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御Ryosuke Okuta
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as PointsDeep Learning JP
 
20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門Kazuki Motohashi
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
機械学習を用いたfNIRSの解析手法の提案
機械学習を用いたfNIRSの解析手法の提案機械学習を用いたfNIRSの解析手法の提案
機械学習を用いたfNIRSの解析手法の提案Reiji Ohkuma
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 
RealSenseとYOLOを用いた物体把持
RealSenseとYOLOを用いた物体把持RealSenseとYOLOを用いた物体把持
RealSenseとYOLOを用いた物体把持NaotakaKawata
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Shohei Hido
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 

What's hot (20)

[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性について
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
 
Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
 
20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
機械学習を用いたfNIRSの解析手法の提案
機械学習を用いたfNIRSの解析手法の提案機械学習を用いたfNIRSの解析手法の提案
機械学習を用いたfNIRSの解析手法の提案
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
RealSenseとYOLOを用いた物体把持
RealSenseとYOLOを用いた物体把持RealSenseとYOLOを用いた物体把持
RealSenseとYOLOを用いた物体把持
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 

Similar to Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...Kento Doi
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...Deep Learning JP
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss FunctionDeep Learning JP
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Taku Tsuzuki
 
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2cvpaper. challenge
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3Yoichi Shirasawa
 
Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)Yusuke Fujimoto
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料Atsushi Hashimoto
 
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...Deep Learning JP
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them AllDeep Learning JP
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object DetectionToru Tamaki
 
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...Keisuke Nakata
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストMasao Takaku
 
Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...
Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...
Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...marujirou
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 

Similar to Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3 (20)

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
 
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料
 
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 
20141008物体検出器
20141008物体検出器20141008物体検出器
20141008物体検出器
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
 
Tesseract ocr
Tesseract ocrTesseract ocr
Tesseract ocr
 
DeepCas
DeepCasDeepCas
DeepCas
 
第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会
 
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
 
Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...
Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...
Representation Learning Using Multi-Task Deep Neural Networks
for Semantic Cl...
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (9)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3

  • 1. OHS#3 論文紹介 Object Detection & Instance Segmentation 半谷
  • 2. Contents • Object Detection • タスクについて • R-CNN • Faster R-CNN • Region Proposal Networkのしくみ • SSD: Single Shot Multibox Detector • Instance Segmentation • タスクについて • End-to-End Instance Segmentation and Counting with Recurrent Attention 2
  • 3. 一般物体認識分野でのDeep Learning • 静止の分類タスクは、CNNによる特徴量抽出および学習により発展 • より高度なタスクである物体検出、物体領域抽出へと発展 Classification Object Detection Semantic Segmentation Instance Segmentation Plants http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html Plants Plants Plants より高度 3
  • 5. Object Detection • 画像中の複数の物体を漏れなく/重複無く検出することが目的。 • 物体の検出精度(Precision)と、漏れなく検出できているかの指標である適合率 (Recall)の関係(Precision-recall curve)から算出した、Average Precision (AP) が主な指標。 • 実問題への応用が期待され、APのほか予測時の計算時間も重要で、リアルタイム性が求め られている。 http://host.robots.ox.ac.uk/pascal/VOC/voc2007/ Precision Recall1 1 面積 = AP 5
  • 6. 主なモデル(1): Regions with CNN • R-CNN (Regions with CNN) • 物体領域候補の生成にSelective Search(SS)などの手法を利用 • 生成した領域を画像分類用のCNNに入力し、各領域に何が写っているか(あるいは 背景か)を分類する。 • Recallを確保するためには領域候補が2000程度必要であり、全てをCNNに入力し 計算するため非常に時間が掛かる • また多段階の学習が必要となり煩雑である R-CNN: http://arxiv.org/abs/1311.2524 6
  • 7. 主なモデル(2): Faster R-CNN • Faster R-CNN • 特徴抽出部分を共通化(これはFast R-CNNで提案された方法) • 特徴マップを入力に物体領域候補を生成するRegion Proposal Networkを提案 • 300程度の領域候補で十分な精度が確保できる • 1枚あたり0.2~0.3秒で処理できる Region Proposal Net (RPN) CNN (特徴抽出) Classifier 物体領域候補を生成 (~300程度) 各領域候補に写る物体を 分類する Faster R-CNN: http://arxiv.org/abs/1506.014977
  • 8. Region Proposal Network • 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ) • 各Anchor毎にk個のAnchor Boxを定義(スケールとアスペクト比の組み合わせ) • 各Anchor Box毎に、物体らしさのスコアと位置・サイズの修正項を予測するように訓練する Faster R-CNN: http://arxiv.org/abs/1506.01497 画像 特徴 マップ CNN (特徴抽出) ・・・ スケール アスペクト比 × 各アンカーごとにk個のBox (例: k = 3 × 3) 2k scores (物体 or 背景) 4k coordinates (x, y, w, hの 修正項) H x W x 3 H/16 x W/16 x 3 8
  • 9. SSD: Single Shot Multibox Detector Region Proposal Net (RPN) CNN (特徴抽出) Classifier ① 物体領域候補を生成 (物体らしさのスコア) ② 各クラスに分類 CNN (特徴抽出) Region Proposal + Classifier 物体領域候補を生成 (クラス毎のスコア)SSD Faster R-CNN • Faster RCNNよりも高速で精度も良いモデル • 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成 • Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で 行っていた処理を一気に行う。 • 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。 SSD: http://arxiv.org/abs/1512.02325 9
  • 10. SSD: Single Shot Multibox Detector • Faster RCNNよりも高速で精度も良いモデル • 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成 • Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で 行っていた処理を一気に行う。 • 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。 (深さにより、デフォルトのBoxサイズを変えている) 浅い側の特徴マップからは 小さい物体を検出する 深い側の特徴マップからは 大きい物体を検出する SSD: http://arxiv.org/abs/1512.02325 10
  • 11. SSD: Single Shot Multibox Detector • Pascal VOC 2007のDetectionタスクの結果 • 入力画像サイズが300x300のモデル(SSD300)では58FPSを達成し、mean AP も70%を超えている。 • 入力画像サイズが500x500のモデル(SSD500)では、Faster R-CNNより精度も高 く処理速度も速い。 SSD: http://arxiv.org/abs/1512.02325 11
  • 12. Instance Segmentation 紹介する論文: End-to-End Instance Segmentation and Counting with Recurrent Attention
  • 13. Instance Segmentation • 領域分割(Segmentation) • ピクセル毎のラベルを予測する • 形状や面積といった情報が得られるため応用先も多く、活発に研究されている。 • タスクの分類 • Semantic Segmentation • 各ピクセルにクラスのラベルを付与する問題。 • ボトルが4本ある場合でも、全て「ボトルクラス」のラベルをつける • Instance Segmentation • 個々の物体ごとに別のラベルを付与する問題 • ボトルが4本ある場合、別々のラベルを付与する (b) Instance ~ (a) Semantic ~Raw Image http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html 13
  • 16. End-to-End Instance Segmentation and Counting with Recurrent Attention • Instance Segmentation用のニューラルネットワーク • ステップ毎に1つの物体に注目して領域分割する • 一度見た領域は記憶しておく (人間の数え方を参考にしている) End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 16
  • 17. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 • モデルの全体像: 17
  • 18. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 一度見た領域を記憶しておく部品 18
  • 19. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 どこに注目するかを決める 19
  • 20. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 注目した領域のSegmentationを行う 20
  • 21. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 物体が見つかったかどうかの判定を行う (スコアが0.5以下になったら終了) 21
  • 22. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 一度見た部分は記憶する。 (以下繰返し) 22
  • 23. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 • 結果(1)葉っぱの領域分割 23
  • 24. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 • 結果(2)車両の領域分割 24

Editor's Notes

  1. 動画; https://drive.google.com/file/d/0BzKzrI_SkD1_R09NcjM1eElLcWc/view?pref=2&pli=1 コード; https://github.com/weiliu89/caffe/tree/ssd