Sprint16_ObjectDetection

どんなもの？
先行研究と比べて何がすごい？
技術の手法や肝は？
議論はある？
どうやって有効だと検証した？
次に読むべき論文は？
 
 
M2Det 
https://www.arxiv-vanity.com/papers/1811.04533/
マスクR-CNNは高速ですが、デザインが速度に対して最適化されておらず、範囲を超え
た画像サイズと提案番号を変更することで、速度/精度のトレードオフを改善できる 
 
 
 
さまざまなバックボーンを持つマスクR-CNNを使用し検証
ResNeXt-101-FPNにおけるMask R-CNNが最も評価が高い結果となった 
 
Mask R-CNNと名付けたこの手法はFaster R-CNNに既存のbounding boxの検出のbranchに
加えてobjectのmaskを予測するbranchを追加することでFaster R-CNNを拡張したモデル
となっている。Mask R-CNNは学習させるのが簡単で、かつ処理速度に置いては推論時に
5fpsとFaster R-CNNにわずかのoverheadを生じさせるだけとなっている。加えてMask R-
CNNはhuman pose推定などの他のタスクに汎用化しやすい。 
 
前モデルのFaster R-CNNとの比較
・mask branchの追加(図1)
・RoI Pooling→RoI Align:画像領域がずれる問題点を改善するためにRoi Alignを使用(図
4,5)
・ピクセル単位での認識（セグメンテーション）も可能
 
 
Mask R-CNN
Kaiming He Georgia Gkioxari Piotr Dollar Ross Girshick ´ Facebook AI Research (FAIR)
https://arxiv.org/pdf/1703.06870v3.pdf 24 Jan 2018
RoI Poolingを行うにあたって、物体検出(Object Detection)タスクではpixel-to-pixelの対
応ではなく、bounding-boxの推論が目的のため多少のずれは問題なかったもの、
Segmentationではわずかなズレがシビアのため、RoI Alignを導入した。これにより
Faster R-CNNベースでInstance Segmentationを行うにあたっての課題としてあった、RoI
Poolの問題を改善した

● 図２ Mask R-CNN
● 図３ Faster R-CNN

● Mask（色付け）セグメント化出力

画像のセグメンテーションは、bounding box と
は異なり、ピクセルレベルで特定する必要がある
ため、不正確だった。
よって、元の画像の領域により正確に対応するよ
うに、RoIPoolの代わりに、RoIAlignを通過させ
る。
プールセクションのずれによる丸め誤差が発生し
ていたRoIPoolの代わりに、RoIAlignでは、この
ような丸め誤差を双線形補間(biliear
interpolation)を使用して避けています。補間処理
した各セクションの値からMaxプーリングを行い
ます。
これにより高いレベルで、RoIPoolによって引き
起こされる不整合を避けることができます。これ
らのマスクが生成されると、Mask R-CNNはそれ
らをFaster R-CNNの分類および bounding box と
組み合わせて、そのようなきわめて正確なセグメ
ンテーションを生成します

mAP (mean Average Precision) と FPS (Frame Per Second)
mAPは物体検知モデルに使われる評価指標
これは、ある画像(物体)の情報が与えられた時点までの適合率(Precision)の平均であるAP(Average Precision)の平均
FPS (Frame Per Second)とは一秒あたりに処理させるフレーム数

どんなもの？
議論はある？
かなり論文にてYOLOを意識していたのでYOLO
https://arxiv.org/pdf/1506.02640.pdf 
 
 
 
同じone-step手法であるYOLOとの差別化 
 
 
 
VOC2007 テストの Fast R-CNN [ 6 ]およびFaster R-CNN [ 2 ]と比較します（4952画像)
SSDではすべての訓練過程を単一のネットワークにカプセル化しておこなうので，R-CNN
のようにネットワークの前段階で物体が存在する領域候補を抽出したり，それをリサン
プリングしたりする過程(Object Proposal)は排除されている． 
モデルの訓練を容易、速度を出せる
SSDは300 300の画像サイズにおいてVOC2007のデータセットにおいて
74.3% mAPという高精度を保ったまま、59 FPSを達成(Nvidia Titan Xを利
用)し、512 512の画像サイズにおいては、76.8% mAPを達成しました。
(Faster R-CNNは73.2% mAP) ) 
 
 
 
SSDではExtra Fetrure Layersという畳み込み層を挿入している後段に向かうほど特徴
マップの分割領域数をスケールダウンさせているそれぞれの分割領域に対し、いくつか
のアスペクト比のデフォルトボックスを対応させ、損失関数とjaccard係数から正解に近
いボックスを複数選択する

デフォルトボックスはjaccard係数(2つの集合に含まれている要素のうち共通要素が占め
る割合)の閾値が0.5を超えたものは全て正解ボックスと対応づける正解ボックスとの重
複が一番大きなものを一つ選択する方法よりこちらの方が精度が高い
SSD: Single Shot MultiBox Detector
Wei Liu1 , Dragomir Anguelov2 , Dumitru Erhan3 , Christian Szegedy3 , Scott
Reed4 , Cheng-Yang Fu1 , Alexander C. Berg1 1UNC Chapel Hill 2Zoox Inc.
3Google Inc. 4University of Michigan, Ann-Arbor 29 Dec 2016
日付

Faster R-CNN に類似した
様々なアスペクト比でアン
カーボックスを使用

SSDの肝となるのは、「デフォルトボックス（default boxes）」という長方形の「枠」
一枚の画像をSSDに読ませ、その中のどこに何があるのか予測させた時、SSDは画像上に大きさ
や形の異なるデフォルトボックスを8732個乗せ、その枠ごとに予測値を計算します。
このデフォルトボックスの役割は、それぞれが、
1. 自身が物体からどのくらい離れていて、どのくらい大きさが異なるのか
2. そこには何があるのかこれらを位置の予測とクラスの予測と呼ぶ

どんなもの？
議論はある？
YOLO v２ 
 
 
 
一つのgridで分類できる物質はパラメータとして設定した[BB数]に制限され、また、各
BBにおける予測クラスは一つのみになってしまう。
そのため「小さな物体の集まり」（群など）の識別が苦手 
 
 
 
YOLOとPascal VOC 2007の他のリアルタイム検出システムを比較した。YOLOとR-CNNバ
リアントの違いを理解するために、YOLOとFast R-CNNの最高性能バージョンの1つであ
るVOC 2007のエラーを調べます。また、VOC 2012の結果を提示し、mAPを現在の最先
端の方法と比較します。
 
 
画像を入力するとsliding windowsで順次処理することはせず、1回で物体を検出します。
精度はややFaster RCNNに劣るものの大幅な処理速度向上(45∼155FPS)を達成 
画像全体の情報から学習や検証を実施することができるので、上記のような誤検出が
「Fast R-CNN」の半分以下となっている。 
 
統合アーキテクチャは非常に高速です。基本的なYOLOモデルは、毎秒45フレームでリア
ルタイムに画像を処理します。ネットワークの小型バージョンであるFast YOLOは、他の
リアルタイム検出器の2倍のmAPを達成しながら、毎秒155フレームという驚異的な処理
を行います（リアルタイム重視） 
 
 
 
複数のConvolutional layer (Conv. Layer)で入力画像から特徴量を抽出し、最後の全結合
層(Conn. Layer)で物体が存在し得る領域の座標、物体種別の確率を計算します。単一の
Convolutional Neural Networkのみで一般物体検出が実現できる
You Only Look Once: Unified, Real-Time Object Detection
Joseph Redmon∗ , Santosh Divvala∗†, Ross Girshick¶ , Ali Farhadi∗† University of
Washington∗ , Allen Institute for AI† , Facebook AI Research¶
http://pjreddie.com/yolo/ 2015年6月8日
日付

End-to-end時代の先駆けとなったFaster R-CNNでは、
Region proposal Networkを通った後に識別(Classification)
を行っています。「検出」の処理の後に「識別」の処理を
行うような直列な処理構成になっており，このことが処理
速度の遅延を招いていると考え、YOLOでは「検出」と
「識別」を同時に行うことで，この処理時間の遅延を解消
しようとしました．
１．入力画像をS×Sのグリッドセルと呼ばれる領域に分割
２．①それぞれのグリッドセルについてBB個のバウンディ
ングボックス(boundhing box)と信頼度スコア(confidence
score)を推測
②それと同時にそれぞれのグリッドセルはC個の物体クラ
スそれぞれの条件付きクラス確率であるPrで表す
３．その後，「条件付きクラス確率」と「個々のボックスの信頼
度スコア」をそれぞれ掛け合わせて，それぞれのバウンディング
ボックスの「クラス固有の信頼度スコア(class-specific
confidence scores)」を得る。このスコアはボックスに表示される
そのクラスの確率と予測されたボックスがある物体にどのくらいフィット
しているかをエンコードします．つまりこの信頼度スコアに基づいてどの
バウンディングボックスがお目当の物体を検出しているかを判断する

• 精度を優先する場合 Faster R-CCN
• どちらもパフォーマンスが出せる SSD
• 超高速を求める場合 YOLO

SSD、YOLO、Faster R-CNN のパフォーマンス比較グラフ
検出物体のサイズが大きい場合は、SSDはFaster R-CNN と同等の精度ですが、
物体サイズが小さい場合は、Faster R-CNN の精度はSSDより良く差が大きい。

どんなもの？
議論はある？
YOLO v3 
 
 
 
速度を出しつつ、より精度を上げる 
 
 
 
YOLOv2はVOC 2007で76.8 mAPを取得します。40FPSで、YOLOv2は78.6 mAPを取
得し、ResNetおよびSSDを使用したFaster RCNNなどの最先端の方法を大幅に高速で実
行
バッチを正規化→mAPの2％増加
224×224イメージでトレーニングされた後、448×448イメージを使用して、ImageNetで10
エポックの分類ネットワークを微調整→mAPの4％増加
アンカーボックスによる畳み込み：69.2％のmAPと88％のリコールが得られます。mAP
は少し低下しますが、リコールは大幅に増加（ない場合はmAPは69.5％、リコールは
81％） 
YOLOの武器である速度を保ちつつ、制度を向上させた 
 
 
・YOLOv1を改良し、9000種類の物体検出が可能になっている。
・67FPSにおいて、76.8 mAP(mean Average Precision)を達成。また40 FPSで、YOLOv2
は78.6％mAPを取得
 
 
YOLO9000: Better, Faster, Stronger
Joseph Redmon∗†, Ali Farhadi∗† University of Washington∗ , Allen Institute for
AI† http://pjreddie.com/yolo9000/ 25 Dec 2016
日付

どんなもの？
議論はある？
v１で課題であった大量に集まる人間や鳥の群れなどもひとつのボックスとして検出し
ている 
 
 
 
COCOデータセットにて精度を計測
 
 
YOLOv3では、ResNetとFPN構造を利用して検出精度を更に向上
本来、層が深くなると、学習が難しくなるのですが、shortcut pathを加えることによっ
て、「ある層で求める最適な出力を学習するのではなく、前層の入力を参照した残差関
数を学習する」ことで特徴量の学習をしやすくしています
v2との比較
・Softmax関数を使わずロジスティック回帰によって分類（論文によると精度を出す上で
不必要らしい)
・3つの異なるスケールから特徴量を抽出し、Feature mapを作成 
・直前の2つのレイヤー層からFeature mapを取得し、それを2倍にアップサンプリング
します。また、ネットワークの最初のLayerからFeature mapを取得し、要素別の追加機
能を使用して前述のmapとマージする 
 
 
 
 
320x320だと検出精度の同じでSSDの３倍高速
v3ではモデルサイズが大きくなったことに伴い、v2と比較して検出速度は若干低下しま
したが、検出精度はより良くなり
 
 
YOLOv3: An Incremental Improvement
Joseph Redmon, Ali Farhadi University of Washington 2018年4月8日
https://pjreddie.com/yolo/
日付

Sprint16_ObjectDetection

Recommended

Recommended

More Related Content

Similar to Sprint16_ObjectDetection

Similar to Sprint16_ObjectDetection (20)

Sprint16_ObjectDetection