SlideShare a Scribd company logo
1 of 56
Mobility Technologies Co., Ltd.
You Only Look One-level Feature
の解説と見せかけた物体検出のよもやま話
株式会社Mobility Technologies
内田 祐介
第7回全日本コンピュータビジョン勉強会
「CVPR2021読み会」(前編)
Mobility Technologies Co., Ltd.
Yusuke Uchida
• -2017年 :通信キャリアの研究所で画像認識・検索の研究に従事
• -2016年 :社会人学生として博士号を取得(情報理工学)
• 2017年- :DeNA中途入社、深層学習を中心とした
コンピュータビジョン技術の研究開発に従事
• 2019年- : Mobility Technologiesへ移籍
自己紹介
2
Twitter: https://twitter.com/yu4u
GitHub: https://github.com/yu4u
Qiita: https://qiita.com/yu4u
SlideShare: https://www.slideshare.net/ren4yu/
Kaggle: https://www.kaggle.com/ren4yu
Mobility Technologies Co., Ltd.
みんな大好きYOLO!
You Only Look One-level Feature (YOLOF)
3
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
4
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
5
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
6
Mobility Technologies Co., Ltd.
YOLO: Single shot object detectioの火付け役
• J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” in Proc. Of CVPR, 2016.
YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出
• J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR,
2017.
YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出
• J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018.
YOLOv4: ベストプラクティス全部入りみたいなやつ
• A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of
Object Detection,” in arXiv, 2020.
• https://github.com/AlexeyAB/darknet
YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め
たフレームワークと言ったほうが良い。何故かKagglerが大好き
• https://github.com/ultralytics/yolov5
YOLO*?
7
↓Ultralytics CEO
v4論文
AlexeyAB/darknet の issue
Mobility Technologies Co., Ltd.
https://www.kaggle.com/c/global-wheat-
detection/discussion/172436
YOLOv5のablation study by @hirotomusiker
8
Mobility Technologies Co., Ltd.
PP-YOLO: PaddlePaddle版YOLO
• X. Long, et al., "PP-YOLO: An Effective and Efficient Implementation
of Object Detector," in arXiv, 2020.
• X. Huang, et al., "PP-YOLOv2: A Practical Object Detector," in arXiv,
2021.
Scaled-YOLOv4
• C. Wang, A. Bochkovskiy, and H. Liao, "Scaled-YOLOv4: Scaling
Cross Stage Partial Network," in Proc. of CVPR, 2021.
• https://github.com/WongKinYiu/ScaledYOLOv4
YOLOR
• C. Wang, I. Yeh, and H. Liao, "You Only Learn One Representation:
Unified Network for Multiple Tasks," in arXiv, 2021.
• https://github.com/WongKinYiu/yolor
YOLO*?
9
Mobility Technologies Co., Ltd.
論文のIntroはエモいのにめっちゃdetection結果推し
YOLOR
10
Mobility Technologies Co., Ltd.
そういえばYOLOFでした
11
Q. Chen, et al., "You Only Look One-level Feature," in Proc. of CVPR, 2021.
Mobility Technologies Co., Ltd.
Feature Pyramids Networks (FPN) はマルチスケールの特徴を融
合することにより性能が向上していると思われているがポイントは
そこやないで
物体検出における最適化問題を(multi-scaleのアンカーを使うこと
で)分割統治的に解いているところが一番ポイントやで
でもマルチスケールの特徴を使った検出は複雑かつ低速なので、
single-scaleでmulti-scaleに匹敵する検出器をつくるお!
論文の主張
12
Mobility Technologies Co., Ltd.
YOLOFは
ちなみに
13
Mobility Technologies Co., Ltd.
YOLOFはYOLOではありません!
ちなみに
14
Mobility Technologies Co., Ltd.
YOLOFはYOLOではありません!
• これまでの前フリは…
こいつはRetinaNetです
• ちなみに何を持ってYOLOだ、RetinaNetだというのは個人的に好きな議論
• 意味はないけど
• BackboneがDarknetならYOLO?
• 後述のアンカーがkmeansで作られていたらYOLO?
• Headにクラス毎の確率ではなくてbboxの信頼度もあったらYOLOで
bboxとclass分類が別々のbranchになってたらRetinaNet?
• Loss? 後述のAnchor matchingの手法?
ちなみに
15
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
16
https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
17
A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy
of Object Detection," in arXiv, 2020.
Backbone:
ベースとなるクラス分類モ
デル。Multi-scaleの特徴
マップを出力
(e.g. ResNet, Darknet)
Neck:
Multi-scaleの特徴マップを
入力してコネコネして出力
(e.g. FPN, BiFPN)
Head:
Multi-scaleの特徴マップを
入力して検出結果を出力
(e.g. YOLO/Retina head)
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
18
A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy
of Object Detection," in arXiv, 2020.
Backbone:
ベースとなるクラス分類モ
デル。Multi-scaleの特徴
マップを出力
(e.g. ResNet, Darknet)
Neck:
Multi-scaleの特徴マップを
入力してコネコネして出力
(e.g. FPN, BiFPN)
Head:
Multi-scaleの特徴マップを
入力して検出結果を出力
(e.g. YOLO/Retina head)
Mobility Technologies Co., Ltd.
出力層付近の特徴を入力層付近の特徴へと徐々に統合することで
特徴の強さと特徴マップの解像度を両立
Feature Pyramid Network (FPN)
19
T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature Pyramid
Networks for Object Detection," in Proc. of CVPR, 2017.
特徴の強さ:強
解像度:低
e.g. Faster R-
CNN, YOLO
特徴の強さ:弱
解像度:高
e.g. SSD
特徴の強さ:強
解像度:高
FPN
Nearest neighbor
で解像度調整
1x1でチャネル数調整
Mobility Technologies Co., Ltd.
エッジ等のlow-levelの情報をネットワーク全体に伝播させる
Path Aggregation Network (PANet)
20
S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR,
2018.
Backbone FPN Bottom-up path
low-levelの特徴の伝播に
100 layerくらい必要
‘short cut’ path
を作ってあげる
Mobility Technologies Co., Ltd.
エッジ等のlow-levelの情報をネットワーク全体に伝播させる
Path Aggregation Network (PANet)
21
S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR,
2018.
Backbone FPN Bottom-up path
low-levelの特徴の伝播に
100 layerくらい必要
‘short cut’ path
を作ってあげる
3x3 conv
stride=2
3x3 conv
Mobility Technologies Co., Ltd.
PANetを簡略化、同一解像度のskip connection、
top-down+bottom-upを1モジュールとして繰り返す
(単一モジュールとして考えることで簡略化が可能に)
Bi-directional Feature Pyramid Network (BiFPN)
22
M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
Mobility Technologies Co., Ltd.
PANetを簡略化、同一解像度のskip connection、
top-down+bottom-upを1モジュールとして繰り返す
(単一モジュールとして考えることで簡略化が可能に)
Bi-directional Feature Pyramid Network (BiFPN)
23
M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
Mobility Technologies Co., Ltd.
Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる
物体検出モデルの汎用的な表現
24
A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy
of Object Detection," in arXiv, 2020.
Backbone:
ベースとなるクラス分類モ
デル。Multi-scaleの特徴
マップを出力
(e.g. ResNet, Darknet)
Neck:
Multi-scaleの特徴マップを
入力してコネコネして出力
(e.g. FPN, BiFPN)
Head:
Multi-scaleの特徴マップを
入力して検出結果を出力
(e.g. YOLO/Retina head)
Mobility Technologies Co., Ltd.
各スケールのHeadの特徴マップの座標毎にA個の「Anchor」が定義されている
• Anchor: 特定の条件の物体のみを検出する部品
• Bounding box (bbox) のサイズで定義される。YOLOv3はA=3, RetinaNetはA=9
Anchorのbboxとmatchingルールによって「各Anchorの守備範囲」が決まる
• 各Anchorがどういうサイズの物体を検出すべきか(&検出すべきでないか)
Anchor
25
Anchor1の
クラス信頼度
(K channels)
Anchor1の
検出したbbox
(x, y, w, h)
RetinaNetのHead
AnchorAの
検出したbbox
(x, y, w, h)
AnchorAの
クラス信頼度
(K channels)
… …
Mobility Technologies Co., Ltd.
Anchorとのmatchingとは、ground truth (GT) の各objectを
どのAnchorが検出すべき(&すべきでない)かを決めるプロセス
• これにより特徴マップのどこにどういうロスをかけるかが決まる
RetinaNetでは…
• IoUが0.5以上のAnchorが検出すべき(positive Anchor)
• IoUが0.4以下のAnchorは検出すべきではない(negative Anchor)
• どちらでもないAnchorを残すことは重要(個人的意見)
• ギリギリのAnchorにはどちら側のロスをかけることも不適切
手法によってmatching手法にかなり細かい違いがある
• Digging into Sample Assignment Methods for Object Detection
• https://speakerdeck.com/hirotohonda/digging-into-sample-
assignment-methods-for-object-detection
• The devil is in the details…
Anchorとのmatching
26
Mobility Technologies Co., Ltd.
Feature Pyramids Networks (FPN) はマルチスケールの特徴を融
合することにより性能が向上していると思われているがポイントは
そこやないで
物体検出における最適化問題を(multi-scaleのアンカーを使うこと
で)分割統治的に解いているところが一番ポイントやで
でもマルチスケールの特徴を使った検出は複雑かつ低速なので、
single-scaleでmulti-scaleに匹敵する検出器をつくるお!
論文の主張
27
Mobility Technologies Co., Ltd.
(a) と (b) を比較すると、マルチスケールの特徴を融合することによる影響は
そこまで大きくない
(a) と (c)、(b) と (d) を比較するとsingle outputによる性能低下が著しい
色々なNeckを比較
28
FPN
単一スケール
から無理やり
複数スケール
の特徴を出力
複数スケー
ルを統合し
単一スケー
ルの特徴を
出力
単一スケー
ルの特徴を
そのまま出
力
Mobility Technologies Co., Ltd.
C5特徴は様々なスケールの特徴を検出する情報を十分に持っている
FPNにおけるマルチスケールの特徴を融合するメリットは、multiple outputに
より実現される分割統治のメリットには遠く及ばない
色々なNeckを比較
29
FPN
単一スケール
から無理やり
複数スケール
の特徴を出力
複数スケー
ルを統合し
単一スケー
ルの特徴を
出力
単一スケー
ルの特徴を
そのまま出
力
Mobility Technologies Co., Ltd.
色々なNeckを比較
30
FPN
単一スケール
から無理やり
複数スケール
の特徴を出力
複数スケー
ルを統合し
単一スケー
ルの特徴を
出力
単一スケー
ルの特徴を
そのまま出
力
Mobility Technologies Co., Ltd.
Multiple outputは計算量が大きい
じゃあmultiple outputでええやん?
31
(Neck) (Head)
Multiple output
はHeadが重い
Single outputにすると
精度が下がる
Single outputでも精度
が維持できる手法を
提案するお
Mobility Technologies Co., Ltd.
他の論文でも
32
C. Yang, Z. Huang, and N. Wang, "QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small
Object Detection," in arXiv, 2021.
https://speakerdeck.com/keiku/querydet-cascaded-sparse-query-for-accelerating-high-resolution-small-object-
detection
Mobility Technologies Co., Ltd.
Multiple outputのHeadが何故重いかというと
33
Neck Head
Backbone
複数スケール間で重み
共有のhead
channel数256
Mobility Technologies Co., Ltd.
Multiple outputのHeadが何故重いかというと
34
Neck Head
Backbone
複数スケール間で重み
共有のhead
channel数256
ResNetのC3特徴の
channel数は128
(計算量は4倍)
Mobility Technologies Co., Ltd.
C5特徴が対応できる物体の大きさが限られている
Positive anchorの不均衡問題
SiSoにおける課題
35
Mobility Technologies Co., Ltd.
RetinaNetではstride-2のconvで作成されたreceptive fieldの大き
な特徴マップP6, P7を利用している
複数の特徴マップを使いたくない病のYOLOFではdilated
convolutionでreceptive fieldを拡大することを提案
Residual構造とすることで小さい物体用も引き続きカバー
単にNW深くしてるだけでは?
C5特徴が対応できる物体の大きさが限られている
36
C5特徴
C5特徴にdilated conv
C5特徴にdilated conv + skip
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
Positive anchorの不均衡問題
37
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
64サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
38
32
…
…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
64サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
39
32
…
…
この辺にGTの
物体があったと
すると…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
64サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
40
32
…
…
この辺にGTの
物体があったと
すると…
この辺のアン
カーがpositive
になる
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
256サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
41
32
…
…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
256サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
42
32
…
…
この辺にGTの
物体があったと
すると…
Mobility Technologies Co., Ltd.
YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存
在(アスペクト比は固定)
256サイズのアンカーはこんな感じ
Positive anchorの不均衡問題
43
32
…
この辺にGTの
物体があったと
すると…
この辺のアン
カー全部が
positiveになる
Mobility Technologies Co., Ltd.
ということが言いたいのが論文のこの図
• 横軸が1GTあたりの異なる物体サイズ毎のpositive Anchor数
• 縦軸で異なるmatching手法を比較している
この問題に対応するためYOLOFでは固定のtop-k (k=4) をpositive
とすることを提案
Positive anchorの不均衡問題
44
RetinaNet
YOLOF
大きい物体ばっかり
優先的に学習される
Mobility Technologies Co., Ltd.
“we set IoU thresholds in Uniform Matching to ignore large
IoU (>0.7) negative anchors and small IoU (<0.15) positive
anchors.”
特に大きなアンカーはIoUが大きくなるアンカーが大量に出る
• これらに対してnegativeなlossをかけるのはよろしくない
RetinaNet等、複数スケールの特徴を利用する場合、大きな物体を
担当する特徴マップは低解像度で、アンカーは前述のように細かく
配置されていないためこの問題は顕著ではない
ちなみに
45
Mobility Technologies Co., Ltd.
Adaptive Training Sample Selection (ATSS)
• Anchor-basedな手法とAnchor-freeな手法のパフォーマンスの差は
(色々な細かい改善手法と)positive, negative Anchorを定義する
matchingアルゴリズムの差であることを指摘
• 各GT毎に、近傍アンカーとのIoUとの統計量を基に適応的にpositive,
negativeへアサインするためのしきい値を決定する手法を提案
関連手法
46
S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the Gap Between Anchor-based and Anchor-free Detection
via Adaptive Training Sample Selection," in Proc. of CVPR, 2020.
Mobility Technologies Co., Ltd.
YOLO, YOLOv2はpositiveはbest matchの1件のみ
DETRはハンガリアンアルゴリズムでglobalかつ暗黙的なAnchorと
のmatchingを最適化している
YOLOFはpositiveの個数に着目してバランスすることを目的にして
いる(というexcuse
他にもCVPR’21で、GTとAnchorのassignを最適化する手法が出て
いる
関連手法
47
J. Wang, L. Song, Z. Li, H. Sun, J. Sun, and N. Zheng, "End-to-End Object Detection with Fully Convolutional
Network," in Proc. of CVPR, 2021.
Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun, "OTA: Optimal Transport Assignment for Object
Detection," in Proc. of CVPR, 2021.
Mobility Technologies Co., Ltd.
NeckとしてC5特徴入力し、P5特徴を出力するdilated convモ
ジュールを利用
1つの特徴マップに全スケールのアンカーを押し込んだRetina Head
を利用
GTからtop-k (k=4) のAnchorをpositiveAnchorとする
YOLOFまとめ
48
Mobility Technologies Co., Ltd.
RetinaNetより同等以上の精度で早い
結果: ベースであるRetinaNetとの比較
49
RetinaNet+: YOLOF実装に合わせたRetinaNet
Mobility Technologies Co., Ltd.
7倍早く収束する!
大きな物体はDETRのほうが得意
結果: 同じC5特徴だけを利用するDETRとの比較
50
Mobility Technologies Co., Ltd.
ちょっと早くてちょっと精度が良い
結果: Single shot detectorと言えば…のYOLO系と比較
51
Mobility Technologies Co., Ltd.
ResBlockは多いほうが良い(が4つで勘弁してやる)
Dilationは2,4,6,8
• 1,1,1,1の精度が悪いので単に深くするだけでは駄目
Residual機構はあった方が良い
• 全スケール良くなっているので元々の複数スケールカバーする云々は…↑
Ablation Study: Neck構造
52
Mobility Technologies Co., Ltd.
Uniformにtop-4が良い
Ablation Study: matching部分
53
Mobility Technologies Co., Ltd.
C5特徴でも小さい物体を検出できる部分は面白い
精度速度のトレードオフを追い求めるという観点では、複数スケー
ルの特徴を使って重くなるのはstride=8, 16のところなので、そこ
だけ使わずにP5-7は使うでよいのではないか
• 複数スケール使いたくない病なら仕方がない
YOLOv3~はstride=8の特徴マップを使っているがweight shared
の重いHeadを使っていないので問題ない
Anchorの定義、Anchor matching, NMSあたりはまだまだ綺麗な手
法があるのでは?
• 高解像度特徴まで効率的に見るようなDETRが全てを解決する?
所感
54
Mobility Technologies Co., Ltd.
資料作成に当たり色々議論してくれた
同僚の @hirotomusiker に感謝!
Acknowledgement
55
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
56

More Related Content

What's hot

What's hot (20)

Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 

Similar to You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
Yoichi Shirasawa
 

Similar to You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話 (20)

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
 
miyamori m
miyamori mmiyamori m
miyamori m
 
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
Muramatsu Bachelor Thesis
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesis
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
SADAO TOKUYAMA の L.E.A.P カンファレンス な 話
SADAO TOKUYAMA の L.E.A.P カンファレンス な 話SADAO TOKUYAMA の L.E.A.P カンファレンス な 話
SADAO TOKUYAMA の L.E.A.P カンファレンス な 話
 
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 

More from Yusuke Uchida

More from Yusuke Uchida (20)

SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionSIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
 
SIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place SolutionSIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
Deep Fakes Detection
Deep Fakes DetectionDeep Fakes Detection
Deep Fakes Detection
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
 
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジDeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
 
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 

Recently uploaded

Recently uploaded (7)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

  • 1. Mobility Technologies Co., Ltd. You Only Look One-level Feature の解説と見せかけた物体検出のよもやま話 株式会社Mobility Technologies 内田 祐介 第7回全日本コンピュータビジョン勉強会 「CVPR2021読み会」(前編)
  • 2. Mobility Technologies Co., Ltd. Yusuke Uchida • -2017年 :通信キャリアの研究所で画像認識・検索の研究に従事 • -2016年 :社会人学生として博士号を取得(情報理工学) • 2017年- :DeNA中途入社、深層学習を中心とした コンピュータビジョン技術の研究開発に従事 • 2019年- : Mobility Technologiesへ移籍 自己紹介 2 Twitter: https://twitter.com/yu4u GitHub: https://github.com/yu4u Qiita: https://qiita.com/yu4u SlideShare: https://www.slideshare.net/ren4yu/ Kaggle: https://www.kaggle.com/ren4yu
  • 3. Mobility Technologies Co., Ltd. みんな大好きYOLO! You Only Look One-level Feature (YOLOF) 3
  • 4. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 4
  • 5. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 5
  • 6. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 6
  • 7. Mobility Technologies Co., Ltd. YOLO: Single shot object detectioの火付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. YOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. YOLOv3: より強力なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. YOLOv4: ベストプラクティス全部入りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet YOLOv5: Ultralytics社のOSS実装。最早手法とかではなくて学習・推論を含め たフレームワークと言ったほうが良い。何故かKagglerが大好き • https://github.com/ultralytics/yolov5 YOLO*? 7 ↓Ultralytics CEO v4論文 AlexeyAB/darknet の issue
  • 8. Mobility Technologies Co., Ltd. https://www.kaggle.com/c/global-wheat- detection/discussion/172436 YOLOv5のablation study by @hirotomusiker 8
  • 9. Mobility Technologies Co., Ltd. PP-YOLO: PaddlePaddle版YOLO • X. Long, et al., "PP-YOLO: An Effective and Efficient Implementation of Object Detector," in arXiv, 2020. • X. Huang, et al., "PP-YOLOv2: A Practical Object Detector," in arXiv, 2021. Scaled-YOLOv4 • C. Wang, A. Bochkovskiy, and H. Liao, "Scaled-YOLOv4: Scaling Cross Stage Partial Network," in Proc. of CVPR, 2021. • https://github.com/WongKinYiu/ScaledYOLOv4 YOLOR • C. Wang, I. Yeh, and H. Liao, "You Only Learn One Representation: Unified Network for Multiple Tasks," in arXiv, 2021. • https://github.com/WongKinYiu/yolor YOLO*? 9
  • 10. Mobility Technologies Co., Ltd. 論文のIntroはエモいのにめっちゃdetection結果推し YOLOR 10
  • 11. Mobility Technologies Co., Ltd. そういえばYOLOFでした 11 Q. Chen, et al., "You Only Look One-level Feature," in Proc. of CVPR, 2021.
  • 12. Mobility Technologies Co., Ltd. Feature Pyramids Networks (FPN) はマルチスケールの特徴を融 合することにより性能が向上していると思われているがポイントは そこやないで 物体検出における最適化問題を(multi-scaleのアンカーを使うこと で)分割統治的に解いているところが一番ポイントやで でもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお! 論文の主張 12
  • 13. Mobility Technologies Co., Ltd. YOLOFは ちなみに 13
  • 14. Mobility Technologies Co., Ltd. YOLOFはYOLOではありません! ちなみに 14
  • 15. Mobility Technologies Co., Ltd. YOLOFはYOLOではありません! • これまでの前フリは… こいつはRetinaNetです • ちなみに何を持ってYOLOだ、RetinaNetだというのは個人的に好きな議論 • 意味はないけど • BackboneがDarknetならYOLO? • 後述のアンカーがkmeansで作られていたらYOLO? • Headにクラス毎の確率ではなくてbboxの信頼度もあったらYOLOで bboxとclass分類が別々のbranchになってたらRetinaNet? • Loss? 後述のAnchor matchingの手法? ちなみに 15
  • 16. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 16 https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html
  • 17. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 17 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出力 (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを 入力してコネコネして出力 (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを 入力して検出結果を出力 (e.g. YOLO/Retina head)
  • 18. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 18 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出力 (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを 入力してコネコネして出力 (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを 入力して検出結果を出力 (e.g. YOLO/Retina head)
  • 19. Mobility Technologies Co., Ltd. 出力層付近の特徴を入力層付近の特徴へと徐々に統合することで 特徴の強さと特徴マップの解像度を両立 Feature Pyramid Network (FPN) 19 T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature Pyramid Networks for Object Detection," in Proc. of CVPR, 2017. 特徴の強さ:強 解像度:低 e.g. Faster R- CNN, YOLO 特徴の強さ:弱 解像度:高 e.g. SSD 特徴の強さ:強 解像度:高 FPN Nearest neighbor で解像度調整 1x1でチャネル数調整
  • 20. Mobility Technologies Co., Ltd. エッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 20 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ‘short cut’ path を作ってあげる
  • 21. Mobility Technologies Co., Ltd. エッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 21 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ‘short cut’ path を作ってあげる 3x3 conv stride=2 3x3 conv
  • 22. Mobility Technologies Co., Ltd. PANetを簡略化、同一解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す (単一モジュールとして考えることで簡略化が可能に) Bi-directional Feature Pyramid Network (BiFPN) 22 M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
  • 23. Mobility Technologies Co., Ltd. PANetを簡略化、同一解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す (単一モジュールとして考えることで簡略化が可能に) Bi-directional Feature Pyramid Network (BiFPN) 23 M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.
  • 24. Mobility Technologies Co., Ltd. Backbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎用的な表現 24 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出力 (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを 入力してコネコネして出力 (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを 入力して検出結果を出力 (e.g. YOLO/Retina head)
  • 25. Mobility Technologies Co., Ltd. 各スケールのHeadの特徴マップの座標毎にA個の「Anchor」が定義されている • Anchor: 特定の条件の物体のみを検出する部品 • Bounding box (bbox) のサイズで定義される。YOLOv3はA=3, RetinaNetはA=9 Anchorのbboxとmatchingルールによって「各Anchorの守備範囲」が決まる • 各Anchorがどういうサイズの物体を検出すべきか(&検出すべきでないか) Anchor 25 Anchor1の クラス信頼度 (K channels) Anchor1の 検出したbbox (x, y, w, h) RetinaNetのHead AnchorAの 検出したbbox (x, y, w, h) AnchorAの クラス信頼度 (K channels) … …
  • 26. Mobility Technologies Co., Ltd. Anchorとのmatchingとは、ground truth (GT) の各objectを どのAnchorが検出すべき(&すべきでない)かを決めるプロセス • これにより特徴マップのどこにどういうロスをかけるかが決まる RetinaNetでは… • IoUが0.5以上のAnchorが検出すべき(positive Anchor) • IoUが0.4以下のAnchorは検出すべきではない(negative Anchor) • どちらでもないAnchorを残すことは重要(個人的意見) • ギリギリのAnchorにはどちら側のロスをかけることも不適切 手法によってmatching手法にかなり細かい違いがある • Digging into Sample Assignment Methods for Object Detection • https://speakerdeck.com/hirotohonda/digging-into-sample- assignment-methods-for-object-detection • The devil is in the details… Anchorとのmatching 26
  • 27. Mobility Technologies Co., Ltd. Feature Pyramids Networks (FPN) はマルチスケールの特徴を融 合することにより性能が向上していると思われているがポイントは そこやないで 物体検出における最適化問題を(multi-scaleのアンカーを使うこと で)分割統治的に解いているところが一番ポイントやで でもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお! 論文の主張 27
  • 28. Mobility Technologies Co., Ltd. (a) と (b) を比較すると、マルチスケールの特徴を融合することによる影響は そこまで大きくない (a) と (c)、(b) と (d) を比較するとsingle outputによる性能低下が著しい 色々なNeckを比較 28 FPN 単一スケール から無理やり 複数スケール の特徴を出力 複数スケー ルを統合し 単一スケー ルの特徴を 出力 単一スケー ルの特徴を そのまま出 力
  • 29. Mobility Technologies Co., Ltd. C5特徴は様々なスケールの特徴を検出する情報を十分に持っている FPNにおけるマルチスケールの特徴を融合するメリットは、multiple outputに より実現される分割統治のメリットには遠く及ばない 色々なNeckを比較 29 FPN 単一スケール から無理やり 複数スケール の特徴を出力 複数スケー ルを統合し 単一スケー ルの特徴を 出力 単一スケー ルの特徴を そのまま出 力
  • 30. Mobility Technologies Co., Ltd. 色々なNeckを比較 30 FPN 単一スケール から無理やり 複数スケール の特徴を出力 複数スケー ルを統合し 単一スケー ルの特徴を 出力 単一スケー ルの特徴を そのまま出 力
  • 31. Mobility Technologies Co., Ltd. Multiple outputは計算量が大きい じゃあmultiple outputでええやん? 31 (Neck) (Head) Multiple output はHeadが重い Single outputにすると 精度が下がる Single outputでも精度 が維持できる手法を 提案するお
  • 32. Mobility Technologies Co., Ltd. 他の論文でも 32 C. Yang, Z. Huang, and N. Wang, "QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection," in arXiv, 2021. https://speakerdeck.com/keiku/querydet-cascaded-sparse-query-for-accelerating-high-resolution-small-object- detection
  • 33. Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 33 Neck Head Backbone 複数スケール間で重み 共有のhead channel数256
  • 34. Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 34 Neck Head Backbone 複数スケール間で重み 共有のhead channel数256 ResNetのC3特徴の channel数は128 (計算量は4倍)
  • 35. Mobility Technologies Co., Ltd. C5特徴が対応できる物体の大きさが限られている Positive anchorの不均衡問題 SiSoにおける課題 35
  • 36. Mobility Technologies Co., Ltd. RetinaNetではstride-2のconvで作成されたreceptive fieldの大き な特徴マップP6, P7を利用している 複数の特徴マップを使いたくない病のYOLOFではdilated convolutionでreceptive fieldを拡大することを提案 Residual構造とすることで小さい物体用も引き続きカバー 単にNW深くしてるだけでは? C5特徴が対応できる物体の大きさが限られている 36 C5特徴 C5特徴にdilated conv C5特徴にdilated conv + skip
  • 37. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) Positive anchorの不均衡問題 37
  • 38. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 38 32 … …
  • 39. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 39 32 … … この辺にGTの 物体があったと すると…
  • 40. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 40 32 … … この辺にGTの 物体があったと すると… この辺のアン カーがpositive になる
  • 41. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 41 32 … …
  • 42. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 42 32 … … この辺にGTの 物体があったと すると…
  • 43. Mobility Technologies Co., Ltd. YOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト比は固定) 256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 43 32 … この辺にGTの 物体があったと すると… この辺のアン カー全部が positiveになる
  • 44. Mobility Technologies Co., Ltd. ということが言いたいのが論文のこの図 • 横軸が1GTあたりの異なる物体サイズ毎のpositive Anchor数 • 縦軸で異なるmatching手法を比較している この問題に対応するためYOLOFでは固定のtop-k (k=4) をpositive とすることを提案 Positive anchorの不均衡問題 44 RetinaNet YOLOF 大きい物体ばっかり 優先的に学習される
  • 45. Mobility Technologies Co., Ltd. “we set IoU thresholds in Uniform Matching to ignore large IoU (>0.7) negative anchors and small IoU (<0.15) positive anchors.” 特に大きなアンカーはIoUが大きくなるアンカーが大量に出る • これらに対してnegativeなlossをかけるのはよろしくない RetinaNet等、複数スケールの特徴を利用する場合、大きな物体を 担当する特徴マップは低解像度で、アンカーは前述のように細かく 配置されていないためこの問題は顕著ではない ちなみに 45
  • 46. Mobility Technologies Co., Ltd. Adaptive Training Sample Selection (ATSS) • Anchor-basedな手法とAnchor-freeな手法のパフォーマンスの差は (色々な細かい改善手法と)positive, negative Anchorを定義する matchingアルゴリズムの差であることを指摘 • 各GT毎に、近傍アンカーとのIoUとの統計量を基に適応的にpositive, negativeへアサインするためのしきい値を決定する手法を提案 関連手法 46 S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection," in Proc. of CVPR, 2020.
  • 47. Mobility Technologies Co., Ltd. YOLO, YOLOv2はpositiveはbest matchの1件のみ DETRはハンガリアンアルゴリズムでglobalかつ暗黙的なAnchorと のmatchingを最適化している YOLOFはpositiveの個数に着目してバランスすることを目的にして いる(というexcuse 他にもCVPR’21で、GTとAnchorのassignを最適化する手法が出て いる 関連手法 47 J. Wang, L. Song, Z. Li, H. Sun, J. Sun, and N. Zheng, "End-to-End Object Detection with Fully Convolutional Network," in Proc. of CVPR, 2021. Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun, "OTA: Optimal Transport Assignment for Object Detection," in Proc. of CVPR, 2021.
  • 48. Mobility Technologies Co., Ltd. NeckとしてC5特徴入力し、P5特徴を出力するdilated convモ ジュールを利用 1つの特徴マップに全スケールのアンカーを押し込んだRetina Head を利用 GTからtop-k (k=4) のAnchorをpositiveAnchorとする YOLOFまとめ 48
  • 49. Mobility Technologies Co., Ltd. RetinaNetより同等以上の精度で早い 結果: ベースであるRetinaNetとの比較 49 RetinaNet+: YOLOF実装に合わせたRetinaNet
  • 50. Mobility Technologies Co., Ltd. 7倍早く収束する! 大きな物体はDETRのほうが得意 結果: 同じC5特徴だけを利用するDETRとの比較 50
  • 51. Mobility Technologies Co., Ltd. ちょっと早くてちょっと精度が良い 結果: Single shot detectorと言えば…のYOLO系と比較 51
  • 52. Mobility Technologies Co., Ltd. ResBlockは多いほうが良い(が4つで勘弁してやる) Dilationは2,4,6,8 • 1,1,1,1の精度が悪いので単に深くするだけでは駄目 Residual機構はあった方が良い • 全スケール良くなっているので元々の複数スケールカバーする云々は…↑ Ablation Study: Neck構造 52
  • 53. Mobility Technologies Co., Ltd. Uniformにtop-4が良い Ablation Study: matching部分 53
  • 54. Mobility Technologies Co., Ltd. C5特徴でも小さい物体を検出できる部分は面白い 精度速度のトレードオフを追い求めるという観点では、複数スケー ルの特徴を使って重くなるのはstride=8, 16のところなので、そこ だけ使わずにP5-7は使うでよいのではないか • 複数スケール使いたくない病なら仕方がない YOLOv3~はstride=8の特徴マップを使っているがweight shared の重いHeadを使っていないので問題ない Anchorの定義、Anchor matching, NMSあたりはまだまだ綺麗な手 法があるのでは? • 高解像度特徴まで効率的に見るようなDETRが全てを解決する? 所感 54
  • 55. Mobility Technologies Co., Ltd. 資料作成に当たり色々議論してくれた 同僚の @hirotomusiker に感謝! Acknowledgement 55