object detection with lidar-camera fusion: survey (updated)

LiDAR-Camera Fusionによる道路上の
物体検出サーベイ
2018年11月30日
takmin

自己紹介
2
株式会社ビジョン＆ITラボ代表取締役
皆川卓也（みながわたくや）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化）
お問い合わせ：http://visitlab.jp

この資料について
 LiDARとカメラ＜両方＞の情報を使用して車両や人などの物
体検出を行う手法の調査を行いました。
 カメラとLiDAR両方の情報を用いて上記タスクを行うには、両
センサー間のキャリブレーションが必須で、それだけで１つの
研究トピックですが、ここでは調査範囲外とします。
 物体検出は3次元的な物体位置検出を目的とするものと、画
像上での2次元的な物体位置検出を目的とするものに分ける
ことができます。
 ここではカメラのみ、またはLiDARのみを用いた物体検出につ
いては言及しません。
 ここでは車載カメラおよびLiDARを使用した屋外での物体検出
について調査を行い、屋内環境でRGBDセンサーを用いた物
体検出のケースについては対象外とします。

3D物体検出
 画像および点群から、物体に対し、直方体のBounding
Boxを検出するタスク

LiDAR-Camera Fusion 3D Object Detection
 [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets
for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and
Pattern Recognition.
 [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018). Joint 3D
Proposal Generation and Object Detection fromView Aggregation. In International
Conference on Intelligent Robots and Systems.
 [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D Object
Detection Network for Autonomous Driving. In Conference on ComputerVision and
Pattern Recognition.
 [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep Continuous
Fusion for Multi-Sensor 3D Object Detection. In European Conference on Computer
Vision.
 [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor Fusion for
3D Bounding Box Estimation. Conference on ComputerVision and Pattern
 [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A General
Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.
 [Shin2018]Shin, K., Kwon, P., & Tomizuka, M. (2018). RoarNet:A Robust 3D Object
Detection based on RegiOn Approximation Refinement. ArXiv, arXiv:1811.

車載センサー環境での3D物体検出
車載センサー（カメラ＋LiDAR）を用い３D物体検出は以下のよう
に分類できます。
 カメラを初期位置の検出に使用し、LiDARの情報を統合して
Refine
[Qi2018]Frustom PointNet
[Xu2018]PointFusion
[Du2018]General Pipeline
[Shin2018]RoarNet
 LiDARを初期位置の検出に使用し、カメラ情報を統合して
Refine
[Chen2017]MV3D
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Ku2018]AVOD
[Liang2018]Deep Continuous Fusion

[Qi2018]Frustum PointNet (1/2)
 KITTI 3D Object Detection Evaluationで上位の成績
 従来のDeep Learningベース画像検出器で画像から物体
を検出し、そのFrustum上の点群をPointNetでSemantic
Segmentationすることで3D Bounding Boxを検出

[Qi2018]Frustum PointNet (2/2)
 Frustum上で座標系を正規化するのがポイント
 ソースコード
https://github.com/charlesq34/frustum-pointnets
画像から物体検出
• Frustum上の点群を
Segmentation
• 画像上での物体識別結果
を事前知識として使用
• 物体に属する点群のみを使用
• T-Netで姿勢を補正
• Bounding Boxのパラメータを推定

[Ku2018] Aggregate View Object Detection
(AVOD) (1/2)
 Frustom PointNetと並びKITTI Benchmarkで好成績
 Faster R-CNNのRegion Proposal Network (RPN)の考え方を
もとに３次元上の物体候補を算出
https://github.com/kujason/avod

[Ku2018] Aggregate View Object Detection
(AVOD) (2/2)
 点群をBirdView （XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度
や高さなどから6チャネルの画像を生成(BEV Input)
 BEVと画像それぞれから特徴マップを生成
 Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という
形で出力
 Detection Networkで各物体候補領域のクラス、向き、サイズを算出
Region Proposal Network
Point Cloud Feature Extractor
Image Feature Extractor
Detection Network

[Chen2017]MV3D (1/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う
 BirdViewから物体候補領域（3D）を検出し、BirdView、FrontViewお
よびRGB画像へ投影
 投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最
終的な物体クラスとBounding Boxを出力します。

[Chen2017]MV3D (2/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱
う
BirdView：(M+2)チャネル
Z方向にM個のスライスを作成し、各スライスのZの最大値（Height Maps）
各セルの点の個数（Density）
各セルの最も高い点（Z最大）の反射率(Intensity)
FrontView: 3チャネル
Height、Distance、Intensity
https://github.com/bostondiditeam/MV3D

[Liang2018]Deep Continuous Fusion (1/2)
 点群をBirdViewへ投影し画像として扱うことでCNN可能に
 画像から取得した特徴量をBirdViewのCNN各層の特徴量と
結合することで、疎な点群の情報を補間し精度向上
 画像特徴と結合したBirdView特徴をもとに3次元物体検出
 画像とBirdViewの特徴量の統合にDeep Parametric
Continuous Convolutionを利用(Continuous Fusion)

[Liang2018]Deep Continuous Fusion (2/2)
 Deep Parametric Continuous Convolution
Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural
Networks”. CVPR2018
畳み込みカーネルを離散ではなく、パラメトリックな連続関数（Multi-Layer Perceptron）とし
て表現することで、点群のような非構造的な離散データに畳み込み演算を適用（付録参
照）
 Deep Continuous Fusion
BirdView上の任意の画素の特徴量（点が存在しなくても可）を、Deep Parametric
Continuous Convolutionを用いてカメラ画像の特徴量で補間
1. BirdView上の任意の画素のK
近傍点（画素）を取得
2. K近傍点上の点群を復元
3. 点群をカメラ画像上へ投影
4. 投影した点の画像特徴量を取
得
5. K個のカメラ画像からの特徴量
と三次元点群を投影した時の
ずれをもとにMulti-layer
PerceptronでBirdView上の画
素の特徴量を算出

[Xu2018]Point Fusion (1/2)
 物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結
果をもとに３D Bounding Boxを推定
 Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと
ResNetで独立に処理し、その結果をFusion Networkで統合
Global FusionとDense Fusionの2通りの方法でBounding Box推定
 KITTIで評価しSOTA（ただし比較対象がMV3Dのみ）

[Xu2018]Point Fusion (2/2)
 Global FusionではPointNetの全体特徴とResNetからの特徴
量を統合して、直接Bounding Box推定
 Dense FusionではPointNetの全体特徴と点ごとの特徴、およ
びResNetの画像特徴を統合し、点ごとのBounding Box内での
相対位置を推定
 現時点でソースコード非公開

[Du2018]General Pipeline
 一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ
拡張するための手法の提案
 2D物体検出の結果から点群を切り出し、この点群から
3D Bounding Boxを取得
 3D Bounding Box内の点群を用いて、より正確な
Bounding Boxと識別結果を出力

[Shin2018]RoarNet (1/2)
 まずは画像、次に点群上で、探索領域を徐々に狭めながら、
物体の位置、姿勢、サイズを高精度に求める
画像に対してRoarNet_2Dで2D Bounding Boxと姿勢を推定
画像から求めた領域を散らして、円柱状の探索領域を複数作成
RoarNet_3D (RPN)で物体らしさと位置を絞り込み、
RoarNet_3D(BRN)で位置、サイズ、向きを算出
 コード（公開予定）
https://github.com/Kiwoo/RoarNet

[Shin2018]RoarNet (2/2)
 RoarNet_2Dでは、物体クラス、2D Bounding Box、3D
Bounding Boxと向き（2Dの結果と一致するように）を推定(a)
 RoarNet_2Dで求めた物体候補から、小さくかつカメラに近い、
または大きくかつカメラから遠い、複数の候補を算出(b)
 RoarNet_3D（RPNおよびBRN）はPointNetからT-Netを除いて
簡略化したネットワーク(c)
(a) RoarNet_2D
(c) RoarNet_3D
(b) 画像から算出した候補領域

KITTI 3D Object Detection Evaluation
 ここで紹介した各研究についてKITTI 3D Object
Detection Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 上記サイトに性能の記載のないものは論文での実験結
果を参照しました。
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。

 Car
Method Moderate Easy Hard Runtime Environment
RoarNet 73.04 % 83.71 % 59.16 % 0.1 s
GPU @ >3.5 Ghz
(Python + C/C++)
AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal)
Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s
GPU @ 2.5 Ghz
(Python)
AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal)
PointFusion 63.00 % 77.92 % 53.27 %
MV3D 62.35 % 71.09 % 55.12 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 %
MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 %
AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を
適用したもの
[Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017

 Pedestrian
GPU @ 3.0 Ghz
(Python)
PointFusion 28.04 % 33.36 % 23.38 %

 Cyclist
GPU @ 3.0 Ghz
(Python)
PointFusion 29.42 % 49.34 % 26.98 %

2D物体検出
 画像上の物体を検出し、位置とスケールを表す矩形を出
力するタスク

LiDAR-Camera Fusion 2D Object Detection
 [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes,
U. (2014). Pedestrian detection combining RGB and dense
LIDAR data. IEEE International Conference on Intelligent Robots
and Systems,
 [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., &
Amores, J. (2017). On-Board Object Detection: Multicue,
Multimodal, and Multiview Random Forest of Local Experts.
IEEETransactions on Cybernetics, 47(11), 3980–3990.
 [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017).
Fast Boosting based Detection using Scale Invariant Multimodal
Multiresolution Filtered Features. Conference on ComputerVision
and Pattern Recognition
 [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., &
J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D-
LIDAR and color camera data. Pattern Recognition Letters,
(September).

車載カメラおよびLiDARによる2D物体検出
 [Oh2017]Oh, S. Il, & Kang, H. B. (2017). Object detection
and classification by decision-level fusion for intelligent
vehicle systems. Sensors (Switzerland), 17(1),
 [Schlosser2016]Schlosser, J., Chow, Christopher K., & Kira,
Z. (2016). Fusing LIDAR and images for pedestrian
detection using convolutional neural networks. IEEE
International Conference on Robotics and Automation
(ICRA)
 [Du2017]Du, X.Ang, M H., & Rus, D. (2017). Car detection
for autonomous vehicle: LIDAR and vision fusion approach
through deep learning framework. IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS)

車載センサー環境での2D物体検出
車載センサー（カメラ＋LiDAR）を用い2D物体検出は以下のよう
に分類できます。
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Premebida2014]Fusion-DPM
[Gonzalez2017]MV-RGBD-RF
[Costea2017]MM-MRFC
[Schlosser2016]Fusing for Pedestrian Detection
 LiDARとカメラから独立に物体を検出して統合
[Premebida2014]Fusion-DPM
[Asvadi2017]Multimodal Detection
[Oh2017]Decision-Level Fusion
[Schlosser2016]Fusing for Pedestrian Detection
 LiDAR点群をガイドとして画像上で物体検出
[Du2017]PC-CNN

[Premebida2014] Fusion-DPM
 RGB画像とデプス画像にDeformable Part Modelによる人
物検出の特徴量を取得し、2通りの方法で統合
特徴量を統合してから人物検出
それぞれで人物検出をしてから結果を統合
点群からアップサンプルでデプス画像を生成

[Gonzalez2017]MV-RGBD-RF
 RGB画像とデプス画像に対し、HOGとLBPで特徴量を抽
出し、Random Forestを用いて様々な視点の物体の情報
を統合的に学習

[Costea2017]MM-MRFC
 カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾
配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ
ルチ解像度のチャネルへ分離
 画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、
Contextを表すチャネルを取得
 AdaboostとSlidingWindowによって物体検出
 Deep Learningベースの手法と同等の性能で、10-100倍高速

[Asvadi2017]Multimodal Detection
 LiDARデータからデプス(DM)と反射率(RM)のマップを生
成し、DMとRMおよび画像に対して、それぞれのチャネル
用に学習したYOLOを用いて物体検出
 それぞれのチャネルの検出結果を統合することで、最終
結果を算出
 ソースコード（現時点では未公開）
https://github.com/alirezaasvadi/Multimodal

[Oh2017]Decision-level Fusion
 LiDARと画像に対し、個別に物体検出し、それらをCNNで統合
 Pre-processingでカメラは色補正、LiDARはVoxel化を行い、Object
proposal generationでセグメンテーションベースの候補領域算出し、
CNNでUnary Classifierでクラス識別
 Fusion Classifierで、それぞれのクラス識別結果と特徴量を入力とし、
最終的な検出結果とクラスをCNNとSVMを用いて出力

[Schlosser2016]Fusing for Pedestrian
Detection
 疎なLiDARデータから密な
HHA(horizontal disparity,
height above ground, and angle)
画像チャネルを生成
 RGBとHHAから特徴量を抽出
し、どの段階で統合するかで
人物検出の性能が良くなるか
をR-CNNベースの手法で検
証
 性能は後段で融合したほうが
高いが、限られたパラメータや
計算リソースの下では、初段
から中段での融合が有効

[Du2017]PC-CNN (1/2)
 LiDARから道路上物体の点群候補を取得し、画像平面へ投影
（Seed Proposal Generation）
 投影された点群をガイドとしてBounding BoxとClass Probability
を推定 (Proposal Network)
 Bounding Box候補を統合して、最終的なBounding BoxとClass
Probabilityを算出(Detection Network)

[Du2017]PC-CNN (2/2)
 LiDAR点群から算出した物体候補点群は、LiDARからの距離
に応じて近い順にLarge、Medium、Smallに分ける。
 画像上をグリッドに分割し、点群を投影。点群がLargeの場合
は大きいグリッド、Smallの場合は小さいグリッドを使用して、グ
リッド内の点群の重心をアンカーとして求める（下図の赤い
点）
 Region Proposal Networkを用いて、アンカー点でBounding
BoxとClass Probabilityを推定。

KITTI Object Detection 2012 Evaluation
 ここで紹介した各研究についてKITTI Object Detection
2012 Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。

 Car
F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s
GPU @ 3.0 Ghz
(Python)
PC-CNN 89.37% 93.50% 79.52%
Decision-level
Fusion
89.34% 94.88% 81.42%
MV3D 89.17 % 90.53 % 80.16 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s
GPU @ 2.5 Ghz
(C/C++)
MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Multimodal
Detection
46.77 % 64.04 % 39.38 % 0.06 s
GPU @ 3.5 Ghz
(Matlab + C/C++)

 Pedestrian
F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python)
Decision-level
Fusion
70.84% 83.71% 68.67%
MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++)
Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s
GPU @ 3.5 Ghz (Python +
C/C++)
MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s
1 core @ 3.5 Ghz (Matlab
+ C/C++)

 Cyclist
Decision-level
Fusion
72.98% 83.95% 66.47%
F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s
4 cores @ 2.5 Ghz
(C/C++)

まとめ
 車載カメラとLiDAR両方の情報を用いた物体検出について調
査しました。
 物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて
も高い性能を発揮します。
 3D物体検出でのLiDARデータはBirdViewに変換されて画像と
してニューラルネットワークに入力されるケースがほとんどで
したが、PointNetの登場により点群をそのまま処理する方法も
高い性能を発揮するようになりました。
 2D物体検出では、LiDARデータをデプスデータへ変換し、カメ
ラと視点を合わせることで、従来の画像ベースの物体検出の
新しいチャネルとして利用することで性能向上を図ります。
 LiDARとカメラそれぞれの特徴量をどの段階で融合するかが
手法それぞれで工夫されています。

[付録]PointNet
41
 Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep
Learning on Point Sets for 3D Classification and Segmentation
Big Data + Deep Representation Learning. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 各点群の点を独立に畳み込む
 Global Max Poolingで点群全体の特徴量を取得
各点を個別
に畳み込み
アフィン変換
各点の特徴を統合

[付録]Deep Parametric Continuous CNN
 カーネルを離散ではなく、パラメトリックな連続関数として表現
（ここではMulti-Layer Perceptron）
 任意の構造の入力に対して、任意の個所の出力が計算可能
ℎ 𝑛 = ෍
𝑚=−𝑀
𝑀
𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න
−∞
∞
𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍
𝑖
𝑁
1
𝑁
𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖)
連続カーネル離散カーネル

object detection with lidar-camera fusion: survey (updated)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to object detection with lidar-camera fusion: survey (updated)

Similar to object detection with lidar-camera fusion: survey (updated) (20)

More from Takuya Minagawa

More from Takuya Minagawa (20)

Recently uploaded

Recently uploaded (13)

object detection with lidar-camera fusion: survey (updated)