SlideShare a Scribd company logo
LiDAR-Camera Fusionによる道路上の
物体検出サーベイ
2018年11月30日
takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
お問い合わせ:http://visitlab.jp
この資料について
 LiDARとカメラ<両方>の情報を使用して車両や人などの物
体検出を行う手法の調査を行いました。
 カメラとLiDAR両方の情報を用いて上記タスクを行うには、両
センサー間のキャリブレーションが必須で、それだけで1つの
研究トピックですが、ここでは調査範囲外とします。
 物体検出は3次元的な物体位置検出を目的とするものと、画
像上での2次元的な物体位置検出を目的とするものに分ける
ことができます。
 ここではカメラのみ、またはLiDARのみを用いた物体検出につ
いては言及しません。
 ここでは車載カメラおよびLiDARを使用した屋外での物体検出
について調査を行い、屋内環境でRGBDセンサーを用いた物
体検出のケースについては対象外とします。
3D物体検出
 画像および点群から、物体に対し、直方体のBounding
Boxを検出するタスク
LiDAR-Camera Fusion 3D Object Detection
 [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets
for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and
Pattern Recognition.
 [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018). Joint 3D
Proposal Generation and Object Detection fromView Aggregation. In International
Conference on Intelligent Robots and Systems.
 [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D Object
Detection Network for Autonomous Driving. In Conference on ComputerVision and
Pattern Recognition.
 [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep Continuous
Fusion for Multi-Sensor 3D Object Detection. In European Conference on Computer
Vision.
 [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor Fusion for
3D Bounding Box Estimation. Conference on ComputerVision and Pattern
 [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A General
Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.
 [Shin2018]Shin, K., Kwon, P., & Tomizuka, M. (2018). RoarNet:A Robust 3D Object
Detection based on RegiOn Approximation Refinement. ArXiv, arXiv:1811.
車載センサー環境での3D物体検出
車載センサー(カメラ+LiDAR)を用い3D物体検出は以下のよう
に分類できます。
 カメラを初期位置の検出に使用し、LiDARの情報を統合して
Refine
[Qi2018]Frustom PointNet
[Xu2018]PointFusion
[Du2018]General Pipeline
[Shin2018]RoarNet
 LiDARを初期位置の検出に使用し、カメラ情報を統合して
Refine
[Chen2017]MV3D
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Ku2018]AVOD
[Liang2018]Deep Continuous Fusion
[Qi2018]Frustum PointNet (1/2)
 KITTI 3D Object Detection Evaluationで上位の成績
 従来のDeep Learningベース画像検出器で画像から物体
を検出し、そのFrustum上の点群をPointNetでSemantic
Segmentationすることで3D Bounding Boxを検出
[Qi2018]Frustum PointNet (2/2)
 Frustum上で座標系を正規化するのがポイント
 ソースコード
https://github.com/charlesq34/frustum-pointnets
画像から物体検出
• Frustum上の点群を
Segmentation
• 画像上での物体識別結果
を事前知識として使用
• 物体に属する点群のみを使用
• T-Netで姿勢を補正
• Bounding Boxのパラメータを推定
[Ku2018] Aggregate View Object Detection
(AVOD) (1/2)
 Frustom PointNetと並びKITTI Benchmarkで好成績
 Faster R-CNNのRegion Proposal Network (RPN)の考え方を
もとに3次元上の物体候補を算出
 ソースコード
https://github.com/kujason/avod
[Ku2018] Aggregate View Object Detection
(AVOD) (2/2)
 点群をBirdView (XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度
や高さなどから6チャネルの画像を生成(BEV Input)
 BEVと画像それぞれから特徴マップを生成
 Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という
形で出力
 Detection Networkで各物体候補領域のクラス、向き、サイズを算出
Region Proposal Network
Point Cloud Feature Extractor
Image Feature Extractor
Detection Network
[Chen2017]MV3D (1/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う
 BirdViewから物体候補領域(3D)を検出し、BirdView、FrontViewお
よびRGB画像へ投影
 投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最
終的な物体クラスとBounding Boxを出力します。
[Chen2017]MV3D (2/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱
う
BirdView:(M+2)チャネル
Z方向にM個のスライスを作成し、各スライスのZの最大値(Height Maps)
各セルの点の個数(Density)
各セルの最も高い点(Z最大)の反射率(Intensity)
FrontView: 3チャネル
Height、Distance、Intensity
 ソースコード
https://github.com/bostondiditeam/MV3D
[Liang2018]Deep Continuous Fusion (1/2)
 点群をBirdViewへ投影し画像として扱うことでCNN可能に
 画像から取得した特徴量をBirdViewのCNN各層の特徴量と
結合することで、疎な点群の情報を補間し精度向上
 画像特徴と結合したBirdView特徴をもとに3次元物体検出
 画像とBirdViewの特徴量の統合にDeep Parametric
Continuous Convolutionを利用(Continuous Fusion)
[Liang2018]Deep Continuous Fusion (2/2)
 Deep Parametric Continuous Convolution
Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural
Networks”. CVPR2018
畳み込みカーネルを離散ではなく、パラメトリックな連続関数(Multi-Layer Perceptron)とし
て表現することで、点群のような非構造的な離散データに畳み込み演算を適用(付録参
照)
 Deep Continuous Fusion
BirdView上の任意の画素の特徴量(点が存在しなくても可)を、Deep Parametric
Continuous Convolutionを用いてカメラ画像の特徴量で補間
1. BirdView上の任意の画素のK
近傍点(画素)を取得
2. K近傍点上の点群を復元
3. 点群をカメラ画像上へ投影
4. 投影した点の画像特徴量を取
得
5. K個のカメラ画像からの特徴量
と三次元点群を投影した時の
ずれをもとにMulti-layer
PerceptronでBirdView上の画
素の特徴量を算出
[Xu2018]Point Fusion (1/2)
 物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結
果をもとに3D Bounding Boxを推定
 Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと
ResNetで独立に処理し、その結果をFusion Networkで統合
Global FusionとDense Fusionの2通りの方法でBounding Box推定
 KITTIで評価しSOTA(ただし比較対象がMV3Dのみ)
[Xu2018]Point Fusion (2/2)
 Global FusionではPointNetの全体特徴とResNetからの特徴
量を統合して、直接Bounding Box推定
 Dense FusionではPointNetの全体特徴と点ごとの特徴、およ
びResNetの画像特徴を統合し、点ごとのBounding Box内での
相対位置を推定
 現時点でソースコード非公開
[Du2018]General Pipeline
 一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ
拡張するための手法の提案
 2D物体検出の結果から点群を切り出し、この点群から
3D Bounding Boxを取得
 3D Bounding Box内の点群を用いて、より正確な
Bounding Boxと識別結果を出力
[Shin2018]RoarNet (1/2)
 まずは画像、次に点群上で、探索領域を徐々に狭めながら、
物体の位置、姿勢、サイズを高精度に求める
画像に対してRoarNet_2Dで2D Bounding Boxと姿勢を推定
画像から求めた領域を散らして、円柱状の探索領域を複数作成
RoarNet_3D (RPN)で物体らしさと位置を絞り込み、
RoarNet_3D(BRN)で位置、サイズ、向きを算出
 コード(公開予定)
https://github.com/Kiwoo/RoarNet
[Shin2018]RoarNet (2/2)
 RoarNet_2Dでは、物体クラス、2D Bounding Box、3D
Bounding Boxと向き(2Dの結果と一致するように)を推定(a)
 RoarNet_2Dで求めた物体候補から、小さくかつカメラに近い、
または大きくかつカメラから遠い、複数の候補を算出(b)
 RoarNet_3D(RPNおよびBRN)はPointNetからT-Netを除いて
簡略化したネットワーク(c)
(a) RoarNet_2D
(c) RoarNet_3D
(b) 画像から算出した候補領域
KITTI 3D Object Detection Evaluation
 ここで紹介した各研究についてKITTI 3D Object
Detection Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 上記サイトに性能の記載のないものは論文での実験結
果を参照しました。
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI 3D Object Detection Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
RoarNet 73.04 % 83.71 % 59.16 % 0.1 s
GPU @ >3.5 Ghz
(Python + C/C++)
AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal)
Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s
GPU @ 2.5 Ghz
(Python)
AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal)
PointFusion 63.00 % 77.92 % 53.27 %
MV3D 62.35 % 71.09 % 55.12 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 %
MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 %
AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を
適用したもの
[Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017
KITTI 3D Object Detection Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
Frustom PointNet 44.89 % 51.21 % 40.23 % 0.17 s
GPU @ 3.0 Ghz
(Python)
AVOD-FPN 42.81 % 50.80 % 40.88 % 0.1 s Titan X (Pascal)
AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal)
PointFusion 28.04 % 33.36 % 23.38 %
KITTI 3D Object Detection Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
Frustom PointNet 56.77 % 71.96 % 50.39 % 0.17 s
GPU @ 3.0 Ghz
(Python)
AVOD-FPN 52.18 % 64.00 % 46.61 % 0.1 s Titan X (Pascal)
AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal)
PointFusion 29.42 % 49.34 % 26.98 %
2D物体検出
 画像上の物体を検出し、位置とスケールを表す矩形を出
力するタスク
LiDAR-Camera Fusion 2D Object Detection
 [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes,
U. (2014). Pedestrian detection combining RGB and dense
LIDAR data. IEEE International Conference on Intelligent Robots
and Systems,
 [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., &
Amores, J. (2017). On-Board Object Detection: Multicue,
Multimodal, and Multiview Random Forest of Local Experts.
IEEETransactions on Cybernetics, 47(11), 3980–3990.
 [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017).
Fast Boosting based Detection using Scale Invariant Multimodal
Multiresolution Filtered Features. Conference on ComputerVision
and Pattern Recognition
 [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., &
J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D-
LIDAR and color camera data. Pattern Recognition Letters,
(September).
車載カメラおよびLiDARによる2D物体検出
 [Oh2017]Oh, S. Il, & Kang, H. B. (2017). Object detection
and classification by decision-level fusion for intelligent
vehicle systems. Sensors (Switzerland), 17(1),
 [Schlosser2016]Schlosser, J., Chow, Christopher K., & Kira,
Z. (2016). Fusing LIDAR and images for pedestrian
detection using convolutional neural networks. IEEE
International Conference on Robotics and Automation
(ICRA)
 [Du2017]Du, X.Ang, M H., & Rus, D. (2017). Car detection
for autonomous vehicle: LIDAR and vision fusion approach
through deep learning framework. IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS)
車載センサー環境での2D物体検出
車載センサー(カメラ+LiDAR)を用い2D物体検出は以下のよう
に分類できます。
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Premebida2014]Fusion-DPM
[Gonzalez2017]MV-RGBD-RF
[Costea2017]MM-MRFC
[Schlosser2016]Fusing for Pedestrian Detection
 LiDARとカメラから独立に物体を検出して統合
[Premebida2014]Fusion-DPM
[Asvadi2017]Multimodal Detection
[Oh2017]Decision-Level Fusion
[Schlosser2016]Fusing for Pedestrian Detection
 LiDAR点群をガイドとして画像上で物体検出
[Du2017]PC-CNN
[Premebida2014] Fusion-DPM
 RGB画像とデプス画像にDeformable Part Modelによる人
物検出の特徴量を取得し、2通りの方法で統合
特徴量を統合してから人物検出
それぞれで人物検出をしてから結果を統合
点群からアップサンプルでデプス画像を生成
[Gonzalez2017]MV-RGBD-RF
 RGB画像とデプス画像に対し、HOGとLBPで特徴量を抽
出し、Random Forestを用いて様々な視点の物体の情報
を統合的に学習
[Costea2017]MM-MRFC
 カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾
配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ
ルチ解像度のチャネルへ分離
 画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、
Contextを表すチャネルを取得
 AdaboostとSlidingWindowによって物体検出
 Deep Learningベースの手法と同等の性能で、10-100倍高速
[Asvadi2017]Multimodal Detection
 LiDARデータからデプス(DM)と反射率(RM)のマップを生
成し、DMとRMおよび画像に対して、それぞれのチャネル
用に学習したYOLOを用いて物体検出
 それぞれのチャネルの検出結果を統合することで、最終
結果を算出
 ソースコード(現時点では未公開)
https://github.com/alirezaasvadi/Multimodal
[Oh2017]Decision-level Fusion
 LiDARと画像に対し、個別に物体検出し、それらをCNNで統合
 Pre-processingでカメラは色補正、LiDARはVoxel化を行い、Object
proposal generationでセグメンテーションベースの候補領域算出し、
CNNでUnary Classifierでクラス識別
 Fusion Classifierで、それぞれのクラス識別結果と特徴量を入力とし、
最終的な検出結果とクラスをCNNとSVMを用いて出力
[Schlosser2016]Fusing for Pedestrian
Detection
 疎なLiDARデータから密な
HHA(horizontal disparity,
height above ground, and angle)
画像チャネルを生成
 RGBとHHAから特徴量を抽出
し、どの段階で統合するかで
人物検出の性能が良くなるか
をR-CNNベースの手法で検
証
 性能は後段で融合したほうが
高いが、限られたパラメータや
計算リソースの下では、初段
から中段での融合が有効
[Du2017]PC-CNN (1/2)
 LiDARから道路上物体の点群候補を取得し、画像平面へ投影
(Seed Proposal Generation)
 投影された点群をガイドとしてBounding BoxとClass Probability
を推定 (Proposal Network)
 Bounding Box候補を統合して、最終的なBounding BoxとClass
Probabilityを算出(Detection Network)
[Du2017]PC-CNN (2/2)
 LiDAR点群から算出した物体候補点群は、LiDARからの距離
に応じて近い順にLarge、Medium、Smallに分ける。
 画像上をグリッドに分割し、点群を投影。点群がLargeの場合
は大きいグリッド、Smallの場合は小さいグリッドを使用して、グ
リッド内の点群の重心をアンカーとして求める(下図の赤い
点)
 Region Proposal Networkを用いて、アンカー点でBounding
BoxとClass Probabilityを推定。
KITTI Object Detection 2012 Evaluation
 ここで紹介した各研究についてKITTI Object Detection
2012 Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Object Detection 2012 Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s
GPU @ 3.0 Ghz
(Python)
PC-CNN 89.37% 93.50% 79.52%
Decision-level
Fusion
89.34% 94.88% 81.42%
MV3D 89.17 % 90.53 % 80.16 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s
GPU @ 2.5 Ghz
(C/C++)
AVOD 88.08 % 89.73 % 80.14 % 0.08 s Titan X (pascal)
AVOD-FPN 87.44 % 89.99 % 80.05 % 0.1 s Titan X (Pascal)
MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Multimodal
Detection
46.77 % 64.04 % 39.38 % 0.06 s
GPU @ 3.5 Ghz
(Matlab + C/C++)
KITTI Object Detection 2012 Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python)
Decision-level
Fusion
70.84% 83.71% 68.67%
MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++)
Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s
GPU @ 3.5 Ghz (Python +
C/C++)
AVOD-FPN 58.42 % 67.32 % 57.44 % 0.1 s Titan X (Pascal)
MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s
1 core @ 3.5 Ghz (Matlab
+ C/C++)
AVOD 43.49 % 51.64 % 37.79 % 0.08 s Titan X (pascal)
KITTI Object Detection 2012 Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
Decision-level
Fusion
72.98% 83.95% 66.47%
F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
AVOD-FPN 59.32 % 68.65 % 55.82 % 0.1 s Titan X (Pascal)
AVOD 56.01 % 65.72 % 48.89 % 0.08 s Titan X (pascal)
MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
まとめ
 車載カメラとLiDAR両方の情報を用いた物体検出について調
査しました。
 物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて
も高い性能を発揮します。
 3D物体検出でのLiDARデータはBirdViewに変換されて画像と
してニューラルネットワークに入力されるケースがほとんどで
したが、PointNetの登場により点群をそのまま処理する方法も
高い性能を発揮するようになりました。
 2D物体検出では、LiDARデータをデプスデータへ変換し、カメ
ラと視点を合わせることで、従来の画像ベースの物体検出の
新しいチャネルとして利用することで性能向上を図ります。
 LiDARとカメラそれぞれの特徴量をどの段階で融合するかが
手法それぞれで工夫されています。
[付録]PointNet
41
 Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep
Learning on Point Sets for 3D Classification and Segmentation
Big Data + Deep Representation Learning. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 各点群の点を独立に畳み込む
 Global Max Poolingで点群全体の特徴量を取得
各点を個別
に畳み込み
アフィン変換
各点の特徴を統合
[付録]Deep Parametric Continuous CNN
 カーネルを離散ではなく、パラメトリックな連続関数として表現
(ここではMulti-Layer Perceptron)
 任意の構造の入力に対して、任意の個所の出力が計算可能
ℎ 𝑛 = ෍
𝑚=−𝑀
𝑀
𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න
−∞
∞
𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍
𝑖
𝑁
1
𝑁
𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖)
連続カーネル離散カーネル

More Related Content

What's hot

SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
Toru Tamaki
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
Hajime Taira
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
Masaya Kaneko
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
LiDARとSensor Fusion
LiDARとSensor FusionLiDARとSensor Fusion
LiDARとSensor Fusion
Satoshi Tanaka
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
Ryutaro Yamauchi
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
miyanegi
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
Iwami Kazuya
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
Hitoshi Nishimura
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
Yasutomo Kawanishi
 
Visual slam
Visual slamVisual slam
Visual slam
Takuya Minagawa
 
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピングLiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
Takuya Minagawa
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
harmonylab
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
Toru Tamaki
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
Yasutomo Kawanishi
 

What's hot (20)

SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
LiDARとSensor Fusion
LiDARとSensor FusionLiDARとSensor Fusion
LiDARとSensor Fusion
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
 
Visual slam
Visual slamVisual slam
Visual slam
 
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピングLiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
 

Similar to object detection with lidar-camera fusion: survey (updated)

object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
Takuya Minagawa
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
kanejaki
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
Kurata Takeshi
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
Brocade
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
Tatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor ThesisTatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor Thesis
pflab
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
Aya Owosekun
 
Pruning filters for efficient conv nets
Pruning filters for efficient conv netsPruning filters for efficient conv nets
Pruning filters for efficient conv nets
Yamato OKAMOTO
 
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
Hironori Washizaki
 
1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング
NVIDIA Japan
 
Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis
pflab
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
Takuya Minagawa
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
Takuya Minagawa
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 

Similar to object detection with lidar-camera fusion: survey (updated) (20)

object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Tatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor ThesisTatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor Thesis
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
 
Pruning filters for efficient conv nets
Pruning filters for efficient conv netsPruning filters for efficient conv nets
Pruning filters for efficient conv nets
 
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
 
1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング
 
Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
Takuya Minagawa
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
Takuya Minagawa
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
Takuya Minagawa
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
Takuya Minagawa
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
Takuya Minagawa
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
 

More from Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 

Recently uploaded

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 

Recently uploaded (13)

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 

object detection with lidar-camera fusion: survey (updated)

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) お問い合わせ:http://visitlab.jp
  • 3. この資料について  LiDARとカメラ<両方>の情報を使用して車両や人などの物 体検出を行う手法の調査を行いました。  カメラとLiDAR両方の情報を用いて上記タスクを行うには、両 センサー間のキャリブレーションが必須で、それだけで1つの 研究トピックですが、ここでは調査範囲外とします。  物体検出は3次元的な物体位置検出を目的とするものと、画 像上での2次元的な物体位置検出を目的とするものに分ける ことができます。  ここではカメラのみ、またはLiDARのみを用いた物体検出につ いては言及しません。  ここでは車載カメラおよびLiDARを使用した屋外での物体検出 について調査を行い、屋内環境でRGBDセンサーを用いた物 体検出のケースについては対象外とします。
  • 5. LiDAR-Camera Fusion 3D Object Detection  [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and Pattern Recognition.  [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018). Joint 3D Proposal Generation and Object Detection fromView Aggregation. In International Conference on Intelligent Robots and Systems.  [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D Object Detection Network for Autonomous Driving. In Conference on ComputerVision and Pattern Recognition.  [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep Continuous Fusion for Multi-Sensor 3D Object Detection. In European Conference on Computer Vision.  [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation. Conference on ComputerVision and Pattern  [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A General Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.  [Shin2018]Shin, K., Kwon, P., & Tomizuka, M. (2018). RoarNet:A Robust 3D Object Detection based on RegiOn Approximation Refinement. ArXiv, arXiv:1811.
  • 6. 車載センサー環境での3D物体検出 車載センサー(カメラ+LiDAR)を用い3D物体検出は以下のよう に分類できます。  カメラを初期位置の検出に使用し、LiDARの情報を統合して Refine [Qi2018]Frustom PointNet [Xu2018]PointFusion [Du2018]General Pipeline [Shin2018]RoarNet  LiDARを初期位置の検出に使用し、カメラ情報を統合して Refine [Chen2017]MV3D  LiDARとカメラの両方から取得した特徴量を融合して物体検 出 [Ku2018]AVOD [Liang2018]Deep Continuous Fusion
  • 7. [Qi2018]Frustum PointNet (1/2)  KITTI 3D Object Detection Evaluationで上位の成績  従来のDeep Learningベース画像検出器で画像から物体 を検出し、そのFrustum上の点群をPointNetでSemantic Segmentationすることで3D Bounding Boxを検出
  • 8. [Qi2018]Frustum PointNet (2/2)  Frustum上で座標系を正規化するのがポイント  ソースコード https://github.com/charlesq34/frustum-pointnets 画像から物体検出 • Frustum上の点群を Segmentation • 画像上での物体識別結果 を事前知識として使用 • 物体に属する点群のみを使用 • T-Netで姿勢を補正 • Bounding Boxのパラメータを推定
  • 9. [Ku2018] Aggregate View Object Detection (AVOD) (1/2)  Frustom PointNetと並びKITTI Benchmarkで好成績  Faster R-CNNのRegion Proposal Network (RPN)の考え方を もとに3次元上の物体候補を算出  ソースコード https://github.com/kujason/avod
  • 10. [Ku2018] Aggregate View Object Detection (AVOD) (2/2)  点群をBirdView (XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度 や高さなどから6チャネルの画像を生成(BEV Input)  BEVと画像それぞれから特徴マップを生成  Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という 形で出力  Detection Networkで各物体候補領域のクラス、向き、サイズを算出 Region Proposal Network Point Cloud Feature Extractor Image Feature Extractor Detection Network
  • 11. [Chen2017]MV3D (1/2)  入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う  BirdViewから物体候補領域(3D)を検出し、BirdView、FrontViewお よびRGB画像へ投影  投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最 終的な物体クラスとBounding Boxを出力します。
  • 12. [Chen2017]MV3D (2/2)  入力点群をBirdViewおよびFrontViewへ投影し、画像として扱 う BirdView:(M+2)チャネル Z方向にM個のスライスを作成し、各スライスのZの最大値(Height Maps) 各セルの点の個数(Density) 各セルの最も高い点(Z最大)の反射率(Intensity) FrontView: 3チャネル Height、Distance、Intensity  ソースコード https://github.com/bostondiditeam/MV3D
  • 13. [Liang2018]Deep Continuous Fusion (1/2)  点群をBirdViewへ投影し画像として扱うことでCNN可能に  画像から取得した特徴量をBirdViewのCNN各層の特徴量と 結合することで、疎な点群の情報を補間し精度向上  画像特徴と結合したBirdView特徴をもとに3次元物体検出  画像とBirdViewの特徴量の統合にDeep Parametric Continuous Convolutionを利用(Continuous Fusion)
  • 14. [Liang2018]Deep Continuous Fusion (2/2)  Deep Parametric Continuous Convolution Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural Networks”. CVPR2018 畳み込みカーネルを離散ではなく、パラメトリックな連続関数(Multi-Layer Perceptron)とし て表現することで、点群のような非構造的な離散データに畳み込み演算を適用(付録参 照)  Deep Continuous Fusion BirdView上の任意の画素の特徴量(点が存在しなくても可)を、Deep Parametric Continuous Convolutionを用いてカメラ画像の特徴量で補間 1. BirdView上の任意の画素のK 近傍点(画素)を取得 2. K近傍点上の点群を復元 3. 点群をカメラ画像上へ投影 4. 投影した点の画像特徴量を取 得 5. K個のカメラ画像からの特徴量 と三次元点群を投影した時の ずれをもとにMulti-layer PerceptronでBirdView上の画 素の特徴量を算出
  • 15. [Xu2018]Point Fusion (1/2)  物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結 果をもとに3D Bounding Boxを推定  Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと ResNetで独立に処理し、その結果をFusion Networkで統合 Global FusionとDense Fusionの2通りの方法でBounding Box推定  KITTIで評価しSOTA(ただし比較対象がMV3Dのみ)
  • 16. [Xu2018]Point Fusion (2/2)  Global FusionではPointNetの全体特徴とResNetからの特徴 量を統合して、直接Bounding Box推定  Dense FusionではPointNetの全体特徴と点ごとの特徴、およ びResNetの画像特徴を統合し、点ごとのBounding Box内での 相対位置を推定  現時点でソースコード非公開
  • 17. [Du2018]General Pipeline  一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ 拡張するための手法の提案  2D物体検出の結果から点群を切り出し、この点群から 3D Bounding Boxを取得  3D Bounding Box内の点群を用いて、より正確な Bounding Boxと識別結果を出力
  • 18. [Shin2018]RoarNet (1/2)  まずは画像、次に点群上で、探索領域を徐々に狭めながら、 物体の位置、姿勢、サイズを高精度に求める 画像に対してRoarNet_2Dで2D Bounding Boxと姿勢を推定 画像から求めた領域を散らして、円柱状の探索領域を複数作成 RoarNet_3D (RPN)で物体らしさと位置を絞り込み、 RoarNet_3D(BRN)で位置、サイズ、向きを算出  コード(公開予定) https://github.com/Kiwoo/RoarNet
  • 19. [Shin2018]RoarNet (2/2)  RoarNet_2Dでは、物体クラス、2D Bounding Box、3D Bounding Boxと向き(2Dの結果と一致するように)を推定(a)  RoarNet_2Dで求めた物体候補から、小さくかつカメラに近い、 または大きくかつカメラから遠い、複数の候補を算出(b)  RoarNet_3D(RPNおよびBRN)はPointNetからT-Netを除いて 簡略化したネットワーク(c) (a) RoarNet_2D (c) RoarNet_3D (b) 画像から算出した候補領域
  • 20. KITTI 3D Object Detection Evaluation  ここで紹介した各研究についてKITTI 3D Object Detection Evaluation上での性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php  上記サイトに性能の記載のないものは論文での実験結 果を参照しました。  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 21. KITTI 3D Object Detection Evaluation  Car Method Moderate Easy Hard Runtime Environment RoarNet 73.04 % 83.71 % 59.16 % 0.1 s GPU @ >3.5 Ghz (Python + C/C++) AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal) Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s GPU @ 3.0 Ghz (Python) Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s GPU @ 2.5 Ghz (Python) AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal) PointFusion 63.00 % 77.92 % 53.27 % MV3D 62.35 % 71.09 % 55.12 % 0.36 s GPU @ 2.5 Ghz (Python + C/C++) General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 % MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 % AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を 適用したもの [Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017
  • 22. KITTI 3D Object Detection Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment Frustom PointNet 44.89 % 51.21 % 40.23 % 0.17 s GPU @ 3.0 Ghz (Python) AVOD-FPN 42.81 % 50.80 % 40.88 % 0.1 s Titan X (Pascal) AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal) PointFusion 28.04 % 33.36 % 23.38 %
  • 23. KITTI 3D Object Detection Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment Frustom PointNet 56.77 % 71.96 % 50.39 % 0.17 s GPU @ 3.0 Ghz (Python) AVOD-FPN 52.18 % 64.00 % 46.61 % 0.1 s Titan X (Pascal) AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal) PointFusion 29.42 % 49.34 % 26.98 %
  • 25. LiDAR-Camera Fusion 2D Object Detection  [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes, U. (2014). Pedestrian detection combining RGB and dense LIDAR data. IEEE International Conference on Intelligent Robots and Systems,  [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., & Amores, J. (2017). On-Board Object Detection: Multicue, Multimodal, and Multiview Random Forest of Local Experts. IEEETransactions on Cybernetics, 47(11), 3980–3990.  [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017). Fast Boosting based Detection using Scale Invariant Multimodal Multiresolution Filtered Features. Conference on ComputerVision and Pattern Recognition  [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., & J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D- LIDAR and color camera data. Pattern Recognition Letters, (September).
  • 26. 車載カメラおよびLiDARによる2D物体検出  [Oh2017]Oh, S. Il, & Kang, H. B. (2017). Object detection and classification by decision-level fusion for intelligent vehicle systems. Sensors (Switzerland), 17(1),  [Schlosser2016]Schlosser, J., Chow, Christopher K., & Kira, Z. (2016). Fusing LIDAR and images for pedestrian detection using convolutional neural networks. IEEE International Conference on Robotics and Automation (ICRA)  [Du2017]Du, X.Ang, M H., & Rus, D. (2017). Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
  • 27. 車載センサー環境での2D物体検出 車載センサー(カメラ+LiDAR)を用い2D物体検出は以下のよう に分類できます。  LiDARとカメラの両方から取得した特徴量を融合して物体検 出 [Premebida2014]Fusion-DPM [Gonzalez2017]MV-RGBD-RF [Costea2017]MM-MRFC [Schlosser2016]Fusing for Pedestrian Detection  LiDARとカメラから独立に物体を検出して統合 [Premebida2014]Fusion-DPM [Asvadi2017]Multimodal Detection [Oh2017]Decision-Level Fusion [Schlosser2016]Fusing for Pedestrian Detection  LiDAR点群をガイドとして画像上で物体検出 [Du2017]PC-CNN
  • 28. [Premebida2014] Fusion-DPM  RGB画像とデプス画像にDeformable Part Modelによる人 物検出の特徴量を取得し、2通りの方法で統合 特徴量を統合してから人物検出 それぞれで人物検出をしてから結果を統合 点群からアップサンプルでデプス画像を生成
  • 30. [Costea2017]MM-MRFC  カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾 配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ ルチ解像度のチャネルへ分離  画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、 Contextを表すチャネルを取得  AdaboostとSlidingWindowによって物体検出  Deep Learningベースの手法と同等の性能で、10-100倍高速
  • 31. [Asvadi2017]Multimodal Detection  LiDARデータからデプス(DM)と反射率(RM)のマップを生 成し、DMとRMおよび画像に対して、それぞれのチャネル 用に学習したYOLOを用いて物体検出  それぞれのチャネルの検出結果を統合することで、最終 結果を算出  ソースコード(現時点では未公開) https://github.com/alirezaasvadi/Multimodal
  • 32. [Oh2017]Decision-level Fusion  LiDARと画像に対し、個別に物体検出し、それらをCNNで統合  Pre-processingでカメラは色補正、LiDARはVoxel化を行い、Object proposal generationでセグメンテーションベースの候補領域算出し、 CNNでUnary Classifierでクラス識別  Fusion Classifierで、それぞれのクラス識別結果と特徴量を入力とし、 最終的な検出結果とクラスをCNNとSVMを用いて出力
  • 33. [Schlosser2016]Fusing for Pedestrian Detection  疎なLiDARデータから密な HHA(horizontal disparity, height above ground, and angle) 画像チャネルを生成  RGBとHHAから特徴量を抽出 し、どの段階で統合するかで 人物検出の性能が良くなるか をR-CNNベースの手法で検 証  性能は後段で融合したほうが 高いが、限られたパラメータや 計算リソースの下では、初段 から中段での融合が有効
  • 34. [Du2017]PC-CNN (1/2)  LiDARから道路上物体の点群候補を取得し、画像平面へ投影 (Seed Proposal Generation)  投影された点群をガイドとしてBounding BoxとClass Probability を推定 (Proposal Network)  Bounding Box候補を統合して、最終的なBounding BoxとClass Probabilityを算出(Detection Network)
  • 35. [Du2017]PC-CNN (2/2)  LiDAR点群から算出した物体候補点群は、LiDARからの距離 に応じて近い順にLarge、Medium、Smallに分ける。  画像上をグリッドに分割し、点群を投影。点群がLargeの場合 は大きいグリッド、Smallの場合は小さいグリッドを使用して、グ リッド内の点群の重心をアンカーとして求める(下図の赤い 点)  Region Proposal Networkを用いて、アンカー点でBounding BoxとClass Probabilityを推定。
  • 36. KITTI Object Detection 2012 Evaluation  ここで紹介した各研究についてKITTI Object Detection 2012 Evaluation上での性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 37. KITTI Object Detection 2012 Evaluation  Car Method Moderate Easy Hard Runtime Environment F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s GPU @ 3.0 Ghz (Python) PC-CNN 89.37% 93.50% 79.52% Decision-level Fusion 89.34% 94.88% 81.42% MV3D 89.17 % 90.53 % 80.16 % 0.36 s GPU @ 2.5 Ghz (Python + C/C++) MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s GPU @ 2.5 Ghz (C/C++) AVOD 88.08 % 89.73 % 80.14 % 0.08 s Titan X (pascal) AVOD-FPN 87.44 % 89.99 % 80.05 % 0.1 s Titan X (Pascal) MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s GPU @ 3.5 Ghz (Python + C/C++) MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s 4 cores @ 2.5 Ghz (C/C++) Multimodal Detection 46.77 % 64.04 % 39.38 % 0.06 s GPU @ 3.5 Ghz (Matlab + C/C++)
  • 38. KITTI Object Detection 2012 Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python) Decision-level Fusion 70.84% 83.71% 68.67% MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++) Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s GPU @ 3.5 Ghz (Python + C/C++) AVOD-FPN 58.42 % 67.32 % 57.44 % 0.1 s Titan X (Pascal) MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s 4 cores @ 2.5 Ghz (C/C++) Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s 1 core @ 3.5 Ghz (Matlab + C/C++) AVOD 43.49 % 51.64 % 37.79 % 0.08 s Titan X (pascal)
  • 39. KITTI Object Detection 2012 Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment Decision-level Fusion 72.98% 83.95% 66.47% F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python) Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s GPU @ 3.5 Ghz (Python + C/C++) AVOD-FPN 59.32 % 68.65 % 55.82 % 0.1 s Titan X (Pascal) AVOD 56.01 % 65.72 % 48.89 % 0.08 s Titan X (pascal) MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s 4 cores @ 2.5 Ghz (C/C++)
  • 40. まとめ  車載カメラとLiDAR両方の情報を用いた物体検出について調 査しました。  物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて も高い性能を発揮します。  3D物体検出でのLiDARデータはBirdViewに変換されて画像と してニューラルネットワークに入力されるケースがほとんどで したが、PointNetの登場により点群をそのまま処理する方法も 高い性能を発揮するようになりました。  2D物体検出では、LiDARデータをデプスデータへ変換し、カメ ラと視点を合わせることで、従来の画像ベースの物体検出の 新しいチャネルとして利用することで性能向上を図ります。  LiDARとカメラそれぞれの特徴量をどの段階で融合するかが 手法それぞれで工夫されています。
  • 41. [付録]PointNet 41  Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation Big Data + Deep Representation Learning. IEEE Conference on ComputerVision and Pattern Recognition (CVPR).  各点群の点を独立に畳み込む  Global Max Poolingで点群全体の特徴量を取得 各点を個別 に畳み込み アフィン変換 各点の特徴を統合
  • 42. [付録]Deep Parametric Continuous CNN  カーネルを離散ではなく、パラメトリックな連続関数として表現 (ここではMulti-Layer Perceptron)  任意の構造の入力に対して、任意の個所の出力が計算可能 ℎ 𝑛 = ෍ 𝑚=−𝑀 𝑀 𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න −∞ ∞ 𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍ 𝑖 𝑁 1 𝑁 𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖) 連続カーネル離散カーネル