LiDARによる道路上の物体検出サーベイ
2018年11月30日
takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
お問い合わせ:http://visitlab.jp
この資料について
 この資料は主にLiDARを用いて道路上の物体(車、人、自転
車など)を検出する技術について調査した結果をまとめたもの
です。
 LiDARを用いた物体検出は歴史も古く、論文数も多いため、主
に以下の観点で選定した研究を紹介します。
Deep Learning登場以降の比較的新しいアプローチ
有名会議/論文誌で発表されたもの
引用数が多いもの
ユニークなアプローチ
KITTIベンチマークで好成績
 LiDARとカメラ<両方>を使用した物体検出については以下
の資料を参考にしてください。
https://www.slideshare.net/takmin/object-detection-with-lidarcamera-
fusion-survey-updated
LiDARを用いた物体検出
 今回調査したLiDARを用いた物体検出は、以下のように
分類できます。
Voxelベースの手法
画像上へ点群を投影して扱う手法
Bird’s EyeViewベースの手法
シリンダーベースの手法
LiDARの信号をそのまま使う手法
Voxelベースの手法 (1/2)
 [Maturana2015]Maturana, D., & Scherer, S. (2015).VoxNet:
A 3D Covolutional Neural Network for Real-Time Object
Recognition. In International Conference on Intelligent Robots
and Systems.
 [Li2017]Li, B. (2017). 3D fully convolutional network for
vehicle detection in point cloud. IEEE International
Conference on Intelligent Robots and Systems
 [Zeng2015]Zeng Wang, D., & Posner, I. (2015).Voting for
Voting in Online Point Cloud Object Detection. Robotics:
Science and Systems XI.
Voxelベースの手法 (2/2)
 [Engelcke2017]Engelcke, M., Rao, D.,Wang, D. Z.,Tong, C.
H., & Posner, I. (2017).Vote3Deep: Fast object detection in
3D point clouds using efficient convolutional neural
networks. IEEE International Conference on Robotics and
Automation, (September),
 [Zhou2018]Zhou,Y., & Tuzel, O. (2018).VoxelNet: End-to-
End Learning for Point Cloud Based 3D Object Detection.
In Conference on ComputerVision and Pattern Recognition.
 [Yan2018]Yan,Y., Mao,Y., & Li, B. (2018). SECOND: Sparsely
Embedded Convolutional Detection. Sensors, 18(10)
[Maturana2015]VoxNet
 LiDARおよびRGBD点群に対して
3D CNNを用いて物体検出を行う
手法を提案
入力は点群の中のセグメンテーション
された物体部分、またはSliding Box
点群をOccupancy Gridへ変換
2層の3D Convと1層のPooling、2層の
Fully Connect層で物体識別
Sydney Urban Objects Dataset、
ModelNet、NYUv2など異なる種類の
物体を対象としたベンチマークで
state-of-the-art
 コード
https://github.com/dimatura/voxnet
[Zeng2015]Voting for Voting (1/2)
 入力点群(+反射率)を
Voxel化し、3D Sliding
Windowで物体検出
 各VoxelごとにHand-Crafted
特徴量(Grid内に点が存在
するか、反射率平均、反射
率分散、3種のShape Factor*
の計6種)を算出し、Sliding
Window内でそれらを結合し、
線形SVMで判別
 N個の向きに対して演算
入力点群 Voxel化
Voxel特徴ベクトル
3D Sliding Window
*C.-F.Westin, S. Peled, H. Gudbjartsson, R. Kikinis, and F.
A. Jolesz,“Geometrical Diffusion Measures for MRI
fromTensor Basis Analysis,” in ISMRM ’97,Vancouver
Canada,April 1997, p. 1742.
[Zeng2015]Voting for Voting (2/2)
 SlidingWindow + 線形SVMは畳み込み演算とみなせ、入
力が疎な場合、投票で高速処理
a. 赤、緑、水色の個所にのみ点群が存在する場合、Window
のアンカー(青)上のスコアはこれらの重み付き線形和であ
らわされる
b. データの存在する個所(赤)は青位置のアンカーに投票する
[Engelcke2017]Vote3Deep
 Voting forVoting[Zeng2015]のSVMを最大3層のCNNに
置き換え、疎な入力に対して投票による畳み込み演算を
行う
 畳み込みによって上位の層にいくほど疎性は失われる
が、それをReLUによって閾値処理することで抑える
 損失関数はL1正則化によるヒンジ損失を使用し、フィル
タも疎となるように学習
[Li2017]3D FCN
 Fully Convolutional Network (FCN)を3次元に拡張し、
End-to-endで物体検出を行う手法を提案
 シーン全体を表す点群をVolumetric Gridに変換し、3D
CNNを用いてObject Proposalと3D Bounding Box算出す
ることで、性能を大幅に向上
[Zhou2018]VoxelNet (1/2)
 Voxelに分割してVoxelごとに特徴ベクトルを算出し、Region
Proposal Networkにより物体検出
 End-to-Endで学習
 疎なVoxel表現を効率的に演算
Voxel分割 最大T個ま
で減らす 点ごとに特徴
ベクトル算出
Voxel特徴ベ
クトル算出
3次元畳み
込み
Bounding
Box検出
[Zhou2018]VoxelNet (2/2)
 Voxel Feature Encoding Layer
Voxel内の点をランダムサンプリングで最大T個まで減らす
各Voxel内の重心を算出し、各点を絶対座標と重心からの相
対座標、およびReflectanceの7つの値で表現
各点をFully Connected層で特徴抽出し、Voxel内でMax Pooling
した特徴を結合
点ごと、Voxelごとに特徴量を求めるため並列計算可能
[Yan2018]SECOND (1/2)
 Voxelベースの物体検出の欠点であった、低速性と向きの精度の低
さを改善
 VoxelNet[Zhou2018]と同様の方法でVoxelごとに特徴量を算出し、
Sparse Conv Layersにより疎なデータから高速に特徴マップを算出
 RPNにより物体の識別、Bounding Boxの位置とサイズ、向きを算出
向きの学習にSine-Error Lossを使用
 コード:
https://github.com/traveller59/second.pytorch
[Yan2018]SECOND (2/2)
Sparse Conv Layer
 疎な入力から密な入力を作成し、カーネルの要素との積を算
出後、再度疎な出力へ展開
 疎密間変換ルール(テーブル)を別途作成
[Yan2018]SECOND (2/2)
Sparse Conv Layer
 疎な入力から密な入力を作成し、カーネルの要素との積を算
出後、再度疎な出力へ展開
 疎密間変換ルール(テーブル)を別途作成
Voxel座標
Kernel要素0にお
ける入力Indexと
出力座標
Kernel要素1にお
ける入力Indexと
出力座標
ユニークな出力
座標に対しIndex
を付与
Kernel要素、入
力Index、出力
Indexの表
Bird’s Eye Viewベースの手法
 [Yang2018]Yang, B., Luo,W., & Urtasun, R. (2018). PIXOR: Real-time
3D Object Detection from Point Clouds. In IEEE conference on
ComputerVision and Pattern Recognition
 [Luo2018]Luo,W.,Yang, B., & Urtasun, R. (2018). Fast and Furious: Real
Time End-to-End 3D Detection,Tracking and Motion Forecasting
with a Single Convolutional Net. In Conference on ComputerVision
and Pattern Recognition.
 [Ren2018]Ren, M., Pokrovsky,A.,Yang, B., & Urtasun, R. (2018). SBNet:
Sparse Blocks Network for Fast Inference. In IEEE Conference on
ComputerVision and Pattern Recognition (pp. 8711–8720).
 [Yang2018_2]Yang, B., Liang, M., & Urtasun, R. (2018). HDNET :
Exploiting HD Maps for 3D Object Detection. In Conference on Robot
Learning (pp. 1–10).
 [Simon2018]Simon, M., Milz, S.,Amende, K., & Gross, H. (2018).
Complex-YOLO:An Euler-Region-Proposal for Real-time 3D Object
Detection on Point Clouds.ArXiv, arXiv:1803.
[Yang2018]PIXOR
 10fpsで動作可能なBird’s EyeView物体検出手法(Titan
Xp + CPU)
 入力LiDAR点群を地面と平行にスライス(23枚)したもの
を画像のチャネルとみたててCNNへの入力とする
 Fully Convolutional Networkにより、各場所における車
両の有無、サイズ、および向きを出力
[Luo2018]Fast and Furious (1/3)
 物体検出、追跡、予測を1つのネットワークで実現
1フレーム30msで処理(Titan XP Server)
SSD、SqueezeNet、MobileNetと比較し、SOTA
現在と過去n枚のフレーム情
報から現在と未来nフレームの
Bounding Boxを推定
各フレーム群から求めた予
測を統合してTracklet生成
[Luo2018]Fast and Furious (2/3)
 点群をVoxel化し、地面と平行にスライ
スして各スライスをチャネルとみなすこ
とで、通常の2D CNNで処理
 現在と過去計n枚のフレーム情報を統合して特徴マップ
を生成する方法として、Early Fusion(高速省メモリ)と
Later Fusion(高精度)の2つを検証。
畳み込み
カーネル
[Luo2018]Fast and Furious (3/3)
 Early FusionまたはLater Fusionで生成した特徴マップから、
現在と未来nフレームの物体のBounding Boxを推定
SSDと同じ要領で、あらかじめ定義した複数のaspect ratioの
Bounding Boxのスコアを各位置で算出
車両の向きをRegressionで推定
 過去のフレームから予測した現在のフレームの物体位置
と現在のフレームから予測した物体位置のオーバーラッ
プがある場合、同じ物体と判断しTracklet生成
[Ren2018]SBNet
 疎なデータに対してマスクをかけることで畳み込み演算を高速化
マスクをブロックに分割し、ブロックをチャネルとして束ねて(Gather)、畳
み込み(Convolution)
出力テンソルの各対応チャネルを元の入力位置に戻す(Scatter)
 ATG4DやKITTI2017 BEVなどSparseなLiDARデータで有効性確認
 コード
https://github.com/uber/sbnet
[Yang2018_2] HDNET (1/2)
 自動運転では地図情報(HD Map)の利用が想定されるた
め、地図を前提知識として利用することで物体検出の性
能を向上させる
入力は点群(a)
地図情報を用いて坂道などを補正(b)
Voxel化し、地面から垂直方向(Z方向)はチャネルとみなすこ
とで2D CNNで扱えるようにする(c)
物体検出時に地図上の道路領域を事前知識として使用(d)
 KITTI BEV Car detectionで1位(発表時)
[Yang2018_2] HDNET (2/2)
 地図の利用が不可能な個所ではLiDARデータから地面
の高さと道路領域をそれぞれCNNで推定して利用
 Detection Networkが道路領域に対して過学習するのを
防ぐため、学習時にランダムで道路領域を空にする
[Simon2018]Complex-YOLO
 YOLOv2を3Dに拡張し、50fps(TitanX)で動作
 点群をBird’s EyeViewへ投影し、Height, Intensity, Density (RGB)画像
を作成し、Yoloへの入力とする
 Yoloで作成した特徴マップをE-RPN層へ入力し、各グリッドごとに5つ
の物体カテゴリそれぞれのProbability、位置、Bounding Boxサイズ、
向きを推定する
 コード
https://github.com/AI-liu/Complex-YOLO
その他の手法
 [Li2016]Li, B., Zhang,T., & Xia,T. (2016).Vehicle Detection
from 3D Lidar Using Fully Convolutional Network.
Robotics Science and Systems.
 [Kunisada2018]Kunisada,Y.,Yamashita,T., & Fujiyoshi, H.
(2018). Pedestrian-Detection Method based on 1D-CNN
during LiDAR Rotation. In International Conference on
IntelligentTransportation Systems (ITSC).
[Li2016]VeloFCN
 点群をシリンダー形状へ投影し、深度dと高さhの2チャネ
ルの画像を入力とする(point map)
 Fully Convolutional Network (FCN)によりダウンサンプ
ルとアップサンプルを行い、point mapに対応する各位置
におけるObjectnessと3D Bounding Boxを推定
[Kunisada2018]1D-CNN during LiDAR
rotation
 全方位LiDARの回転から得られる各レーザーの距離情報を1次元
の波形として扱い、1次元CNNによってレーザーごとに歩行者検出
 歩行者とラベル付けされた点群をクラスタリングして歩行者領域検
出
 LiDARから点群全体を生成せず、直接レーザーから、高速に検出可
能
実験と評価
 ここで紹介した各論文についてKITTI Benchmark上で評
価された結果を記載します。
http://www.cvlibs.net/datasets/kitti
評価は3D、2D、Bird’s EyeViewそれぞれの物体検出タスクに
ついて行いました。
 比較のために、カメラとLiDAR両方を使用した物体検出
手法であるF-PointNet*の結果も記載しました。
 ここで紹介できなかった研究についても、上記サイトに記
載があり、かつ論文が入手可能なものについては記載し
ました。
番号の降られた手法が紹介しきれなった研究にあたります
ベンチマーク中の巻末の「紹介しきれなかった研究」の番号と
対応してます
*Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data.
In Conference on ComputerVision and Pattern Recognition.
KITTI 3D Object Detection Evaluation
 ここで紹介した各研究および論文が公開されている手法
についてKITTI 3D Object Detection Evaluation上での性
能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm
ark=3d
 上記サイトに性能の記載のないものは論文での実験結
果を参照しました。
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI 3D Object Detection Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
SECOND 73.66 % 83.13 % 66.20 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
F-PointNet* 70.39 % 81.20 % 62.19 % 0.17 s
GPU @ 3.0 Ghz
(Python)
VoxelNet 65.11% 77.47% 57.73% 225ms
Titan X GPU +
1.7Ghz CPU
Complex-YOLO 64.00 % 67.72 % 63.01 % 19.84 ms Titan X GPU
A3DODWTDA[12] 56.81 % 59.35 % 50.51 % 0.08 s
GPU @ 3.0 Ghz
(Python)
MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
BirdNet[14] 13.44 % 14.75 % 12.04 % 0.11 s Titan Xp GPU
TopNet-HighRes[15] 12.58 % 15.29 % 12.25 % 101ms
NVIDIA GeForce
1080 Ti (tensorflow-
gpu)
KITTI 3D Object Detection Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet* 44.89 % 51.21 % 40.23 % 0.17 s
GPU @ 3.0 Ghz
(Python)
SECOND 42.56 % 51.07 % 37.29 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
Complex-YOLO 39.70 % 41.79 % 35.92 % 19.84 ms Titan X GPU
VoxelNet 33.69 % 39.48 % 31.51 % 225ms
Titan X GPU +
1.7Ghz CPU
BirdNet[14] 11.80 % 14.31 % 10.55 % 0.11 s Titan Xp GPU
TopNet-HighRes[15] 9.66 % 13.45 % 9.64 % 101ms
NVIDIA GeForce
1080 Ti (tensorflow-
gpu)
KITTI 3D Object Detection Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
F-PointNet* 56.77 % 71.96 % 50.39 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Complex-YOLO 58.32 % 68.17 % 54.30 % 19.84 ms Titan X GPU
SECOND 53.85 % 70.51 % 46.90 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
VoxelNet 48.36 % 61.22 % 44.37 % 225ms
Titan X GPU +
1.7Ghz CPU
BirdNet[14] 12.43 % 18.35 % 11.88 % 0.11 s Titan Xp GPU
TopNet-HighRes[15] 5.98 % 4.48 % 6.18 % 101ms
NVIDIA GeForce
1080 Ti (tensorflow-
gpu)
KITTI Object Detection 2012 Evaluation
 ここで紹介した各研究および論文が公開されている手法
についてKITTI Object Detection 2012 Evaluation上での
性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm
ark=2d
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Object Detection 2012 Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
F-PointNet* 90.00 % 90.78 % 80.80 % 0.17 s
GPU @ 3.0 Ghz
(Python)
SECOND 88.40 % 90.40 % 80.21 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
3D FCN 75.83 % 85.54 % 68.30 % >5 s
1 core @ 2.5 Ghz
(C/C++)
A3DODWTCA
[12]
74.71 % 78.21 % 66.70 % 0.08 s
GPU @ 3.0 Ghz
(Python)
Vote3Deep 68.39 % 76.95 % 63.22 % 1.5s 4 core @ 2.5 Ghz
BirdNet[14] 57.47 % 78.18 % 56.66 % 0.11 s Titan Xp GPU
VeloFCN 53.45 % 70.68 % 46.90 % 1 s
GPU @ 2.5 Ghz
(Python + C/C++)
TopNet-
HighRes[15]
48.87 % 59.77 % 43.15 % 101ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
Voting forVoting 48.05 % 56.66 % 42.64 % 0.5s 4 core @ 2.8 Ghz
KITTI Object Detection 2012 Evaluation
 Car (続き)
Method Moderate Easy Hard Runtime Environment
RT3D[13] 39.71 % 49.96 % 41.47 % 0.09 s GPU @ 1.8Ghz
mBoW[5] 23.76 % 37.63 % 18.44 % 10 s
1 core @ 2.5 Ghz
(C/C++)
DepthCN[6] 23.21 % 37.59 % 18.00 % 2.3 s
GPU @ 3.5 Ghz
(Matlab)
TopNet-
DecayRate[15]
0.04 % 0.04 % 0.04 % 92 ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
KITTI Object Detection 2012 Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet* 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python)
SECOND 55.74 % 65.73 % 49.08 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
Vote3Deep 55.38 % 67.94 % 52.62 % 1.5 s
4 cores @ 2.5 Ghz
(C/C++)
Vote forVoting 35.74 % 44.47 % 33.72 % 0.5 s
4 cores @ 2.8 Ghz
(C/C++)
mBoW[5] 31.37 % 44.36 % 30.62 % 10 s 1 core @ 2.5 Ghz (C/C++)
BirdNet[14] 30.90 % 36.83 % 29.93 % 0.11 s Titan Xp GPU
TopNet-
HighRes[15]
17.57 % 22.98 % 17.35 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
DecayRate[15]
0.04 % 0.02 % 0.05 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
KITTI Object Detection 2012 Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
F-PointNet* 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python)
Vote3Deep 67.96 % 76.49 % 62.88 % 1.5 s
4 cores @ 2.5 Ghz
(C/C++)
SECOND 58.94 % 81.96 % 57.20 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
BirdNet[14] 49.04 % 64.88 % 46.61 % 0.11 s Titan Xp GPU
Vote forVoting 31.24 % 41.45 % 28.60 % 0.5 s
4 cores @ 2.8 Ghz
(C/C++)
mBoW[5] 21.62 % 28.19 % 20.93 % 10 s 1 core @ 2.5 Ghz (C/C++)
TopNet-
HighRes[15]
19.15 % 29.34 % 19.69 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
DecayRate[15]
1.01 % 0.04 % 1.01 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
KITTI Bird’s Eye View Evaluation 2017
 ここで紹介した各研究および論文が公開されている手法
についてKITTI Bird’s EyeView Evaluation 2017上での性
能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm
ark=bev
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Bird’s Eye View Evaluation 2017
 Car
Method Moderate Easy Hard Runtime Environment
HDNET 86.57 % 89.14 % 78.32 % 0.05 s
GPU @ 2.5 Ghz
(Python)
F-PointNet* 84.00 % 88.70 % 75.33 % 0.17 s
GPU @ 3.0 Ghz
(Python)
PIXOR++ 83.70 % 89.38 % 77.97 % 0.035 s
GPU @ 2.5 Ghz
(Python)
SECOND 79.37 % 88.07 % 77.95 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
VoxelNet 79.26 % 89.35 % 77.39 % 225ms
Titan X GPU + 1.7Ghz
CPU
Complex-YOLO 77.40 % 85.89 % 77.33 % 19.84 ms Titan X GPU
PIXOR 77.05 % 81.70 % 72.95 % 0.035 s TITAN Xp (Python)
MV3D(LiDAR) 77.00 % 85.82 % 68.94 % 0.24 s
GPU @ 2.5 Ghz (Python +
C/C++)
A3DODWTCA
[12]
72.86 % 76.65 % 64.51 % 0.08 s
GPU @ 3.0 Ghz
(Python)
KITTI Bird’s Eye View Evaluation 2017
 Car (続き)
Method Moderate Easy Hard Runtime Environment
TopNet-
DecayRate[15]
64.12 % 79.76 % 56.48 % 92 ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
3D FCN 62.54 % 69.94 % 55.94 % >5 s
1 core @ 2.5 Ghz
(C/C++)
TopNet-
HighRes[15]
53.71 % 67.53 % 46.54 % 101ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
BirdNet[14] 50.81 % 75.52 % 50.00 % 0.11 s Titan Xp GPU
RT3D[13] 42.10 % 54.68 % 44.05 % 0.09 s GPU @ 1.8Ghz
VeloFCN 0.33 % 0.15 % 0.47 % 1 s
GPU @ 2.5 Ghz
(Python + C/C++)
mBoW[5] 0.00 % 0.00 % 0.00 % 10 s
1 core @ 2.5 Ghz
(C/C++)
KITTI Bird’s Eye View Evaluation 2017
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet* 50.22 % 58.09 % 47.20 % 0.17 s GPU @ 3.0 Ghz (Python)
SECOND 46.27 % 55.10 % 44.76 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
Complex-YOLO 45.90 % 46.08 % 44.20 % 19.84 ms Titan X GPU
VoxelNet 40.74 % 46.13 % 38.11 % 225ms
Titan X GPU + 1.7Ghz
CPU
BirdNet[14] 21.35 % 26.07 % 19.96 % 0.11 s Titan Xp GPU
TopNet-
HighRes[15]
19.08 % 24.30 % 18.46 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
DecayRate[15]
12.59 % 15.09 % 12.23 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
mBoW[5] 0.01 % 0.01 % 0.01 % 10 s 1 core @ 2.5 Ghz (C/C++)
KITTI Bird’s Eye View Evaluation 2017
 Cyclist
Method Moderate Easy Hard Runtime Environment
Complex-YOLO 63.36 % 72.37 % 60.27 % 19.84 ms Titan X GPU
F-PointNet* 61.96 % 75.38 % 54.68 % 0.17 s GPU @ 3.0 Ghz (Python)
SECOND 56.04 % 73.67 % 48.78 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
VoxelNet 54.76 % 66.70 % 50.55 % 225ms
Titan X GPU + 1.7Ghz
CPU
BirdNet[14] 27.18 % 38.93 % 25.51 % 0.11 s Titan Xp GPU
TopNet-
DecayRate[15]
19.92 % 28.06 % 19.13 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
HighRes[15]
12.45 % 15.70 % 12.76 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
mBoW[5] 0.00 % 0.00 % 0.00 % 10 s 1 core @ 2.5 Ghz (C/C++)
まとめ
 LiDARを用いて道路上の物体検出を行う手法について、主に
Deep Learningを用いた研究について調査しました。
 物体検出タスクは大きく点群をVoxel化して、三次元の畳み込
みを行う手法と、点群をBird’s EyeViewへ投影し、二次元の畳
み込みを行う手法に分けられます。
 また、点群をシリンダ上へ投影し、画像とみなして処理する手
法や、LiDARのスイープデータをそのまま1次元畳み込みで使
用する研究も紹介しました。
 Voxel上で畳み込みを行う場合、メモリ使用量が膨大となるた
め、疎なデータの計算を工夫する必要があります。
 Bird’s EyeView上で処理するケースでは既存の2D物体検出手
法を応用することで、高精度や高速性を実現しています。
 LiDARからの物体検出の研究は特に今年から大幅に増えまし
た。
紹介しきれなかった研究(1/3)
1. Spinello, L.,Arras, K. O.,Triebel, R., & Siegward, R. (2010).A Layered
Approach to People Detection in 3D Range Data. In AAAI
Conference on Artificial Intelligence (pp. 1635-1630).
2. Teichman,A., & Thrun, S. (2011).Tracking-based semi-supervised
learning. In Robotics: Science and Systems.
3. Teichman,A., Levinson, J., & Thrun, S. (2011).Towards 3D object
recognition via classification of arbitrary object tracks. Proceedings
- IEEE International Conference on Robotics and Automation,
4034-4041.
4. Wang, D. Z., Posner, I., & Newman, P. (2012).What could move?
Finding cars, pedestrians and bicyclists in 3D laser data. Proceedings
- IEEE International Conference on Robotics and Automation,
4038-4044.
5. Behley, J., Steinhage,V., & Cremers,A. B. (2013). Laser-based Segment
Classification Using a Mixture of Bag-of-Words. In International
Conference on Intelligent Robots and Systems.
紹介しきれなかった研究(2/3)
6. Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., & Nunes, U. J.
(2017). DepthCN :Vehicle Detection Using 3D-LIDAR and
ConvNet. In International Conference on IntelligentTransportation
Systems (ITSC).
7. Zidan, M. I., & Sallab,A.A.Al. (2018).YOLO3D : End-to-end real-time
3D Oriented Object Bounding Box Detection Object Bounding
Box Detection from LiDAR, (August).
8. Feng, D., Rosenbaum, L.,Timm, F., & Dietmayer, K. (2018). Leveraging
Heteroscedastic Aleatoric Uncertainties for Robust Real-Time
LiDAR 3D Object Detection.ArXiv, arXiv:1809.
9. Yun, P.,Tai, L.,Wang,Y., & Liu, M. (2018). Focal Loss in 3D Object
Detection.ArXiv, arXiv:1809.
10. Feng, D., Rosenbaum, L., & Dietmayer, K. (2018).Towards Safe
Autonomous Driving: Capture Uncertainty in the Deep Neural
Network For Lidar 3DVehicle Detection. International Conference
on IntelligentTransportation Systems (ITSC).
紹介しきれなかった研究(3/3)
11. Minemura, K., Liau, H., Monrroy,A., & Kato, S. (2018). LMNet : Real-
time Multiclass Object Detection on CPU using 3D LiDAR. In 3rd
Asia-Pacific Conference on Intelligent Robot Systems (ACIRS).
12. Gustafsson, F., & Linder-Norén, E. (2018). Automotive 3D Object
DetectionWithoutTarget Domain Annotations. Linköping University.
13. Zeng,Y., Hu,Y., Liu, S.,Ye, J., Han,Y., Li, X., & Sun, N. (2018). RT3D:
Real-Time 3DVehicle Detection in LiDAR Point Cloud for
Autonomous Driving. IEEE Robotics and Automation Letters, 3766(c),
14. Beltr, J., Guindel, C., Moreno, F. M., Cruzado, D., Garc, F., & Escalera,
A. De. (2018). BirdNet : a 3D Object Detection Framework from
LiDAR information. ArXiv, arXiv:1805.
15. Wirges, S., Fischer,T., & Stiller, C. (2018). Object Detection and
Classification in Occupancy Grid Maps using Deep Convolutional
Networks. ArXiv, arXiv:1805.

20181130 lidar object detection survey

  • 1.
  • 2.
    自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわたくや) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) お問い合わせ:http://visitlab.jp
  • 3.
    この資料について  この資料は主にLiDARを用いて道路上の物体(車、人、自転 車など)を検出する技術について調査した結果をまとめたもの です。  LiDARを用いた物体検出は歴史も古く、論文数も多いため、主 に以下の観点で選定した研究を紹介します。 DeepLearning登場以降の比較的新しいアプローチ 有名会議/論文誌で発表されたもの 引用数が多いもの ユニークなアプローチ KITTIベンチマークで好成績  LiDARとカメラ<両方>を使用した物体検出については以下 の資料を参考にしてください。 https://www.slideshare.net/takmin/object-detection-with-lidarcamera- fusion-survey-updated
  • 4.
  • 5.
    Voxelベースの手法 (1/2)  [Maturana2015]Maturana,D., & Scherer, S. (2015).VoxNet: A 3D Covolutional Neural Network for Real-Time Object Recognition. In International Conference on Intelligent Robots and Systems.  [Li2017]Li, B. (2017). 3D fully convolutional network for vehicle detection in point cloud. IEEE International Conference on Intelligent Robots and Systems  [Zeng2015]Zeng Wang, D., & Posner, I. (2015).Voting for Voting in Online Point Cloud Object Detection. Robotics: Science and Systems XI.
  • 6.
    Voxelベースの手法 (2/2)  [Engelcke2017]Engelcke,M., Rao, D.,Wang, D. Z.,Tong, C. H., & Posner, I. (2017).Vote3Deep: Fast object detection in 3D point clouds using efficient convolutional neural networks. IEEE International Conference on Robotics and Automation, (September),  [Zhou2018]Zhou,Y., & Tuzel, O. (2018).VoxelNet: End-to- End Learning for Point Cloud Based 3D Object Detection. In Conference on ComputerVision and Pattern Recognition.  [Yan2018]Yan,Y., Mao,Y., & Li, B. (2018). SECOND: Sparsely Embedded Convolutional Detection. Sensors, 18(10)
  • 7.
    [Maturana2015]VoxNet  LiDARおよびRGBD点群に対して 3D CNNを用いて物体検出を行う 手法を提案 入力は点群の中のセグメンテーション された物体部分、またはSlidingBox 点群をOccupancy Gridへ変換 2層の3D Convと1層のPooling、2層の Fully Connect層で物体識別 Sydney Urban Objects Dataset、 ModelNet、NYUv2など異なる種類の 物体を対象としたベンチマークで state-of-the-art  コード https://github.com/dimatura/voxnet
  • 8.
    [Zeng2015]Voting for Voting(1/2)  入力点群(+反射率)を Voxel化し、3D Sliding Windowで物体検出  各VoxelごとにHand-Crafted 特徴量(Grid内に点が存在 するか、反射率平均、反射 率分散、3種のShape Factor* の計6種)を算出し、Sliding Window内でそれらを結合し、 線形SVMで判別  N個の向きに対して演算 入力点群 Voxel化 Voxel特徴ベクトル 3D Sliding Window *C.-F.Westin, S. Peled, H. Gudbjartsson, R. Kikinis, and F. A. Jolesz,“Geometrical Diffusion Measures for MRI fromTensor Basis Analysis,” in ISMRM ’97,Vancouver Canada,April 1997, p. 1742.
  • 9.
    [Zeng2015]Voting for Voting(2/2)  SlidingWindow + 線形SVMは畳み込み演算とみなせ、入 力が疎な場合、投票で高速処理 a. 赤、緑、水色の個所にのみ点群が存在する場合、Window のアンカー(青)上のスコアはこれらの重み付き線形和であ らわされる b. データの存在する個所(赤)は青位置のアンカーに投票する
  • 10.
    [Engelcke2017]Vote3Deep  Voting forVoting[Zeng2015]のSVMを最大3層のCNNに 置き換え、疎な入力に対して投票による畳み込み演算を 行う 畳み込みによって上位の層にいくほど疎性は失われる が、それをReLUによって閾値処理することで抑える  損失関数はL1正則化によるヒンジ損失を使用し、フィル タも疎となるように学習
  • 11.
    [Li2017]3D FCN  FullyConvolutional Network (FCN)を3次元に拡張し、 End-to-endで物体検出を行う手法を提案  シーン全体を表す点群をVolumetric Gridに変換し、3D CNNを用いてObject Proposalと3D Bounding Box算出す ることで、性能を大幅に向上
  • 12.
    [Zhou2018]VoxelNet (1/2)  Voxelに分割してVoxelごとに特徴ベクトルを算出し、Region ProposalNetworkにより物体検出  End-to-Endで学習  疎なVoxel表現を効率的に演算 Voxel分割 最大T個ま で減らす 点ごとに特徴 ベクトル算出 Voxel特徴ベ クトル算出 3次元畳み 込み Bounding Box検出
  • 13.
    [Zhou2018]VoxelNet (2/2)  VoxelFeature Encoding Layer Voxel内の点をランダムサンプリングで最大T個まで減らす 各Voxel内の重心を算出し、各点を絶対座標と重心からの相 対座標、およびReflectanceの7つの値で表現 各点をFully Connected層で特徴抽出し、Voxel内でMax Pooling した特徴を結合 点ごと、Voxelごとに特徴量を求めるため並列計算可能
  • 14.
    [Yan2018]SECOND (1/2)  Voxelベースの物体検出の欠点であった、低速性と向きの精度の低 さを改善 VoxelNet[Zhou2018]と同様の方法でVoxelごとに特徴量を算出し、 Sparse Conv Layersにより疎なデータから高速に特徴マップを算出  RPNにより物体の識別、Bounding Boxの位置とサイズ、向きを算出 向きの学習にSine-Error Lossを使用  コード: https://github.com/traveller59/second.pytorch
  • 15.
    [Yan2018]SECOND (2/2) Sparse ConvLayer  疎な入力から密な入力を作成し、カーネルの要素との積を算 出後、再度疎な出力へ展開  疎密間変換ルール(テーブル)を別途作成
  • 16.
    [Yan2018]SECOND (2/2) Sparse ConvLayer  疎な入力から密な入力を作成し、カーネルの要素との積を算 出後、再度疎な出力へ展開  疎密間変換ルール(テーブル)を別途作成 Voxel座標 Kernel要素0にお ける入力Indexと 出力座標 Kernel要素1にお ける入力Indexと 出力座標 ユニークな出力 座標に対しIndex を付与 Kernel要素、入 力Index、出力 Indexの表
  • 17.
    Bird’s Eye Viewベースの手法 [Yang2018]Yang, B., Luo,W., & Urtasun, R. (2018). PIXOR: Real-time 3D Object Detection from Point Clouds. In IEEE conference on ComputerVision and Pattern Recognition  [Luo2018]Luo,W.,Yang, B., & Urtasun, R. (2018). Fast and Furious: Real Time End-to-End 3D Detection,Tracking and Motion Forecasting with a Single Convolutional Net. In Conference on ComputerVision and Pattern Recognition.  [Ren2018]Ren, M., Pokrovsky,A.,Yang, B., & Urtasun, R. (2018). SBNet: Sparse Blocks Network for Fast Inference. In IEEE Conference on ComputerVision and Pattern Recognition (pp. 8711–8720).  [Yang2018_2]Yang, B., Liang, M., & Urtasun, R. (2018). HDNET : Exploiting HD Maps for 3D Object Detection. In Conference on Robot Learning (pp. 1–10).  [Simon2018]Simon, M., Milz, S.,Amende, K., & Gross, H. (2018). Complex-YOLO:An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds.ArXiv, arXiv:1803.
  • 18.
    [Yang2018]PIXOR  10fpsで動作可能なBird’s EyeView物体検出手法(Titan Xp+ CPU)  入力LiDAR点群を地面と平行にスライス(23枚)したもの を画像のチャネルとみたててCNNへの入力とする  Fully Convolutional Networkにより、各場所における車 両の有無、サイズ、および向きを出力
  • 19.
    [Luo2018]Fast and Furious(1/3)  物体検出、追跡、予測を1つのネットワークで実現 1フレーム30msで処理(Titan XP Server) SSD、SqueezeNet、MobileNetと比較し、SOTA 現在と過去n枚のフレーム情 報から現在と未来nフレームの Bounding Boxを推定 各フレーム群から求めた予 測を統合してTracklet生成
  • 20.
    [Luo2018]Fast and Furious(2/3)  点群をVoxel化し、地面と平行にスライ スして各スライスをチャネルとみなすこ とで、通常の2D CNNで処理  現在と過去計n枚のフレーム情報を統合して特徴マップ を生成する方法として、Early Fusion(高速省メモリ)と Later Fusion(高精度)の2つを検証。 畳み込み カーネル
  • 21.
    [Luo2018]Fast and Furious(3/3)  Early FusionまたはLater Fusionで生成した特徴マップから、 現在と未来nフレームの物体のBounding Boxを推定 SSDと同じ要領で、あらかじめ定義した複数のaspect ratioの Bounding Boxのスコアを各位置で算出 車両の向きをRegressionで推定  過去のフレームから予測した現在のフレームの物体位置 と現在のフレームから予測した物体位置のオーバーラッ プがある場合、同じ物体と判断しTracklet生成
  • 22.
  • 23.
    [Yang2018_2] HDNET (1/2) 自動運転では地図情報(HD Map)の利用が想定されるた め、地図を前提知識として利用することで物体検出の性 能を向上させる 入力は点群(a) 地図情報を用いて坂道などを補正(b) Voxel化し、地面から垂直方向(Z方向)はチャネルとみなすこ とで2D CNNで扱えるようにする(c) 物体検出時に地図上の道路領域を事前知識として使用(d)  KITTI BEV Car detectionで1位(発表時)
  • 24.
    [Yang2018_2] HDNET (2/2) 地図の利用が不可能な個所ではLiDARデータから地面 の高さと道路領域をそれぞれCNNで推定して利用  Detection Networkが道路領域に対して過学習するのを 防ぐため、学習時にランダムで道路領域を空にする
  • 25.
    [Simon2018]Complex-YOLO  YOLOv2を3Dに拡張し、50fps(TitanX)で動作  点群をBird’sEyeViewへ投影し、Height, Intensity, Density (RGB)画像 を作成し、Yoloへの入力とする  Yoloで作成した特徴マップをE-RPN層へ入力し、各グリッドごとに5つ の物体カテゴリそれぞれのProbability、位置、Bounding Boxサイズ、 向きを推定する  コード https://github.com/AI-liu/Complex-YOLO
  • 26.
    その他の手法  [Li2016]Li, B.,Zhang,T., & Xia,T. (2016).Vehicle Detection from 3D Lidar Using Fully Convolutional Network. Robotics Science and Systems.  [Kunisada2018]Kunisada,Y.,Yamashita,T., & Fujiyoshi, H. (2018). Pedestrian-Detection Method based on 1D-CNN during LiDAR Rotation. In International Conference on IntelligentTransportation Systems (ITSC).
  • 27.
    [Li2016]VeloFCN  点群をシリンダー形状へ投影し、深度dと高さhの2チャネ ルの画像を入力とする(point map) Fully Convolutional Network (FCN)によりダウンサンプ ルとアップサンプルを行い、point mapに対応する各位置 におけるObjectnessと3D Bounding Boxを推定
  • 28.
    [Kunisada2018]1D-CNN during LiDAR rotation 全方位LiDARの回転から得られる各レーザーの距離情報を1次元 の波形として扱い、1次元CNNによってレーザーごとに歩行者検出  歩行者とラベル付けされた点群をクラスタリングして歩行者領域検 出  LiDARから点群全体を生成せず、直接レーザーから、高速に検出可 能
  • 29.
    実験と評価  ここで紹介した各論文についてKITTI Benchmark上で評 価された結果を記載します。 http://www.cvlibs.net/datasets/kitti 評価は3D、2D、Bird’sEyeViewそれぞれの物体検出タスクに ついて行いました。  比較のために、カメラとLiDAR両方を使用した物体検出 手法であるF-PointNet*の結果も記載しました。  ここで紹介できなかった研究についても、上記サイトに記 載があり、かつ論文が入手可能なものについては記載し ました。 番号の降られた手法が紹介しきれなった研究にあたります ベンチマーク中の巻末の「紹介しきれなかった研究」の番号と 対応してます *Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and Pattern Recognition.
  • 30.
    KITTI 3D ObjectDetection Evaluation  ここで紹介した各研究および論文が公開されている手法 についてKITTI 3D Object Detection Evaluation上での性 能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm ark=3d  上記サイトに性能の記載のないものは論文での実験結 果を参照しました。  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 31.
    KITTI 3D ObjectDetection Evaluation  Car Method Moderate Easy Hard Runtime Environment SECOND 73.66 % 83.13 % 66.20 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) F-PointNet* 70.39 % 81.20 % 62.19 % 0.17 s GPU @ 3.0 Ghz (Python) VoxelNet 65.11% 77.47% 57.73% 225ms Titan X GPU + 1.7Ghz CPU Complex-YOLO 64.00 % 67.72 % 63.01 % 19.84 ms Titan X GPU A3DODWTDA[12] 56.81 % 59.35 % 50.51 % 0.08 s GPU @ 3.0 Ghz (Python) MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) BirdNet[14] 13.44 % 14.75 % 12.04 % 0.11 s Titan Xp GPU TopNet-HighRes[15] 12.58 % 15.29 % 12.25 % 101ms NVIDIA GeForce 1080 Ti (tensorflow- gpu)
  • 32.
    KITTI 3D ObjectDetection Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet* 44.89 % 51.21 % 40.23 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 42.56 % 51.07 % 37.29 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) Complex-YOLO 39.70 % 41.79 % 35.92 % 19.84 ms Titan X GPU VoxelNet 33.69 % 39.48 % 31.51 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 11.80 % 14.31 % 10.55 % 0.11 s Titan Xp GPU TopNet-HighRes[15] 9.66 % 13.45 % 9.64 % 101ms NVIDIA GeForce 1080 Ti (tensorflow- gpu)
  • 33.
    KITTI 3D ObjectDetection Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment F-PointNet* 56.77 % 71.96 % 50.39 % 0.17 s GPU @ 3.0 Ghz (Python) Complex-YOLO 58.32 % 68.17 % 54.30 % 19.84 ms Titan X GPU SECOND 53.85 % 70.51 % 46.90 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) VoxelNet 48.36 % 61.22 % 44.37 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 12.43 % 18.35 % 11.88 % 0.11 s Titan Xp GPU TopNet-HighRes[15] 5.98 % 4.48 % 6.18 % 101ms NVIDIA GeForce 1080 Ti (tensorflow- gpu)
  • 34.
    KITTI Object Detection2012 Evaluation  ここで紹介した各研究および論文が公開されている手法 についてKITTI Object Detection 2012 Evaluation上での 性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm ark=2d  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 35.
    KITTI Object Detection2012 Evaluation  Car Method Moderate Easy Hard Runtime Environment F-PointNet* 90.00 % 90.78 % 80.80 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 88.40 % 90.40 % 80.21 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) 3D FCN 75.83 % 85.54 % 68.30 % >5 s 1 core @ 2.5 Ghz (C/C++) A3DODWTCA [12] 74.71 % 78.21 % 66.70 % 0.08 s GPU @ 3.0 Ghz (Python) Vote3Deep 68.39 % 76.95 % 63.22 % 1.5s 4 core @ 2.5 Ghz BirdNet[14] 57.47 % 78.18 % 56.66 % 0.11 s Titan Xp GPU VeloFCN 53.45 % 70.68 % 46.90 % 1 s GPU @ 2.5 Ghz (Python + C/C++) TopNet- HighRes[15] 48.87 % 59.77 % 43.15 % 101ms NVIDIA GeForce 1080 Ti (tensorflow-gpu) Voting forVoting 48.05 % 56.66 % 42.64 % 0.5s 4 core @ 2.8 Ghz
  • 36.
    KITTI Object Detection2012 Evaluation  Car (続き) Method Moderate Easy Hard Runtime Environment RT3D[13] 39.71 % 49.96 % 41.47 % 0.09 s GPU @ 1.8Ghz mBoW[5] 23.76 % 37.63 % 18.44 % 10 s 1 core @ 2.5 Ghz (C/C++) DepthCN[6] 23.21 % 37.59 % 18.00 % 2.3 s GPU @ 3.5 Ghz (Matlab) TopNet- DecayRate[15] 0.04 % 0.04 % 0.04 % 92 ms NVIDIA GeForce 1080 Ti (tensorflow-gpu)
  • 37.
    KITTI Object Detection2012 Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet* 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 55.74 % 65.73 % 49.08 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) Vote3Deep 55.38 % 67.94 % 52.62 % 1.5 s 4 cores @ 2.5 Ghz (C/C++) Vote forVoting 35.74 % 44.47 % 33.72 % 0.5 s 4 cores @ 2.8 Ghz (C/C++) mBoW[5] 31.37 % 44.36 % 30.62 % 10 s 1 core @ 2.5 Ghz (C/C++) BirdNet[14] 30.90 % 36.83 % 29.93 % 0.11 s Titan Xp GPU TopNet- HighRes[15] 17.57 % 22.98 % 17.35 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- DecayRate[15] 0.04 % 0.02 % 0.05 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu)
  • 38.
    KITTI Object Detection2012 Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment F-PointNet* 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python) Vote3Deep 67.96 % 76.49 % 62.88 % 1.5 s 4 cores @ 2.5 Ghz (C/C++) SECOND 58.94 % 81.96 % 57.20 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) BirdNet[14] 49.04 % 64.88 % 46.61 % 0.11 s Titan Xp GPU Vote forVoting 31.24 % 41.45 % 28.60 % 0.5 s 4 cores @ 2.8 Ghz (C/C++) mBoW[5] 21.62 % 28.19 % 20.93 % 10 s 1 core @ 2.5 Ghz (C/C++) TopNet- HighRes[15] 19.15 % 29.34 % 19.69 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- DecayRate[15] 1.01 % 0.04 % 1.01 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu)
  • 39.
    KITTI Bird’s EyeView Evaluation 2017  ここで紹介した各研究および論文が公開されている手法 についてKITTI Bird’s EyeView Evaluation 2017上での性 能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm ark=bev  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 40.
    KITTI Bird’s EyeView Evaluation 2017  Car Method Moderate Easy Hard Runtime Environment HDNET 86.57 % 89.14 % 78.32 % 0.05 s GPU @ 2.5 Ghz (Python) F-PointNet* 84.00 % 88.70 % 75.33 % 0.17 s GPU @ 3.0 Ghz (Python) PIXOR++ 83.70 % 89.38 % 77.97 % 0.035 s GPU @ 2.5 Ghz (Python) SECOND 79.37 % 88.07 % 77.95 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) VoxelNet 79.26 % 89.35 % 77.39 % 225ms Titan X GPU + 1.7Ghz CPU Complex-YOLO 77.40 % 85.89 % 77.33 % 19.84 ms Titan X GPU PIXOR 77.05 % 81.70 % 72.95 % 0.035 s TITAN Xp (Python) MV3D(LiDAR) 77.00 % 85.82 % 68.94 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) A3DODWTCA [12] 72.86 % 76.65 % 64.51 % 0.08 s GPU @ 3.0 Ghz (Python)
  • 41.
    KITTI Bird’s EyeView Evaluation 2017  Car (続き) Method Moderate Easy Hard Runtime Environment TopNet- DecayRate[15] 64.12 % 79.76 % 56.48 % 92 ms NVIDIA GeForce 1080 Ti (tensorflow-gpu) 3D FCN 62.54 % 69.94 % 55.94 % >5 s 1 core @ 2.5 Ghz (C/C++) TopNet- HighRes[15] 53.71 % 67.53 % 46.54 % 101ms NVIDIA GeForce 1080 Ti (tensorflow-gpu) BirdNet[14] 50.81 % 75.52 % 50.00 % 0.11 s Titan Xp GPU RT3D[13] 42.10 % 54.68 % 44.05 % 0.09 s GPU @ 1.8Ghz VeloFCN 0.33 % 0.15 % 0.47 % 1 s GPU @ 2.5 Ghz (Python + C/C++) mBoW[5] 0.00 % 0.00 % 0.00 % 10 s 1 core @ 2.5 Ghz (C/C++)
  • 42.
    KITTI Bird’s EyeView Evaluation 2017  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet* 50.22 % 58.09 % 47.20 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 46.27 % 55.10 % 44.76 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) Complex-YOLO 45.90 % 46.08 % 44.20 % 19.84 ms Titan X GPU VoxelNet 40.74 % 46.13 % 38.11 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 21.35 % 26.07 % 19.96 % 0.11 s Titan Xp GPU TopNet- HighRes[15] 19.08 % 24.30 % 18.46 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- DecayRate[15] 12.59 % 15.09 % 12.23 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu) mBoW[5] 0.01 % 0.01 % 0.01 % 10 s 1 core @ 2.5 Ghz (C/C++)
  • 43.
    KITTI Bird’s EyeView Evaluation 2017  Cyclist Method Moderate Easy Hard Runtime Environment Complex-YOLO 63.36 % 72.37 % 60.27 % 19.84 ms Titan X GPU F-PointNet* 61.96 % 75.38 % 54.68 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 56.04 % 73.67 % 48.78 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) VoxelNet 54.76 % 66.70 % 50.55 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 27.18 % 38.93 % 25.51 % 0.11 s Titan Xp GPU TopNet- DecayRate[15] 19.92 % 28.06 % 19.13 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- HighRes[15] 12.45 % 15.70 % 12.76 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) mBoW[5] 0.00 % 0.00 % 0.00 % 10 s 1 core @ 2.5 Ghz (C/C++)
  • 44.
    まとめ  LiDARを用いて道路上の物体検出を行う手法について、主に Deep Learningを用いた研究について調査しました。 物体検出タスクは大きく点群をVoxel化して、三次元の畳み込 みを行う手法と、点群をBird’s EyeViewへ投影し、二次元の畳 み込みを行う手法に分けられます。  また、点群をシリンダ上へ投影し、画像とみなして処理する手 法や、LiDARのスイープデータをそのまま1次元畳み込みで使 用する研究も紹介しました。  Voxel上で畳み込みを行う場合、メモリ使用量が膨大となるた め、疎なデータの計算を工夫する必要があります。  Bird’s EyeView上で処理するケースでは既存の2D物体検出手 法を応用することで、高精度や高速性を実現しています。  LiDARからの物体検出の研究は特に今年から大幅に増えまし た。
  • 45.
    紹介しきれなかった研究(1/3) 1. Spinello, L.,Arras,K. O.,Triebel, R., & Siegward, R. (2010).A Layered Approach to People Detection in 3D Range Data. In AAAI Conference on Artificial Intelligence (pp. 1635-1630). 2. Teichman,A., & Thrun, S. (2011).Tracking-based semi-supervised learning. In Robotics: Science and Systems. 3. Teichman,A., Levinson, J., & Thrun, S. (2011).Towards 3D object recognition via classification of arbitrary object tracks. Proceedings - IEEE International Conference on Robotics and Automation, 4034-4041. 4. Wang, D. Z., Posner, I., & Newman, P. (2012).What could move? Finding cars, pedestrians and bicyclists in 3D laser data. Proceedings - IEEE International Conference on Robotics and Automation, 4038-4044. 5. Behley, J., Steinhage,V., & Cremers,A. B. (2013). Laser-based Segment Classification Using a Mixture of Bag-of-Words. In International Conference on Intelligent Robots and Systems.
  • 46.
    紹介しきれなかった研究(2/3) 6. Asvadi,A., Garrote,L., Premebida, C., Peixoto, P., & Nunes, U. J. (2017). DepthCN :Vehicle Detection Using 3D-LIDAR and ConvNet. In International Conference on IntelligentTransportation Systems (ITSC). 7. Zidan, M. I., & Sallab,A.A.Al. (2018).YOLO3D : End-to-end real-time 3D Oriented Object Bounding Box Detection Object Bounding Box Detection from LiDAR, (August). 8. Feng, D., Rosenbaum, L.,Timm, F., & Dietmayer, K. (2018). Leveraging Heteroscedastic Aleatoric Uncertainties for Robust Real-Time LiDAR 3D Object Detection.ArXiv, arXiv:1809. 9. Yun, P.,Tai, L.,Wang,Y., & Liu, M. (2018). Focal Loss in 3D Object Detection.ArXiv, arXiv:1809. 10. Feng, D., Rosenbaum, L., & Dietmayer, K. (2018).Towards Safe Autonomous Driving: Capture Uncertainty in the Deep Neural Network For Lidar 3DVehicle Detection. International Conference on IntelligentTransportation Systems (ITSC).
  • 47.
    紹介しきれなかった研究(3/3) 11. Minemura, K.,Liau, H., Monrroy,A., & Kato, S. (2018). LMNet : Real- time Multiclass Object Detection on CPU using 3D LiDAR. In 3rd Asia-Pacific Conference on Intelligent Robot Systems (ACIRS). 12. Gustafsson, F., & Linder-Norén, E. (2018). Automotive 3D Object DetectionWithoutTarget Domain Annotations. Linköping University. 13. Zeng,Y., Hu,Y., Liu, S.,Ye, J., Han,Y., Li, X., & Sun, N. (2018). RT3D: Real-Time 3DVehicle Detection in LiDAR Point Cloud for Autonomous Driving. IEEE Robotics and Automation Letters, 3766(c), 14. Beltr, J., Guindel, C., Moreno, F. M., Cruzado, D., Garc, F., & Escalera, A. De. (2018). BirdNet : a 3D Object Detection Framework from LiDAR information. ArXiv, arXiv:1805. 15. Wirges, S., Fischer,T., & Stiller, C. (2018). Object Detection and Classification in Occupancy Grid Maps using Deep Convolutional Networks. ArXiv, arXiv:1805.