SlideShare a Scribd company logo
LiDARによる道路上の物体検出サーベイ
2018年11月30日
takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
お問い合わせ:http://visitlab.jp
この資料について
 この資料は主にLiDARを用いて道路上の物体(車、人、自転
車など)を検出する技術について調査した結果をまとめたもの
です。
 LiDARを用いた物体検出は歴史も古く、論文数も多いため、主
に以下の観点で選定した研究を紹介します。
Deep Learning登場以降の比較的新しいアプローチ
有名会議/論文誌で発表されたもの
引用数が多いもの
ユニークなアプローチ
KITTIベンチマークで好成績
 LiDARとカメラ<両方>を使用した物体検出については以下
の資料を参考にしてください。
https://www.slideshare.net/takmin/object-detection-with-lidarcamera-
fusion-survey-updated
LiDARを用いた物体検出
 今回調査したLiDARを用いた物体検出は、以下のように
分類できます。
Voxelベースの手法
画像上へ点群を投影して扱う手法
Bird’s EyeViewベースの手法
シリンダーベースの手法
LiDARの信号をそのまま使う手法
Voxelベースの手法 (1/2)
 [Maturana2015]Maturana, D., & Scherer, S. (2015).VoxNet:
A 3D Covolutional Neural Network for Real-Time Object
Recognition. In International Conference on Intelligent Robots
and Systems.
 [Li2017]Li, B. (2017). 3D fully convolutional network for
vehicle detection in point cloud. IEEE International
Conference on Intelligent Robots and Systems
 [Zeng2015]Zeng Wang, D., & Posner, I. (2015).Voting for
Voting in Online Point Cloud Object Detection. Robotics:
Science and Systems XI.
Voxelベースの手法 (2/2)
 [Engelcke2017]Engelcke, M., Rao, D.,Wang, D. Z.,Tong, C.
H., & Posner, I. (2017).Vote3Deep: Fast object detection in
3D point clouds using efficient convolutional neural
networks. IEEE International Conference on Robotics and
Automation, (September),
 [Zhou2018]Zhou,Y., & Tuzel, O. (2018).VoxelNet: End-to-
End Learning for Point Cloud Based 3D Object Detection.
In Conference on ComputerVision and Pattern Recognition.
 [Yan2018]Yan,Y., Mao,Y., & Li, B. (2018). SECOND: Sparsely
Embedded Convolutional Detection. Sensors, 18(10)
[Maturana2015]VoxNet
 LiDARおよびRGBD点群に対して
3D CNNを用いて物体検出を行う
手法を提案
入力は点群の中のセグメンテーション
された物体部分、またはSliding Box
点群をOccupancy Gridへ変換
2層の3D Convと1層のPooling、2層の
Fully Connect層で物体識別
Sydney Urban Objects Dataset、
ModelNet、NYUv2など異なる種類の
物体を対象としたベンチマークで
state-of-the-art
 コード
https://github.com/dimatura/voxnet
[Zeng2015]Voting for Voting (1/2)
 入力点群(+反射率)を
Voxel化し、3D Sliding
Windowで物体検出
 各VoxelごとにHand-Crafted
特徴量(Grid内に点が存在
するか、反射率平均、反射
率分散、3種のShape Factor*
の計6種)を算出し、Sliding
Window内でそれらを結合し、
線形SVMで判別
 N個の向きに対して演算
入力点群 Voxel化
Voxel特徴ベクトル
3D Sliding Window
*C.-F.Westin, S. Peled, H. Gudbjartsson, R. Kikinis, and F.
A. Jolesz,“Geometrical Diffusion Measures for MRI
fromTensor Basis Analysis,” in ISMRM ’97,Vancouver
Canada,April 1997, p. 1742.
[Zeng2015]Voting for Voting (2/2)
 SlidingWindow + 線形SVMは畳み込み演算とみなせ、入
力が疎な場合、投票で高速処理
a. 赤、緑、水色の個所にのみ点群が存在する場合、Window
のアンカー(青)上のスコアはこれらの重み付き線形和であ
らわされる
b. データの存在する個所(赤)は青位置のアンカーに投票する
[Engelcke2017]Vote3Deep
 Voting forVoting[Zeng2015]のSVMを最大3層のCNNに
置き換え、疎な入力に対して投票による畳み込み演算を
行う
 畳み込みによって上位の層にいくほど疎性は失われる
が、それをReLUによって閾値処理することで抑える
 損失関数はL1正則化によるヒンジ損失を使用し、フィル
タも疎となるように学習
[Li2017]3D FCN
 Fully Convolutional Network (FCN)を3次元に拡張し、
End-to-endで物体検出を行う手法を提案
 シーン全体を表す点群をVolumetric Gridに変換し、3D
CNNを用いてObject Proposalと3D Bounding Box算出す
ることで、性能を大幅に向上
[Zhou2018]VoxelNet (1/2)
 Voxelに分割してVoxelごとに特徴ベクトルを算出し、Region
Proposal Networkにより物体検出
 End-to-Endで学習
 疎なVoxel表現を効率的に演算
Voxel分割 最大T個ま
で減らす 点ごとに特徴
ベクトル算出
Voxel特徴ベ
クトル算出
3次元畳み
込み
Bounding
Box検出
[Zhou2018]VoxelNet (2/2)
 Voxel Feature Encoding Layer
Voxel内の点をランダムサンプリングで最大T個まで減らす
各Voxel内の重心を算出し、各点を絶対座標と重心からの相
対座標、およびReflectanceの7つの値で表現
各点をFully Connected層で特徴抽出し、Voxel内でMax Pooling
した特徴を結合
点ごと、Voxelごとに特徴量を求めるため並列計算可能
[Yan2018]SECOND (1/2)
 Voxelベースの物体検出の欠点であった、低速性と向きの精度の低
さを改善
 VoxelNet[Zhou2018]と同様の方法でVoxelごとに特徴量を算出し、
Sparse Conv Layersにより疎なデータから高速に特徴マップを算出
 RPNにより物体の識別、Bounding Boxの位置とサイズ、向きを算出
向きの学習にSine-Error Lossを使用
 コード:
https://github.com/traveller59/second.pytorch
[Yan2018]SECOND (2/2)
Sparse Conv Layer
 疎な入力から密な入力を作成し、カーネルの要素との積を算
出後、再度疎な出力へ展開
 疎密間変換ルール(テーブル)を別途作成
[Yan2018]SECOND (2/2)
Sparse Conv Layer
 疎な入力から密な入力を作成し、カーネルの要素との積を算
出後、再度疎な出力へ展開
 疎密間変換ルール(テーブル)を別途作成
Voxel座標
Kernel要素0にお
ける入力Indexと
出力座標
Kernel要素1にお
ける入力Indexと
出力座標
ユニークな出力
座標に対しIndex
を付与
Kernel要素、入
力Index、出力
Indexの表
Bird’s Eye Viewベースの手法
 [Yang2018]Yang, B., Luo,W., & Urtasun, R. (2018). PIXOR: Real-time
3D Object Detection from Point Clouds. In IEEE conference on
ComputerVision and Pattern Recognition
 [Luo2018]Luo,W.,Yang, B., & Urtasun, R. (2018). Fast and Furious: Real
Time End-to-End 3D Detection,Tracking and Motion Forecasting
with a Single Convolutional Net. In Conference on ComputerVision
and Pattern Recognition.
 [Ren2018]Ren, M., Pokrovsky,A.,Yang, B., & Urtasun, R. (2018). SBNet:
Sparse Blocks Network for Fast Inference. In IEEE Conference on
ComputerVision and Pattern Recognition (pp. 8711–8720).
 [Yang2018_2]Yang, B., Liang, M., & Urtasun, R. (2018). HDNET :
Exploiting HD Maps for 3D Object Detection. In Conference on Robot
Learning (pp. 1–10).
 [Simon2018]Simon, M., Milz, S.,Amende, K., & Gross, H. (2018).
Complex-YOLO:An Euler-Region-Proposal for Real-time 3D Object
Detection on Point Clouds.ArXiv, arXiv:1803.
[Yang2018]PIXOR
 10fpsで動作可能なBird’s EyeView物体検出手法(Titan
Xp + CPU)
 入力LiDAR点群を地面と平行にスライス(23枚)したもの
を画像のチャネルとみたててCNNへの入力とする
 Fully Convolutional Networkにより、各場所における車
両の有無、サイズ、および向きを出力
[Luo2018]Fast and Furious (1/3)
 物体検出、追跡、予測を1つのネットワークで実現
1フレーム30msで処理(Titan XP Server)
SSD、SqueezeNet、MobileNetと比較し、SOTA
現在と過去n枚のフレーム情
報から現在と未来nフレームの
Bounding Boxを推定
各フレーム群から求めた予
測を統合してTracklet生成
[Luo2018]Fast and Furious (2/3)
 点群をVoxel化し、地面と平行にスライ
スして各スライスをチャネルとみなすこ
とで、通常の2D CNNで処理
 現在と過去計n枚のフレーム情報を統合して特徴マップ
を生成する方法として、Early Fusion(高速省メモリ)と
Later Fusion(高精度)の2つを検証。
畳み込み
カーネル
[Luo2018]Fast and Furious (3/3)
 Early FusionまたはLater Fusionで生成した特徴マップから、
現在と未来nフレームの物体のBounding Boxを推定
SSDと同じ要領で、あらかじめ定義した複数のaspect ratioの
Bounding Boxのスコアを各位置で算出
車両の向きをRegressionで推定
 過去のフレームから予測した現在のフレームの物体位置
と現在のフレームから予測した物体位置のオーバーラッ
プがある場合、同じ物体と判断しTracklet生成
[Ren2018]SBNet
 疎なデータに対してマスクをかけることで畳み込み演算を高速化
マスクをブロックに分割し、ブロックをチャネルとして束ねて(Gather)、畳
み込み(Convolution)
出力テンソルの各対応チャネルを元の入力位置に戻す(Scatter)
 ATG4DやKITTI2017 BEVなどSparseなLiDARデータで有効性確認
 コード
https://github.com/uber/sbnet
[Yang2018_2] HDNET (1/2)
 自動運転では地図情報(HD Map)の利用が想定されるた
め、地図を前提知識として利用することで物体検出の性
能を向上させる
入力は点群(a)
地図情報を用いて坂道などを補正(b)
Voxel化し、地面から垂直方向(Z方向)はチャネルとみなすこ
とで2D CNNで扱えるようにする(c)
物体検出時に地図上の道路領域を事前知識として使用(d)
 KITTI BEV Car detectionで1位(発表時)
[Yang2018_2] HDNET (2/2)
 地図の利用が不可能な個所ではLiDARデータから地面
の高さと道路領域をそれぞれCNNで推定して利用
 Detection Networkが道路領域に対して過学習するのを
防ぐため、学習時にランダムで道路領域を空にする
[Simon2018]Complex-YOLO
 YOLOv2を3Dに拡張し、50fps(TitanX)で動作
 点群をBird’s EyeViewへ投影し、Height, Intensity, Density (RGB)画像
を作成し、Yoloへの入力とする
 Yoloで作成した特徴マップをE-RPN層へ入力し、各グリッドごとに5つ
の物体カテゴリそれぞれのProbability、位置、Bounding Boxサイズ、
向きを推定する
 コード
https://github.com/AI-liu/Complex-YOLO
その他の手法
 [Li2016]Li, B., Zhang,T., & Xia,T. (2016).Vehicle Detection
from 3D Lidar Using Fully Convolutional Network.
Robotics Science and Systems.
 [Kunisada2018]Kunisada,Y.,Yamashita,T., & Fujiyoshi, H.
(2018). Pedestrian-Detection Method based on 1D-CNN
during LiDAR Rotation. In International Conference on
IntelligentTransportation Systems (ITSC).
[Li2016]VeloFCN
 点群をシリンダー形状へ投影し、深度dと高さhの2チャネ
ルの画像を入力とする(point map)
 Fully Convolutional Network (FCN)によりダウンサンプ
ルとアップサンプルを行い、point mapに対応する各位置
におけるObjectnessと3D Bounding Boxを推定
[Kunisada2018]1D-CNN during LiDAR
rotation
 全方位LiDARの回転から得られる各レーザーの距離情報を1次元
の波形として扱い、1次元CNNによってレーザーごとに歩行者検出
 歩行者とラベル付けされた点群をクラスタリングして歩行者領域検
出
 LiDARから点群全体を生成せず、直接レーザーから、高速に検出可
能
実験と評価
 ここで紹介した各論文についてKITTI Benchmark上で評
価された結果を記載します。
http://www.cvlibs.net/datasets/kitti
評価は3D、2D、Bird’s EyeViewそれぞれの物体検出タスクに
ついて行いました。
 比較のために、カメラとLiDAR両方を使用した物体検出
手法であるF-PointNet*の結果も記載しました。
 ここで紹介できなかった研究についても、上記サイトに記
載があり、かつ論文が入手可能なものについては記載し
ました。
番号の降られた手法が紹介しきれなった研究にあたります
ベンチマーク中の巻末の「紹介しきれなかった研究」の番号と
対応してます
*Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data.
In Conference on ComputerVision and Pattern Recognition.
KITTI 3D Object Detection Evaluation
 ここで紹介した各研究および論文が公開されている手法
についてKITTI 3D Object Detection Evaluation上での性
能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm
ark=3d
 上記サイトに性能の記載のないものは論文での実験結
果を参照しました。
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI 3D Object Detection Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
SECOND 73.66 % 83.13 % 66.20 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
F-PointNet* 70.39 % 81.20 % 62.19 % 0.17 s
GPU @ 3.0 Ghz
(Python)
VoxelNet 65.11% 77.47% 57.73% 225ms
Titan X GPU +
1.7Ghz CPU
Complex-YOLO 64.00 % 67.72 % 63.01 % 19.84 ms Titan X GPU
A3DODWTDA[12] 56.81 % 59.35 % 50.51 % 0.08 s
GPU @ 3.0 Ghz
(Python)
MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
BirdNet[14] 13.44 % 14.75 % 12.04 % 0.11 s Titan Xp GPU
TopNet-HighRes[15] 12.58 % 15.29 % 12.25 % 101ms
NVIDIA GeForce
1080 Ti (tensorflow-
gpu)
KITTI 3D Object Detection Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet* 44.89 % 51.21 % 40.23 % 0.17 s
GPU @ 3.0 Ghz
(Python)
SECOND 42.56 % 51.07 % 37.29 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
Complex-YOLO 39.70 % 41.79 % 35.92 % 19.84 ms Titan X GPU
VoxelNet 33.69 % 39.48 % 31.51 % 225ms
Titan X GPU +
1.7Ghz CPU
BirdNet[14] 11.80 % 14.31 % 10.55 % 0.11 s Titan Xp GPU
TopNet-HighRes[15] 9.66 % 13.45 % 9.64 % 101ms
NVIDIA GeForce
1080 Ti (tensorflow-
gpu)
KITTI 3D Object Detection Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
F-PointNet* 56.77 % 71.96 % 50.39 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Complex-YOLO 58.32 % 68.17 % 54.30 % 19.84 ms Titan X GPU
SECOND 53.85 % 70.51 % 46.90 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
VoxelNet 48.36 % 61.22 % 44.37 % 225ms
Titan X GPU +
1.7Ghz CPU
BirdNet[14] 12.43 % 18.35 % 11.88 % 0.11 s Titan Xp GPU
TopNet-HighRes[15] 5.98 % 4.48 % 6.18 % 101ms
NVIDIA GeForce
1080 Ti (tensorflow-
gpu)
KITTI Object Detection 2012 Evaluation
 ここで紹介した各研究および論文が公開されている手法
についてKITTI Object Detection 2012 Evaluation上での
性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm
ark=2d
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Object Detection 2012 Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
F-PointNet* 90.00 % 90.78 % 80.80 % 0.17 s
GPU @ 3.0 Ghz
(Python)
SECOND 88.40 % 90.40 % 80.21 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
3D FCN 75.83 % 85.54 % 68.30 % >5 s
1 core @ 2.5 Ghz
(C/C++)
A3DODWTCA
[12]
74.71 % 78.21 % 66.70 % 0.08 s
GPU @ 3.0 Ghz
(Python)
Vote3Deep 68.39 % 76.95 % 63.22 % 1.5s 4 core @ 2.5 Ghz
BirdNet[14] 57.47 % 78.18 % 56.66 % 0.11 s Titan Xp GPU
VeloFCN 53.45 % 70.68 % 46.90 % 1 s
GPU @ 2.5 Ghz
(Python + C/C++)
TopNet-
HighRes[15]
48.87 % 59.77 % 43.15 % 101ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
Voting forVoting 48.05 % 56.66 % 42.64 % 0.5s 4 core @ 2.8 Ghz
KITTI Object Detection 2012 Evaluation
 Car (続き)
Method Moderate Easy Hard Runtime Environment
RT3D[13] 39.71 % 49.96 % 41.47 % 0.09 s GPU @ 1.8Ghz
mBoW[5] 23.76 % 37.63 % 18.44 % 10 s
1 core @ 2.5 Ghz
(C/C++)
DepthCN[6] 23.21 % 37.59 % 18.00 % 2.3 s
GPU @ 3.5 Ghz
(Matlab)
TopNet-
DecayRate[15]
0.04 % 0.04 % 0.04 % 92 ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
KITTI Object Detection 2012 Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet* 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python)
SECOND 55.74 % 65.73 % 49.08 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
Vote3Deep 55.38 % 67.94 % 52.62 % 1.5 s
4 cores @ 2.5 Ghz
(C/C++)
Vote forVoting 35.74 % 44.47 % 33.72 % 0.5 s
4 cores @ 2.8 Ghz
(C/C++)
mBoW[5] 31.37 % 44.36 % 30.62 % 10 s 1 core @ 2.5 Ghz (C/C++)
BirdNet[14] 30.90 % 36.83 % 29.93 % 0.11 s Titan Xp GPU
TopNet-
HighRes[15]
17.57 % 22.98 % 17.35 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
DecayRate[15]
0.04 % 0.02 % 0.05 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
KITTI Object Detection 2012 Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
F-PointNet* 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python)
Vote3Deep 67.96 % 76.49 % 62.88 % 1.5 s
4 cores @ 2.5 Ghz
(C/C++)
SECOND 58.94 % 81.96 % 57.20 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
BirdNet[14] 49.04 % 64.88 % 46.61 % 0.11 s Titan Xp GPU
Vote forVoting 31.24 % 41.45 % 28.60 % 0.5 s
4 cores @ 2.8 Ghz
(C/C++)
mBoW[5] 21.62 % 28.19 % 20.93 % 10 s 1 core @ 2.5 Ghz (C/C++)
TopNet-
HighRes[15]
19.15 % 29.34 % 19.69 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
DecayRate[15]
1.01 % 0.04 % 1.01 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
KITTI Bird’s Eye View Evaluation 2017
 ここで紹介した各研究および論文が公開されている手法
についてKITTI Bird’s EyeView Evaluation 2017上での性
能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm
ark=bev
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Bird’s Eye View Evaluation 2017
 Car
Method Moderate Easy Hard Runtime Environment
HDNET 86.57 % 89.14 % 78.32 % 0.05 s
GPU @ 2.5 Ghz
(Python)
F-PointNet* 84.00 % 88.70 % 75.33 % 0.17 s
GPU @ 3.0 Ghz
(Python)
PIXOR++ 83.70 % 89.38 % 77.97 % 0.035 s
GPU @ 2.5 Ghz
(Python)
SECOND 79.37 % 88.07 % 77.95 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
VoxelNet 79.26 % 89.35 % 77.39 % 225ms
Titan X GPU + 1.7Ghz
CPU
Complex-YOLO 77.40 % 85.89 % 77.33 % 19.84 ms Titan X GPU
PIXOR 77.05 % 81.70 % 72.95 % 0.035 s TITAN Xp (Python)
MV3D(LiDAR) 77.00 % 85.82 % 68.94 % 0.24 s
GPU @ 2.5 Ghz (Python +
C/C++)
A3DODWTCA
[12]
72.86 % 76.65 % 64.51 % 0.08 s
GPU @ 3.0 Ghz
(Python)
KITTI Bird’s Eye View Evaluation 2017
 Car (続き)
Method Moderate Easy Hard Runtime Environment
TopNet-
DecayRate[15]
64.12 % 79.76 % 56.48 % 92 ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
3D FCN 62.54 % 69.94 % 55.94 % >5 s
1 core @ 2.5 Ghz
(C/C++)
TopNet-
HighRes[15]
53.71 % 67.53 % 46.54 % 101ms
NVIDIA GeForce 1080
Ti (tensorflow-gpu)
BirdNet[14] 50.81 % 75.52 % 50.00 % 0.11 s Titan Xp GPU
RT3D[13] 42.10 % 54.68 % 44.05 % 0.09 s GPU @ 1.8Ghz
VeloFCN 0.33 % 0.15 % 0.47 % 1 s
GPU @ 2.5 Ghz
(Python + C/C++)
mBoW[5] 0.00 % 0.00 % 0.00 % 10 s
1 core @ 2.5 Ghz
(C/C++)
KITTI Bird’s Eye View Evaluation 2017
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet* 50.22 % 58.09 % 47.20 % 0.17 s GPU @ 3.0 Ghz (Python)
SECOND 46.27 % 55.10 % 44.76 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
Complex-YOLO 45.90 % 46.08 % 44.20 % 19.84 ms Titan X GPU
VoxelNet 40.74 % 46.13 % 38.11 % 225ms
Titan X GPU + 1.7Ghz
CPU
BirdNet[14] 21.35 % 26.07 % 19.96 % 0.11 s Titan Xp GPU
TopNet-
HighRes[15]
19.08 % 24.30 % 18.46 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
DecayRate[15]
12.59 % 15.09 % 12.23 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
mBoW[5] 0.01 % 0.01 % 0.01 % 10 s 1 core @ 2.5 Ghz (C/C++)
KITTI Bird’s Eye View Evaluation 2017
 Cyclist
Method Moderate Easy Hard Runtime Environment
Complex-YOLO 63.36 % 72.37 % 60.27 % 19.84 ms Titan X GPU
F-PointNet* 61.96 % 75.38 % 54.68 % 0.17 s GPU @ 3.0 Ghz (Python)
SECOND 56.04 % 73.67 % 48.78 % 0.05 s
4 cores @ 3.5 Ghz
(C/C++)
VoxelNet 54.76 % 66.70 % 50.55 % 225ms
Titan X GPU + 1.7Ghz
CPU
BirdNet[14] 27.18 % 38.93 % 25.51 % 0.11 s Titan Xp GPU
TopNet-
DecayRate[15]
19.92 % 28.06 % 19.13 % 92 ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
TopNet-
HighRes[15]
12.45 % 15.70 % 12.76 % 101ms
NVIDIA GeForce 1080Ti
(tensorflow-gpu)
mBoW[5] 0.00 % 0.00 % 0.00 % 10 s 1 core @ 2.5 Ghz (C/C++)
まとめ
 LiDARを用いて道路上の物体検出を行う手法について、主に
Deep Learningを用いた研究について調査しました。
 物体検出タスクは大きく点群をVoxel化して、三次元の畳み込
みを行う手法と、点群をBird’s EyeViewへ投影し、二次元の畳
み込みを行う手法に分けられます。
 また、点群をシリンダ上へ投影し、画像とみなして処理する手
法や、LiDARのスイープデータをそのまま1次元畳み込みで使
用する研究も紹介しました。
 Voxel上で畳み込みを行う場合、メモリ使用量が膨大となるた
め、疎なデータの計算を工夫する必要があります。
 Bird’s EyeView上で処理するケースでは既存の2D物体検出手
法を応用することで、高精度や高速性を実現しています。
 LiDARからの物体検出の研究は特に今年から大幅に増えまし
た。
紹介しきれなかった研究(1/3)
1. Spinello, L.,Arras, K. O.,Triebel, R., & Siegward, R. (2010).A Layered
Approach to People Detection in 3D Range Data. In AAAI
Conference on Artificial Intelligence (pp. 1635-1630).
2. Teichman,A., & Thrun, S. (2011).Tracking-based semi-supervised
learning. In Robotics: Science and Systems.
3. Teichman,A., Levinson, J., & Thrun, S. (2011).Towards 3D object
recognition via classification of arbitrary object tracks. Proceedings
- IEEE International Conference on Robotics and Automation,
4034-4041.
4. Wang, D. Z., Posner, I., & Newman, P. (2012).What could move?
Finding cars, pedestrians and bicyclists in 3D laser data. Proceedings
- IEEE International Conference on Robotics and Automation,
4038-4044.
5. Behley, J., Steinhage,V., & Cremers,A. B. (2013). Laser-based Segment
Classification Using a Mixture of Bag-of-Words. In International
Conference on Intelligent Robots and Systems.
紹介しきれなかった研究(2/3)
6. Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., & Nunes, U. J.
(2017). DepthCN :Vehicle Detection Using 3D-LIDAR and
ConvNet. In International Conference on IntelligentTransportation
Systems (ITSC).
7. Zidan, M. I., & Sallab,A.A.Al. (2018).YOLO3D : End-to-end real-time
3D Oriented Object Bounding Box Detection Object Bounding
Box Detection from LiDAR, (August).
8. Feng, D., Rosenbaum, L.,Timm, F., & Dietmayer, K. (2018). Leveraging
Heteroscedastic Aleatoric Uncertainties for Robust Real-Time
LiDAR 3D Object Detection.ArXiv, arXiv:1809.
9. Yun, P.,Tai, L.,Wang,Y., & Liu, M. (2018). Focal Loss in 3D Object
Detection.ArXiv, arXiv:1809.
10. Feng, D., Rosenbaum, L., & Dietmayer, K. (2018).Towards Safe
Autonomous Driving: Capture Uncertainty in the Deep Neural
Network For Lidar 3DVehicle Detection. International Conference
on IntelligentTransportation Systems (ITSC).
紹介しきれなかった研究(3/3)
11. Minemura, K., Liau, H., Monrroy,A., & Kato, S. (2018). LMNet : Real-
time Multiclass Object Detection on CPU using 3D LiDAR. In 3rd
Asia-Pacific Conference on Intelligent Robot Systems (ACIRS).
12. Gustafsson, F., & Linder-Norén, E. (2018). Automotive 3D Object
DetectionWithoutTarget Domain Annotations. Linköping University.
13. Zeng,Y., Hu,Y., Liu, S.,Ye, J., Han,Y., Li, X., & Sun, N. (2018). RT3D:
Real-Time 3DVehicle Detection in LiDAR Point Cloud for
Autonomous Driving. IEEE Robotics and Automation Letters, 3766(c),
14. Beltr, J., Guindel, C., Moreno, F. M., Cruzado, D., Garc, F., & Escalera,
A. De. (2018). BirdNet : a 3D Object Detection Framework from
LiDAR information. ArXiv, arXiv:1805.
15. Wirges, S., Fischer,T., & Stiller, C. (2018). Object Detection and
Classification in Occupancy Grid Maps using Deep Convolutional
Networks. ArXiv, arXiv:1805.

More Related Content

What's hot

確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
Kenta Tanaka
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリング
Norishige Fukushima
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
Takuya Minagawa
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
Yamato OKAMOTO
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
Toru Tamaki
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
 

What's hot (20)

確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリング
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 

Similar to 20181130 lidar object detection survey

object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
IoTセンシングの初歩から可視化まで
IoTセンシングの初歩から可視化までIoTセンシングの初歩から可視化まで
IoTセンシングの初歩から可視化まで
Nobuo Kawaguchi
 
Visual slam
Visual slamVisual slam
Visual slam
Takuya Minagawa
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
Brocade
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
Takuya Minagawa
 
Pruning filters for efficient conv nets
Pruning filters for efficient conv netsPruning filters for efficient conv nets
Pruning filters for efficient conv nets
Yamato OKAMOTO
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
Hirono Jumpei
 
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Daiyu Hatakeyama
 
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術
Keigo Suda
 
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ
Yuichiro MInato
 
【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有
【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有
【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有
Yuichi MAKI
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
Kohei Kojima
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Takuya Azumi
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
Takuya Minagawa
 
センサー&クラウドを体験しよう
センサー&クラウドを体験しようセンサー&クラウドを体験しよう
センサー&クラウドを体験しよう
Akira Hatsune
 
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピングLiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
Takuya Minagawa
 

Similar to 20181130 lidar object detection survey (20)

object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
IoTセンシングの初歩から可視化まで
IoTセンシングの初歩から可視化までIoTセンシングの初歩から可視化まで
IoTセンシングの初歩から可視化まで
 
Visual slam
Visual slamVisual slam
Visual slam
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
Pruning filters for efficient conv nets
Pruning filters for efficient conv netsPruning filters for efficient conv nets
Pruning filters for efficient conv nets
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
 
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
 
ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術ストリーム処理勉強会 大規模mqttを支える技術
ストリーム処理勉強会 大規模mqttを支える技術
 
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ
 
【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有
【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有
【初心者向け】WebRTCとボディソニックデバイスを使ったサイクリング体験のリアルタイム共有
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
センサー&クラウドを体験しよう
センサー&クラウドを体験しようセンサー&クラウドを体験しよう
センサー&クラウドを体験しよう
 
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピングLiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
 

More from Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
Takuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
Takuya Minagawa
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
Takuya Minagawa
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
Takuya Minagawa
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
Takuya Minagawa
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
Takuya Minagawa
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
 
Cvpr2017事前読み会
Cvpr2017事前読み会Cvpr2017事前読み会
Cvpr2017事前読み会
Takuya Minagawa
 

More from Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 
Cvpr2017事前読み会
Cvpr2017事前読み会Cvpr2017事前読み会
Cvpr2017事前読み会
 

Recently uploaded

論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 

Recently uploaded (13)

論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 

20181130 lidar object detection survey

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) お問い合わせ:http://visitlab.jp
  • 3. この資料について  この資料は主にLiDARを用いて道路上の物体(車、人、自転 車など)を検出する技術について調査した結果をまとめたもの です。  LiDARを用いた物体検出は歴史も古く、論文数も多いため、主 に以下の観点で選定した研究を紹介します。 Deep Learning登場以降の比較的新しいアプローチ 有名会議/論文誌で発表されたもの 引用数が多いもの ユニークなアプローチ KITTIベンチマークで好成績  LiDARとカメラ<両方>を使用した物体検出については以下 の資料を参考にしてください。 https://www.slideshare.net/takmin/object-detection-with-lidarcamera- fusion-survey-updated
  • 5. Voxelベースの手法 (1/2)  [Maturana2015]Maturana, D., & Scherer, S. (2015).VoxNet: A 3D Covolutional Neural Network for Real-Time Object Recognition. In International Conference on Intelligent Robots and Systems.  [Li2017]Li, B. (2017). 3D fully convolutional network for vehicle detection in point cloud. IEEE International Conference on Intelligent Robots and Systems  [Zeng2015]Zeng Wang, D., & Posner, I. (2015).Voting for Voting in Online Point Cloud Object Detection. Robotics: Science and Systems XI.
  • 6. Voxelベースの手法 (2/2)  [Engelcke2017]Engelcke, M., Rao, D.,Wang, D. Z.,Tong, C. H., & Posner, I. (2017).Vote3Deep: Fast object detection in 3D point clouds using efficient convolutional neural networks. IEEE International Conference on Robotics and Automation, (September),  [Zhou2018]Zhou,Y., & Tuzel, O. (2018).VoxelNet: End-to- End Learning for Point Cloud Based 3D Object Detection. In Conference on ComputerVision and Pattern Recognition.  [Yan2018]Yan,Y., Mao,Y., & Li, B. (2018). SECOND: Sparsely Embedded Convolutional Detection. Sensors, 18(10)
  • 7. [Maturana2015]VoxNet  LiDARおよびRGBD点群に対して 3D CNNを用いて物体検出を行う 手法を提案 入力は点群の中のセグメンテーション された物体部分、またはSliding Box 点群をOccupancy Gridへ変換 2層の3D Convと1層のPooling、2層の Fully Connect層で物体識別 Sydney Urban Objects Dataset、 ModelNet、NYUv2など異なる種類の 物体を対象としたベンチマークで state-of-the-art  コード https://github.com/dimatura/voxnet
  • 8. [Zeng2015]Voting for Voting (1/2)  入力点群(+反射率)を Voxel化し、3D Sliding Windowで物体検出  各VoxelごとにHand-Crafted 特徴量(Grid内に点が存在 するか、反射率平均、反射 率分散、3種のShape Factor* の計6種)を算出し、Sliding Window内でそれらを結合し、 線形SVMで判別  N個の向きに対して演算 入力点群 Voxel化 Voxel特徴ベクトル 3D Sliding Window *C.-F.Westin, S. Peled, H. Gudbjartsson, R. Kikinis, and F. A. Jolesz,“Geometrical Diffusion Measures for MRI fromTensor Basis Analysis,” in ISMRM ’97,Vancouver Canada,April 1997, p. 1742.
  • 9. [Zeng2015]Voting for Voting (2/2)  SlidingWindow + 線形SVMは畳み込み演算とみなせ、入 力が疎な場合、投票で高速処理 a. 赤、緑、水色の個所にのみ点群が存在する場合、Window のアンカー(青)上のスコアはこれらの重み付き線形和であ らわされる b. データの存在する個所(赤)は青位置のアンカーに投票する
  • 10. [Engelcke2017]Vote3Deep  Voting forVoting[Zeng2015]のSVMを最大3層のCNNに 置き換え、疎な入力に対して投票による畳み込み演算を 行う  畳み込みによって上位の層にいくほど疎性は失われる が、それをReLUによって閾値処理することで抑える  損失関数はL1正則化によるヒンジ損失を使用し、フィル タも疎となるように学習
  • 11. [Li2017]3D FCN  Fully Convolutional Network (FCN)を3次元に拡張し、 End-to-endで物体検出を行う手法を提案  シーン全体を表す点群をVolumetric Gridに変換し、3D CNNを用いてObject Proposalと3D Bounding Box算出す ることで、性能を大幅に向上
  • 12. [Zhou2018]VoxelNet (1/2)  Voxelに分割してVoxelごとに特徴ベクトルを算出し、Region Proposal Networkにより物体検出  End-to-Endで学習  疎なVoxel表現を効率的に演算 Voxel分割 最大T個ま で減らす 点ごとに特徴 ベクトル算出 Voxel特徴ベ クトル算出 3次元畳み 込み Bounding Box検出
  • 13. [Zhou2018]VoxelNet (2/2)  Voxel Feature Encoding Layer Voxel内の点をランダムサンプリングで最大T個まで減らす 各Voxel内の重心を算出し、各点を絶対座標と重心からの相 対座標、およびReflectanceの7つの値で表現 各点をFully Connected層で特徴抽出し、Voxel内でMax Pooling した特徴を結合 点ごと、Voxelごとに特徴量を求めるため並列計算可能
  • 14. [Yan2018]SECOND (1/2)  Voxelベースの物体検出の欠点であった、低速性と向きの精度の低 さを改善  VoxelNet[Zhou2018]と同様の方法でVoxelごとに特徴量を算出し、 Sparse Conv Layersにより疎なデータから高速に特徴マップを算出  RPNにより物体の識別、Bounding Boxの位置とサイズ、向きを算出 向きの学習にSine-Error Lossを使用  コード: https://github.com/traveller59/second.pytorch
  • 15. [Yan2018]SECOND (2/2) Sparse Conv Layer  疎な入力から密な入力を作成し、カーネルの要素との積を算 出後、再度疎な出力へ展開  疎密間変換ルール(テーブル)を別途作成
  • 16. [Yan2018]SECOND (2/2) Sparse Conv Layer  疎な入力から密な入力を作成し、カーネルの要素との積を算 出後、再度疎な出力へ展開  疎密間変換ルール(テーブル)を別途作成 Voxel座標 Kernel要素0にお ける入力Indexと 出力座標 Kernel要素1にお ける入力Indexと 出力座標 ユニークな出力 座標に対しIndex を付与 Kernel要素、入 力Index、出力 Indexの表
  • 17. Bird’s Eye Viewベースの手法  [Yang2018]Yang, B., Luo,W., & Urtasun, R. (2018). PIXOR: Real-time 3D Object Detection from Point Clouds. In IEEE conference on ComputerVision and Pattern Recognition  [Luo2018]Luo,W.,Yang, B., & Urtasun, R. (2018). Fast and Furious: Real Time End-to-End 3D Detection,Tracking and Motion Forecasting with a Single Convolutional Net. In Conference on ComputerVision and Pattern Recognition.  [Ren2018]Ren, M., Pokrovsky,A.,Yang, B., & Urtasun, R. (2018). SBNet: Sparse Blocks Network for Fast Inference. In IEEE Conference on ComputerVision and Pattern Recognition (pp. 8711–8720).  [Yang2018_2]Yang, B., Liang, M., & Urtasun, R. (2018). HDNET : Exploiting HD Maps for 3D Object Detection. In Conference on Robot Learning (pp. 1–10).  [Simon2018]Simon, M., Milz, S.,Amende, K., & Gross, H. (2018). Complex-YOLO:An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds.ArXiv, arXiv:1803.
  • 18. [Yang2018]PIXOR  10fpsで動作可能なBird’s EyeView物体検出手法(Titan Xp + CPU)  入力LiDAR点群を地面と平行にスライス(23枚)したもの を画像のチャネルとみたててCNNへの入力とする  Fully Convolutional Networkにより、各場所における車 両の有無、サイズ、および向きを出力
  • 19. [Luo2018]Fast and Furious (1/3)  物体検出、追跡、予測を1つのネットワークで実現 1フレーム30msで処理(Titan XP Server) SSD、SqueezeNet、MobileNetと比較し、SOTA 現在と過去n枚のフレーム情 報から現在と未来nフレームの Bounding Boxを推定 各フレーム群から求めた予 測を統合してTracklet生成
  • 20. [Luo2018]Fast and Furious (2/3)  点群をVoxel化し、地面と平行にスライ スして各スライスをチャネルとみなすこ とで、通常の2D CNNで処理  現在と過去計n枚のフレーム情報を統合して特徴マップ を生成する方法として、Early Fusion(高速省メモリ)と Later Fusion(高精度)の2つを検証。 畳み込み カーネル
  • 21. [Luo2018]Fast and Furious (3/3)  Early FusionまたはLater Fusionで生成した特徴マップから、 現在と未来nフレームの物体のBounding Boxを推定 SSDと同じ要領で、あらかじめ定義した複数のaspect ratioの Bounding Boxのスコアを各位置で算出 車両の向きをRegressionで推定  過去のフレームから予測した現在のフレームの物体位置 と現在のフレームから予測した物体位置のオーバーラッ プがある場合、同じ物体と判断しTracklet生成
  • 23. [Yang2018_2] HDNET (1/2)  自動運転では地図情報(HD Map)の利用が想定されるた め、地図を前提知識として利用することで物体検出の性 能を向上させる 入力は点群(a) 地図情報を用いて坂道などを補正(b) Voxel化し、地面から垂直方向(Z方向)はチャネルとみなすこ とで2D CNNで扱えるようにする(c) 物体検出時に地図上の道路領域を事前知識として使用(d)  KITTI BEV Car detectionで1位(発表時)
  • 24. [Yang2018_2] HDNET (2/2)  地図の利用が不可能な個所ではLiDARデータから地面 の高さと道路領域をそれぞれCNNで推定して利用  Detection Networkが道路領域に対して過学習するのを 防ぐため、学習時にランダムで道路領域を空にする
  • 25. [Simon2018]Complex-YOLO  YOLOv2を3Dに拡張し、50fps(TitanX)で動作  点群をBird’s EyeViewへ投影し、Height, Intensity, Density (RGB)画像 を作成し、Yoloへの入力とする  Yoloで作成した特徴マップをE-RPN層へ入力し、各グリッドごとに5つ の物体カテゴリそれぞれのProbability、位置、Bounding Boxサイズ、 向きを推定する  コード https://github.com/AI-liu/Complex-YOLO
  • 26. その他の手法  [Li2016]Li, B., Zhang,T., & Xia,T. (2016).Vehicle Detection from 3D Lidar Using Fully Convolutional Network. Robotics Science and Systems.  [Kunisada2018]Kunisada,Y.,Yamashita,T., & Fujiyoshi, H. (2018). Pedestrian-Detection Method based on 1D-CNN during LiDAR Rotation. In International Conference on IntelligentTransportation Systems (ITSC).
  • 27. [Li2016]VeloFCN  点群をシリンダー形状へ投影し、深度dと高さhの2チャネ ルの画像を入力とする(point map)  Fully Convolutional Network (FCN)によりダウンサンプ ルとアップサンプルを行い、point mapに対応する各位置 におけるObjectnessと3D Bounding Boxを推定
  • 28. [Kunisada2018]1D-CNN during LiDAR rotation  全方位LiDARの回転から得られる各レーザーの距離情報を1次元 の波形として扱い、1次元CNNによってレーザーごとに歩行者検出  歩行者とラベル付けされた点群をクラスタリングして歩行者領域検 出  LiDARから点群全体を生成せず、直接レーザーから、高速に検出可 能
  • 29. 実験と評価  ここで紹介した各論文についてKITTI Benchmark上で評 価された結果を記載します。 http://www.cvlibs.net/datasets/kitti 評価は3D、2D、Bird’s EyeViewそれぞれの物体検出タスクに ついて行いました。  比較のために、カメラとLiDAR両方を使用した物体検出 手法であるF-PointNet*の結果も記載しました。  ここで紹介できなかった研究についても、上記サイトに記 載があり、かつ論文が入手可能なものについては記載し ました。 番号の降られた手法が紹介しきれなった研究にあたります ベンチマーク中の巻末の「紹介しきれなかった研究」の番号と 対応してます *Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and Pattern Recognition.
  • 30. KITTI 3D Object Detection Evaluation  ここで紹介した各研究および論文が公開されている手法 についてKITTI 3D Object Detection Evaluation上での性 能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm ark=3d  上記サイトに性能の記載のないものは論文での実験結 果を参照しました。  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 31. KITTI 3D Object Detection Evaluation  Car Method Moderate Easy Hard Runtime Environment SECOND 73.66 % 83.13 % 66.20 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) F-PointNet* 70.39 % 81.20 % 62.19 % 0.17 s GPU @ 3.0 Ghz (Python) VoxelNet 65.11% 77.47% 57.73% 225ms Titan X GPU + 1.7Ghz CPU Complex-YOLO 64.00 % 67.72 % 63.01 % 19.84 ms Titan X GPU A3DODWTDA[12] 56.81 % 59.35 % 50.51 % 0.08 s GPU @ 3.0 Ghz (Python) MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) BirdNet[14] 13.44 % 14.75 % 12.04 % 0.11 s Titan Xp GPU TopNet-HighRes[15] 12.58 % 15.29 % 12.25 % 101ms NVIDIA GeForce 1080 Ti (tensorflow- gpu)
  • 32. KITTI 3D Object Detection Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet* 44.89 % 51.21 % 40.23 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 42.56 % 51.07 % 37.29 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) Complex-YOLO 39.70 % 41.79 % 35.92 % 19.84 ms Titan X GPU VoxelNet 33.69 % 39.48 % 31.51 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 11.80 % 14.31 % 10.55 % 0.11 s Titan Xp GPU TopNet-HighRes[15] 9.66 % 13.45 % 9.64 % 101ms NVIDIA GeForce 1080 Ti (tensorflow- gpu)
  • 33. KITTI 3D Object Detection Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment F-PointNet* 56.77 % 71.96 % 50.39 % 0.17 s GPU @ 3.0 Ghz (Python) Complex-YOLO 58.32 % 68.17 % 54.30 % 19.84 ms Titan X GPU SECOND 53.85 % 70.51 % 46.90 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) VoxelNet 48.36 % 61.22 % 44.37 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 12.43 % 18.35 % 11.88 % 0.11 s Titan Xp GPU TopNet-HighRes[15] 5.98 % 4.48 % 6.18 % 101ms NVIDIA GeForce 1080 Ti (tensorflow- gpu)
  • 34. KITTI Object Detection 2012 Evaluation  ここで紹介した各研究および論文が公開されている手法 についてKITTI Object Detection 2012 Evaluation上での 性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm ark=2d  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 35. KITTI Object Detection 2012 Evaluation  Car Method Moderate Easy Hard Runtime Environment F-PointNet* 90.00 % 90.78 % 80.80 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 88.40 % 90.40 % 80.21 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) 3D FCN 75.83 % 85.54 % 68.30 % >5 s 1 core @ 2.5 Ghz (C/C++) A3DODWTCA [12] 74.71 % 78.21 % 66.70 % 0.08 s GPU @ 3.0 Ghz (Python) Vote3Deep 68.39 % 76.95 % 63.22 % 1.5s 4 core @ 2.5 Ghz BirdNet[14] 57.47 % 78.18 % 56.66 % 0.11 s Titan Xp GPU VeloFCN 53.45 % 70.68 % 46.90 % 1 s GPU @ 2.5 Ghz (Python + C/C++) TopNet- HighRes[15] 48.87 % 59.77 % 43.15 % 101ms NVIDIA GeForce 1080 Ti (tensorflow-gpu) Voting forVoting 48.05 % 56.66 % 42.64 % 0.5s 4 core @ 2.8 Ghz
  • 36. KITTI Object Detection 2012 Evaluation  Car (続き) Method Moderate Easy Hard Runtime Environment RT3D[13] 39.71 % 49.96 % 41.47 % 0.09 s GPU @ 1.8Ghz mBoW[5] 23.76 % 37.63 % 18.44 % 10 s 1 core @ 2.5 Ghz (C/C++) DepthCN[6] 23.21 % 37.59 % 18.00 % 2.3 s GPU @ 3.5 Ghz (Matlab) TopNet- DecayRate[15] 0.04 % 0.04 % 0.04 % 92 ms NVIDIA GeForce 1080 Ti (tensorflow-gpu)
  • 37. KITTI Object Detection 2012 Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet* 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 55.74 % 65.73 % 49.08 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) Vote3Deep 55.38 % 67.94 % 52.62 % 1.5 s 4 cores @ 2.5 Ghz (C/C++) Vote forVoting 35.74 % 44.47 % 33.72 % 0.5 s 4 cores @ 2.8 Ghz (C/C++) mBoW[5] 31.37 % 44.36 % 30.62 % 10 s 1 core @ 2.5 Ghz (C/C++) BirdNet[14] 30.90 % 36.83 % 29.93 % 0.11 s Titan Xp GPU TopNet- HighRes[15] 17.57 % 22.98 % 17.35 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- DecayRate[15] 0.04 % 0.02 % 0.05 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu)
  • 38. KITTI Object Detection 2012 Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment F-PointNet* 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python) Vote3Deep 67.96 % 76.49 % 62.88 % 1.5 s 4 cores @ 2.5 Ghz (C/C++) SECOND 58.94 % 81.96 % 57.20 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) BirdNet[14] 49.04 % 64.88 % 46.61 % 0.11 s Titan Xp GPU Vote forVoting 31.24 % 41.45 % 28.60 % 0.5 s 4 cores @ 2.8 Ghz (C/C++) mBoW[5] 21.62 % 28.19 % 20.93 % 10 s 1 core @ 2.5 Ghz (C/C++) TopNet- HighRes[15] 19.15 % 29.34 % 19.69 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- DecayRate[15] 1.01 % 0.04 % 1.01 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu)
  • 39. KITTI Bird’s Eye View Evaluation 2017  ここで紹介した各研究および論文が公開されている手法 についてKITTI Bird’s EyeView Evaluation 2017上での性 能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchm ark=bev  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 40. KITTI Bird’s Eye View Evaluation 2017  Car Method Moderate Easy Hard Runtime Environment HDNET 86.57 % 89.14 % 78.32 % 0.05 s GPU @ 2.5 Ghz (Python) F-PointNet* 84.00 % 88.70 % 75.33 % 0.17 s GPU @ 3.0 Ghz (Python) PIXOR++ 83.70 % 89.38 % 77.97 % 0.035 s GPU @ 2.5 Ghz (Python) SECOND 79.37 % 88.07 % 77.95 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) VoxelNet 79.26 % 89.35 % 77.39 % 225ms Titan X GPU + 1.7Ghz CPU Complex-YOLO 77.40 % 85.89 % 77.33 % 19.84 ms Titan X GPU PIXOR 77.05 % 81.70 % 72.95 % 0.035 s TITAN Xp (Python) MV3D(LiDAR) 77.00 % 85.82 % 68.94 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) A3DODWTCA [12] 72.86 % 76.65 % 64.51 % 0.08 s GPU @ 3.0 Ghz (Python)
  • 41. KITTI Bird’s Eye View Evaluation 2017  Car (続き) Method Moderate Easy Hard Runtime Environment TopNet- DecayRate[15] 64.12 % 79.76 % 56.48 % 92 ms NVIDIA GeForce 1080 Ti (tensorflow-gpu) 3D FCN 62.54 % 69.94 % 55.94 % >5 s 1 core @ 2.5 Ghz (C/C++) TopNet- HighRes[15] 53.71 % 67.53 % 46.54 % 101ms NVIDIA GeForce 1080 Ti (tensorflow-gpu) BirdNet[14] 50.81 % 75.52 % 50.00 % 0.11 s Titan Xp GPU RT3D[13] 42.10 % 54.68 % 44.05 % 0.09 s GPU @ 1.8Ghz VeloFCN 0.33 % 0.15 % 0.47 % 1 s GPU @ 2.5 Ghz (Python + C/C++) mBoW[5] 0.00 % 0.00 % 0.00 % 10 s 1 core @ 2.5 Ghz (C/C++)
  • 42. KITTI Bird’s Eye View Evaluation 2017  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet* 50.22 % 58.09 % 47.20 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 46.27 % 55.10 % 44.76 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) Complex-YOLO 45.90 % 46.08 % 44.20 % 19.84 ms Titan X GPU VoxelNet 40.74 % 46.13 % 38.11 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 21.35 % 26.07 % 19.96 % 0.11 s Titan Xp GPU TopNet- HighRes[15] 19.08 % 24.30 % 18.46 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- DecayRate[15] 12.59 % 15.09 % 12.23 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu) mBoW[5] 0.01 % 0.01 % 0.01 % 10 s 1 core @ 2.5 Ghz (C/C++)
  • 43. KITTI Bird’s Eye View Evaluation 2017  Cyclist Method Moderate Easy Hard Runtime Environment Complex-YOLO 63.36 % 72.37 % 60.27 % 19.84 ms Titan X GPU F-PointNet* 61.96 % 75.38 % 54.68 % 0.17 s GPU @ 3.0 Ghz (Python) SECOND 56.04 % 73.67 % 48.78 % 0.05 s 4 cores @ 3.5 Ghz (C/C++) VoxelNet 54.76 % 66.70 % 50.55 % 225ms Titan X GPU + 1.7Ghz CPU BirdNet[14] 27.18 % 38.93 % 25.51 % 0.11 s Titan Xp GPU TopNet- DecayRate[15] 19.92 % 28.06 % 19.13 % 92 ms NVIDIA GeForce 1080Ti (tensorflow-gpu) TopNet- HighRes[15] 12.45 % 15.70 % 12.76 % 101ms NVIDIA GeForce 1080Ti (tensorflow-gpu) mBoW[5] 0.00 % 0.00 % 0.00 % 10 s 1 core @ 2.5 Ghz (C/C++)
  • 44. まとめ  LiDARを用いて道路上の物体検出を行う手法について、主に Deep Learningを用いた研究について調査しました。  物体検出タスクは大きく点群をVoxel化して、三次元の畳み込 みを行う手法と、点群をBird’s EyeViewへ投影し、二次元の畳 み込みを行う手法に分けられます。  また、点群をシリンダ上へ投影し、画像とみなして処理する手 法や、LiDARのスイープデータをそのまま1次元畳み込みで使 用する研究も紹介しました。  Voxel上で畳み込みを行う場合、メモリ使用量が膨大となるた め、疎なデータの計算を工夫する必要があります。  Bird’s EyeView上で処理するケースでは既存の2D物体検出手 法を応用することで、高精度や高速性を実現しています。  LiDARからの物体検出の研究は特に今年から大幅に増えまし た。
  • 45. 紹介しきれなかった研究(1/3) 1. Spinello, L.,Arras, K. O.,Triebel, R., & Siegward, R. (2010).A Layered Approach to People Detection in 3D Range Data. In AAAI Conference on Artificial Intelligence (pp. 1635-1630). 2. Teichman,A., & Thrun, S. (2011).Tracking-based semi-supervised learning. In Robotics: Science and Systems. 3. Teichman,A., Levinson, J., & Thrun, S. (2011).Towards 3D object recognition via classification of arbitrary object tracks. Proceedings - IEEE International Conference on Robotics and Automation, 4034-4041. 4. Wang, D. Z., Posner, I., & Newman, P. (2012).What could move? Finding cars, pedestrians and bicyclists in 3D laser data. Proceedings - IEEE International Conference on Robotics and Automation, 4038-4044. 5. Behley, J., Steinhage,V., & Cremers,A. B. (2013). Laser-based Segment Classification Using a Mixture of Bag-of-Words. In International Conference on Intelligent Robots and Systems.
  • 46. 紹介しきれなかった研究(2/3) 6. Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., & Nunes, U. J. (2017). DepthCN :Vehicle Detection Using 3D-LIDAR and ConvNet. In International Conference on IntelligentTransportation Systems (ITSC). 7. Zidan, M. I., & Sallab,A.A.Al. (2018).YOLO3D : End-to-end real-time 3D Oriented Object Bounding Box Detection Object Bounding Box Detection from LiDAR, (August). 8. Feng, D., Rosenbaum, L.,Timm, F., & Dietmayer, K. (2018). Leveraging Heteroscedastic Aleatoric Uncertainties for Robust Real-Time LiDAR 3D Object Detection.ArXiv, arXiv:1809. 9. Yun, P.,Tai, L.,Wang,Y., & Liu, M. (2018). Focal Loss in 3D Object Detection.ArXiv, arXiv:1809. 10. Feng, D., Rosenbaum, L., & Dietmayer, K. (2018).Towards Safe Autonomous Driving: Capture Uncertainty in the Deep Neural Network For Lidar 3DVehicle Detection. International Conference on IntelligentTransportation Systems (ITSC).
  • 47. 紹介しきれなかった研究(3/3) 11. Minemura, K., Liau, H., Monrroy,A., & Kato, S. (2018). LMNet : Real- time Multiclass Object Detection on CPU using 3D LiDAR. In 3rd Asia-Pacific Conference on Intelligent Robot Systems (ACIRS). 12. Gustafsson, F., & Linder-Norén, E. (2018). Automotive 3D Object DetectionWithoutTarget Domain Annotations. Linköping University. 13. Zeng,Y., Hu,Y., Liu, S.,Ye, J., Han,Y., Li, X., & Sun, N. (2018). RT3D: Real-Time 3DVehicle Detection in LiDAR Point Cloud for Autonomous Driving. IEEE Robotics and Automation Letters, 3766(c), 14. Beltr, J., Guindel, C., Moreno, F. M., Cruzado, D., Garc, F., & Escalera, A. De. (2018). BirdNet : a 3D Object Detection Framework from LiDAR information. ArXiv, arXiv:1805. 15. Wirges, S., Fischer,T., & Stiller, C. (2018). Object Detection and Classification in Occupancy Grid Maps using Deep Convolutional Networks. ArXiv, arXiv:1805.