Trend of 3D object detections

3D物体検出の
理論と取り組み
第33回 Machine Learning 15minutes!

自己紹介
● Tier4 技術本部
○ 関谷英爾
● 経歴
○ DeNA 2014/04 ~ 2018/03
■ 分析基盤 (Hadoop, Vertica)
■ 機械学習 (レコメンド, 強化学習, 組合せ最適化)
○ Tier IV 2018/03~
■ データ基盤・機械学習基盤
@eratostennis

今日のお話
● 3D物体検出の理論について丁寧な説明はしません
● 動向と自動運転での付き合い方について説明します

概要
● 自動運転のコンポーネント
● 3Dの物体検出手法の紹介
● ラベリングツール
● 今後の開発

自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware

自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3
○ VoxelNet
● 分類タスク (信号色認識)
○ DenseNet
● etc.

自動運転に組み込まれているDeep Learning
○ Yolov3, etc.
○ VoxelNet, etc.
● 分類タスク (信号色認識)
○ DenseNet
● etc.

3Dの物体検出の特徴
● 点群データの特徴
○ 3D, Sparse

3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法

Euclidean Cluster
単純に距離の近いものを同一クラスタとみなす
EuclideanClusterで障害物検出と十分な計算量削減が可能
ただし、Semantic情報があれば、さらにトラッキング精度なども上がってくる
ちゃんと物体単位で検出したい

3D物体検出の精度評価
Bird’s Eye View (BEV)
3D Bounding Box
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=bev
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d

MV3D
● 特徴
○ 画像とPCDをFusion
○ PCDは2D Convで扱えるようBirdViewとFrontViewに変換
Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia. 2017.
Multi-View 3D Object Detection Network for Autonomous Driving
arXiv:1611.07759.
Retrieved from https://arxiv.org/abs/1611.07759

MV3D
● 精度
○ 当時のSOTAを達成
● 課題
○ 処理が重く律速となる
30 Hz
10 Hz

VoxelNet
● 特徴
○ 3D 物体検出初のEnd-to-end学習
○ Convolution Middle Layersは3D CNNで遅い (4.4Hz)
Yin Zhou, Oncel Tuzel. 2017.
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
arXiv:1711.06396.

PointPillars
● 特徴
○ 3D CNNを使わずに高速化 (62Hz)
○ Single Shot Detectorによる位置の回帰とクラス分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.

Performance
arXiv:1812.05784.

PointPillars
arXiv:1812.05784.

Failure Case
歩行者とサイクリストの誤分類
街路樹を歩行者と分類
arXiv:1812.05784.

3D物体検出との付き合い方
● 精度が上がって来たが、まだまだ3D物体検出単体で使うには
いまいち
● 使い方
○ 画像とFusionする
■ Deep Learningで行う必要はない
○ 地図のレーン情報など他に持っているデータも利用する
● Trackingの精度向上
○ 単純な2Dだけで推測するより距離などは正確
○ 物体の運動モデルがだいたい分かっていれば役に立つ

● 2D & 3Dの物体検出教師データ作成ツール
Annotation Tool開発 Automan

● 2D & 3Dの物体検出教師データ作成ツール
Automan

Automan Architecture API Server
● User/Group登録
● Raw Data登録
● Annotation登録
Job Container
● Calibration
● Sampling
● AutoLabeling

OSSに向け準備中...
● 現在
○ Input
■ ROSBAG
○ Output
■ 2D & 3D Bounding Box
● 計画
○ Input
■ どんなサポートが欲しい？MP4？
○ Output
■ Polygon Labeling (Semantic Segmentation)
■ Landmark Labeling (Semantic Segmentation)

課題と今後の展望
● データ節約
○ 通信量 & ラベリング工数 & ストレージ
○ 学習できていないデータに絞った収集
● シミュレーションによるデータ生成
○ 精度の高い教師データの作成 (特に3D)
○ リアルとの違いの分析 (ノイズなどの影響や再現)
● 学習評価システム
○ 環境ごとのあるべき状態の定義・テストデータ整備
○ モデル説明性・解釈性 (Interpretability) の検討

Trend of 3D object detections

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Trend of 3D object detections