SlideShare a Scribd company logo
1 of 40
Mobility Technologies Co., Ltd.
2020年7月4日 全日本コンピュータビジョン勉強会
3D Packing for Self-Supervised Monocular Depth Estimation
株式会社Mobility Technologies
宮澤 一之
Mobility Technologies Co., Ltd.
宮澤 一之
AI技術開発部
グループリーダー
株式会社Mobility Technologies
経歴
2019年4月〜2020年3月
AI研究開発エンジニア@DeNA
2010年4月〜2019年3月
主任研究員@三菱電機
2010年3月
博士(情報科学)@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
紹介論文
3
CVPR2020 Open Access
GitHub
Mobility Technologies Co., Ltd.4
Unsupervised CNN: Geometry
to the Rescue
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from Videos in
the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
2016 2017 2018 2019 2020
Explainability
Monocular Depth Estimation
Visualization of CNN for
mono-Depth Estimation
How do NNs see depth in
single images?
Uncertainty of Self
supervised mono-
Depth Estimation
PackNet-SfM
SuperDepth
SC-SfMLearner
DualNetworks
Mobility Technologies Co., Ltd.5
Unsupervised CNN: Geometry
to the Rescue
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from Videos in
the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
2016 2017 2018 2019 2020
Explainability
Monocular Depth Estimation
Visualization of CNN for
mono-Depth Estimation
How do NNs see depth in
single images?
Uncertainty of Self
supervised mono-
Depth Estimation
PackNet-SfM
SuperDepth
SC-SfMLearner
DualNetworks
Mobility Technologies Co., Ltd.
Tutorial on Monocular Depth Estimation @ CVPR2020
6
■ 単眼カメラ映像からのデプス推定に関するチュートリアル
■ Stereo supervision
■ Monocular supervision
■ Understanding single image depth estimation
■ Auxiliary supervision
■ Learning single image depth estimation in the wild
■ Mobile depth estimation
■ スライドおよび講演ビデオが公開 [link]
Mobility Technologies Co., Ltd.
■ 単眼映像を使った教師なし学習によるデプスとエゴモーション推定の先駆け
■ 別視点画像を生成する処理を微分可能にし、学習プロセスに組み込み
SfMLearner
7
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Mobility Technologies Co., Ltd.
SfMLearner
8
Depth CNN:ターゲット画像からデプスマップを生成
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Mobility Technologies Co., Ltd.
SfMLearner
9
Pose CNN:ソース画像とターゲット画像間の相対的なカメラ運動を推定
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Mobility Technologies Co., Ltd.
View Synthesis as Supervision
10
I1
IN
It
Is
View Synthesis Objective学習用映像
画素
ターゲット画像
ソース画像をターゲット画像の視点にワープした画像
■ 推定したデプスとカメラ運動を使ってソース画像をターゲット画像の視点にワ
ープさせることで新たな画像を生成
■ ターゲット画像と生成画像の誤差をロスとすることで教師なしで学習
Mobility Technologies Co., Ltd.
SfMLearnerによるデプス推定結果
11
デプスの解像度が低い
Mobility Technologies Co., Ltd.
紹介論文
12
Mobility Technologies Co., Ltd.
■ Main contribution
■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案
■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現
■ Second contribution
■ 単眼デプス推定におけるスケールの不定性という課題を解決
■ 車やロボット、スマホから得られる速度情報を利用したロスを導入
■ Third contribution
■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開
■ アメリカに加え日本でもデータを取集
Contributions
13
Mobility Technologies Co., Ltd.
PackNet-SfM
14
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
目的関数
15
^
^
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
Appearance Matching Loss
16
^
^
オクルージョンの影響を軽減するためそれぞれのソー
ス画像に対して求めたロスの画素ごとの最小値を採用
推定したデプスによりソース画像をターゲット画像と
一致するようにワープさせた際の誤差(ワープ画像と
ターゲット画像間のSSIMとL1ロスの重み付き和)
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
Appearance Matching Loss
17
^
^ ワープ対象領域外を
除外するマスク
ワープによって逆に誤差が大きくなる領域を除外する
マスク(静止シーンやカメラと等速で運動する物体を
除外するため)
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
Depth Smoothness Loss
18
^
^
テクスチャの少ない領域では滑らかなデプスとな
るように制御するためのロス(画素勾配が小さい
場合にデプス勾配が大きくなるとペナルティも大
きくなる)
画素勾配
デプス勾配
Mobility Technologies Co., Ltd.
■ Main contribution
■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案
■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現
Contributions
19
Mobility Technologies Co., Ltd.
PackNet
20
画像 It デプス Dt
Conv2D
Packing
Residual Block
Unpacking
^
Mobility Technologies Co., Ltd.
Packing
21
Mobility Technologies Co., Ltd.
Packing
22
Ci x H x W 4Ci x H/2 x W/2
D x 4Ci x H/2 x W/2
4DCi x H/2 x W/2
Co x H/2 x W/2
■ poolingを使わず空間情報の損失を回避
■ 空間方向 → チャネル方向変換+Conv3D
■ 逆順にすることでunpacking
Mobility Technologies Co., Ltd.
■ 入力画像を再構成するencoder-decoderを学習
■ poolingとバイリニア補間によるアップサンプルでは再構成画像がぼやける
■ packing/unpackingを利用した場合はほぼ完全に入力画像を再構成可能
Packingの効果
23
入力画像 Max Pooling + Bilinear Upsample Pack + Unpack
Mobility Technologies Co., Ltd.
■ Second contribution
■ 単眼デプス推定におけるスケールの不定性という課題を解決
■ 車やロボット、スマホから得られる速度情報を利用したロスを導入
Contributions
24
Mobility Technologies Co., Ltd.
■ 推定するフレーム間の並進ベクトルの絶対値にロスを定義
■ 車両の速度を教師信号として利用し、速度と時刻から算出したフレーム間の移
動量を真値として与える
Velocity Supervision Loss
25
target image It
source image
Is
tt → s
^
フレーム間の並進ベクトル
速度
フレーム間の時刻差
Mobility Technologies Co., Ltd.
Experiments
26
■ KITTI
■ train / val / eval:39,810 / 4,424 / 697フレーム
■ 5フレーム分のLiDAR点群を集約し真値デプスマップをrefine:652フレーム
■ NuScenes
■ KITTIで学習したモデルで推論することで汎化性能を評価:6,019フレーム
■ CityScapes
■ KITTIでの学習前にpretrainingとして利用:88,250フレーム
■ KITTIと同パラメータで20エポック学習
■ DDAD
■ 長距離LiDARを用いて独自にデータセットを構築
■ train / eval:17,050 / 4,150フレーム
Mobility Technologies Co., Ltd.
■ Third contribution
■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開
■ アメリカに加え日本でもデータを取集
Contributions
27 https://github.com/TRI-ML/DDAD
Mobility Technologies Co., Ltd.
DDAD (Dense Depth for Autonomous Driving)
28
■ カメラ6台(1936 x 1216)+ デプスマップ(train/val = 17,050/4,150 frames)
■ デプスはLuminar社製のLuminar-H2で取得しており最大250m(従来は約80m)
■ アメリカ(ベイエリア、デトロイト、アナーバー)と日本(東京、お台場)で収集
https://github.com/TRI-ML/DDAD
Mobility Technologies Co., Ltd.
■ ResNetベースの従来手法Monodepth2とデプスマップ(640 x 384)の精度を比較
■ 複数の評価尺度の全てにおいてPackNet-SfMはMonodepth2を上回る
■ 距離ごとの精度比較では遠方になるほどPackNet-SfMが優勢となる
DDADにおけるデプス推定精度
29
*1 *2 *3 *4 *5
*1 Absolute relative difference
*2 Squared relative difference
*3 Root Mean Squared Error (linear)
*4 Root Mean Squared Error (log)
*5 Inlier ratio (pred / ground truth < 1.25)
Mobility Technologies Co., Ltd.
KITTI(オリジナル)における精度比較
30
M:単眼画像のみで学習
M+v:単眼画像と速度で学習
K:KITTIのみで学習
CS+K:CityScapesで事前学習してからKITTIでfine-tuning
Mobility Technologies Co., Ltd.
KITTI(オリジナル)における精度比較
31
M:単眼画像のみで学習
M+v:単眼画像と速度で学習
K:KITTIのみで学習
CS+K:CityScapesで事前学習してからKITTIでfine-tuning
データ投入で精度改善
Mobility Technologies Co., Ltd.
KITTI(オリジナル)における精度比較
32
M:単眼画像のみで学習
M+v:単眼画像と速度で学習
K:KITTIのみで学習
CS+K:CityScapesで事前学習してからKITTIでfine-tuning
デプス高解像度化で精度改善
Mobility Technologies Co., Ltd.
KITTI(高精度版*)における比較
33
*5フレーム分の結果を集約することで真値を高精度化
D:真値デプスで教師あり学習
Mobility Technologies Co., Ltd.
KITTI(高精度版*)における比較
34
*5フレーム分の結果を集約することで真値を高精度化
D:真値デプスで教師あり学習
Mobility Technologies Co., Ltd.
各手法によるデプスマップの比較
35
Mobility Technologies Co., Ltd.
■ パラメータ数を増やしていった場合、ResNetは約70Mで改善が頭打ち
■ PackNetはパラメータ数を増やすことでコンスタントに性能が改善していく
■ デプスマップを高解像化することによる改善効果もPackNetの方が顕著
パラメータ数と精度の関係
36
MR: 640 x 192
HR: 1280 x 384
60ms on Titan V100
(< 30ms using TensorRT)
Mobility Technologies Co., Ltd.
■ packing/unpackingおよびConv3Dの導入による性能改善が顕著
■ ResNetベースの手法はImageNetによるpretrainingの効果が大きいのに対し、
PackNetはフルスクラッチでの学習でより高い精度を達成
Ablation Study
37
ImageNet pretraining →
ImageNet pretraining →
packing/unpackingを
畳み込みのストライド
とアップサンプリング
に置き換え
→
Conv3Dのフィルタ
数を増加(D=0は
Conv3D未使用)
Mobility Technologies Co., Ltd.
■ CityScapesとKITTIで学習したモデルを使ってNuScenesに対する性能を評価
■ ImageNetでpretrainingしたResNetベースの手法よりも高い汎化性能
未知データに対する汎化性能
38
Mobility Technologies Co., Ltd.
■ ロスに対する工夫などが多かった従来手法に対し、新しいアーキテクチャを提
案することで高解像度なデプスマップ生成を実現
■ packing/unpackingとConv3Dにより空間方向の情報を最大限活用
■ 容易に取得可能なカメラの移動速度を教師信号とすることでスケールの不定性
という単眼デプス推定における根本的な問題を解決
■ 次世代LiDARを使った長距離デプス(〜250m)データセットを独自に構築
まとめ
39
2017201820192020
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
40

More Related Content

What's hot

[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...Deep Learning JP
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural RepresentationsDeep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 

What's hot (20)

[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 

Similar to [CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation

Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
march report in japanese
march report in japanesemarch report in japanese
march report in japanesenao takatoshi
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ Brocade
 
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)Toshiki Sakai
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
機械学習 (AI/ML) 勉強会 #1 基本編
機械学習 (AI/ML) 勉強会 #1 基本編機械学習 (AI/ML) 勉強会 #1 基本編
機械学習 (AI/ML) 勉強会 #1 基本編Fujio Kojima
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 

Similar to [CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation (20)

Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
march report in japanese
march report in japanesemarch report in japanese
march report in japanese
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
Pythonで簡単動画解析
Pythonで簡単動画解析Pythonで簡単動画解析
Pythonで簡単動画解析
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
拡散する画像生成.pdf
拡散する画像生成.pdf拡散する画像生成.pdf
拡散する画像生成.pdf
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
機械学習 (AI/ML) 勉強会 #1 基本編
機械学習 (AI/ML) 勉強会 #1 基本編機械学習 (AI/ML) 勉強会 #1 基本編
機械学習 (AI/ML) 勉強会 #1 基本編
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 

More from Kazuyuki Miyazawa

Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 

More from Kazuyuki Miyazawa (9)

Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation

  • 1. Mobility Technologies Co., Ltd. 2020年7月4日 全日本コンピュータビジョン勉強会 3D Packing for Self-Supervised Monocular Depth Estimation 株式会社Mobility Technologies 宮澤 一之
  • 2. Mobility Technologies Co., Ltd. 宮澤 一之 AI技術開発部 グループリーダー 株式会社Mobility Technologies 経歴 2019年4月〜2020年3月 AI研究開発エンジニア@DeNA 2010年4月〜2019年3月 主任研究員@三菱電機 2010年3月 博士(情報科学)@東北大学 自己紹介 2 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 紹介論文 3 CVPR2020 Open Access GitHub
  • 4. Mobility Technologies Co., Ltd.4 Unsupervised CNN: Geometry to the Rescue MonoDepth SfMLearner SfM-Net vid2depth Deep-VO-Feat GeoNet LEGO MonoDepth2 Every Pixel Counts Depth from Videos in the Wild Depth Depth + Egomotion Depth + Egomotion + Object Motion Depth + Egomotion + Object Motion + Camera Intrinsic struct2depth (extended) struct2depth SfMLearner++ Every Pixel Counts++ SceneNet 2016 2017 2018 2019 2020 Explainability Monocular Depth Estimation Visualization of CNN for mono-Depth Estimation How do NNs see depth in single images? Uncertainty of Self supervised mono- Depth Estimation PackNet-SfM SuperDepth SC-SfMLearner DualNetworks
  • 5. Mobility Technologies Co., Ltd.5 Unsupervised CNN: Geometry to the Rescue MonoDepth SfMLearner SfM-Net vid2depth Deep-VO-Feat GeoNet LEGO MonoDepth2 Every Pixel Counts Depth from Videos in the Wild Depth Depth + Egomotion Depth + Egomotion + Object Motion Depth + Egomotion + Object Motion + Camera Intrinsic struct2depth (extended) struct2depth SfMLearner++ Every Pixel Counts++ SceneNet 2016 2017 2018 2019 2020 Explainability Monocular Depth Estimation Visualization of CNN for mono-Depth Estimation How do NNs see depth in single images? Uncertainty of Self supervised mono- Depth Estimation PackNet-SfM SuperDepth SC-SfMLearner DualNetworks
  • 6. Mobility Technologies Co., Ltd. Tutorial on Monocular Depth Estimation @ CVPR2020 6 ■ 単眼カメラ映像からのデプス推定に関するチュートリアル ■ Stereo supervision ■ Monocular supervision ■ Understanding single image depth estimation ■ Auxiliary supervision ■ Learning single image depth estimation in the wild ■ Mobile depth estimation ■ スライドおよび講演ビデオが公開 [link]
  • 7. Mobility Technologies Co., Ltd. ■ 単眼映像を使った教師なし学習によるデプスとエゴモーション推定の先駆け ■ 別視点画像を生成する処理を微分可能にし、学習プロセスに組み込み SfMLearner 7 Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
  • 8. Mobility Technologies Co., Ltd. SfMLearner 8 Depth CNN:ターゲット画像からデプスマップを生成 Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
  • 9. Mobility Technologies Co., Ltd. SfMLearner 9 Pose CNN:ソース画像とターゲット画像間の相対的なカメラ運動を推定 Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
  • 10. Mobility Technologies Co., Ltd. View Synthesis as Supervision 10 I1 IN It Is View Synthesis Objective学習用映像 画素 ターゲット画像 ソース画像をターゲット画像の視点にワープした画像 ■ 推定したデプスとカメラ運動を使ってソース画像をターゲット画像の視点にワ ープさせることで新たな画像を生成 ■ ターゲット画像と生成画像の誤差をロスとすることで教師なしで学習
  • 11. Mobility Technologies Co., Ltd. SfMLearnerによるデプス推定結果 11 デプスの解像度が低い
  • 12. Mobility Technologies Co., Ltd. 紹介論文 12
  • 13. Mobility Technologies Co., Ltd. ■ Main contribution ■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案 ■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現 ■ Second contribution ■ 単眼デプス推定におけるスケールの不定性という課題を解決 ■ 車やロボット、スマホから得られる速度情報を利用したロスを導入 ■ Third contribution ■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開 ■ アメリカに加え日本でもデータを取集 Contributions 13
  • 14. Mobility Technologies Co., Ltd. PackNet-SfM 14
  • 15. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It 目的関数 15 ^ ^
  • 16. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It Appearance Matching Loss 16 ^ ^ オクルージョンの影響を軽減するためそれぞれのソー ス画像に対して求めたロスの画素ごとの最小値を採用 推定したデプスによりソース画像をターゲット画像と 一致するようにワープさせた際の誤差(ワープ画像と ターゲット画像間のSSIMとL1ロスの重み付き和)
  • 17. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It Appearance Matching Loss 17 ^ ^ ワープ対象領域外を 除外するマスク ワープによって逆に誤差が大きくなる領域を除外する マスク(静止シーンやカメラと等速で運動する物体を 除外するため)
  • 18. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It Depth Smoothness Loss 18 ^ ^ テクスチャの少ない領域では滑らかなデプスとな るように制御するためのロス(画素勾配が小さい 場合にデプス勾配が大きくなるとペナルティも大 きくなる) 画素勾配 デプス勾配
  • 19. Mobility Technologies Co., Ltd. ■ Main contribution ■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案 ■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現 Contributions 19
  • 20. Mobility Technologies Co., Ltd. PackNet 20 画像 It デプス Dt Conv2D Packing Residual Block Unpacking ^
  • 21. Mobility Technologies Co., Ltd. Packing 21
  • 22. Mobility Technologies Co., Ltd. Packing 22 Ci x H x W 4Ci x H/2 x W/2 D x 4Ci x H/2 x W/2 4DCi x H/2 x W/2 Co x H/2 x W/2 ■ poolingを使わず空間情報の損失を回避 ■ 空間方向 → チャネル方向変換+Conv3D ■ 逆順にすることでunpacking
  • 23. Mobility Technologies Co., Ltd. ■ 入力画像を再構成するencoder-decoderを学習 ■ poolingとバイリニア補間によるアップサンプルでは再構成画像がぼやける ■ packing/unpackingを利用した場合はほぼ完全に入力画像を再構成可能 Packingの効果 23 入力画像 Max Pooling + Bilinear Upsample Pack + Unpack
  • 24. Mobility Technologies Co., Ltd. ■ Second contribution ■ 単眼デプス推定におけるスケールの不定性という課題を解決 ■ 車やロボット、スマホから得られる速度情報を利用したロスを導入 Contributions 24
  • 25. Mobility Technologies Co., Ltd. ■ 推定するフレーム間の並進ベクトルの絶対値にロスを定義 ■ 車両の速度を教師信号として利用し、速度と時刻から算出したフレーム間の移 動量を真値として与える Velocity Supervision Loss 25 target image It source image Is tt → s ^ フレーム間の並進ベクトル 速度 フレーム間の時刻差
  • 26. Mobility Technologies Co., Ltd. Experiments 26 ■ KITTI ■ train / val / eval:39,810 / 4,424 / 697フレーム ■ 5フレーム分のLiDAR点群を集約し真値デプスマップをrefine:652フレーム ■ NuScenes ■ KITTIで学習したモデルで推論することで汎化性能を評価:6,019フレーム ■ CityScapes ■ KITTIでの学習前にpretrainingとして利用:88,250フレーム ■ KITTIと同パラメータで20エポック学習 ■ DDAD ■ 長距離LiDARを用いて独自にデータセットを構築 ■ train / eval:17,050 / 4,150フレーム
  • 27. Mobility Technologies Co., Ltd. ■ Third contribution ■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開 ■ アメリカに加え日本でもデータを取集 Contributions 27 https://github.com/TRI-ML/DDAD
  • 28. Mobility Technologies Co., Ltd. DDAD (Dense Depth for Autonomous Driving) 28 ■ カメラ6台(1936 x 1216)+ デプスマップ(train/val = 17,050/4,150 frames) ■ デプスはLuminar社製のLuminar-H2で取得しており最大250m(従来は約80m) ■ アメリカ(ベイエリア、デトロイト、アナーバー)と日本(東京、お台場)で収集 https://github.com/TRI-ML/DDAD
  • 29. Mobility Technologies Co., Ltd. ■ ResNetベースの従来手法Monodepth2とデプスマップ(640 x 384)の精度を比較 ■ 複数の評価尺度の全てにおいてPackNet-SfMはMonodepth2を上回る ■ 距離ごとの精度比較では遠方になるほどPackNet-SfMが優勢となる DDADにおけるデプス推定精度 29 *1 *2 *3 *4 *5 *1 Absolute relative difference *2 Squared relative difference *3 Root Mean Squared Error (linear) *4 Root Mean Squared Error (log) *5 Inlier ratio (pred / ground truth < 1.25)
  • 30. Mobility Technologies Co., Ltd. KITTI(オリジナル)における精度比較 30 M:単眼画像のみで学習 M+v:単眼画像と速度で学習 K:KITTIのみで学習 CS+K:CityScapesで事前学習してからKITTIでfine-tuning
  • 31. Mobility Technologies Co., Ltd. KITTI(オリジナル)における精度比較 31 M:単眼画像のみで学習 M+v:単眼画像と速度で学習 K:KITTIのみで学習 CS+K:CityScapesで事前学習してからKITTIでfine-tuning データ投入で精度改善
  • 32. Mobility Technologies Co., Ltd. KITTI(オリジナル)における精度比較 32 M:単眼画像のみで学習 M+v:単眼画像と速度で学習 K:KITTIのみで学習 CS+K:CityScapesで事前学習してからKITTIでfine-tuning デプス高解像度化で精度改善
  • 33. Mobility Technologies Co., Ltd. KITTI(高精度版*)における比較 33 *5フレーム分の結果を集約することで真値を高精度化 D:真値デプスで教師あり学習
  • 34. Mobility Technologies Co., Ltd. KITTI(高精度版*)における比較 34 *5フレーム分の結果を集約することで真値を高精度化 D:真値デプスで教師あり学習
  • 35. Mobility Technologies Co., Ltd. 各手法によるデプスマップの比較 35
  • 36. Mobility Technologies Co., Ltd. ■ パラメータ数を増やしていった場合、ResNetは約70Mで改善が頭打ち ■ PackNetはパラメータ数を増やすことでコンスタントに性能が改善していく ■ デプスマップを高解像化することによる改善効果もPackNetの方が顕著 パラメータ数と精度の関係 36 MR: 640 x 192 HR: 1280 x 384 60ms on Titan V100 (< 30ms using TensorRT)
  • 37. Mobility Technologies Co., Ltd. ■ packing/unpackingおよびConv3Dの導入による性能改善が顕著 ■ ResNetベースの手法はImageNetによるpretrainingの効果が大きいのに対し、 PackNetはフルスクラッチでの学習でより高い精度を達成 Ablation Study 37 ImageNet pretraining → ImageNet pretraining → packing/unpackingを 畳み込みのストライド とアップサンプリング に置き換え → Conv3Dのフィルタ 数を増加(D=0は Conv3D未使用)
  • 38. Mobility Technologies Co., Ltd. ■ CityScapesとKITTIで学習したモデルを使ってNuScenesに対する性能を評価 ■ ImageNetでpretrainingしたResNetベースの手法よりも高い汎化性能 未知データに対する汎化性能 38
  • 39. Mobility Technologies Co., Ltd. ■ ロスに対する工夫などが多かった従来手法に対し、新しいアーキテクチャを提 案することで高解像度なデプスマップ生成を実現 ■ packing/unpackingとConv3Dにより空間方向の情報を最大限活用 ■ 容易に取得可能なカメラの移動速度を教師信号とすることでスケールの不定性 という単眼デプス推定における根本的な問題を解決 ■ 次世代LiDARを使った長距離デプス(〜250m)データセットを独自に構築 まとめ 39 2017201820192020