Submit Search
Upload
論文読み会(DeMoN;CVPR2017)
•
1 like
•
2,135 views
M
Masaya Kaneko
Follow
DeMoN : Depth and Motion Network for Learning Monocular Stereo(CVPR2017)を論文読み会で発表した際の資料です
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 45
Download now
Download to read offline
Recommended
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
Iwami Kazuya
Visual slam
Visual slam
Takuya Minagawa
Cvpr 2021 manydepth
Cvpr 2021 manydepth
Kenta Tanaka
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
CNN-SLAMざっくり
CNN-SLAMざっくり
EndoYuuki
Recommended
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
Iwami Kazuya
Visual slam
Visual slam
Takuya Minagawa
Cvpr 2021 manydepth
Cvpr 2021 manydepth
Kenta Tanaka
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
CNN-SLAMざっくり
CNN-SLAMざっくり
EndoYuuki
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
EndoYuuki
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
Seiya Ito
第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM
邦洋 長谷川
20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
Masaya Kaneko
Structure from Motion
Structure from Motion
Ryutaro Yamauchi
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Masaya Kaneko
ORB-SLAMの手法解説
ORB-SLAMの手法解説
Masaya Kaneko
20190825 vins mono
20190825 vins mono
Takuya Minagawa
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
cvpaper. challenge
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
Tsubasa Hirakawa
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
MasanoriSuganuma
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-‐rigid Scenes in Real...
Ken Sakurada
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
harmonylab
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
Toru Tamaki
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
Masaya Kaneko
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
More Related Content
What's hot
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
EndoYuuki
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
Seiya Ito
第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM
邦洋 長谷川
20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
Masaya Kaneko
Structure from Motion
Structure from Motion
Ryutaro Yamauchi
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Masaya Kaneko
ORB-SLAMの手法解説
ORB-SLAMの手法解説
Masaya Kaneko
20190825 vins mono
20190825 vins mono
Takuya Minagawa
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
cvpaper. challenge
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
Deep Learning JP
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
Tsubasa Hirakawa
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
MasanoriSuganuma
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-‐rigid Scenes in Real...
Ken Sakurada
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
harmonylab
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
Toru Tamaki
What's hot
(20)
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM
20190307 visualslam summary
20190307 visualslam summary
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
Structure from Motion
Structure from Motion
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
ORB-SLAMの手法解説
ORB-SLAMの手法解説
20190825 vins mono
20190825 vins mono
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-‐rigid Scenes in Real...
論文紹介"DynamicFusion: Reconstruction and Tracking of Non-‐rigid Scenes in Real...
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
Similar to 論文読み会(DeMoN;CVPR2017)
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
Masaya Kaneko
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
Naoya Chiba
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
Sho Kagami
CVPR2011 Festival PDF
CVPR2011 Festival PDF
Masafumi Noda
Online moving camera_background_subtraction
Online moving camera_background_subtraction
Daichi Suzuo
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
sumisumith
関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会
nonane
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Kitsukawa Yuki
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
ishii yasunori
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
ishii yasunori
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
Structured Light 技術俯瞰
Structured Light 技術俯瞰
Teppei Kurita
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
Sho Kagami
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Yusuke Uchida
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
ProjectAsura
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
SSII
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Deep Learning JP
Similar to 論文読み会(DeMoN;CVPR2017)
(20)
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
点群深層学習 Meta-study
点群深層学習 Meta-study
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2011 Festival PDF
CVPR2011 Festival PDF
Online moving camera_background_subtraction
Online moving camera_background_subtraction
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
関東コンピュータビジョン勉強会
関東コンピュータビジョン勉強会
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Structured Light 技術俯瞰
Structured Light 技術俯瞰
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
More from Masaya Kaneko
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Masaya Kaneko
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
Masaya Kaneko
論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)
Masaya Kaneko
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
Masaya Kaneko
Dynamic Routing Between Capsules
Dynamic Routing Between Capsules
Masaya Kaneko
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
Masaya Kaneko
More from Masaya Kaneko
(6)
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
Dynamic Routing Between Capsules
Dynamic Routing Between Capsules
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
論文読み会(DeMoN;CVPR2017)
1.
DeMoN : Depth
and Motion Network for Learning Monocular Stereo (CVPR2017) 2017論文読み会 2017/10/12 東京大学 相澤山﨑研究室所属 B4 金子 真也
2.
1 概要 • SfM(Structure from
Motion)をConvNetで行った – 2枚の画像から三次元マップとカメラの位置を推定 画像 (時刻 t) 画像 (時刻 t+1) カメラの動き (回転 R,並進 t) 画像(時刻 t) の深度マップ 入力 出力
3.
2 関連研究との比較 • 既存のSfM – 「カメラの位置の推定→三次元地図作成」よりカメラ の位置を誤ると全部間違ってしまう ★今回は両者を同時に推定するので大幅に間違えない •
Depth prediction from a single image – Eigen et al. (ICCV2015) – 画像1枚からConvNetで深度推定 ★画像2枚から推定できるように構造を工夫 (単純に2枚入れても画像1枚での回帰を学習しがち)
4.
3 ネットワークの概要
5.
4 ネットワークの概要 ①とりあえず画像ペアの情報から 深度マップとカメラの動きを出力
6.
5 ネットワークの概要 ①とりあえず画像ペアの情報から 深度マップとカメラの動きを出力 ②何度も繰り返すことでスケールや深度の調整
7.
6 ネットワークの概要 ①とりあえず画像ペアの情報から 深度マップとカメラの動きを出力 ②何度も繰り返すことでスケールや深度の調整 ③深度マップの拡大と形を きれいにして出力
8.
7 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力
9.
8 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度
10.
9 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair optical flow +confidence warped image Input
11.
10 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力 画像ペア カメラの 動き 深度マップ +法線マップ optical flowによりwarp 1st Image Warped 2nd Image warp optical flow + 確信度
12.
11 1. bootstrap net •
なぜoptical flowを計算するか? – 2枚の画像の情報を無理やり利用するため – 計算なしでは入力を1枚にした場合と精度が変わらず (zはdepth)
13.
12 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる)
14.
13 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度
15.
14 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) bootstrap net と異なる部分 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 iterative
16.
15 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair Depth +normals optical flow +warped image Input Image pair optical flow +confidence depth +warped image Input
17.
16 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair Depth +normals optical flow +warped image Input カメラの動き+深度からoptical flowを計算 Previous depth Optical flow
18.
17 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair Depth +normals optical flow +warped image Input Image pair optical flow +confidence depth +warped image Input
19.
18 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair optical flow +confidence depth +warped image Input カメラの動き+optical flowから深度の計算 depthOptical flow
20.
19 2. iterative net •
iterativeに繰り返すことによる効果 – 徐々に精度が改善
21.
20 2. iterative net •
iterativeに繰り返すことによる効果 – 徐々に精度が改善 – 3回が平均的に良い結果を出す(SUN3D dataset)
22.
21 3. refinement net •
深度マップの拡大とrefineを行う
23.
22 3. refinement net •
refinementの結果 解像度 (64×48) 解像度 (256×192)
24.
23 ネットワークの学習(Loss) • 今回用いるLossとしては全部で7種類存在 – Depth
Loss : 三次元的な深度のLoss – Normal Loss : 三次元的な形の法線のLoss – Optical flow Loss : 画像間のoptical flowのLoss – Confidence Loss : flowの確信度のLoss – Rotation Loss : カメラの回転運動のLoss – Translation Loss : カメラの並進運動のLoss – Scale Invariant gradient Loss : scale不変な勾配 のLoss
25.
24 ネットワークの学習(Loss) • Point-wiseなLoss – 逆深度
𝜉𝜉 = 1/𝑧𝑧 (ground truth: ̂𝜉𝜉) – 表面の法線 𝐧𝐧 (ground truth: �𝐧𝐧) Optical flow 𝐰𝐰 (ground truth: �𝐰𝐰) Depth Loss Normal Loss Optical flow Loss
26.
25 ネットワークの学習(Loss) • Point-wiseなLoss – 確信度
𝑐𝑐𝑥𝑥 (ground truth: �𝑐𝑐𝑥𝑥) ※y方向に関しても同様に定義 Confidence Loss
27.
26 ネットワークの学習(Loss) • Motion Loss –
回転 𝐫𝐫 (ground truth: �𝐫𝐫) 並進 𝐭𝐭 (ground truth: ̂𝐭𝐭) ※ground truthである ̂𝐭𝐭は以下のように正規化 (単眼カメラよりscale不定であるため) ̂𝐭𝐭 2 = 1 Rotation Loss Translation Loss
28.
27 ネットワークの学習(Loss) • Scale Invariant
gradient Loss – 今回のネットワーク設計での推しポイント – scale不変な微分演算子を以下のように定義 – 深度の誤差のLossとしてこの演算子を用いる Scale Invariant gradient Loss
29.
28 ネットワークの学習(Loss) • Scale Invariant
gradient Loss – ピクセル近傍の深度値を比較することで以下が期待 ・均一な領域の滑らかさの増加 ・不連続点といった鋭いエッジの強調 不連続点の強調 均一な領域は滑らか
30.
29 ネットワークの学習(Loss) • Scale Invariant
gradient Loss – Lossの違いによる学習結果の違い • 単純なL1 lossの結果に比べてかなり鮮明
31.
30 ネットワークの学習(Schedule) • ネットワークそのものは順々に学習
32.
31 評価に用いたデータセット • 用いたデータセットとしては – Synthetic
: 最高のGT付きだが非現実的な画像 – Real : 実世界の画像だが, GTは離散的で誤差が多い • どちらも完璧でないので, 両方を用いて学習させればい い感じになるのでは?
33.
32 結果 Two-frame single-frame Base-*の画像の解像度 640×480 DeMoNでの解像度 256×192 古典的な手法に比べて, カメラの回転角が小さく てもうまくいく
34.
33 結果(Errorの定義) • Depth error –
Single-frame predictがscale込みで推定するのに 対し, two-frame predictは含まれていない → スケール不変なerror metricが必要 – 古典的なSfMとの比較には以下を利用
35.
34 結果(Errorの定義) • Motion error –
GTとpredictionとの角度 (rotation, translation) – Translation vectorは1に正規化されている • Optical flow error – Average endpoint error (EPE) 全てのピクセルでGTとpredictionとの間のEuclidian normを出力
36.
35 結果(two-frame depth est.) •
古典的なSfMの手法との比較 – Base-SIFT/Base-FF • SIFT/FlowFields(Bailer+)で画像間の対応 • 8-point algo. + RANSACでEssential matrix • Bundle Adjustment (by ceres library) • Stereoでdepth推定 + optimize(Hirschmuller+) – Base-Oracle • Stereoの代わりにGTのcamera motionを用いる – Base-Matlab/Base-Mat-F • KLT algo./flow(by DeMoN)で画像間の対応 • 5-point algo. + RANSACでEssential matrix
37.
36 結果(single-frame depth est.) •
既存の単画像手法との比較 – Eigen&Fergus • VGG netの構造 – Liu+(indoor) • NYUv2 datasetによるindoor sceneで訓練 – Liu+(outdoor) • Make3D datasetによるoutdoor sceneで訓練
38.
37 結果 • 比較的境界が明瞭で, 細かい箇所まで表現できている
39.
38 結果 • RGB-D SLAM
datasetの連続する画像からカメラの動き をtrajectoryとして出力した結果 – 主にtranslation driftによるずれ – SLAMの重要な要素であるdrift correctionをしていな いのでそれはそう感がある DeMoN trajectory GT trajectory
40.
39 結果 • 訓練データとかなり異なる風景でも比較的うまくいく
41.
40 結果 • 点群データを出力した例1
42.
41 結果 • 点群データを出力した例2
43.
42 結果 • 点群データを出力した例3
44.
43 結果 • 点群データを出力した例4
45.
44 結論と今後の展望 • 2枚の画像からdepthとcamera motionを学習するdeep を提案し,
従来の手法を上回る性能を出せた • 全く知らない風景に対しても柔軟に対応可能 • 今後の展望としては, – 内部パラメータが互いに異なる画像間でのSfM – 用いる画像の枚数を増やす などが挙げられる
Download now