4. 教師信号としての自由視点画像生成
@vSLAM
• 自由視点画像の生成
• シーンの 3D 形状→ Depth
• カメラポーズ(位置・方向)→エゴモー
ション
• 自由視点画像生成ができるモデル
は暗に Depth ・カメラポーズにつ
いての知識を持っている
• 教師なし学習で vSLAM する場合、
前後のフレームで自由視点画像が
生成できているかで学習ができる
?
John Flynn, et al., "Deep Stereo: Learning to Predict
New Views from the World's Imagery", CVPR, 2016
5. Single-View Depth Map
DispNet* の構造を利用
Input :ターゲット画像
Output :マルチスケール Depth
*Nikolaus Mayer, et al., "A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation"
15. Depth 実験結果
Eigen ら Depth map prediction from a single image using a multi-scale deep network. NIPS'14
Liu ら Learning depth from single monocular images using deep convolutional neural fields. TPAMI'16
Godard ら Unsupervised monocular depth estimation with left-right consistency. CVPR'17
Garg ら Unsupervised CNN for single view depth estimation: Geometry to the rescue. ECCV'16
22. Vid2Depth : Unsupervised Learning of
Depth and Ego-Motion from Monocular
Video Using 3D Geometric Constraints
CVPR’18
• R. Mahjourian, M. Wicke, A. Angelova (Google
Brain)
• 単眼画像シークエンスを用いた教師なし
学習
• 求めるのはエゴモーションと Depth 画像
• それぞれ CNN で学習
• 学習時: 2 枚のシークエンス画像
• 利用時: 1 枚または 2 枚のシークエンス
画像
23. Vid2Depth : Unsupervised Learning of
Depth and Ego-Motion from Monocular
Video Using 3D Geometric Constraints
CVPR’18
SfmLearner はピクセルワイズ / 勾配ベースのロ
ス
→ 局所的に隣接しているピクセルしか考慮しな
い
→ フレーム全体の 3D 形状を考慮するため、
フレーム間で推定された 3D 点群と ego-motion
の consistency を保つようにした