20180929 sfm learner&vid2_depth_print

SfM Learner & vid2depth
第三回 3D 勉強会
2018/9/29 @ Cyber Agent
鈴木久美子
断りがない場合、図表は該当論文から転載しています

SfM Learner ： Unsupervised Learning of
Depth and Ego-Motion from Video 　
CVPR’17
• Tinghui Zhou(UC Berkeley), Matthew Brown
(Google), Noah Snavely(Google), David G.
Lowe (Google)
• 単眼画像シークエンスを用いた教師なし
学習
• 出力はエゴモーション (6DOF) と Depth 画
像
• それぞれ CNN で学習
• 学習時： 3 枚のシークエンス画像
• 利用時： 1 枚または 2 枚のシークエンス

vSLAM
• 画像を用いた SLAM
• 環境マップ生成→シーンの形状
• 自己位置同定（位置・方向）
?
https://www.youtube.com/watch?v=jNbYcw_dmcQ

教師信号としての自由視点画像生成
@vSLAM
• 自由視点画像の生成
• シーンの 3D 形状→ Depth
• カメラポーズ（位置・方向）→エゴモー
ション
• 自由視点画像生成ができるモデル
は暗に Depth ・カメラポーズにつ
いての知識を持っている
• 教師なし学習で vSLAM する場合、
前後のフレームで自由視点画像が
生成できているかで学習ができる
?
John Flynn, et al., "Deep Stereo: Learning to Predict
New Views from the World's Imagery", CVPR, 2016

Single-View Depth Map
DispNet* の構造を利用
Input ：ターゲット画像
Output ：マルチスケール Depth
*Nikolaus Mayer, et al., "A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation"

Pose/explainability network
• Input ：ターゲット＆ソース画像
• Output
• エゴモーション： 6 x ( ソース画像数 )
• マルチスケール E マスク * ： 2x( ソース画
像数 )x スケール数
*SoftMax で各 2 チャンネルを正規化し、その内 1 つの
チャンネルをマスクとして利用

損失項の考え方
• 出力した Depth とエゴモーションを用いて自由視点画像が生成
できているかどうか
• シーンの仮定
1. シーンは Rigid ：動物体なし
2. ターゲット / ソース間で遮蔽なし：オクルージョンやその逆がない
3. 物体表面は拡散反射： Photometric Consistency が成立
• ターゲット画像から推定したシーンの 3D 形状（ Depth ）をソ
ースの位置姿勢へ投影した画像は同じ
∈pixel

視点画像生成ロス
① ターゲット画像と対応するソース画
像での座標（ Ps ）を求める
② Ps の画素値（ Is (Ps) ）を取得し、
ターゲット画像の座標 (Pt) へ戻す（→ Îs
）
①D と T を用いた投影 ② 元の座標へ戻す
ターゲット
ソース

① ソース画像における座標を求める
カメラ座標 = 点
群
https://www.slideshare.net/nonane/cv-study
ソース画像の座標ターゲット画像の座標

② ソース画像の画素値を取得し戻す
• バイリニア補間（微分可能）

仮定が成立しない場所への対処
仮定
1.シーンは Rigid
2.ソースターゲット間で遮蔽なし
3.物体表面は拡散反射
罰則項
E が 0 にならないよう定数ラベル 1 を
おき、クロスエントロピ誤差を小さく
する
仮定が成立しない場所の重みを少なくする
→ ターゲット / ソースペアに Explainability mask を予
測
→ 各ピクセルに対してどの程度正しくモデル化でき
るか

勾配の局所性の対処
ピクセルワイズの損失項は局所的なテクスチャに強く依存する
正しい座標が推定できていてもテクスチャがなかったり、 Depth が実際と
まったく違う場合は学習が進まない可能性がある
① マルチスケールロス：より広い領域から勾配を算出する
② 平滑化ロス： Depth の二階微分の L1 ノルムを小さくする
　　　　　　　　　（ラプラシアンフィルタを適用したエッジ強調画像を
罰則）

ロス関数
異なるイメージスケールソース画像

実験
画像サイズ： 128x416
ミニバッチサイズ： 4
入力画像数： Depth の実験時は 3 、ポーズは 5
Depth のスケールファクター

Depth 実験結果
Eigen ら Depth map prediction from a single image using a multi-scale deep network. NIPS'14
Liu ら Learning depth from single monocular images using deep convolutional neural ﬁelds. TPAMI'16
Godard ら Unsupervised monocular depth estimation with left-right consistency. CVPR'17
Garg ら Unsupervised CNN for single view depth estimation: Geometry to the rescue. ECCV'16

Depth 実験結果
• Kitti で評価
• Explainability mask があまり貢献しないのは① KITTI はシーンモーシ
ョンが多くない②オクルージョンはシークエンスの中でも小さい領
域で少しの時間しか起こらない

Depth 実験結果
• SfMLearner は Depth 境界や木や街頭といった細い構造をより捉えて
いる

Depth 実験結果
• SfM Learner は開けたところやカメラ前方に近い物体が多い時に弱い

• ORB-SLAM(full) ：シークエンス全部利用＋ループ閉じ )
• ORB-SLAMと同等
（各モデルに対してスケールファクタは最適化）
シークエンスの最初と最後の間で車によって左右に動い
た量
エゴモーション実験結果
Absolute Trajectory Error

Ｅマスクの考察
○ 動く物体
○ シーン間のオクルージョ
ン
× 　細いもの
× Depth が low confidence な
部分

まとめ
• 単眼画像シークエンスを用いた教師なし学習
• CNN でエゴモーションと Depth 画像＆ Explainability mask を学習。ロ
スはターゲット・ソース画像間の差を最小化
• 課題
• 動物体を直接的には推定しない
• カメラ内部パラメータを既知と想定

Vid2Depth ： Unsupervised Learning of
Depth and Ego-Motion from Monocular
Video Using 3D Geometric Constraints 　
CVPR’18
• R. Mahjourian, M. Wicke, A. Angelova (Google
Brain)
• 単眼画像シークエンスを用いた教師なし
学習
• 求めるのはエゴモーションと Depth 画像
• それぞれ CNN で学習
• 学習時： 2 枚のシークエンス画像
• 利用時： 1 枚または 2 枚のシークエンス
画像

Vid2Depth ： Unsupervised Learning of
Depth and Ego-Motion from Monocular
Video Using 3D Geometric Constraints 　
CVPR’18
SfmLearner はピクセルワイズ / 勾配ベースのロ
ス
→ 局所的に隣接しているピクセルしか考慮しな
い
→ フレーム全体の 3D 形状を考慮するため、
フレーム間で推定された 3D 点群と ego-motion
の consistency を保つようにした

３Ｄロスの導入
Depth の勾配の近似（マイナス）
pose 勾配の近似（マイナス）
Dt から生成した点群
Dt-1 から生成した点群
エゴモーションで
移動した Qt
ICP で移動した Qt-1^

視点画像生成ロス
① ターゲット画像と対応するソース画
像での座標（ Ps ）を求める
② Ps の画素値（ Is (Ps) ）を取得し、
ターゲット画像の座標 (Pt) へ戻す（→ Îs
）
①D と T を用いた投影 ② 元の座標へ戻す
ターゲット
ソース
再掲

Structured similarity ロスの導入
• 生成画像と実際の画像のエラーを図る際、 SfM Learner は単純な
MAE のみだった
• 画像圧縮など画像の質の低下を図るために利用されるメトリッ
ク
x, y ：画像パッチ
µ, σ ：画像の平均・分散
（固定サイズのプーリングで計
算） http://www.cns.nyu.edu/~lcv/ssim/
,

生成画像の確からしさマスクの変更
• SfM LearnerではE-Maskで、潜在的な誤差に対処していた
• E-Maskは精度が悪いことから、幾何学的分析によって得ら
れるPrincipled Maskへ変更
• フレームtからt-1へマップする際（進行方向と逆）、写って
いないところを排除
• ダイナミックシーンに対応しない。フレーム間で動く物体
も説明できるようにDepthを最適化してしまう

Depth に対する平滑化ロスの変更
• SfM Learner はラプラシアンフィルタを用いた単純な平滑化ロスだ
った
• Depth に対応する入力画像の勾配も考慮することで、入力画像に鋭
い変化がある場所での Depth の鋭い変化を許している
鋭い変化 ↗↗ ↘ ↘ →0 は自由
にぶい変化 ↘ ↘ ↗↗ →1 は小さく

Vid2Depth のロス関数
スケール

Depth の実験
• SfM Learner よりは良い
• SOTA （ Godard ）に近づく

Depth の実験
• 128 × 416
• SfM Learner よりエッジ部分が推定できている
• テクスチャがない所は難しい

Ablation Experiments
• 全てのロスを用いると一番良い
• SSIM ロスが一番利いている
• いずれにしても SfMLearner よりは良い

Ablation Experiments
• バリデーションの Depth エラー
• 3D ロスによってオーバーフィッティングが抑制されている
• 全てのロスを用いると一番良い

3D ロスの評価
• ローテクスチャな部分で artifact が減っている
3D ロスなし
3D ロスあり

Ego-Motion の評価
Absolute Trajectory Error

SfM Learner / Vid2Depth まとめ
• 視点画像生成に着目した教師なし vSLAM
• 単眼画像シークエンスを用いてエゴモーションと Depth 画像を
出力
• フレーム間で対応の取れない物体への対応
• SfMLearner ： Explainability mask （ confidence が低い部分の重み）
• Vid2Depth ： Principled mask （視野外を除去）
• 平滑化ロス
• SfMLearner ：ラプラシアンフィルタへ罰則
• Vid2Depth ： depth gradient smoothness
• Vid2Depth は、 3D ロスを導入
• 課題は、動物体への対応やカメラ内部パラメータの必要性

20180929 sfm learner&vid2_depth_print

Recommended

Recommended

More Related Content

What's hot

What's hot (20)