SlideShare a Scribd company logo
1 of 36
Download to read offline
SfM Learner & vid2depth
第三回 3D 勉強会
2018/9/29 @ Cyber Agent
鈴木久美子
断りがない場合、図表は該当論文から転載しています
SfM Learner : Unsupervised Learning of
Depth and Ego-Motion from Video  
CVPR’17
• Tinghui Zhou(UC Berkeley), Matthew Brown
(Google), Noah Snavely(Google), David G.
Lowe (Google)
• 単眼画像シークエンスを用いた教師なし
学習
• 出力はエゴモーション (6DOF) と Depth 画
像
• それぞれ CNN で学習
• 学習時: 3 枚のシークエンス画像
• 利用時: 1 枚または 2 枚のシークエンス
vSLAM
• 画像を用いた SLAM
• 環境マップ生成→シーンの形状
• 自己位置同定(位置・方向)
?
https://www.youtube.com/watch?v=jNbYcw_dmcQ
教師信号としての自由視点画像生成
@vSLAM
• 自由視点画像の生成
• シーンの 3D 形状→ Depth
• カメラポーズ(位置・方向)→エゴモー
ション
• 自由視点画像生成ができるモデル
は暗に Depth ・カメラポーズにつ
いての知識を持っている
• 教師なし学習で vSLAM する場合、
前後のフレームで自由視点画像が
生成できているかで学習ができる
?
John Flynn, et al., "Deep Stereo: Learning to Predict
New Views from the World's Imagery", CVPR, 2016
Single-View Depth Map
DispNet* の構造を利用
Input :ターゲット画像
Output :マルチスケール Depth
*Nikolaus Mayer, et al., "A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation"
Pose/explainability network
• Input :ターゲット&ソース画像
• Output
• エゴモーション: 6 x ( ソース画像数 )
• マルチスケール E マスク * : 2x( ソース画
像数 )x スケール数
*SoftMax で各 2 チャンネルを正規化し、その内 1 つの
チャンネルをマスクとして利用
損失項の考え方
• 出力した Depth とエゴモーションを用いて自由視点画像が生成
できているかどうか
• シーンの仮定
1. シーンは Rigid :動物体なし
2. ターゲット / ソース間で遮蔽なし:オクルージョンやその逆がない
3. 物体表面は拡散反射: Photometric Consistency が成立
• ターゲット画像から推定したシーンの 3D 形状( Depth )をソ
ースの位置姿勢へ投影した画像は同じ
∈pixel
視点画像生成ロス
① ターゲット画像と対応するソース画
像での座標( Ps )を求める
② Ps の画素値( Is (Ps) )を取得し、
ターゲット画像の座標 (Pt) へ戻す(→ Îs
)
①D と T を用いた投影 ② 元の座標へ戻す
ターゲット
ソース
① ソース画像における座標を求める
カメラ座標 = 点
群
https://www.slideshare.net/nonane/cv-study
ソース画像の座標 ターゲット画像の座標
② ソース画像の画素値を取得し戻す
• バイリニア補間(微分可能)
仮定が成立しない場所への対処
仮定
1.シーンは Rigid
2.ソースターゲット間で遮蔽なし
3.物体表面は拡散反射
罰則項
E が 0 にならないよう定数ラベル 1 を
おき、クロスエントロピ誤差を小さく
する
仮定が成立しない場所の重みを少なくする
→ ターゲット / ソースペアに Explainability mask を予
測
→ 各ピクセルに対してどの程度正しくモデル化でき
るか
勾配の局所性の対処
ピクセルワイズの損失項は局所的なテクスチャに強く依存する
正しい座標が推定できていてもテクスチャがなかったり、 Depth が実際と
まったく違う場合は学習が進まない可能性がある
① マルチスケールロス:より広い領域から勾配を算出する
② 平滑化ロス: Depth の二階微分の L1 ノルムを小さくする
         (ラプラシアンフィルタを適用したエッジ強調画像を
罰則)
ロス関数
異なるイメージスケール ソース画像
実験
画像サイズ: 128x416
ミニバッチサイズ: 4
入力画像数: Depth の実験時は 3 、ポーズは 5
Depth のスケールファクター
Depth 実験結果
Eigen ら Depth map prediction from a single image using a multi-scale deep network. NIPS'14
Liu ら Learning depth from single monocular images using deep convolutional neural fields. TPAMI'16
Godard ら Unsupervised monocular depth estimation with left-right consistency. CVPR'17
Garg ら Unsupervised CNN for single view depth estimation: Geometry to the rescue. ECCV'16
Depth 実験結果
• Kitti で評価
• Explainability mask があまり貢献しないのは① KITTI はシーンモーシ
ョンが多くない②オクルージョンはシークエンスの中でも小さい領
域で少しの時間しか起こらない
Depth 実験結果
• SfMLearner は Depth 境界や木や街頭といった細い構造をより捉えて
いる
Depth 実験結果
• SfM Learner は開けたところやカメラ前方に近い物体が多い時に弱い
• ORB-SLAM(full) :シークエンス全部利用+ループ閉じ )
• ORB-SLAMと同等
(各モデルに対してスケールファクタは最適化)
シークエンスの最初と最後の間で車によって左右に動い
た量
エゴモーション実験結果
Absolute Trajectory Error
Eマスクの考察
○ 動く物体
○ シーン間のオクルージョ
ン
×  細いもの
× Depth が low confidence な
部分
まとめ
• 単眼画像シークエンスを用いた教師なし学習
• CNN でエゴモーションと Depth 画像& Explainability mask を学習。ロ
スはターゲット・ソース画像間の差を最小化
• 課題
• 動物体を直接的には推定しない
• カメラ内部パラメータを既知と想定
Vid2Depth : Unsupervised Learning of
Depth and Ego-Motion from Monocular
Video Using 3D Geometric Constraints  
CVPR’18
• R. Mahjourian, M. Wicke, A. Angelova (Google
Brain)
• 単眼画像シークエンスを用いた教師なし
学習
• 求めるのはエゴモーションと Depth 画像
• それぞれ CNN で学習
• 学習時: 2 枚のシークエンス画像
• 利用時: 1 枚または 2 枚のシークエンス
画像
Vid2Depth : Unsupervised Learning of
Depth and Ego-Motion from Monocular
Video Using 3D Geometric Constraints  
CVPR’18
SfmLearner はピクセルワイズ / 勾配ベースのロ
ス
→ 局所的に隣接しているピクセルしか考慮しな
い
→ フレーム全体の 3D 形状を考慮するため、
フレーム間で推定された 3D 点群と ego-motion
の consistency を保つようにした
3Dロスの導入
Depth の勾配の近似(マイナス)
pose 勾配の近似(マイナス)
Dt から生成した点群
Dt-1 から生成した点群
エゴモーションで
移動した Qt
ICP で移動した Qt-1^
視点画像生成ロス
① ターゲット画像と対応するソース画
像での座標( Ps )を求める
② Ps の画素値( Is (Ps) )を取得し、
ターゲット画像の座標 (Pt) へ戻す(→ Îs
)
①D と T を用いた投影 ② 元の座標へ戻す
ターゲット
ソース
再掲
Structured similarity ロスの導入
• 生成画像と実際の画像のエラーを図る際、 SfM Learner は単純な
MAE のみだった
• 画像圧縮など画像の質の低下を図るために利用されるメトリッ
ク
x, y :画像パッチ
µ, σ :画像の平均・分散
(固定サイズのプーリングで計
算) http://www.cns.nyu.edu/~lcv/ssim/
,
生成画像の確からしさマスクの変更
• SfM LearnerではE-Maskで、潜在的な誤差に対処していた
• E-Maskは精度が悪いことから、幾何学的分析によって得ら
れるPrincipled Maskへ変更
• フレームtからt-1へマップする際(進行方向と逆)、写って
いないところを排除
• ダイナミックシーンに対応しない。フレーム間で動く物体
も説明できるようにDepthを最適化してしまう
Depth に対する平滑化ロスの変更
• SfM Learner はラプラシアンフィルタを用いた単純な平滑化ロスだ
った
• Depth に対応する入力画像の勾配も考慮することで、入力画像に鋭
い変化がある場所での Depth の鋭い変化を許している
鋭い変化 ↗↗ ↘ ↘ →0 は自由
にぶい変化 ↘ ↘ ↗↗ →1 は小さく
Vid2Depth のロス関数
スケール
Depth の実験
• SfM Learner よりは良い
• SOTA ( Godard )に近づく
Depth の実験
• 128 × 416
• SfM Learner よりエッジ部分が推定できている
• テクスチャがない所は難しい
Ablation Experiments
• 全てのロスを用いると一番良い
• SSIM ロスが一番利いている
• いずれにしても SfMLearner よりは良い
Ablation Experiments
• バリデーションの Depth エラー
• 3D ロスによってオーバーフィッティングが抑制されている
• 全てのロスを用いると一番良い
3D ロスの評価
• ローテクスチャな部分で artifact が減っている
3D ロスなし
3D ロスあり
Ego-Motion の評価
Absolute Trajectory Error
SfM Learner / Vid2Depth まとめ
• 視点画像生成に着目した教師なし vSLAM
• 単眼画像シークエンスを用いてエゴモーションと Depth 画像を
出力
• フレーム間で対応の取れない物体への対応
• SfMLearner : Explainability mask ( confidence が低い部分の重み)
• Vid2Depth : Principled mask (視野外を除去)
• 平滑化ロス
• SfMLearner :ラプラシアンフィルタへ罰則
• Vid2Depth : depth gradient smoothness
• Vid2Depth は、 3D ロスを導入
• 課題は、動物体への対応やカメラ内部パラメータの必要性

More Related Content

What's hot

[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018Deep Learning JP
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎Norishige Fukushima
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向Hiroshi Fukui
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Kento Doi
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日Kitsukawa Yuki
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoishii yasunori
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介miyanegi
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィNorishige Fukushima
 

What's hot (20)

[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎
 
Visual slam
Visual slamVisual slam
Visual slam
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
 

20180929 sfm learner&vid2_depth_print

Editor's Notes

  1. Noah SnavelyはDeep Stereoにもいる
  2. *ソース画像を同時に入力してもうまくいかなかった →オプティカルフローConstraintが考慮されないといけないから ターゲット:基準、ソース:動かす方
  3. (ソフトマックスで各2チャンネルを正規化、正規化後の2個めのチャンネルをマスクとして利用) Finally, global average pooling is applied to aggregate predictions at all spatial locations
  4. 拡散反射:どの方向から見ても物体の輝度値が一定となる(画素値が変化しない)反射 Photo Consistency 輝度情報の整合性 点が異なるカメラに観測されたとき、各画像における当該点の周りのテクスチャは投影変換の寄与を除いて同じ 各カメラから対象表面の3角形メッシュをみたとき、各撮影画像中のテクスチャが一致
  5. ランベルト面 Lambertian surface. 放射輝度が観測する方向によらず一定であるような仮想的な面(完全拡散面)
  6. ランベルト面 Lambertian surface. 放射輝度が観測する方向によらず一定であるような仮想的な面(完全拡散面)
  7. ランベルト面 Lambertian surface. 放射輝度が観測する方向によらず一定であるような仮想的な面(完全拡散面)
  8. ランベルト面 Lambertian surface. 放射輝度が観測する方向によらず一定であるような仮想的な面(完全拡散面)
  9. ランベルト面 Lambertian surface. 放射輝度が観測する方向によらず一定であるような仮想的な面(完全拡散面)
  10. ローテクスチャでartifactを減らsす