Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
MK
Uploaded by
Masaya Kaneko
PDF, PPTX
2,207 views
論文読み会(DeMoN;CVPR2017)
DeMoN : Depth and Motion Network for Learning Monocular Stereo(CVPR2017)を論文読み会で発表した際の資料です
Engineering
◦
Related topics:
Deep Learning
•
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 45
2
/ 45
3
/ 45
4
/ 45
5
/ 45
6
/ 45
7
/ 45
8
/ 45
9
/ 45
10
/ 45
11
/ 45
12
/ 45
13
/ 45
14
/ 45
15
/ 45
16
/ 45
17
/ 45
18
/ 45
19
/ 45
20
/ 45
21
/ 45
22
/ 45
23
/ 45
24
/ 45
25
/ 45
26
/ 45
27
/ 45
28
/ 45
29
/ 45
30
/ 45
31
/ 45
32
/ 45
33
/ 45
34
/ 45
35
/ 45
36
/ 45
37
/ 45
38
/ 45
39
/ 45
40
/ 45
41
/ 45
42
/ 45
43
/ 45
44
/ 45
45
/ 45
More Related Content
PDF
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
PDF
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
by
Deep Learning JP
PDF
SSII2018TS: 3D物体検出とロボットビジョンへの応用
by
SSII
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
PDF
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
by
Akira Taniguchi
PPTX
論文読み会2018 (CodeSLAM)
by
Masaya Kaneko
PDF
敵対的生成ネットワーク(GAN)
by
cvpaper. challenge
PPTX
Go-ICP: グローバル最適(Globally optimal) なICPの解説
by
Yusuke Sekikawa
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
by
Deep Learning JP
SSII2018TS: 3D物体検出とロボットビジョンへの応用
by
SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
by
Akira Taniguchi
論文読み会2018 (CodeSLAM)
by
Masaya Kaneko
敵対的生成ネットワーク(GAN)
by
cvpaper. challenge
Go-ICP: グローバル最適(Globally optimal) なICPの解説
by
Yusuke Sekikawa
What's hot
PDF
【メタサーベイ】Neural Fields
by
cvpaper. challenge
PPTX
CNN-SLAMざっくり
by
EndoYuuki
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
by
Deep Learning JP
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
by
Preferred Networks
PDF
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
by
Kazuyuki Miyazawa
PDF
Transformer 動向調査 in 画像認識(修正版)
by
Kazuki Maeno
PDF
Attentionの基礎からTransformerの入門まで
by
AGIRobots
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
by
cvpaper. challenge
PDF
[DL輪読会]画像を使ったSim2Realの現況
by
Deep Learning JP
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
by
cvpaper. challenge
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
by
Deep Learning JP
PPTX
SfM Learner系単眼深度推定手法について
by
Ryutaro Yamauchi
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
by
Deep Learning JP
PDF
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
PDF
確率モデルを用いた3D点群レジストレーション
by
Kenta Tanaka
PDF
Semantic segmentation
by
Takuya Minagawa
PDF
初めてのグラフカット
by
Tsubasa Hirakawa
PDF
LiDAR点群と画像とのマッピング
by
Takuya Minagawa
PDF
Point net
by
Fujimoto Keisuke
PDF
SLAM入門 第2章 SLAMの基礎
by
yohei okawa
【メタサーベイ】Neural Fields
by
cvpaper. challenge
CNN-SLAMざっくり
by
EndoYuuki
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
by
Deep Learning JP
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
by
Preferred Networks
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
by
Kazuyuki Miyazawa
Transformer 動向調査 in 画像認識(修正版)
by
Kazuki Maeno
Attentionの基礎からTransformerの入門まで
by
AGIRobots
【メタサーベイ】Vision and Language のトップ研究室/研究者
by
cvpaper. challenge
[DL輪読会]画像を使ったSim2Realの現況
by
Deep Learning JP
動画認識における代表的なモデル・データセット(メタサーベイ)
by
cvpaper. challenge
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
by
Deep Learning JP
SfM Learner系単眼深度推定手法について
by
Ryutaro Yamauchi
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
by
Deep Learning JP
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
確率モデルを用いた3D点群レジストレーション
by
Kenta Tanaka
Semantic segmentation
by
Takuya Minagawa
初めてのグラフカット
by
Tsubasa Hirakawa
LiDAR点群と画像とのマッピング
by
Takuya Minagawa
Point net
by
Fujimoto Keisuke
SLAM入門 第2章 SLAMの基礎
by
yohei okawa
Similar to 論文読み会(DeMoN;CVPR2017)
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
by
SSII
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
by
Mai Nishimura
PDF
Cvpr 2021 manydepth
by
Kenta Tanaka
PDF
Visual slam
by
Takuya Minagawa
PPTX
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
by
Kazuyuki Miyazawa
PDF
20190307 visualslam summary
by
Takuya Minagawa
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
by
Kazuyuki Miyazawa
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
by
Masaya Kaneko
PPTX
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
by
Deep Learning JP
PDF
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
by
Sho Kagami
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
by
harmonylab
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
by
harmonylab
PDF
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
by
Sony - Neural Network Libraries
PDF
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
by
harmonylab
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
by
cvpaper. challenge
PPT
20180929 sfm learner&vid2_depth_print
by
KUMIKO Suzuki
PPTX
20190831 3 d_inaba_final
by
DaikiInaba
PDF
第41回関東CV勉強会 CNN-SLAM
by
邦洋 長谷川
PDF
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
by
matsunoh
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
by
Kento Doi
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
by
SSII
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
by
Mai Nishimura
Cvpr 2021 manydepth
by
Kenta Tanaka
Visual slam
by
Takuya Minagawa
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
by
Kazuyuki Miyazawa
20190307 visualslam summary
by
Takuya Minagawa
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
by
Kazuyuki Miyazawa
SLAMチュートリアル大会資料(ORB-SLAM)
by
Masaya Kaneko
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
by
Deep Learning JP
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
by
Sho Kagami
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
by
harmonylab
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
by
harmonylab
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
by
Sony - Neural Network Libraries
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
by
harmonylab
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
by
cvpaper. challenge
20180929 sfm learner&vid2_depth_print
by
KUMIKO Suzuki
20190831 3 d_inaba_final
by
DaikiInaba
第41回関東CV勉強会 CNN-SLAM
by
邦洋 長谷川
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
by
matsunoh
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
by
Kento Doi
More from Masaya Kaneko
PDF
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
by
Masaya Kaneko
PPTX
Direct Sparse Odometryの解説
by
Masaya Kaneko
PPTX
SLAM勉強会(PTAM)
by
Masaya Kaneko
PDF
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
by
Masaya Kaneko
PPTX
ORB-SLAMの手法解説
by
Masaya Kaneko
PDF
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
by
Masaya Kaneko
PPTX
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
by
Masaya Kaneko
PPTX
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
by
Masaya Kaneko
PDF
コンピュータ先端ガイド2巻3章勉強会(SVM)
by
Masaya Kaneko
PPTX
Dynamic Routing Between Capsules
by
Masaya Kaneko
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
by
Masaya Kaneko
Direct Sparse Odometryの解説
by
Masaya Kaneko
SLAM勉強会(PTAM)
by
Masaya Kaneko
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
by
Masaya Kaneko
ORB-SLAMの手法解説
by
Masaya Kaneko
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
by
Masaya Kaneko
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
by
Masaya Kaneko
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
by
Masaya Kaneko
コンピュータ先端ガイド2巻3章勉強会(SVM)
by
Masaya Kaneko
Dynamic Routing Between Capsules
by
Masaya Kaneko
論文読み会(DeMoN;CVPR2017)
1.
DeMoN : Depth
and Motion Network for Learning Monocular Stereo (CVPR2017) 2017論文読み会 2017/10/12 東京大学 相澤山﨑研究室所属 B4 金子 真也
2.
1 概要 • SfM(Structure from
Motion)をConvNetで行った – 2枚の画像から三次元マップとカメラの位置を推定 画像 (時刻 t) 画像 (時刻 t+1) カメラの動き (回転 R,並進 t) 画像(時刻 t) の深度マップ 入力 出力
3.
2 関連研究との比較 • 既存のSfM – 「カメラの位置の推定→三次元地図作成」よりカメラ の位置を誤ると全部間違ってしまう ★今回は両者を同時に推定するので大幅に間違えない •
Depth prediction from a single image – Eigen et al. (ICCV2015) – 画像1枚からConvNetで深度推定 ★画像2枚から推定できるように構造を工夫 (単純に2枚入れても画像1枚での回帰を学習しがち)
4.
3 ネットワークの概要
5.
4 ネットワークの概要 ①とりあえず画像ペアの情報から 深度マップとカメラの動きを出力
6.
5 ネットワークの概要 ①とりあえず画像ペアの情報から 深度マップとカメラの動きを出力 ②何度も繰り返すことでスケールや深度の調整
7.
6 ネットワークの概要 ①とりあえず画像ペアの情報から 深度マップとカメラの動きを出力 ②何度も繰り返すことでスケールや深度の調整 ③深度マップの拡大と形を きれいにして出力
8.
7 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力
9.
8 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度
10.
9 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair optical flow +confidence warped image Input
11.
10 1. bootstrap net •
画像ペアを入力とし,optical flow(+確信度)の計算を 経由しながら深度マップとカメラの動きを出力 画像ペア カメラの 動き 深度マップ +法線マップ optical flowによりwarp 1st Image Warped 2nd Image warp optical flow + 確信度
12.
11 1. bootstrap net •
なぜoptical flowを計算するか? – 2枚の画像の情報を無理やり利用するため – 計算なしでは入力を1枚にした場合と精度が変わらず (zはdepth)
13.
12 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる)
14.
13 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度
15.
14 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) bootstrap net と異なる部分 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 iterative
16.
15 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair Depth +normals optical flow +warped image Input Image pair optical flow +confidence depth +warped image Input
17.
16 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair Depth +normals optical flow +warped image Input カメラの動き+深度からoptical flowを計算 Previous depth Optical flow
18.
17 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair Depth +normals optical flow +warped image Input Image pair optical flow +confidence depth +warped image Input
19.
18 2. iterative net •
深度マップとカメラの動きを繰り返し計算 • 構造的にはbootstrap netとほぼ同じ(入力が異なる) 画像ペア カメラの 動き 深度マップ +法線マップ optical flow + 確信度 Image pair optical flow +confidence depth +warped image Input カメラの動き+optical flowから深度の計算 depthOptical flow
20.
19 2. iterative net •
iterativeに繰り返すことによる効果 – 徐々に精度が改善
21.
20 2. iterative net •
iterativeに繰り返すことによる効果 – 徐々に精度が改善 – 3回が平均的に良い結果を出す(SUN3D dataset)
22.
21 3. refinement net •
深度マップの拡大とrefineを行う
23.
22 3. refinement net •
refinementの結果 解像度 (64×48) 解像度 (256×192)
24.
23 ネットワークの学習(Loss) • 今回用いるLossとしては全部で7種類存在 – Depth
Loss : 三次元的な深度のLoss – Normal Loss : 三次元的な形の法線のLoss – Optical flow Loss : 画像間のoptical flowのLoss – Confidence Loss : flowの確信度のLoss – Rotation Loss : カメラの回転運動のLoss – Translation Loss : カメラの並進運動のLoss – Scale Invariant gradient Loss : scale不変な勾配 のLoss
25.
24 ネットワークの学習(Loss) • Point-wiseなLoss – 逆深度
𝜉𝜉 = 1/𝑧𝑧 (ground truth: ̂𝜉𝜉) – 表面の法線 𝐧𝐧 (ground truth: �𝐧𝐧) Optical flow 𝐰𝐰 (ground truth: �𝐰𝐰) Depth Loss Normal Loss Optical flow Loss
26.
25 ネットワークの学習(Loss) • Point-wiseなLoss – 確信度
𝑐𝑐𝑥𝑥 (ground truth: �𝑐𝑐𝑥𝑥) ※y方向に関しても同様に定義 Confidence Loss
27.
26 ネットワークの学習(Loss) • Motion Loss –
回転 𝐫𝐫 (ground truth: �𝐫𝐫) 並進 𝐭𝐭 (ground truth: ̂𝐭𝐭) ※ground truthである ̂𝐭𝐭は以下のように正規化 (単眼カメラよりscale不定であるため) ̂𝐭𝐭 2 = 1 Rotation Loss Translation Loss
28.
27 ネットワークの学習(Loss) • Scale Invariant
gradient Loss – 今回のネットワーク設計での推しポイント – scale不変な微分演算子を以下のように定義 – 深度の誤差のLossとしてこの演算子を用いる Scale Invariant gradient Loss
29.
28 ネットワークの学習(Loss) • Scale Invariant
gradient Loss – ピクセル近傍の深度値を比較することで以下が期待 ・均一な領域の滑らかさの増加 ・不連続点といった鋭いエッジの強調 不連続点の強調 均一な領域は滑らか
30.
29 ネットワークの学習(Loss) • Scale Invariant
gradient Loss – Lossの違いによる学習結果の違い • 単純なL1 lossの結果に比べてかなり鮮明
31.
30 ネットワークの学習(Schedule) • ネットワークそのものは順々に学習
32.
31 評価に用いたデータセット • 用いたデータセットとしては – Synthetic
: 最高のGT付きだが非現実的な画像 – Real : 実世界の画像だが, GTは離散的で誤差が多い • どちらも完璧でないので, 両方を用いて学習させればい い感じになるのでは?
33.
32 結果 Two-frame single-frame Base-*の画像の解像度 640×480 DeMoNでの解像度 256×192 古典的な手法に比べて, カメラの回転角が小さく てもうまくいく
34.
33 結果(Errorの定義) • Depth error –
Single-frame predictがscale込みで推定するのに 対し, two-frame predictは含まれていない → スケール不変なerror metricが必要 – 古典的なSfMとの比較には以下を利用
35.
34 結果(Errorの定義) • Motion error –
GTとpredictionとの角度 (rotation, translation) – Translation vectorは1に正規化されている • Optical flow error – Average endpoint error (EPE) 全てのピクセルでGTとpredictionとの間のEuclidian normを出力
36.
35 結果(two-frame depth est.) •
古典的なSfMの手法との比較 – Base-SIFT/Base-FF • SIFT/FlowFields(Bailer+)で画像間の対応 • 8-point algo. + RANSACでEssential matrix • Bundle Adjustment (by ceres library) • Stereoでdepth推定 + optimize(Hirschmuller+) – Base-Oracle • Stereoの代わりにGTのcamera motionを用いる – Base-Matlab/Base-Mat-F • KLT algo./flow(by DeMoN)で画像間の対応 • 5-point algo. + RANSACでEssential matrix
37.
36 結果(single-frame depth est.) •
既存の単画像手法との比較 – Eigen&Fergus • VGG netの構造 – Liu+(indoor) • NYUv2 datasetによるindoor sceneで訓練 – Liu+(outdoor) • Make3D datasetによるoutdoor sceneで訓練
38.
37 結果 • 比較的境界が明瞭で, 細かい箇所まで表現できている
39.
38 結果 • RGB-D SLAM
datasetの連続する画像からカメラの動き をtrajectoryとして出力した結果 – 主にtranslation driftによるずれ – SLAMの重要な要素であるdrift correctionをしていな いのでそれはそう感がある DeMoN trajectory GT trajectory
40.
39 結果 • 訓練データとかなり異なる風景でも比較的うまくいく
41.
40 結果 • 点群データを出力した例1
42.
41 結果 • 点群データを出力した例2
43.
42 結果 • 点群データを出力した例3
44.
43 結果 • 点群データを出力した例4
45.
44 結論と今後の展望 • 2枚の画像からdepthとcamera motionを学習するdeep を提案し,
従来の手法を上回る性能を出せた • 全く知らない風景に対しても柔軟に対応可能 • 今後の展望としては, – 内部パラメータが互いに異なる画像間でのSfM – 用いる画像の枚数を増やす などが挙げられる
Download