SlideShare a Scribd company logo
1 of 19
Download to read offline
DLゼミ
Depth Prediction Without the Sensors: Leveraging
Structure for Unsupervised Learning from
Monocular Videos
1
北海道大学大学院情報科学院
調和系工学研究室
修士1年 森 雄斗
論文情報
• タイトル
– Depth Prediction Without the Sensors: Leveraging Structure
for Unsupervised Learning from Monocular Videos
• 学会
– AAAI 2019
• 著者
– Vincent Casser1*, Soeren Pirk Reza, Mahjourian2, Anelia Angelova
• Google Brain
• 1 Institute for Applied Computational Science, Harvard University; Google Brain
• 2 University of Texas at Austin; Google Brain
• Github
– https://github.com/tensorflow/models/tree/master/research/struct2depth
(TensorFlow1.x)
• Webサイト(struct2depth)
– https://sites.google.com/view/struct2depth
2
概要 3
• 単眼カメラの入力から教師なし学習でシーン深度とロボットの
エゴモーション(カメラ/ロボットの動き)を推定
• ステレオカメラによる深度予測と同等の精度で、物体の動きを
多く含むシーンでの深度予測を大幅に向上
• 屋内-屋外などの異なる環境の移動に対応
背景
• カメラの映像から深度の予測を行うタスクは、屋内および屋外
のロボットナビゲーション(障害物回避、経路計画)において
重要
• 深度予測の教師あり学習には高価な深度センサーが必要
4
先行研究
Unsupervised learning of depth and ego-motion from video
(Zhou et al. 2017)
• ステレオカメラではなく、単眼カメラを用いた手法
• カメラ画像から深度とエゴモーションをディープニューラルネ
ットワークで予測する
5
提案手法
• 先行研究の手法を改善
– Motion Model
• インスタンスセグメンテーションによる個々のオブジェクトをモデル化
– Imposing Object Size Constraints
• 物体サイズによる正則化により、極端な誤差を防ぐ
– Test Time Refinement Model
• オンラインでパラメータチューニングを行うことでドメイン転送が可能
6
Problem Setup
• 単眼カメラの画像: (𝐼1, 𝐼2, 𝐼3) ∈ ℝ 𝐻×𝑊×3
• 深度関数 𝜃: ℝ 𝐻×𝑊×3 → ℝ 𝐻×𝑊
• 深度マップ 𝐷𝑖 = 𝜃(𝐼𝑖)
• エゴモーションネットワーク 𝜓 𝐸 = ℝ2×𝐻×𝑊×3
→ ℝ6
– 2frameのRGB画像から6軸ベクトル (𝑡 𝑥, 𝑡 𝑦, 𝑡 𝑧, 𝑟𝑥, 𝑟𝑦, 𝑟𝑧)
– PoseCNN: 𝐸1→2 = 𝜓 𝐸(𝐼1, 𝐼2)
• Warping operator 𝜑 𝐼𝑖, 𝐷𝑗, 𝐸𝑖→𝑗 → መ𝐼𝑖→𝑗
– 画像と深度推定値とエゴモーションから次の画像の推定
• Reconstruction Loss: 𝐿 𝑟𝑒𝑐 = min( መ𝐼1→2 − 𝐼2 )
– 画像の推定結果と実際の画像の差が誤差
7
Algorithm Baseline
• 𝐿 𝑟𝑒𝑐 = 𝑚𝑖𝑛( መ𝐼1→2 − 𝐼2 , መ𝐼3→2 − 𝐼2 )
– 前後のフレームいずれから中間フレームとの差の誤差を計算[1]
• 𝐿 = 𝛼1 σ𝑖=0
3
𝐿 𝑟𝑒𝑐
(𝑖)
+ 𝛼2 𝐿 𝑠𝑠𝑖𝑚
(𝑖)
+ 𝛼3
1
2 𝑖 𝐿 𝑠𝑚
(𝑖)
– 全体の損失は、 Reconstruction Loss、SSIM(画質の損失)[2], 深度
マップの滑らかさの誤差[3]を使用
– 𝛼𝑖 : 4つのハイパーパラメータ
8
[1] Godard, Clément, Oisin Mac Aodha, and Gabriel J. Brostow. "Unsupervised monocular depth
estimation with left-right consistency." Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition. 2017.
[2] Zhou Wang, A. C. Bovik, H. R. Sheikh and E. P. Simoncelli, "Image quality assessment: from error
visibility to structural similarity," in IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612,
April 2004, doi: 10.1109/TIP.2003.819861.
[3] Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
Motion Model
• 3Dオブジェクトでモデル化するだけでなく、その動きを3次元
的に予測する: 𝜓 𝑀
• インスタンスセグメンテーションマスク:
– (𝑆𝑖,1, 𝑆𝑖,2, 𝑆𝑖,3) ∈ ℕ 𝐻×𝑊
• 物体の運動を画像からマスクアウト
– 𝑂0 𝑆
• エゴモーションモデル
– 𝑉 = 𝑂0(𝑆1) ⊙ 𝑂0(𝑆2) ⊙ 𝑂0(𝑆3) : 3フレームの画像から物体領域を含まない領域
– 𝐸1→2, 𝐸2→3 = 𝜓 𝐸 𝐼1 ⊙ 𝑉, 𝐼2 ⊙ 𝑉, 𝐼3 ⊙ 𝑉
9
Motion Model
• 𝑖番目のオブジェクトの運動推定値:
– 𝑀1→2
(𝑖)
, 𝑀2→3
(𝑖)
= 𝜓 𝑀(መ𝐼1→2 ⊙ 𝑂𝑖
መ𝑆1→2 , 𝐼2 ⊙ 𝑂𝑖 𝑆2 , መ𝐼3→2 ⊙ 𝑂𝑖( መ𝑆3→2))
– 𝑀1→2
(𝑖)
, 𝑀2→3
(𝑖)
∈ ℝ6
– この段階ではエゴモーションは考慮されていない
• 最終的な出力 (𝑖はオブジェクトの番号)
–
10
Imposing Object Size Constraints
• 先行研究ではカメラ自体とオブジェクトが一緒に動く場合、無
限に遠い静止したオブジェクトと判断されていた
– インスタンスセグメンテーションによるクラスに大きさの事前知識
を与えることで極端な誤差を回避
11
Test Time Refinement Model
• 推論中にモデルの重みを固定せず、オンラインチューニングす
ることで自律型システムで有利
• 具体的には3フレームの画像を使って、深度予測の質を大幅に向
上させることが可能となった
12
モデルの評価実験データセット
• KITTI dataset
– 深度推定とエゴモーション予測の評価
• Cityscapes dataset
– 自律運転に使用されるデータセット
– 複数の移動物体を持つシーンが多く含まれている
• Fetch Indoor Navigation dataset
– 屋内のデータセット
– 上のCityscapesでトレーニングを行った後、微調整なしで評価を行
う =未知の環境での適応性の検証
13
KITTI dataset 14
KITTI dataset
• 深度推定値の精度
– 運動モデル(M)とオンラインチューニング(R)を導入した場合において高い評価値
15
Motion modelを使用した競合モデル
Cityscapes 16
• Cityscapesデータセットを用いて学習し、KITTIで評価
– KITTIでの学習と同様に、運動モデル(M)とオンラインチューニン
グ(R)を導入した場合において高い評価値
Fetch Indoor Navigation dataset
• Cityscapesデータセットで学習を行い、室内データで定性評価
17
まとめ 18
• 単眼カメラのみで深度とエゴモーションを予測
• 先行研究を以下の手法で改善
– Motion Model
• インスタンスセグメンテーションによる個々のオブジェクトをモデル化
– Imposing Object Size Constraints
• 物体サイズによる正則化により、極端な誤差を防ぐ
– Test Time Refinement Model
• オンラインでパラメータチューニングを行うことでドメイン転送が可能
ステレオカメラによる深度推定に匹敵する精度
屋内-屋外などの環境の変化に対応
補足(ビデオのfpsについて)
• 学習時
– Cityscapes : 8fps
– KITTI dataset : データによって異なる
• 推論時
– Base-line, Motionについては記載なし
– Online refinementを使用するためには
Geforce 1080Tiで動作し、バッチ4で50FPS, バッチ1で30FPS
19
参照: https://sites.google.com/view/struct2depth

More Related Content

What's hot

A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep NetworksA PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networksharmonylab
 
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...harmonylab
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neuronsharmonylab
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライドharmonylab
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matchingharmonylab
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirataharmonylab
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...harmonylab
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127harmonylab
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
 
Capsule Graph Neural Network
Capsule Graph Neural NetworkCapsule Graph Neural Network
Capsule Graph Neural Networkharmonylab
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...harmonylab
 

What's hot (20)

A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep NetworksA PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
 
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
Mobilenet
MobilenetMobilenet
Mobilenet
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
2019 08 20_dl
2019 08 20_dl2019 08 20_dl
2019 08 20_dl
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
Capsule Graph Neural Network
Capsule Graph Neural NetworkCapsule Graph Neural Network
Capsule Graph Neural Network
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
Predictron
PredictronPredictron
Predictron
 

Similar to Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...Deep Learning JP
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現DeNA
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...
第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...
第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...koji ochiai
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2Kuniyuki Takahashi
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめDigital Nature Group
 
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョンぱろすけ
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介YukiK2
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 

Similar to Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (20)

[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
T univ
T univT univ
T univ
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...
第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...
第2回nips読み会・関西資料『unsupervised learning for physical interaction through video ...
 
20181020 eccv2018
20181020 eccv201820181020 eccv2018
20181020 eccv2018
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
闇のニコニコ学会β - 闇と欲望とコンピュータビジョン
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

  • 1. DLゼミ Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos 1 北海道大学大学院情報科学院 調和系工学研究室 修士1年 森 雄斗
  • 2. 論文情報 • タイトル – Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos • 学会 – AAAI 2019 • 著者 – Vincent Casser1*, Soeren Pirk Reza, Mahjourian2, Anelia Angelova • Google Brain • 1 Institute for Applied Computational Science, Harvard University; Google Brain • 2 University of Texas at Austin; Google Brain • Github – https://github.com/tensorflow/models/tree/master/research/struct2depth (TensorFlow1.x) • Webサイト(struct2depth) – https://sites.google.com/view/struct2depth 2
  • 3. 概要 3 • 単眼カメラの入力から教師なし学習でシーン深度とロボットの エゴモーション(カメラ/ロボットの動き)を推定 • ステレオカメラによる深度予測と同等の精度で、物体の動きを 多く含むシーンでの深度予測を大幅に向上 • 屋内-屋外などの異なる環境の移動に対応
  • 5. 先行研究 Unsupervised learning of depth and ego-motion from video (Zhou et al. 2017) • ステレオカメラではなく、単眼カメラを用いた手法 • カメラ画像から深度とエゴモーションをディープニューラルネ ットワークで予測する 5
  • 6. 提案手法 • 先行研究の手法を改善 – Motion Model • インスタンスセグメンテーションによる個々のオブジェクトをモデル化 – Imposing Object Size Constraints • 物体サイズによる正則化により、極端な誤差を防ぐ – Test Time Refinement Model • オンラインでパラメータチューニングを行うことでドメイン転送が可能 6
  • 7. Problem Setup • 単眼カメラの画像: (𝐼1, 𝐼2, 𝐼3) ∈ ℝ 𝐻×𝑊×3 • 深度関数 𝜃: ℝ 𝐻×𝑊×3 → ℝ 𝐻×𝑊 • 深度マップ 𝐷𝑖 = 𝜃(𝐼𝑖) • エゴモーションネットワーク 𝜓 𝐸 = ℝ2×𝐻×𝑊×3 → ℝ6 – 2frameのRGB画像から6軸ベクトル (𝑡 𝑥, 𝑡 𝑦, 𝑡 𝑧, 𝑟𝑥, 𝑟𝑦, 𝑟𝑧) – PoseCNN: 𝐸1→2 = 𝜓 𝐸(𝐼1, 𝐼2) • Warping operator 𝜑 𝐼𝑖, 𝐷𝑗, 𝐸𝑖→𝑗 → መ𝐼𝑖→𝑗 – 画像と深度推定値とエゴモーションから次の画像の推定 • Reconstruction Loss: 𝐿 𝑟𝑒𝑐 = min( መ𝐼1→2 − 𝐼2 ) – 画像の推定結果と実際の画像の差が誤差 7
  • 8. Algorithm Baseline • 𝐿 𝑟𝑒𝑐 = 𝑚𝑖𝑛( መ𝐼1→2 − 𝐼2 , መ𝐼3→2 − 𝐼2 ) – 前後のフレームいずれから中間フレームとの差の誤差を計算[1] • 𝐿 = 𝛼1 σ𝑖=0 3 𝐿 𝑟𝑒𝑐 (𝑖) + 𝛼2 𝐿 𝑠𝑠𝑖𝑚 (𝑖) + 𝛼3 1 2 𝑖 𝐿 𝑠𝑚 (𝑖) – 全体の損失は、 Reconstruction Loss、SSIM(画質の損失)[2], 深度 マップの滑らかさの誤差[3]を使用 – 𝛼𝑖 : 4つのハイパーパラメータ 8 [1] Godard, Clément, Oisin Mac Aodha, and Gabriel J. Brostow. "Unsupervised monocular depth estimation with left-right consistency." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [2] Zhou Wang, A. C. Bovik, H. R. Sheikh and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity," in IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612, April 2004, doi: 10.1109/TIP.2003.819861. [3] Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
  • 9. Motion Model • 3Dオブジェクトでモデル化するだけでなく、その動きを3次元 的に予測する: 𝜓 𝑀 • インスタンスセグメンテーションマスク: – (𝑆𝑖,1, 𝑆𝑖,2, 𝑆𝑖,3) ∈ ℕ 𝐻×𝑊 • 物体の運動を画像からマスクアウト – 𝑂0 𝑆 • エゴモーションモデル – 𝑉 = 𝑂0(𝑆1) ⊙ 𝑂0(𝑆2) ⊙ 𝑂0(𝑆3) : 3フレームの画像から物体領域を含まない領域 – 𝐸1→2, 𝐸2→3 = 𝜓 𝐸 𝐼1 ⊙ 𝑉, 𝐼2 ⊙ 𝑉, 𝐼3 ⊙ 𝑉 9
  • 10. Motion Model • 𝑖番目のオブジェクトの運動推定値: – 𝑀1→2 (𝑖) , 𝑀2→3 (𝑖) = 𝜓 𝑀(መ𝐼1→2 ⊙ 𝑂𝑖 መ𝑆1→2 , 𝐼2 ⊙ 𝑂𝑖 𝑆2 , መ𝐼3→2 ⊙ 𝑂𝑖( መ𝑆3→2)) – 𝑀1→2 (𝑖) , 𝑀2→3 (𝑖) ∈ ℝ6 – この段階ではエゴモーションは考慮されていない • 最終的な出力 (𝑖はオブジェクトの番号) – 10
  • 11. Imposing Object Size Constraints • 先行研究ではカメラ自体とオブジェクトが一緒に動く場合、無 限に遠い静止したオブジェクトと判断されていた – インスタンスセグメンテーションによるクラスに大きさの事前知識 を与えることで極端な誤差を回避 11
  • 12. Test Time Refinement Model • 推論中にモデルの重みを固定せず、オンラインチューニングす ることで自律型システムで有利 • 具体的には3フレームの画像を使って、深度予測の質を大幅に向 上させることが可能となった 12
  • 13. モデルの評価実験データセット • KITTI dataset – 深度推定とエゴモーション予測の評価 • Cityscapes dataset – 自律運転に使用されるデータセット – 複数の移動物体を持つシーンが多く含まれている • Fetch Indoor Navigation dataset – 屋内のデータセット – 上のCityscapesでトレーニングを行った後、微調整なしで評価を行 う =未知の環境での適応性の検証 13
  • 15. KITTI dataset • 深度推定値の精度 – 運動モデル(M)とオンラインチューニング(R)を導入した場合において高い評価値 15 Motion modelを使用した競合モデル
  • 16. Cityscapes 16 • Cityscapesデータセットを用いて学習し、KITTIで評価 – KITTIでの学習と同様に、運動モデル(M)とオンラインチューニン グ(R)を導入した場合において高い評価値
  • 17. Fetch Indoor Navigation dataset • Cityscapesデータセットで学習を行い、室内データで定性評価 17
  • 18. まとめ 18 • 単眼カメラのみで深度とエゴモーションを予測 • 先行研究を以下の手法で改善 – Motion Model • インスタンスセグメンテーションによる個々のオブジェクトをモデル化 – Imposing Object Size Constraints • 物体サイズによる正則化により、極端な誤差を防ぐ – Test Time Refinement Model • オンラインでパラメータチューニングを行うことでドメイン転送が可能 ステレオカメラによる深度推定に匹敵する精度 屋内-屋外などの環境の変化に対応
  • 19. 補足(ビデオのfpsについて) • 学習時 – Cityscapes : 8fps – KITTI dataset : データによって異なる • 推論時 – Base-line, Motionについては記載なし – Online refinementを使用するためには Geforce 1080Tiで動作し、バッチ4で50FPS, バッチ1で30FPS 19 参照: https://sites.google.com/view/struct2depth