SlideShare a Scribd company logo
CNN-SLAM: Real-time
dense monocular SLAM with
learned depth prediction
2017/8/6
第41回 コンピュータビジョン勉強会@関東
CVPR2017読み会(前編)
@hasegawa_k35
読んだ論文
 CNN-SLAM: Real-time dense monocular SLAM with
learned depth prediction
 著者:K. Tateno(TUM / Canon), F. Tombari, I. Laina(TUM)
N. Navab(TUM / Johns Hopkins University)
 選んだ理由
 研究室で話題になっていた
 日経Roboticsで取り上げられていた
 SLAMにもCNNの波が来てしまった
概要
 CNNを使った単眼SLAM
 SLAM: Simultaneous Localization and Mapping
 Visual SLAM:画像を利用したSLAM
 既存研究
 LSD-SLAM[1]
 Kinect Fusion[2]
 ベースはCNNによるデプス推定[3]+LSD-SLAM
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
[2] R. A. Newcombe, et. al.,“KinectFusion: Real-time dense surface mapping and tracking.”, ISMAR 2011
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
長所 短所
CNNデプス推定
・絶対スケールがわかる
・回転にも強い
・密な距離画像が取れる
・エッジ部分などがなまる
LSD-SLAM
・エッジ部分の推定が得意 ・絶対スケールがわからない
・回転に弱い
・とにかく疎
コントリビューション
 絶対スケールの推定が可能
 カメラが回転しても対応できる
 デプスの推定精度が向上
 デプス情報を密に取れる
全体像
深度の推定
⇒ CNNを利用
カメラ姿勢推定と最適化
⇒ LSD-SLAMのフレームワークを応用
ポイント:キーフレームの構成要素推定
キーフレーム: 𝑡𝑖 = 𝑻 𝑡 𝑘
, 𝐷𝑡 𝑘
, 𝒰 𝑡 𝑘
𝑻 𝑡 𝑘
:カメラ姿勢
𝐷𝑡 𝑘
: デプスマップ
𝒰 𝑡 𝑘
:デプスの不確かさマップ
これらをどう求め、最適化/改善するか
⇒ この研究で行いたいこと
LSD-SLAM[1]
 キーフレームで準深度マップを取得することにより、単眼での
SLAMを実現する
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
カメラ姿勢推定
𝑻 𝑡 𝑘
:カメラ姿勢を求める
⇒ 直近キーフレームと現フレームの輝度誤差が最小に
なるような変換行列𝑻 𝑡
𝑘 𝑖
を算出する
𝐸 𝑻 𝑡
𝑘 𝑖
=
𝑢∈Ω
𝜌
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝜎 𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
= ℐ 𝑘 𝑖
𝑢 - ℐ𝑡 𝜋 𝑲𝑻 𝑡
𝑘 𝑖
𝒱𝑘 𝑖
𝑢
キーフレームの輝度値 現フレームの輝度値
求めた𝑻 𝑡
𝑘 𝑖
を使って、各フレームのカメラ位置姿勢を算出
デプス推定
𝐷𝑡 𝑘
: デプスマップを求める
⇒ Deeper Depth Prediction with Fully Convolutional
Residual Networks [3]
・・・ResNet-50のFC層をアップコンバート層に置き換えた
ネットワークを使って,RGB画像から距離を推定
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
スケールの補正
学習時と推定時のカメラ(の内部パラメータ)が違うと
スケールがずれてしまう。
⇒ それぞれの焦点距離を利用して補正
𝒟 𝑘 𝑖
𝒖 =
𝑓𝑐𝑢𝑟
𝑓𝑡𝑟
𝒟
~
𝑘 𝑖
𝒖
𝒟
~
𝑘 𝑖
: CNNで推定された深度マップ
𝑓𝑐 𝑢𝑟 : 推定時のカメラの焦点距離
𝑓𝑡𝑟 : 学習時のカメラの焦点距離
𝒖 : 2次元座標
キーフレーム追加時のデプス推定改善
 直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、
デプスの不確かさマップ𝒰 𝑘 を融合する
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
キーフレームの情報が
伝播されていく
𝒰 𝑘 𝑗
𝒗 =
𝒟 𝑘 𝑗
𝒗
𝒟 𝑘 𝑖
𝒖
𝒰 𝑘 𝑗
𝒗 + 𝜎 𝑝
2
不確かさマップの定義:𝒰 𝑘 𝑖
(𝒖) = (𝒟 𝑘 𝑖
𝒖 − 𝒟 𝑘 𝑗
𝒗 )2 𝒖 : 𝑘𝑖の2次元座標
𝒗 : 射影された𝑘𝑗での2次元座標
下式で伝播マップ 𝒰 𝑘 𝑗
を作成、融合する
𝜎 𝑝
2 : ホワイトノイズ(の分散)
デプスの継続的な補正
 前ページと同じ要領で、直近キーフレームと現フレームの
デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、
キーフレームのデプスマップを補正
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟𝑡 𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
輝度勾配が高い領域ほど不確かさが小さくなる = 補正されやすい
⇒ CNNでのデプス推定の弱点を補える
キーフレーム以外のデプスは[4]で求める
[4] J. Engel, J. Sturm, and D. Cremers, “Semi-dense visual odometry for a monocular camera.”, ICCV 2013
補正結果
評価実験
 3つの実験を実施
 SLAMの精度評価
 カメラが回転した際の3次元復元
 復元結果を利用した領域分割
 実施環境
 CPU:Xeon 2.4GHz
 GPU:Quadro K5200 (メモリ8GB)
 メモリ:16GB
 CNNはGPU、残りの処理はCPUで実行(リアルタイム)
精度
 ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用
[5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM.”, ICRA 2014
[6] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. “A benchmark for the evaluation of RGB-D SLAMsystems.”, IROS 2012
耐回転
領域分割
領域ラベルを予測するためのネットワーク[7]を追加
[7] K. Tateno, F. Tombari, and N. Navab, “Real-time and scalable incremental segmentation on dense slam. ”, IROS 2015
まとめ
 CNNを用いて、従来の単眼SLAMの課題であった
絶対スケールの推定、テクスチャレス領域のデプス推定、
回転への対応を解決した。
 3次元モデルでの領域分割にも活用できることを確認

More Related Content

What's hot

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
Masayuki Tanaka
 

What's hot (20)

Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
 
G2o
G2oG2o
G2o
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 

Similar to 第41回関東CV勉強会 CNN-SLAM

Similar to 第41回関東CV勉強会 CNN-SLAM (11)

GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic MapsRobust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
 
方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 

Recently uploaded

FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
 

Recently uploaded (14)

2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 

第41回関東CV勉強会 CNN-SLAM