Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
CNN-SLAM: Real-time
dense monocular SLAM with
learned depth prediction
2017/8/6
第41回 コンピュータビジョン勉強会@関東
CVPR2017読み会(前編)
@has...
読んだ論文
 CNN-SLAM: Real-time dense monocular SLAM with
learned depth prediction
 著者:K. Tateno(TUM / Canon), F. Tombari, I....
概要
 CNNを使った単眼SLAM
 SLAM: Simultaneous Localization and Mapping
 Visual SLAM:画像を利用したSLAM
 既存研究
 LSD-SLAM[1]
 Kinect F...
コントリビューション
 絶対スケールの推定が可能
 カメラが回転しても対応できる
 デプスの推定精度が向上
 デプス情報を密に取れる
全体像
深度の推定
⇒ CNNを利用
カメラ姿勢推定と最適化
⇒ LSD-SLAMのフレームワークを応用
ポイント:キーフレームの構成要素推定
キーフレーム: 𝑡𝑖 = 𝑻 𝑡 𝑘
, 𝐷𝑡 𝑘
, 𝒰 𝑡 𝑘
𝑻 𝑡 𝑘
:カメラ姿勢
𝐷𝑡 ...
LSD-SLAM[1]
 キーフレームで準深度マップを取得することにより、単眼での
SLAMを実現する
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct ...
カメラ姿勢推定
𝑻 𝑡 𝑘
:カメラ姿勢を求める
⇒ 直近キーフレームと現フレームの輝度誤差が最小に
なるような変換行列𝑻 𝑡
𝑘 𝑖
を算出する
𝐸 𝑻 𝑡
𝑘 𝑖
=
𝑢∈Ω
𝜌
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝜎 𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝑟 ...
デプス推定
𝐷𝑡 𝑘
: デプスマップを求める
⇒ Deeper Depth Prediction with Fully Convolutional
Residual Networks [3]
・・・ResNet-50のFC層をアップコンバート...
スケールの補正
学習時と推定時のカメラ(の内部パラメータ)が違うと
スケールがずれてしまう。
⇒ それぞれの焦点距離を利用して補正
𝒟 𝑘 𝑖
𝒖 =
𝑓𝑐𝑢𝑟
𝑓𝑡𝑟
𝒟
~
𝑘 𝑖
𝒖
𝒟
~
𝑘 𝑖
: CNNで推定された深度マップ
𝑓𝑐...
キーフレーム追加時のデプス推定改善
 直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、
デプスの不確かさマップ𝒰 𝑘 を融合する
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟 𝑘 𝑗
...
デプスの継続的な補正
 前ページと同じ要領で、直近キーフレームと現フレームの
デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、
キーフレームのデプスマップを補正
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 ...
補正結果
評価実験
 3つの実験を実施
 SLAMの精度評価
 カメラが回転した際の3次元復元
 復元結果を利用した領域分割
 実施環境
 CPU:Xeon 2.4GHz
 GPU:Quadro K5200 (メモリ8GB)
 メモリ:1...
精度
 ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用
[5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark ...
耐回転
領域分割
領域ラベルを予測するためのネットワーク[7]を追加
[7] K. Tateno, F. Tombari, and N. Navab, “Real-time and scalable incremental segmentation o...
まとめ
 CNNを用いて、従来の単眼SLAMの課題であった
絶対スケールの推定、テクスチャレス領域のデプス推定、
回転への対応を解決した。
 3次元モデルでの領域分割にも活用できることを確認
Upcoming SlideShare
Loading in …5
×

第41回関東CV勉強会 CNN-SLAM

3,451 views

Published on

CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction

Published in: Technology
  • こんにちは、CNN-SLAMに関して今調べている韓国の大学院生です。 邦洋 長谷川さんのこの文を拝見して、本当に勉強になりました。 もし良かったら私からこの文を訳して私のブログにアップしても大丈夫ですか? 原文のレファレンスはしっかりしようと思います。 私のメールはgogyzzz@gmail.comです。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

第41回関東CV勉強会 CNN-SLAM

  1. 1. CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction 2017/8/6 第41回 コンピュータビジョン勉強会@関東 CVPR2017読み会(前編) @hasegawa_k35
  2. 2. 読んだ論文  CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction  著者:K. Tateno(TUM / Canon), F. Tombari, I. Laina(TUM) N. Navab(TUM / Johns Hopkins University)  選んだ理由  研究室で話題になっていた  日経Roboticsで取り上げられていた  SLAMにもCNNの波が来てしまった
  3. 3. 概要  CNNを使った単眼SLAM  SLAM: Simultaneous Localization and Mapping  Visual SLAM:画像を利用したSLAM  既存研究  LSD-SLAM[1]  Kinect Fusion[2]  ベースはCNNによるデプス推定[3]+LSD-SLAM [1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014 [2] R. A. Newcombe, et. al.,“KinectFusion: Real-time dense surface mapping and tracking.”, ISMAR 2011 [3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016 長所 短所 CNNデプス推定 ・絶対スケールがわかる ・回転にも強い ・密な距離画像が取れる ・エッジ部分などがなまる LSD-SLAM ・エッジ部分の推定が得意 ・絶対スケールがわからない ・回転に弱い ・とにかく疎
  4. 4. コントリビューション  絶対スケールの推定が可能  カメラが回転しても対応できる  デプスの推定精度が向上  デプス情報を密に取れる
  5. 5. 全体像 深度の推定 ⇒ CNNを利用 カメラ姿勢推定と最適化 ⇒ LSD-SLAMのフレームワークを応用 ポイント:キーフレームの構成要素推定 キーフレーム: 𝑡𝑖 = 𝑻 𝑡 𝑘 , 𝐷𝑡 𝑘 , 𝒰 𝑡 𝑘 𝑻 𝑡 𝑘 :カメラ姿勢 𝐷𝑡 𝑘 : デプスマップ 𝒰 𝑡 𝑘 :デプスの不確かさマップ これらをどう求め、最適化/改善するか ⇒ この研究で行いたいこと
  6. 6. LSD-SLAM[1]  キーフレームで準深度マップを取得することにより、単眼での SLAMを実現する [1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
  7. 7. カメラ姿勢推定 𝑻 𝑡 𝑘 :カメラ姿勢を求める ⇒ 直近キーフレームと現フレームの輝度誤差が最小に なるような変換行列𝑻 𝑡 𝑘 𝑖 を算出する 𝐸 𝑻 𝑡 𝑘 𝑖 = 𝑢∈Ω 𝜌 𝑟 𝑢, 𝑻 𝑡 𝑘 𝑖 𝜎 𝑟 𝑢, 𝑻 𝑡 𝑘 𝑖 𝑟 𝑢, 𝑻 𝑡 𝑘 𝑖 = ℐ 𝑘 𝑖 𝑢 - ℐ𝑡 𝜋 𝑲𝑻 𝑡 𝑘 𝑖 𝒱𝑘 𝑖 𝑢 キーフレームの輝度値 現フレームの輝度値 求めた𝑻 𝑡 𝑘 𝑖 を使って、各フレームのカメラ位置姿勢を算出
  8. 8. デプス推定 𝐷𝑡 𝑘 : デプスマップを求める ⇒ Deeper Depth Prediction with Fully Convolutional Residual Networks [3] ・・・ResNet-50のFC層をアップコンバート層に置き換えた ネットワークを使って,RGB画像から距離を推定 [3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
  9. 9. スケールの補正 学習時と推定時のカメラ(の内部パラメータ)が違うと スケールがずれてしまう。 ⇒ それぞれの焦点距離を利用して補正 𝒟 𝑘 𝑖 𝒖 = 𝑓𝑐𝑢𝑟 𝑓𝑡𝑟 𝒟 ~ 𝑘 𝑖 𝒖 𝒟 ~ 𝑘 𝑖 : CNNで推定された深度マップ 𝑓𝑐 𝑢𝑟 : 推定時のカメラの焦点距離 𝑓𝑡𝑟 : 学習時のカメラの焦点距離 𝒖 : 2次元座標
  10. 10. キーフレーム追加時のデプス推定改善  直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、 デプスの不確かさマップ𝒰 𝑘 を融合する 𝒟 𝑘 𝑖 𝒖 = 𝒰 𝑘 𝑗 𝒗 ∙ 𝒟 𝑘 𝑖 𝒖 + 𝒰 𝑘 𝑖 (𝒖) ∙ 𝒟 𝑘 𝑗 𝒗 𝒰 𝑘 𝑖 𝒖 + 𝒰 𝑘 𝑗 𝒗 𝒰 𝑘 𝑖 𝒖 = 𝒰 𝑘 𝑗 𝒗 ∙ 𝒰 𝑘 𝑖 (𝒖) 𝒰 𝑘 𝑖 𝒖 + 𝒰 𝑘 𝑗 𝒗 キーフレームの情報が 伝播されていく 𝒰 𝑘 𝑗 𝒗 = 𝒟 𝑘 𝑗 𝒗 𝒟 𝑘 𝑖 𝒖 𝒰 𝑘 𝑗 𝒗 + 𝜎 𝑝 2 不確かさマップの定義:𝒰 𝑘 𝑖 (𝒖) = (𝒟 𝑘 𝑖 𝒖 − 𝒟 𝑘 𝑗 𝒗 )2 𝒖 : 𝑘𝑖の2次元座標 𝒗 : 射影された𝑘𝑗での2次元座標 下式で伝播マップ 𝒰 𝑘 𝑗 を作成、融合する 𝜎 𝑝 2 : ホワイトノイズ(の分散)
  11. 11. デプスの継続的な補正  前ページと同じ要領で、直近キーフレームと現フレームの デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、 キーフレームのデプスマップを補正 𝒟 𝑘 𝑖 𝒖 = 𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖 𝒖 + 𝒰 𝑘 𝑖 (𝒖) ∙ 𝒟𝑡 𝒗 𝒰 𝑘 𝑖 𝒖 + 𝒰 𝑡 𝒖 𝒰 𝑘 𝑖 𝒖 = 𝒰 𝑡 𝒖 ∙ 𝒰 𝑘 𝑖 (𝒖) 𝒰 𝑘 𝑖 𝒖 + 𝒰 𝑡 𝒖 輝度勾配が高い領域ほど不確かさが小さくなる = 補正されやすい ⇒ CNNでのデプス推定の弱点を補える キーフレーム以外のデプスは[4]で求める [4] J. Engel, J. Sturm, and D. Cremers, “Semi-dense visual odometry for a monocular camera.”, ICCV 2013
  12. 12. 補正結果
  13. 13. 評価実験  3つの実験を実施  SLAMの精度評価  カメラが回転した際の3次元復元  復元結果を利用した領域分割  実施環境  CPU:Xeon 2.4GHz  GPU:Quadro K5200 (メモリ8GB)  メモリ:16GB  CNNはGPU、残りの処理はCPUで実行(リアルタイム)
  14. 14. 精度  ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用 [5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM.”, ICRA 2014 [6] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. “A benchmark for the evaluation of RGB-D SLAMsystems.”, IROS 2012
  15. 15. 耐回転
  16. 16. 領域分割 領域ラベルを予測するためのネットワーク[7]を追加 [7] K. Tateno, F. Tombari, and N. Navab, “Real-time and scalable incremental segmentation on dense slam. ”, IROS 2015
  17. 17. まとめ  CNNを用いて、従来の単眼SLAMの課題であった 絶対スケールの推定、テクスチャレス領域のデプス推定、 回転への対応を解決した。  3次元モデルでの領域分割にも活用できることを確認

×