紹介論文
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
出典: Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova : Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos, the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)
概要: カメラ映像による深度予測は、屋内及び屋外のロボットナビゲーションにとって必要なタスクです。本研究では、教師なし学習を用いて映像の深度予測とカメラのエゴモーション(自身の動き)の学習に取り組んでいます。先行研究で確立されたベースラインのモデルに、移動する個々の物体のモデル化と、オンラインでのモデルの調整を行う手法を取り入れています。結果として、物体の動きを多く含むシーンでの予測結果を大幅に向上させています。
5. 先行研究
Unsupervised learning of depth and ego-motion from video
(Zhou et al. 2017)
• ステレオカメラではなく、単眼カメラを用いた手法
• カメラ画像から深度とエゴモーションをディープニューラルネ
ットワークで予測する
5
6. 提案手法
• 先行研究の手法を改善
– Motion Model
• インスタンスセグメンテーションによる個々のオブジェクトをモデル化
– Imposing Object Size Constraints
• 物体サイズによる正則化により、極端な誤差を防ぐ
– Test Time Refinement Model
• オンラインでパラメータチューニングを行うことでドメイン転送が可能
6
8. Algorithm Baseline
• 𝐿 𝑟𝑒𝑐 = 𝑚𝑖𝑛( መ𝐼1→2 − 𝐼2 , መ𝐼3→2 − 𝐼2 )
– 前後のフレームいずれから中間フレームとの差の誤差を計算[1]
• 𝐿 = 𝛼1 σ𝑖=0
3
𝐿 𝑟𝑒𝑐
(𝑖)
+ 𝛼2 𝐿 𝑠𝑠𝑖𝑚
(𝑖)
+ 𝛼3
1
2 𝑖 𝐿 𝑠𝑚
(𝑖)
– 全体の損失は、 Reconstruction Loss、SSIM(画質の損失)[2], 深度
マップの滑らかさの誤差[3]を使用
– 𝛼𝑖 : 4つのハイパーパラメータ
8
[1] Godard, Clément, Oisin Mac Aodha, and Gabriel J. Brostow. "Unsupervised monocular depth
estimation with left-right consistency." Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition. 2017.
[2] Zhou Wang, A. C. Bovik, H. R. Sheikh and E. P. Simoncelli, "Image quality assessment: from error
visibility to structural similarity," in IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612,
April 2004, doi: 10.1109/TIP.2003.819861.
[3] Zhou, Tinghui, et al. "Unsupervised learning of depth and ego-motion from video." Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition. 2017.