Real-Time Semantic Stereo Matching
Sugisaki Hiroaki (B3, Sophia Univ)
1
内容
● Real-Time Semantic Stereo Matching
○ https://arxiv.org/abs/1910.00541
○ Pier Luigi Dovesi, Matteo Poggi, Lorenzo Andraghetti, Miquel Mart´, Hedvig Kjellstrom¨,
Alessandro Pieropan, Stefano Mattoccia
○ 2019/10
○ RTS2Net
■ セグメンテーションを取り入れたステレオマッチングモデル
■ ステレオマッチングを取り入れたセグメンテーションモデル
○ SOTAの複雑でコストのかかるモデルに比べて、計算効率を高めた、比較的シンプルなモデル
の提案
○ モデルの軽量化と精度のトレードオフを柔軟に切り替え
2
ステレオマッチングの前提知識
● ステレオカメラ
○ 対象物を複数の異なる方向から同時に撮影することのできるカメラ
● ステレオマッチング
○ ステレオカメラによって撮影された画像の視差(disparity)を求めること
○ また求めた視差から三角測量を用いて被写体の深度を求めること.
3
右左
- ステレオカメラ - Wikipedia : https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%86%E3%83%AC%E3%82%AA%E3%82%AB%E3%83%A1%E3%83%A9
- 2003 Stereo Datasets : http://vision.middlebury.edu/stereo/data/scenes2003/
3
Disparity Map
● Disparity
○ 被写体の対応点の左右画像におけるピクセル差.
○ 対称点の視差が大きいほど手前にある.
● Disparity Map
○ 各ピクセルにおける視差の大きさを2次元画像とし
て表したもの.
4
右
左
Disparity
Disparity Map
- 2003 Stereo Datasets : http://vision.middlebury.edu/stereo/data/scenes2003/
背景
● ステレオマッチングとセグメンテーションは相互に関連がある
○ 光の反射などによる色合いの変化を苦手とするステレオマッチングにセグメンテーション情
報を与えることで、同一物に含まれる画素であることを知ることができる
● 先行研究により2つを関連付けたモデルは提案されている[8],[9]
○ モデルが複雑であり、推論速度も現実的ではない
● 軽量でシンプルなモデルの提案
5
提案モデル
6
Encoder
● 入力画像をエンコーダで解像度
別に分割
● ハイパーパラメータcを用いて
分割する解像度を調整
7
Segmentation
● 低解像度の出力をupsampleして高解像度で補正していく
8
Disparity
● Cost Convolution
9
Refinement
● disparity mapとセグメンテー
ションの行列をconcateと
upsampleでrefineしていく
● 2つをembeddingする手法が
有効である先行研究あり
[8],[9]
10
実験
● データセット
○ KITTI 2015
● AnyNetとの比較
○ AnyNet : RTS2Netのもとになっており、ステレオマッチング部のみを持つモデル
○ hyper-parameter : c を変更しての比較
● KITTI 2015 Online Benchmark 比較
○ Stereo Matching
○ Segmentation
11
実験結果 (AnyNetとの比較)
● 評価指標
○ EPE (end-point-error)
■ disparityの誤差が3ピクセル以上である割合
○ D1-all
■ disparity誤差の割合
○ mIOU
■ mean intersection of unit
○ pAcc
■ per-pixel accuracy
● 結果
○ c=1のときはAnyNetに近い精度
○ c=16に近づけることでより高精度
12
KITTI 2015 Online Benchmark
● Stereo
○ Real-timeフレームワークであるMADNet
やStereoNetによりも精度が良い
● Segmentation
○ Semantic Stereo系であるSegStereoの30
倍速い
13
まとめ
● ハイパーパラメータを変えることで柔軟に軽量化をはかることができる
● Real-Time系のSOTAに近い精度を出すことができている
14

[DL輪読会]Real-Time Semantic Stereo Matching

Editor's Notes

  • #5 http://vision.middlebury.edu/stereo/data/scenes2003/