Real-Time Semantic Stereo Matching

北海道大学大学院情報科学院情報科学専攻
情報理工学コース調和系工学研究室
修士2年柳公人
Real-Time Semantic Stereo
Matching
nDLゼミ

論⽂情報
n URL
– https://arxiv.org/pdf/1910.00541.pdf
n 学会
– ICRA 2020(ロボティクス分野のトップカンファレンス)
n 著者
– Pier Luigi Dovesi, Matteo Poggi, Lorenzo Andraghetti,
Miquel Martı
2

背景
n 未知の環境で⾃動運転⾞のような完全⾃⽴型シス
テムを動かすためにはシーン理解が不可⽋
– 周囲の物体を認識するために深度推定とセマンティック
セグメンテーションの2つの問題を解決する必要がある.
– それぞれのタスク同⼠には相乗効果(後述)があるのに, ス
タンドアローンのネットワークがSOTA
– 相乗効果を利⽤している研究もあるがリアルタイム性に
乏しく実⽤性はない.
本論では軽量でかつ相乗効果を利⽤したモデルを提案
3

セマンティックセグメンテーション（補⾜）
n 画像に含まれる物体の領域と物体名をピクセル単
位で出⼒
– 例えば, ⼊⼒画像のサイズが200 * 300、2クラス分類の場
合, 出⼒は200 * 300の配列で各要素には0か1が含まれる.
n 簡単なモデル例(FCN)
• ⼀般的なCNNの全結合
層部分を畳み込み層に置
き換える.
• 特徴マップはプーリング
を⾏うごとに⼩さくなる
から, アップサンプリン
グして⼊⼒画像と同じサ
イズにする.
4

深度推定
n 深度推定にはステレオカメラを使ったステレオ
マッチングが精度が⾼く, 昔から利⽤されてきた.
n ステレオマッチングとセマンティックセグメン
テーションは相性がいい.
– 光が当たったりして深度推定が困難な画像にセグメン
テーションを⾏うことで, 精度が上がる.
– 植⽣や地形など曖昧な画像に対してのセグメンテーショ
ンには深度推定をすることで曖昧性を取り除ける.
5

ステレオマッチング(補⾜)
n 左右それぞれのレンズの中⼼から物体へ直線を引
く.
n 直線と像⾯の交点をそれぞれ𝑅!, 𝑅"とする.
n 視差𝑑 = 𝑅! − 𝑅"
n 視差が⼤きいほど物体は⼿前
6

RTS2Net
n ステレオマッチングとセマンティックセグメン
テーションの2つのタスクを組み合わせて, リアル
タイム性を持つモデル,「リアルタイムセマン
ティックステレオネットワーク(RTS2Net)」を提案
7

RTS2モデルの全体像
⻘特徴量抽出器
⻩視差ネットワーク
緑セマンティックセグメンテーションネットワーク
紫洗練モジュール
Cはハイパー
パラメーター
8

特徴量抽出器
n 5個のブロックから構成される.
– 1つ⽬のブロックでは, c個の特徴量抽出を⾏い, 解像度を
1/2にする.
– 2つ⽬のブロックでは, 2c個の特徴量抽出を⾏い, 解像度を
1/4にする.
1/8にする.
1/16にする.
– 5つ⽬のブロックでは, 16c個の特徴量抽出を⾏い, 解像度
を1/32にする.
9

特徴量抽出器
n 解像度別に分割して次のモジュールの⼊⼒にする.
n 各ブロックの構成
1ブロック⽬
2層の3×3の畳み込み
+バッチ正規化+ReLU
2~5ブロック⽬
2×2のマックスプーリング+ 2層の3×3の畳み込み
+バッチ正規化+ReLU
10

視差ネットワーク
n 視差を計算する際, 元画像ではなく, 初めは粗い解
像度の画像を⽤いることで処理速度が上がる(解像
度1/16の画像なら視差の最⼤値も1/16となるため)
– 特徴量抽出器1/32の画像は精度が下がりすぎて, 結果とし
て処理速度も遅くなるため
n 低解像度から⾼解像度へ, ボトムアップで視差map
を作る.
11

n まず初めの層で追加の畳み込みを⾏う.
n 右画像を視差となりえる最⼩値𝑑#$%から𝑑#&'まで
少しずつずらして, それぞれの類似度を計算する
– この計算により類似度を格納したコストボリュームと呼
ばれる𝑊×𝐻×𝑑!"#次元の3次テンソルが得られる.
n コストボリュームを3次元畳み込み+バッチ正規化
+ReLUで処理する.
n アップサンプリングして上の階層で同様の処理を
⾏い, より精度の⾼いコストボリュームを計算する.
視差ネットワーク
12

n 視差ネットワークと同様に低解像度のものからボ
トムアップでセグメンテーションマップを作る.
– 1/32解像度の画像はより広い範囲を利⽤してセグメン
テーションするために使⽤する.
n 視差ネットワークと同様に追加の畳み込みを⾏う.
n 解像度の低いセグメンテーションマップをアップ
サンプリングして, より解像度の⾼いマップに⾜し
合わせる.
セマンティックセグメンテーションネットワーク
13

洗練モジュール
n 視差mapをセグメンテーションマップを⽤いて洗
練する.
– セグメンテーションマップに対して計算コストを削減し,
視差マップと似た次元性を持つように畳み込みをして圧
縮する.
– セグメンテーション特徴量と視差マップを連結
– アップサンプリングしながら3つの畳み込み層で処理
14

損失関数
n 損失関数
– 𝐿 = ∑$%&'
(
𝑊$% ) (𝑊) ) 𝐿)!"
+ 𝑊$ ) 𝐿$!"
+ 𝑊)# ) 𝐿)!"
# )
• 𝑑$%は視差ネットワークで予測した視差
• 𝑠$%はセマンティックセグメンテーションネットワーク
で予測したセグメンテーション
• 𝑑$%
* は洗練モジュールで予測した視差
• 𝑠𝑡 ∈ [1, 2, 3]
n 𝐿(!"
と𝐿(!"
# はsmooth L1 loss
– 𝐿1$!++%, = 7
0.5 𝑑- − <𝑑-
.
, ( 𝑑- − <𝑑- < 1)
𝑑- − <𝑑- − 0.5, ( 𝑑- − <𝑑- ≥ 1)
15

損失関数
n 𝑊) =
*
+,-(/$01) ∑%&'
( '
)*+(-$./)
– Nはクラス数
– 𝑃/はクラスがjである確率
– Kは制御パラメーター(データセットによって異なる)
n 𝐿4 ∗ = 𝐿4(1 + 𝛾 ,
512345
5"6"6512345
)
– 𝐿$はステージごとに更新される(最も低解像度のステージ
ではクロスエントロピー誤差)
– 𝛾 = 0.1をセットするとベストな結果が得られる
– 𝐴012"3はラベルのない領域のピクセル数
– 𝐴%+%は全体の総ピクセル数
16

実験
n 精度と実⾏時間の両⽅の観点からRTS2Netの性能に
関する実験を⾏う.
n データセット
– KITTI 2015
• validation 40枚, training 160枚
KITTI 2015
200のトレーニングシーンと200のテストシーンで構成されるデータ
セット
17

実験
n CityScapes datasetを⽤いて作ったモデルでファイ
ンチューニングする.
– Semi-Global Matchingというアルゴリズムを⽤いて視差
マップを作る
n 256×512サイズの画像をバッチサイズ8で学習する.
CityScapes dataset
50箇所の都市の道路のシーンをステレオカメラで記録したビ
デオを含むデータセット. セグメンテーション⽤のアノテー
ションが5000フレームある.
18

モデルについての実験
n Anynetと⽐較を⾏う.
– Anynetは本研究の深度推定部分の元となったモデル.
n パラメータcを⾊々な値に変更して各モデルの性能
を⽐較する.
n Cの値を⼤きくしてもD1-allはそこまで
Anynetと変わらない
評価指標
【EPE】視差の誤差
が3ピクセル以上
【D1-all%】
視差の誤差の割合
【mIOU】平均IOU
IOU = 正しく物体を推定されたピクセル / (正しい物体のピクセル+正しいと
推定したピクセル-正しく物体を推定されたピクセル )
【pAcc%】ピクセルあたりの精度
【TX2】NVIDIA Jetson TX2. 低電⼒で実⾏できるアーキテクチャ
19

相乗効果についての実験
n C=8に固定して, RTS2Net の3つのモデル間での⽐
較を⾏う.
– 視差ネットワークのみ
– 視差ネットワーク+セマンティックセグメンテーション
ネットワーク
– 視差ネットワーク+セマンティックセグメンテーション
ネットワーク+洗練モジュール
20

n Disp.+Sem.+Ref.カッコ内の数値は今回の構成での
洗練モジュールを⽤いた結果
– カッコ外はSegStereoという先⾏研究の洗練モジュール構
成
n 洗練モジュールに通さなくても, 単にセグメンテー
ションと深度推定を組み合わせるだけでも, EPEと
D1-all%は減少する.
21

n C=8, 完全なモデルでAnynetと⽐較を⾏う.
n NVIDIA Jetson TX2で測定
n どのステージにおいても視差の誤差を改善できて
いる.
n RTS2NetではStage2で推論を早期に停⽌すること
で, 最⼩フレームレート10FPSを達成することがで
きる.
22

KITTIオンラインベンチマークとの⽐較
n その他のモデルとの⽐較
– 特に, リアルタイムフレームワークの最先端である
MADNetやStereoNetに注⽬
– Anynetはオンラインベンチマークに提出できなかった
– NVIDIA 2080ti上で実⾏
n 他のリアルタイム系モデルと⽐べても視差の誤差
が低い.
評価指標
【D1-bg%】
背景の視差誤差
【D1-fg％】
前⾯の視差誤差
23

KITTIオンラインベンチマークとの⽐較
n その他のモデルとの⽐較
– 特に, セマンティックステレオマッチングの先⾏研究であ
るSegStereoに注⽬
n SegStereoの30倍の速度が出る.
n クラスレベルではSegStereoに劣るが, カテゴリレ
ベル(⾐服と体を分けるなど)ではやや勝る.
24

結論
n 深度推定とセマンティックセグメンテーションの
相乗効果を利⽤したモデルを提案した.
n NVIDIA Jetson TX2のような低消費電⼒で動く機器
の上でも, リアルタイムでセマンティックステレオ
マッチングを⾏うことができる最初のモデル.
25

Real-Time Semantic Stereo Matching

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Real-Time Semantic Stereo Matching

Similar to Real-Time Semantic Stereo Matching (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (9)

Real-Time Semantic Stereo Matching