SlideShare a Scribd company logo
© GO Inc.
2023年4月30日 第58回コンピュータビジョン勉強会@関東(深層学習+
3D論文読み会)
VoxFormer: Sparse Voxel Transformer for
Camera-based 3D Semantic Scene Completion
GO株式会社(旧: Mobility Technologies)
宮澤 一之
© GO Inc. 2
自己紹介
宮澤 一之
GO株式会社(旧: Mobility Technologies)
AI技術開発部 AI研究開発第二グループ
グループマネージャー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
@kzykmyzw
© GO Inc.
論文情報
● arXiv初出は2023年2月23日
● CVPR 2023 Highlights(採択論文の10%)
● 著者の所属は多いが、NVIDIAメインの研究と思われる(GitHubリポジトリもNVlabs)
[paper] [code]
3
© GO Inc.
何ができるのか
RGB画像からのSemantic Scene Completion (SSC)
SSC = 完全な3次元ボリュームの復元+セマンティックセグメンテーション
https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif
4
© GO Inc.
● Semantic Scene Completion (SSC)というタスクを初めて定義
● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した
TSDF (Truncated
Signed Distance Function)に変換し、3D CNNに入力
● 広い受容野で3次元空間のコンテキストを取得するため、
dilated convを利用
● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施
関連研究 - SSCNet -
Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017.
“our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion)
and object category (i.e., scene labeling) from a single depth image of a 3D scene”
* データ盗用で訴えられ、公開を停止(原告側の訴えは却下)
[参考]
5
© GO Inc.
関連研究 - SemanticKITTI -
Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019.
Semantic scene completion benchmarkでは不完全な
入力(左)から完全なシーン(右)の生成を行う
● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与
● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする
SSCのベンチ
マークも提供
● 屋外シーンの実データによるSSCベンチマークはこれが世界初
6
© GO Inc.
関連研究 - MonoScene -
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
● 2.5または3次元を入力とする従来手法に対し、
2次元入力(1枚のRGB画像)でSSCを実現
● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力
● FLoSPと3D CRPという新たなモジュールを提案
○ FLoSP (Features Line of Sight Projection):2次元特徴から3次元特徴を生成
○ 3D CRP (3D Context Relation Prior):ボクセル間の関係性(似ているかどうか)を陽に記述
https://astra-vision.github.io/MonoScene/
7
© GO Inc.
● 3次元ボリュームの各ボクセルの中心座標を
2次元画像に投影し、投影位置に対応する
2次元特徴
をマルチスケールでサンプリングして
3次元特徴を生成
● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば
2つの物体
が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう
● これを軽減するため、視錐台に含まれる
3次元ボリュームのラベル分布を真値に近づけるロスを導
入(Frustum Proportion Loss)
FLoSP (Features Line of Sight Projection)
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
FLoSP Frustum Proportion Loss
8
© GO Inc.
VoxFormerのモチベーション
(1) reconstruction-before-hallucination: まず画像中の可視領域について
3次元情報を獲得し、次に
それらを起点として不可視領域を推測
(2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な
3次元ボ
リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善
可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル
特徴を獲得したうえで残りのボクセルを
MAE (Masked Autoencoder)ライクに補完
9
© GO Inc.
VoxFormerのアーキテクチャ
● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
10
© GO Inc.
● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
VoxFormerのアーキテクチャ
11
© GO Inc.
事前準備
● 入力は内部パラメータ既知のカメラから得られた連続
RGB画像(1枚でも可)
● ボクセルクエリの集合Qとして大きさh × w × zの3次元ボリュームを用意
● 計算量削減とロバスト性向上のため、
Qの解像度は最終出力の3次元ボリュームよりも小さくする
12
© GO Inc.
デプス推定
● Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ
Zを生成
● 次式により画像の各ピクセル(u, v)を3次元点群(x, y, z)に変換
cu
, cv
, fu
, fv
:カメラ内部パラメータ
13
© GO Inc.
候補クエリ生成
● 3次元点群から3次元ボリューム(occupancy map)を生成(点が存在するボクセルは
1、それ以外
は0)
● LMSCNetを使って精度を上げると共に解像度をクエリ集合
Qと一致させる
Depth Correction
↓
Query Proposal
Z
W
H
3次元点群から生成された
occupancy map
Min
補正されたoccupancy map
Mout
LMSCNet
14
© GO Inc.
LMSCNet (Lightweight Multiscale Semantic Completion Network)
Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法
● 高さ方向の次元を特徴の次元とみなして大半を
2D CNNで構成することで計算量を削減
● 最終出力を生成するためのヘッドにおいてのみ
3D CNNを使う
15
© GO Inc.
候補クエリ生成
● Occupancy map Mout
において物体に占有されているボクセル座標からクエリを取り出す
● 取り出したクエリQp
を候補クエリとしてstage-2以降で利用
● 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善
Depth Correction
↓
Query Proposal
16
© GO Inc.
● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
VoxFormerのアーキテクチャ
17
© GO Inc.
候補クエリに対応する画像特徴の獲得
● 画像特徴はCNN (ResNet-50 + FPN)で抽出
● 候補クエリに対してlearnableなpositional embeddingを加算
● Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を
獲得
18
© GO Inc.
Deformable Cross-Attention (DCA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● Attentionの計算範囲を局所領域に
限定することで特徴マップ全体を使
う通常のattentionにおける以下の
課題を解決
○ 特徴マップのサイズの二乗に比
例して計算量が増大
○ 収束が遅い
● 参照点とその近傍から特徴をサン
プリング(近傍点数はハイパーパラ
メータ)
● 参照点にlearnableなオフセットを
加えることでサンプリングに使う近
傍点を決める
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
19
© GO Inc.
Deformable Cross-Attention (DCA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● VoxFormerにおいては、stage-1で
生成した候補クエリを使い、その
3
次元座標を画像に投影した点が参
照点となる
● 実際の入力は複数のRGB画像で
あるため、それぞれで計算した結果
を平均化する(投影点が範囲外とな
る画像は無視)
● 実装では参照点の近傍8点を使っ
たDCAを3回繰り返す
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
Stage-1で生成した候補クエリ
候補クエリの3
次元座標を画
像に投影した
2次元点
画像から抽出した
特徴マップ
20
© GO Inc.
疎なボクセル特徴の補完
● クエリ以外のボクセル(stage-1においてデプスが得られなかった領域)を
MAE (Masked
Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴
を獲得
● マスクトークンは全て共通のlearnableなベクトル
● 画像特徴の獲得時と同様、deformable attentionを用いる
21
© GO Inc.
Masked Autoencoder (MAE)
Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022.
masked image MAE reconstruction ground truth
ImageNet-1Kにおける精度比較
● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ
りそれらを復元する事前学習を行う
● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き
換えてデコーダに入力
● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い
22
© GO Inc.
Deformable Self-Attention (DSA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● 候補クエリに選ばれなかったボクセ
ルをマスクトークンで埋めることで
ボクセル特徴を補完
● 候補クエリまたはマスクトークンの
3
次元座標を参照点とし、その近傍を
ボクセル特徴からサンプリングして
attentionを計算することでボクセル
特徴を更新
● 実装では参照点の近傍8点を使っ
たDSAを2回繰り返す
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
DCAでアップデートした候補クエリまたはマスクトークン
候補クエリまたはマ
スクトークンの3次
元座標
ボクセル特徴
23
© GO Inc.
最終出力の生成
● DCAとDSAを経て更新されたボクセル特徴を
FC層に入力し最終出力を得る
● FC層では空間方向の解像度を上げ、各ボクセルの次元数をラベル数に一致させる
24
© GO Inc.
学習
Occupancy mapの真値と比較
(binary cross-entropy)
SSCの真値と比較
(cross-entropy)
● Stage-1とstage-2の学習はそれぞれ独立に行われる
● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用
● 加えて、stage-2ではscene-class affinity lossも用いる
25
© GO Inc.
性能評価
6.4m
51.2m
51.2m
● SemanticKITTIのSSCベンチマークにより評価(RGB画像または疎なLiDARスキャンから完全な3
次元ボリュームをボクセルごとのラベルと共に復元)
● 車両の前方51.2m、左右51.2m、高さ6.4mが対象
● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32
● 2種類の尺度で評価
○ IoU:クラスを無視した3次元ボリューム全体の IoU(補完性能の評価)
○ mIoU:クラスごとに計算した IoUの平均(セグメンテーション性能の評価)
26
© GO Inc.
実装
入力はステレオ画像
● 現時刻のフレームのみ:VoxFormer-S
● 現時刻&直前4フレーム:VoxFormer-T
学習済みの
MobileStereoNet [1] で
生成
128 × 128 × 16 256 × 256 × 32
ステレオ画像の片方のみを利用し、
ResNet-50 + FPNで特徴抽出(128次元)
LMSCNet [2]をスクラッチ学習
[1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022
[2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
x 3
x 2
27
© GO Inc.
評価結果 12.8 × 12.8 × 6.4m3
25.6 × 25.6 × 6.4m3
51.2 × 51.2 × 6.4m3
1st, 2nd, 3rd
RGB画像ONLY ステレオ画像デプス ステレオ画像デプス
3つのレンジで評価
28
© GO Inc.
評価結果 12.8 × 12.8 × 6.4m3
25.6 × 25.6 × 6.4m3
51.2 × 51.2 × 6.4m3
1st, 2nd, 3rd
RGB画像ONLY ステレオ画像デプス ステレオ画像デプス
LiDARスキャンを入力とする手法との比較
3つのレンジで評価
29
© GO Inc.
Ablation Study
ステレオ画像ではなく単眼画像だとどうか? 候補クエリを全部 or ランダムにしたらどうか?
未来のフレームも使ったらどうか? どのアーキテクチャが効くか?
+N:現在のフレームから
Nフレーム後
30
© GO Inc.
所感
● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い
● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的
● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない
MonoSceneを比較対象にするのはフェアでない気もする(実際、
VoxFormerからデプス推定を除く
とMonoSceneに負ける)
● 使う側からすると、学習用にラベル付きの
3次元ボリュームを用意することはかなりしんどいので他
カメラに対する汎化性能が気になるところ
31
© GO Inc.
We’re Hiring!
https://hrmos.co/pages/goinc/jobs?category=1342449154655301632
● エンジニアはフルリモートOK!
● いつでもカジュアル面談OKなので
お気軽にお声がけください
32
文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。
© GO Inc.
© GO Inc. 34
Scene-Class Affinity Loss
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
ボクセルiにおける真値
ボクセルiにおけるクラスcの推論確率
Iverson括弧
→ Precision → Recall → Specificity
● クラスごとのprecision、recall、specificityを直接的に最適化するロス
● ネットワークに対してグローバルな
SSC性能を陽にフィードバックする
© GO Inc.
主観評価
35

More Related Content

What's hot

SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
Masaya Kaneko
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
Deep Learning JP
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
Iwami Kazuya
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
Kazuyuki Miyazawa
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
Naoya Chiba
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
Deep Learning JP
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
Kitsukawa Yuki
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 

What's hot (20)

SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 

Similar to VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
kanejaki
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
第2回c#画像処理講習
第2回c#画像処理講習第2回c#画像処理講習
第2回c#画像処理講習
Koshiro Miyauchi
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
Recruit Technologies
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3Yoichi Shirasawa
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
Tatsuya Matsushima
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演
Hayaru SHOUNO
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目Shin Matsumoto
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
Kazuyuki Miyazawa
 
Core Animation 使って見た
Core Animation 使って見たCore Animation 使って見た
Core Animation 使って見た
OCHI Shuji
 

Similar to VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion (20)

[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
第2回c#画像処理講習
第2回c#画像処理講習第2回c#画像処理講習
第2回c#画像処理講習
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
Core Animation 使って見た
Core Animation 使って見たCore Animation 使って見た
Core Animation 使って見た
 

More from Kazuyuki Miyazawa

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
Kazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
Kazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
 

More from Kazuyuki Miyazawa (9)

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

  • 1. © GO Inc. 2023年4月30日 第58回コンピュータビジョン勉強会@関東(深層学習+ 3D論文読み会) VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion GO株式会社(旧: Mobility Technologies) 宮澤 一之
  • 2. © GO Inc. 2 自己紹介 宮澤 一之 GO株式会社(旧: Mobility Technologies) AI技術開発部 AI研究開発第二グループ グループマネージャー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw
  • 3. © GO Inc. 論文情報 ● arXiv初出は2023年2月23日 ● CVPR 2023 Highlights(採択論文の10%) ● 著者の所属は多いが、NVIDIAメインの研究と思われる(GitHubリポジトリもNVlabs) [paper] [code] 3
  • 4. © GO Inc. 何ができるのか RGB画像からのSemantic Scene Completion (SSC) SSC = 完全な3次元ボリュームの復元+セマンティックセグメンテーション https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif 4
  • 5. © GO Inc. ● Semantic Scene Completion (SSC)というタスクを初めて定義 ● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した TSDF (Truncated Signed Distance Function)に変換し、3D CNNに入力 ● 広い受容野で3次元空間のコンテキストを取得するため、 dilated convを利用 ● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施 関連研究 - SSCNet - Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017. “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion) and object category (i.e., scene labeling) from a single depth image of a 3D scene” * データ盗用で訴えられ、公開を停止(原告側の訴えは却下) [参考] 5
  • 6. © GO Inc. 関連研究 - SemanticKITTI - Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019. Semantic scene completion benchmarkでは不完全な 入力(左)から完全なシーン(右)の生成を行う ● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与 ● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする SSCのベンチ マークも提供 ● 屋外シーンの実データによるSSCベンチマークはこれが世界初 6
  • 7. © GO Inc. 関連研究 - MonoScene - Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ● 2.5または3次元を入力とする従来手法に対し、 2次元入力(1枚のRGB画像)でSSCを実現 ● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力 ● FLoSPと3D CRPという新たなモジュールを提案 ○ FLoSP (Features Line of Sight Projection):2次元特徴から3次元特徴を生成 ○ 3D CRP (3D Context Relation Prior):ボクセル間の関係性(似ているかどうか)を陽に記述 https://astra-vision.github.io/MonoScene/ 7
  • 8. © GO Inc. ● 3次元ボリュームの各ボクセルの中心座標を 2次元画像に投影し、投影位置に対応する 2次元特徴 をマルチスケールでサンプリングして 3次元特徴を生成 ● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば 2つの物体 が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう ● これを軽減するため、視錐台に含まれる 3次元ボリュームのラベル分布を真値に近づけるロスを導 入(Frustum Proportion Loss) FLoSP (Features Line of Sight Projection) Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. FLoSP Frustum Proportion Loss 8
  • 9. © GO Inc. VoxFormerのモチベーション (1) reconstruction-before-hallucination: まず画像中の可視領域について 3次元情報を獲得し、次に それらを起点として不可視領域を推測 (2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な 3次元ボ リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善 可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル 特徴を獲得したうえで残りのボクセルを MAE (Masked Autoencoder)ライクに補完 9
  • 10. © GO Inc. VoxFormerのアーキテクチャ ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 10
  • 11. © GO Inc. ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 11
  • 12. © GO Inc. 事前準備 ● 入力は内部パラメータ既知のカメラから得られた連続 RGB画像(1枚でも可) ● ボクセルクエリの集合Qとして大きさh × w × zの3次元ボリュームを用意 ● 計算量削減とロバスト性向上のため、 Qの解像度は最終出力の3次元ボリュームよりも小さくする 12
  • 13. © GO Inc. デプス推定 ● Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ Zを生成 ● 次式により画像の各ピクセル(u, v)を3次元点群(x, y, z)に変換 cu , cv , fu , fv :カメラ内部パラメータ 13
  • 14. © GO Inc. 候補クエリ生成 ● 3次元点群から3次元ボリューム(occupancy map)を生成(点が存在するボクセルは 1、それ以外 は0) ● LMSCNetを使って精度を上げると共に解像度をクエリ集合 Qと一致させる Depth Correction ↓ Query Proposal Z W H 3次元点群から生成された occupancy map Min 補正されたoccupancy map Mout LMSCNet 14
  • 15. © GO Inc. LMSCNet (Lightweight Multiscale Semantic Completion Network) Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. ● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法 ● 高さ方向の次元を特徴の次元とみなして大半を 2D CNNで構成することで計算量を削減 ● 最終出力を生成するためのヘッドにおいてのみ 3D CNNを使う 15
  • 16. © GO Inc. 候補クエリ生成 ● Occupancy map Mout において物体に占有されているボクセル座標からクエリを取り出す ● 取り出したクエリQp を候補クエリとしてstage-2以降で利用 ● 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善 Depth Correction ↓ Query Proposal 16
  • 17. © GO Inc. ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 17
  • 18. © GO Inc. 候補クエリに対応する画像特徴の獲得 ● 画像特徴はCNN (ResNet-50 + FPN)で抽出 ● 候補クエリに対してlearnableなpositional embeddingを加算 ● Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を 獲得 18
  • 19. © GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● Attentionの計算範囲を局所領域に 限定することで特徴マップ全体を使 う通常のattentionにおける以下の 課題を解決 ○ 特徴マップのサイズの二乗に比 例して計算量が増大 ○ 収束が遅い ● 参照点とその近傍から特徴をサン プリング(近傍点数はハイパーパラ メータ) ● 参照点にlearnableなオフセットを 加えることでサンプリングに使う近 傍点を決める Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる 19
  • 20. © GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● VoxFormerにおいては、stage-1で 生成した候補クエリを使い、その 3 次元座標を画像に投影した点が参 照点となる ● 実際の入力は複数のRGB画像で あるため、それぞれで計算した結果 を平均化する(投影点が範囲外とな る画像は無視) ● 実装では参照点の近傍8点を使っ たDCAを3回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる Stage-1で生成した候補クエリ 候補クエリの3 次元座標を画 像に投影した 2次元点 画像から抽出した 特徴マップ 20
  • 21. © GO Inc. 疎なボクセル特徴の補完 ● クエリ以外のボクセル(stage-1においてデプスが得られなかった領域)を MAE (Masked Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴 を獲得 ● マスクトークンは全て共通のlearnableなベクトル ● 画像特徴の獲得時と同様、deformable attentionを用いる 21
  • 22. © GO Inc. Masked Autoencoder (MAE) Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022. masked image MAE reconstruction ground truth ImageNet-1Kにおける精度比較 ● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ りそれらを復元する事前学習を行う ● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き 換えてデコーダに入力 ● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い 22
  • 23. © GO Inc. Deformable Self-Attention (DSA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● 候補クエリに選ばれなかったボクセ ルをマスクトークンで埋めることで ボクセル特徴を補完 ● 候補クエリまたはマスクトークンの 3 次元座標を参照点とし、その近傍を ボクセル特徴からサンプリングして attentionを計算することでボクセル 特徴を更新 ● 実装では参照点の近傍8点を使っ たDSAを2回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる DCAでアップデートした候補クエリまたはマスクトークン 候補クエリまたはマ スクトークンの3次 元座標 ボクセル特徴 23
  • 24. © GO Inc. 最終出力の生成 ● DCAとDSAを経て更新されたボクセル特徴を FC層に入力し最終出力を得る ● FC層では空間方向の解像度を上げ、各ボクセルの次元数をラベル数に一致させる 24
  • 25. © GO Inc. 学習 Occupancy mapの真値と比較 (binary cross-entropy) SSCの真値と比較 (cross-entropy) ● Stage-1とstage-2の学習はそれぞれ独立に行われる ● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用 ● 加えて、stage-2ではscene-class affinity lossも用いる 25
  • 26. © GO Inc. 性能評価 6.4m 51.2m 51.2m ● SemanticKITTIのSSCベンチマークにより評価(RGB画像または疎なLiDARスキャンから完全な3 次元ボリュームをボクセルごとのラベルと共に復元) ● 車両の前方51.2m、左右51.2m、高さ6.4mが対象 ● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32 ● 2種類の尺度で評価 ○ IoU:クラスを無視した3次元ボリューム全体の IoU(補完性能の評価) ○ mIoU:クラスごとに計算した IoUの平均(セグメンテーション性能の評価) 26
  • 27. © GO Inc. 実装 入力はステレオ画像 ● 現時刻のフレームのみ:VoxFormer-S ● 現時刻&直前4フレーム:VoxFormer-T 学習済みの MobileStereoNet [1] で 生成 128 × 128 × 16 256 × 256 × 32 ステレオ画像の片方のみを利用し、 ResNet-50 + FPNで特徴抽出(128次元) LMSCNet [2]をスクラッチ学習 [1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022 [2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. x 3 x 2 27
  • 28. © GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6 × 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプス ステレオ画像デプス 3つのレンジで評価 28
  • 29. © GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6 × 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプス ステレオ画像デプス LiDARスキャンを入力とする手法との比較 3つのレンジで評価 29
  • 30. © GO Inc. Ablation Study ステレオ画像ではなく単眼画像だとどうか? 候補クエリを全部 or ランダムにしたらどうか? 未来のフレームも使ったらどうか? どのアーキテクチャが効くか? +N:現在のフレームから Nフレーム後 30
  • 31. © GO Inc. 所感 ● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い ● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的 ● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない MonoSceneを比較対象にするのはフェアでない気もする(実際、 VoxFormerからデプス推定を除く とMonoSceneに負ける) ● 使う側からすると、学習用にラベル付きの 3次元ボリュームを用意することはかなりしんどいので他 カメラに対する汎化性能が気になるところ 31
  • 32. © GO Inc. We’re Hiring! https://hrmos.co/pages/goinc/jobs?category=1342449154655301632 ● エンジニアはフルリモートOK! ● いつでもカジュアル面談OKなので お気軽にお声がけください 32
  • 34. © GO Inc. 34 Scene-Class Affinity Loss Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ボクセルiにおける真値 ボクセルiにおけるクラスcの推論確率 Iverson括弧 → Precision → Recall → Specificity ● クラスごとのprecision、recall、specificityを直接的に最適化するロス ● ネットワークに対してグローバルな SSC性能を陽にフィードバックする