SlideShare a Scribd company logo
1 of 35
Download to read offline
© GO Inc.
2023年4月30日 第58回コンピュータビジョン勉強会@関東(深層学習+
3D論文読み会)
VoxFormer: Sparse Voxel Transformer for
Camera-based 3D Semantic Scene Completion
GO株式会社(旧: Mobility Technologies)
宮澤 一之
© GO Inc. 2
自己紹介
宮澤 一之
GO株式会社(旧: Mobility Technologies)
AI技術開発部 AI研究開発第二グループ
グループマネージャー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
@kzykmyzw
© GO Inc.
論文情報
● arXiv初出は2023年2月23日
● CVPR 2023 Highlights(採択論文の10%)
● 著者の所属は多いが、NVIDIAメインの研究と思われる(GitHubリポジトリもNVlabs)
[paper] [code]
3
© GO Inc.
何ができるのか
RGB画像からのSemantic Scene Completion (SSC)
SSC = 完全な3次元ボリュームの復元+セマンティックセグメンテーション
https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif
4
© GO Inc.
● Semantic Scene Completion (SSC)というタスクを初めて定義
● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した
TSDF (Truncated
Signed Distance Function)に変換し、3D CNNに入力
● 広い受容野で3次元空間のコンテキストを取得するため、
dilated convを利用
● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施
関連研究 - SSCNet -
Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017.
“our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion)
and object category (i.e., scene labeling) from a single depth image of a 3D scene”
* データ盗用で訴えられ、公開を停止(原告側の訴えは却下)
[参考]
5
© GO Inc.
関連研究 - SemanticKITTI -
Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019.
Semantic scene completion benchmarkでは不完全な
入力(左)から完全なシーン(右)の生成を行う
● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与
● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする
SSCのベンチ
マークも提供
● 屋外シーンの実データによるSSCベンチマークはこれが世界初
6
© GO Inc.
関連研究 - MonoScene -
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
● 2.5または3次元を入力とする従来手法に対し、
2次元入力(1枚のRGB画像)でSSCを実現
● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力
● FLoSPと3D CRPという新たなモジュールを提案
○ FLoSP (Features Line of Sight Projection):2次元特徴から3次元特徴を生成
○ 3D CRP (3D Context Relation Prior):ボクセル間の関係性(似ているかどうか)を陽に記述
https://astra-vision.github.io/MonoScene/
7
© GO Inc.
● 3次元ボリュームの各ボクセルの中心座標を
2次元画像に投影し、投影位置に対応する
2次元特徴
をマルチスケールでサンプリングして
3次元特徴を生成
● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば
2つの物体
が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう
● これを軽減するため、視錐台に含まれる
3次元ボリュームのラベル分布を真値に近づけるロスを導
入(Frustum Proportion Loss)
FLoSP (Features Line of Sight Projection)
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
FLoSP Frustum Proportion Loss
8
© GO Inc.
VoxFormerのモチベーション
(1) reconstruction-before-hallucination: まず画像中の可視領域について
3次元情報を獲得し、次に
それらを起点として不可視領域を推測
(2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な
3次元ボ
リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善
可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル
特徴を獲得したうえで残りのボクセルを
MAE (Masked Autoencoder)ライクに補完
9
© GO Inc.
VoxFormerのアーキテクチャ
● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
10
© GO Inc.
● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
VoxFormerのアーキテクチャ
11
© GO Inc.
事前準備
● 入力は内部パラメータ既知のカメラから得られた連続
RGB画像(1枚でも可)
● ボクセルクエリの集合Qとして大きさh × w × zの3次元ボリュームを用意
● 計算量削減とロバスト性向上のため、
Qの解像度は最終出力の3次元ボリュームよりも小さくする
12
© GO Inc.
デプス推定
● Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ
Zを生成
● 次式により画像の各ピクセル(u, v)を3次元点群(x, y, z)に変換
cu
, cv
, fu
, fv
:カメラ内部パラメータ
13
© GO Inc.
候補クエリ生成
● 3次元点群から3次元ボリューム(occupancy map)を生成(点が存在するボクセルは
1、それ以外
は0)
● LMSCNetを使って精度を上げると共に解像度をクエリ集合
Qと一致させる
Depth Correction
↓
Query Proposal
Z
W
H
3次元点群から生成された
occupancy map
Min
補正されたoccupancy map
Mout
LMSCNet
14
© GO Inc.
LMSCNet (Lightweight Multiscale Semantic Completion Network)
Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法
● 高さ方向の次元を特徴の次元とみなして大半を
2D CNNで構成することで計算量を削減
● 最終出力を生成するためのヘッドにおいてのみ
3D CNNを使う
15
© GO Inc.
候補クエリ生成
● Occupancy map Mout
において物体に占有されているボクセル座標からクエリを取り出す
● 取り出したクエリQp
を候補クエリとしてstage-2以降で利用
● 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善
Depth Correction
↓
Query Proposal
16
© GO Inc.
● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
VoxFormerのアーキテクチャ
17
© GO Inc.
候補クエリに対応する画像特徴の獲得
● 画像特徴はCNN (ResNet-50 + FPN)で抽出
● 候補クエリに対してlearnableなpositional embeddingを加算
● Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を
獲得
18
© GO Inc.
Deformable Cross-Attention (DCA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● Attentionの計算範囲を局所領域に
限定することで特徴マップ全体を使
う通常のattentionにおける以下の
課題を解決
○ 特徴マップのサイズの二乗に比
例して計算量が増大
○ 収束が遅い
● 参照点とその近傍から特徴をサン
プリング(近傍点数はハイパーパラ
メータ)
● 参照点にlearnableなオフセットを
加えることでサンプリングに使う近
傍点を決める
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
19
© GO Inc.
Deformable Cross-Attention (DCA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● VoxFormerにおいては、stage-1で
生成した候補クエリを使い、その
3
次元座標を画像に投影した点が参
照点となる
● 実際の入力は複数のRGB画像で
あるため、それぞれで計算した結果
を平均化する(投影点が範囲外とな
る画像は無視)
● 実装では参照点の近傍8点を使っ
たDCAを3回繰り返す
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
Stage-1で生成した候補クエリ
候補クエリの3
次元座標を画
像に投影した
2次元点
画像から抽出した
特徴マップ
20
© GO Inc.
疎なボクセル特徴の補完
● クエリ以外のボクセル(stage-1においてデプスが得られなかった領域)を
MAE (Masked
Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴
を獲得
● マスクトークンは全て共通のlearnableなベクトル
● 画像特徴の獲得時と同様、deformable attentionを用いる
21
© GO Inc.
Masked Autoencoder (MAE)
Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022.
masked image MAE reconstruction ground truth
ImageNet-1Kにおける精度比較
● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ
りそれらを復元する事前学習を行う
● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き
換えてデコーダに入力
● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い
22
© GO Inc.
Deformable Self-Attention (DSA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● 候補クエリに選ばれなかったボクセ
ルをマスクトークンで埋めることで
ボクセル特徴を補完
● 候補クエリまたはマスクトークンの
3
次元座標を参照点とし、その近傍を
ボクセル特徴からサンプリングして
attentionを計算することでボクセル
特徴を更新
● 実装では参照点の近傍8点を使っ
たDSAを2回繰り返す
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
DCAでアップデートした候補クエリまたはマスクトークン
候補クエリまたはマ
スクトークンの3次
元座標
ボクセル特徴
23
© GO Inc.
最終出力の生成
● DCAとDSAを経て更新されたボクセル特徴を
FC層に入力し最終出力を得る
● FC層では空間方向の解像度を上げ、各ボクセルの次元数をラベル数に一致させる
24
© GO Inc.
学習
Occupancy mapの真値と比較
(binary cross-entropy)
SSCの真値と比較
(cross-entropy)
● Stage-1とstage-2の学習はそれぞれ独立に行われる
● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用
● 加えて、stage-2ではscene-class affinity lossも用いる
25
© GO Inc.
性能評価
6.4m
51.2m
51.2m
● SemanticKITTIのSSCベンチマークにより評価(RGB画像または疎なLiDARスキャンから完全な3
次元ボリュームをボクセルごとのラベルと共に復元)
● 車両の前方51.2m、左右51.2m、高さ6.4mが対象
● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32
● 2種類の尺度で評価
○ IoU:クラスを無視した3次元ボリューム全体の IoU(補完性能の評価)
○ mIoU:クラスごとに計算した IoUの平均(セグメンテーション性能の評価)
26
© GO Inc.
実装
入力はステレオ画像
● 現時刻のフレームのみ:VoxFormer-S
● 現時刻&直前4フレーム:VoxFormer-T
学習済みの
MobileStereoNet [1] で
生成
128 × 128 × 16 256 × 256 × 32
ステレオ画像の片方のみを利用し、
ResNet-50 + FPNで特徴抽出(128次元)
LMSCNet [2]をスクラッチ学習
[1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022
[2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
x 3
x 2
27
© GO Inc.
評価結果 12.8 × 12.8 × 6.4m3
25.6 × 25.6 × 6.4m3
51.2 × 51.2 × 6.4m3
1st, 2nd, 3rd
RGB画像ONLY ステレオ画像デプス ステレオ画像デプス
3つのレンジで評価
28
© GO Inc.
評価結果 12.8 × 12.8 × 6.4m3
25.6 × 25.6 × 6.4m3
51.2 × 51.2 × 6.4m3
1st, 2nd, 3rd
RGB画像ONLY ステレオ画像デプス ステレオ画像デプス
LiDARスキャンを入力とする手法との比較
3つのレンジで評価
29
© GO Inc.
Ablation Study
ステレオ画像ではなく単眼画像だとどうか? 候補クエリを全部 or ランダムにしたらどうか?
未来のフレームも使ったらどうか? どのアーキテクチャが効くか?
+N:現在のフレームから
Nフレーム後
30
© GO Inc.
所感
● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い
● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的
● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない
MonoSceneを比較対象にするのはフェアでない気もする(実際、
VoxFormerからデプス推定を除く
とMonoSceneに負ける)
● 使う側からすると、学習用にラベル付きの
3次元ボリュームを用意することはかなりしんどいので他
カメラに対する汎化性能が気になるところ
31
© GO Inc.
We’re Hiring!
https://hrmos.co/pages/goinc/jobs?category=1342449154655301632
● エンジニアはフルリモートOK!
● いつでもカジュアル面談OKなので
お気軽にお声がけください
32
文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。
© GO Inc.
© GO Inc. 34
Scene-Class Affinity Loss
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
ボクセルiにおける真値
ボクセルiにおけるクラスcの推論確率
Iverson括弧
→ Precision → Recall → Specificity
● クラスごとのprecision、recall、specificityを直接的に最適化するロス
● ネットワークに対してグローバルな
SSC性能を陽にフィードバックする
© GO Inc.
主観評価
35

More Related Content

What's hot

【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
 
Cartographer を用いた 3D SLAM
Cartographer を用いた 3D SLAMCartographer を用いた 3D SLAM
Cartographer を用いた 3D SLAMYoshitaka HARA
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成MobileRoboticsResear
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチHironobu Fujiyoshi
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 

What's hot (20)

SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
Cartographer を用いた 3D SLAM
Cartographer を用いた 3D SLAMCartographer を用いた 3D SLAM
Cartographer を用いた 3D SLAM
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
Point net
Point netPoint net
Point net
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 

Similar to VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
第2回c#画像処理講習
第2回c#画像処理講習第2回c#画像処理講習
第2回c#画像処理講習Koshiro Miyauchi
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3Yoichi Shirasawa
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演Hayaru SHOUNO
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目Shin Matsumoto
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
Core Animation 使って見た
Core Animation 使って見たCore Animation 使って見た
Core Animation 使って見たOCHI Shuji
 

Similar to VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion (20)

[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
第2回c#画像処理講習
第2回c#画像処理講習第2回c#画像処理講習
第2回c#画像処理講習
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目CloudSpiral 2013年度 UML講義 2日目
CloudSpiral 2013年度 UML講義 2日目
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
Core Animation 使って見た
Core Animation 使って見たCore Animation 使って見た
Core Animation 使って見た
 

More from Kazuyuki Miyazawa

Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 

More from Kazuyuki Miyazawa (12)

Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

  • 1. © GO Inc. 2023年4月30日 第58回コンピュータビジョン勉強会@関東(深層学習+ 3D論文読み会) VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion GO株式会社(旧: Mobility Technologies) 宮澤 一之
  • 2. © GO Inc. 2 自己紹介 宮澤 一之 GO株式会社(旧: Mobility Technologies) AI技術開発部 AI研究開発第二グループ グループマネージャー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw
  • 3. © GO Inc. 論文情報 ● arXiv初出は2023年2月23日 ● CVPR 2023 Highlights(採択論文の10%) ● 著者の所属は多いが、NVIDIAメインの研究と思われる(GitHubリポジトリもNVlabs) [paper] [code] 3
  • 4. © GO Inc. 何ができるのか RGB画像からのSemantic Scene Completion (SSC) SSC = 完全な3次元ボリュームの復元+セマンティックセグメンテーション https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif 4
  • 5. © GO Inc. ● Semantic Scene Completion (SSC)というタスクを初めて定義 ● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した TSDF (Truncated Signed Distance Function)に変換し、3D CNNに入力 ● 広い受容野で3次元空間のコンテキストを取得するため、 dilated convを利用 ● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施 関連研究 - SSCNet - Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017. “our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion) and object category (i.e., scene labeling) from a single depth image of a 3D scene” * データ盗用で訴えられ、公開を停止(原告側の訴えは却下) [参考] 5
  • 6. © GO Inc. 関連研究 - SemanticKITTI - Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019. Semantic scene completion benchmarkでは不完全な 入力(左)から完全なシーン(右)の生成を行う ● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与 ● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする SSCのベンチ マークも提供 ● 屋外シーンの実データによるSSCベンチマークはこれが世界初 6
  • 7. © GO Inc. 関連研究 - MonoScene - Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ● 2.5または3次元を入力とする従来手法に対し、 2次元入力(1枚のRGB画像)でSSCを実現 ● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力 ● FLoSPと3D CRPという新たなモジュールを提案 ○ FLoSP (Features Line of Sight Projection):2次元特徴から3次元特徴を生成 ○ 3D CRP (3D Context Relation Prior):ボクセル間の関係性(似ているかどうか)を陽に記述 https://astra-vision.github.io/MonoScene/ 7
  • 8. © GO Inc. ● 3次元ボリュームの各ボクセルの中心座標を 2次元画像に投影し、投影位置に対応する 2次元特徴 をマルチスケールでサンプリングして 3次元特徴を生成 ● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば 2つの物体 が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう ● これを軽減するため、視錐台に含まれる 3次元ボリュームのラベル分布を真値に近づけるロスを導 入(Frustum Proportion Loss) FLoSP (Features Line of Sight Projection) Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. FLoSP Frustum Proportion Loss 8
  • 9. © GO Inc. VoxFormerのモチベーション (1) reconstruction-before-hallucination: まず画像中の可視領域について 3次元情報を獲得し、次に それらを起点として不可視領域を推測 (2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な 3次元ボ リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善 可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル 特徴を獲得したうえで残りのボクセルを MAE (Masked Autoencoder)ライクに補完 9
  • 10. © GO Inc. VoxFormerのアーキテクチャ ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 10
  • 11. © GO Inc. ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 11
  • 12. © GO Inc. 事前準備 ● 入力は内部パラメータ既知のカメラから得られた連続 RGB画像(1枚でも可) ● ボクセルクエリの集合Qとして大きさh × w × zの3次元ボリュームを用意 ● 計算量削減とロバスト性向上のため、 Qの解像度は最終出力の3次元ボリュームよりも小さくする 12
  • 13. © GO Inc. デプス推定 ● Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ Zを生成 ● 次式により画像の各ピクセル(u, v)を3次元点群(x, y, z)に変換 cu , cv , fu , fv :カメラ内部パラメータ 13
  • 14. © GO Inc. 候補クエリ生成 ● 3次元点群から3次元ボリューム(occupancy map)を生成(点が存在するボクセルは 1、それ以外 は0) ● LMSCNetを使って精度を上げると共に解像度をクエリ集合 Qと一致させる Depth Correction ↓ Query Proposal Z W H 3次元点群から生成された occupancy map Min 補正されたoccupancy map Mout LMSCNet 14
  • 15. © GO Inc. LMSCNet (Lightweight Multiscale Semantic Completion Network) Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. ● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法 ● 高さ方向の次元を特徴の次元とみなして大半を 2D CNNで構成することで計算量を削減 ● 最終出力を生成するためのヘッドにおいてのみ 3D CNNを使う 15
  • 16. © GO Inc. 候補クエリ生成 ● Occupancy map Mout において物体に占有されているボクセル座標からクエリを取り出す ● 取り出したクエリQp を候補クエリとしてstage-2以降で利用 ● 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善 Depth Correction ↓ Query Proposal 16
  • 17. © GO Inc. ● Stage-1 (class-agnostic query proposal):可視領域にあり、かつ物体が存在するボクセルを候 補クエリとして特定 ● Stage-2 (class-specific segmentation):cross-attentionで候補クエリに対応する画像特徴からボ クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成 VoxFormerのアーキテクチャ 17
  • 18. © GO Inc. 候補クエリに対応する画像特徴の獲得 ● 画像特徴はCNN (ResNet-50 + FPN)で抽出 ● 候補クエリに対してlearnableなpositional embeddingを加算 ● Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を 獲得 18
  • 19. © GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● Attentionの計算範囲を局所領域に 限定することで特徴マップ全体を使 う通常のattentionにおける以下の 課題を解決 ○ 特徴マップのサイズの二乗に比 例して計算量が増大 ○ 収束が遅い ● 参照点とその近傍から特徴をサン プリング(近傍点数はハイパーパラ メータ) ● 参照点にlearnableなオフセットを 加えることでサンプリングに使う近 傍点を決める Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる 19
  • 20. © GO Inc. Deformable Cross-Attention (DCA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● VoxFormerにおいては、stage-1で 生成した候補クエリを使い、その 3 次元座標を画像に投影した点が参 照点となる ● 実際の入力は複数のRGB画像で あるため、それぞれで計算した結果 を平均化する(投影点が範囲外とな る画像は無視) ● 実装では参照点の近傍8点を使っ たDCAを3回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる Stage-1で生成した候補クエリ 候補クエリの3 次元座標を画 像に投影した 2次元点 画像から抽出した 特徴マップ 20
  • 21. © GO Inc. 疎なボクセル特徴の補完 ● クエリ以外のボクセル(stage-1においてデプスが得られなかった領域)を MAE (Masked Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴 を獲得 ● マスクトークンは全て共通のlearnableなベクトル ● 画像特徴の獲得時と同様、deformable attentionを用いる 21
  • 22. © GO Inc. Masked Autoencoder (MAE) Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022. masked image MAE reconstruction ground truth ImageNet-1Kにおける精度比較 ● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ りそれらを復元する事前学習を行う ● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き 換えてデコーダに入力 ● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い 22
  • 23. © GO Inc. Deformable Self-Attention (DSA) Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021. ● 候補クエリに選ばれなかったボクセ ルをマスクトークンで埋めることで ボクセル特徴を補完 ● 候補クエリまたはマスクトークンの 3 次元座標を参照点とし、その近傍を ボクセル特徴からサンプリングして attentionを計算することでボクセル 特徴を更新 ● 実装では参照点の近傍8点を使っ たDSAを2回繰り返す Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる DCAでアップデートした候補クエリまたはマスクトークン 候補クエリまたはマ スクトークンの3次 元座標 ボクセル特徴 23
  • 24. © GO Inc. 最終出力の生成 ● DCAとDSAを経て更新されたボクセル特徴を FC層に入力し最終出力を得る ● FC層では空間方向の解像度を上げ、各ボクセルの次元数をラベル数に一致させる 24
  • 25. © GO Inc. 学習 Occupancy mapの真値と比較 (binary cross-entropy) SSCの真値と比較 (cross-entropy) ● Stage-1とstage-2の学習はそれぞれ独立に行われる ● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用 ● 加えて、stage-2ではscene-class affinity lossも用いる 25
  • 26. © GO Inc. 性能評価 6.4m 51.2m 51.2m ● SemanticKITTIのSSCベンチマークにより評価(RGB画像または疎なLiDARスキャンから完全な3 次元ボリュームをボクセルごとのラベルと共に復元) ● 車両の前方51.2m、左右51.2m、高さ6.4mが対象 ● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32 ● 2種類の尺度で評価 ○ IoU:クラスを無視した3次元ボリューム全体の IoU(補完性能の評価) ○ mIoU:クラスごとに計算した IoUの平均(セグメンテーション性能の評価) 26
  • 27. © GO Inc. 実装 入力はステレオ画像 ● 現時刻のフレームのみ:VoxFormer-S ● 現時刻&直前4フレーム:VoxFormer-T 学習済みの MobileStereoNet [1] で 生成 128 × 128 × 16 256 × 256 × 32 ステレオ画像の片方のみを利用し、 ResNet-50 + FPNで特徴抽出(128次元) LMSCNet [2]をスクラッチ学習 [1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022 [2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020. x 3 x 2 27
  • 28. © GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6 × 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプス ステレオ画像デプス 3つのレンジで評価 28
  • 29. © GO Inc. 評価結果 12.8 × 12.8 × 6.4m3 25.6 × 25.6 × 6.4m3 51.2 × 51.2 × 6.4m3 1st, 2nd, 3rd RGB画像ONLY ステレオ画像デプス ステレオ画像デプス LiDARスキャンを入力とする手法との比較 3つのレンジで評価 29
  • 30. © GO Inc. Ablation Study ステレオ画像ではなく単眼画像だとどうか? 候補クエリを全部 or ランダムにしたらどうか? 未来のフレームも使ったらどうか? どのアーキテクチャが効くか? +N:現在のフレームから Nフレーム後 30
  • 31. © GO Inc. 所感 ● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い ● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的 ● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない MonoSceneを比較対象にするのはフェアでない気もする(実際、 VoxFormerからデプス推定を除く とMonoSceneに負ける) ● 使う側からすると、学習用にラベル付きの 3次元ボリュームを用意することはかなりしんどいので他 カメラに対する汎化性能が気になるところ 31
  • 32. © GO Inc. We’re Hiring! https://hrmos.co/pages/goinc/jobs?category=1342449154655301632 ● エンジニアはフルリモートOK! ● いつでもカジュアル面談OKなので お気軽にお声がけください 32
  • 34. © GO Inc. 34 Scene-Class Affinity Loss Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022. ボクセルiにおける真値 ボクセルiにおけるクラスcの推論確率 Iverson括弧 → Precision → Recall → Specificity ● クラスごとのprecision、recall、specificityを直接的に最適化するロス ● ネットワークに対してグローバルな SSC性能を陽にフィードバックする