DEEP LEARNING JP
[DL Papers]
“PanopticDepth: A Unified Framework for Depth-aware
Panoptic Segmentation
(CVPR 2022)” Yoshifumi Seki
http://deeplearning.jp/
書誌情報
● 投稿先
○ CVPR 2022
● 投稿者
○ 後で
● 選定理由
○ 最近画像認識周りを転職先の仕事も
あって勉強し始めていて Panoptic
Segmentation周りを今掘っていたとこ
ろだった
○
● 深さの推定とPanoptic Segmentationを同時にやることで全体のパフォーマンス向
上を狙う。
フレームワークの全体像
フレームワークは3つのsub-networkからなる
● Kernel Producer
○ instance classification, instance-specific mask, depth convolution kernelを生み出すところ
● Panoptic Segmentation
○ Panoptic Segmentationをやるところ
● Instance-wise depth map generator
○ インスタンスごとの深さ推定をやるところ
Kernel Producer
● PanopticFCNで作られている
○ Panoptic SegmentationのSOTA (CVPR2021)
● Dynamic Convolution Techniqueを採用
○ 訓練時間もGPUのメモリも他の新しいモデルと比較して少なく抑えられる
● Kernel Weight Map Gとtwo position mapをthingsとstuffそれぞれで出力する
○ thingsはinstanceのcenter, stuffはregionにそれぞれ対応する
● 出力したこの2つをKernel FusionによりマージしてInstance Classification, Mask
Kernel, Depth Kernelを生成する
○ ここのfusion方法は具体的な記述がない
Panoptic Segmentation
ここもPanopticFCNのまま
PanopticFCN (再掲)
Instance-wise Depth Estimation
● Depth Kernelをdepth
Embeddingに適用して、
instanceごとのdepth mapを生成
する
● Panoptic Segmentationを用い
てそれぞれのmapを統合する
Depth Map Generator
● depth Kernelとdepth Embeddingによってdepth mapを生成
● 各instance maskにおいて、depthの分布を正規化する
○ dmaxは今回の実験データセットでは 88にこてい
○ d_r: depth range: N+1次元
○ d_s: depth shift: N+1次元
● ニュアンスとしては、depthのbiasとvarianceを表現している
● このように生成したDとMを掛け合わせて統合
Depth Loss
● logarithmic errorとRSEの組み合わせ
● Pixel LevelのLossとInstance LevelのLossを組み合わせる
実装上の工夫
● Adaptive Kernel Fusion (AKS)
○ Kernel Fusionのタイミングにおける Average Clusterの改良
● Full Scale Fine Tuning (FSFT)
○ 距離が離れたインスタンス同士が融合してしまうことを発見
■ image cloppingによっておこる
○ 類似の問題が怒っている他の研究では、 original imageで訓練することで対応するが、 GPUメモリ
をめちゃめちゃに使ってしまう
○ Fine tuningの時のみFull Imageを使ったfine-tuningを小さなbatch sizeで行うことで、この問題に対
応
評価指標
Panoptic Quality
Depth-awareなPanoptic Quality
λはしきい値、Pλはλよりerrorが小さいピクセルのみを考慮する
λの値を{0.1, 0.25, 0.5}でそれぞれ計算した時の平均を取る
Experience: Panoptic Segmentation
● ViP-DeepLabは現在公開されている唯一のDepth-awareなPanoptic
Segmentationなモデル
● 精度は及ばなかったが、Vip-DeepLabは大規模な追加データセット、半教師、
AutoAug, Test-time segmentationというテクニックが採用されている
○ こういうのを採用すれば伸びるのでは?
Monocular Depth Estimation
● シンプルな単眼画像による深さ
推定では、提案手法が最も良い
結果となった
● 深さを推定するのにinstan
●
Ablation Study
● A vs Bはあまり変化がない
● C vs Dも同じぐらい、AとBに比べると改善
● E vs FではFがよく、Eが悪化している
○ T2が改善していて、T1が悪化するのは、ground truthのdepthがnoisyなことに起因すると予想
まとめ
● おそらく単眼深度における精度向上が工夫されての採択?
● 数式が省略されているところが多くて追い辛い
○ 特にkernelの部分、これで通すのかぁというカルチャーショック
○ 実装は公開されている
○ arxivにappendixとかあるのかな、と思ったけどなかった
● 精度の改善ポイントとしては局所的なnormalizedが一番効いているのは面白い
● Boundaryがなめらかになってるでしょ?と言われてもよくわからなかった
○ 画像処理に精通するとわかるようになるのか

【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation (CVPR 2022)”