Survey on Unsupervised Domain Adaptation for DETR.pptx

Detection Transformerのための
教師なしドメイン適応サーベイ
2023/9/6 1

2
Background (1/4)
DEtection TRansformer とは？
物体検出にViTを取り入れたモデル
2023/9/6
CNNで特徴量を獲得 TRで特徴量を物体の情報に物体を検出

2023/9/6 3
学習データセット検出データセット
ソースドメイン
（CityScapes）
ターゲットドメイン
（Foggy CityScapes）
ドメインシフト
正解を用意している正解を用意できていない
Background (2/4)
ドメインが変わると精度が低下する

2023/9/6 4
Background (3/4)
ドメイン間のGAPを無くしたい
UDABP [MLR’15]
ドメインを識別する
ドメインを識別しにくくする
ドメイン不変な特徴を獲得

2023/9/6 5
Background
SFA
41.3
[ACM ICM’22]
date
mAP
Cityscapes to Foggy Cityscapes の検出精度
DA-DETR
43.5
[CVPR’23]
SR-SFA
43.1
[IJCNN’22]
O2-Net
46.8
[ACM ICM’22]
CA-DINO
50.5
[MDPI’22]
SSTA
44.9
[arXiv’22]
Paper with CodeでのSoTA
論文調査でのSoTA

DA-DETR: Domain Adaptive Detection Transformer with Information
Fusion,
Jingyi Zhang+ (S-lab, Nanyang Technological University) [CVPR’23]
2023/9/6 6
💡POINT
CNNで得た特徴とTransformerからの特徴を融合して敵対的訓練
局所的な特徴意味的な特徴

Fusion,
2023/9/6 7
• Spatial-wise fusion
• Channel-wise fusion
𝑝𝑘𝑠と𝑝𝑘𝑐から𝑓𝑘を生成．
• Scale Aggregation Fusion

Fusion,
2023/9/6 8
得られた特徴𝑉𝑎を元に敵対的訓練

Fusion,
2023/9/6 9
Cityscapes → Foggy Cityscapesのデータセットにおいて
2021年の段階でSoTAを達成

2023/9/6 10
Background
SFA
41.3
[ACM ICM’22]
date
mAP
DA-DETR
43.5
[CVPR’23]
SR-SFA
43.1
[IJCNN’22]
O2-Net
46.8
[ACM ICM’22]
CA-DINO
50.5
[MDPI’22]
SSTA
44.9
[arXiv’22]

2023/9/6 11
TransformerのEncoder, Decoderから出力された特徴に着目
Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers (SFA),
Wen Wang+ (University of Science and Technology of China) [ACM International Conference on
Multimedia’21]

2023/9/6 12
TransformerのEncoder, Decoderから出力された特徴に着目
• ドメインクエリを用いて識別器に
大域的な特徴におけるドメイン差の緩和
• トークンを用いて識別器に
局所的な特徴におけるドメイン差の緩和
→両方の観点からドメインの差を埋める
Exploring Sequence Feature Alignment for Domain Adaptive Detection
Transformers (SFA),
Wen Wang+ (University of Science and Technology of China) [ACM International Conference on
Multimedia’21]

2023/9/6 13
Encoder+Decoderの特徴でドメイン適応することは最適ではないと主張
❌ Encoder → ◎ Backbone
Improving Transferability for Domain Adaptive Detection Transformers
(O2 Net),
Kaixiong Gong+ (Beijing Institute of Technology) [ACM International Conference on Multimedia’22]

2023/9/6 14
BackboneとDecoderの出力をドメイン適応に用いる
💡技術の肝は
Backbone (Object-Aware Alignment)
前景に着目されるように重みづけ
Decoder (Optimal Transport based Alignment)
敵対的手法では位置情報が消失
→Wasserstain距離の最小化により位置情報も考慮
(O2 Net),

2023/9/6 15
Backbone (Object-Aware Alignment)
信頼度の高い擬似ラベルで重みを設定
敵対的学習に重みづけ
(O2 Net),

2023/9/6 16
Decoder (Optimal Transport based Alignment)
Sliced Wasserstain距離を用いてDecoderにおけるソースとターゲットの
特徴分布の距離を近づける
(O2 Net),
位置情報を保持したままドメイン差を埋められる
※Wasserstain距離は分布を別の分布に輸送する最小のコストを測る

2023/9/6 17
Cityscapes → Foggy CityscapesのデータセットにおいてSoTA
(O2 Net),

2023/9/6 18
Cityscapes → Foggy CityscapesのデータセットにおいてSoTA
(O2 Net),

2023/9/6 19
Background
SFA
41.3
[ACM ICM’22]
date
mAP
DA-DETR
43.5
[CVPR’23]
SR-SFA
43.1
[IJCNN’22]
O2-Net
46.8
[ACM ICM’22]
CA-DINO
50.5
[MDPI’22]
SSTA
44.9
[arXiv’22]

2023/9/6 20
BackboneとTransformerのそれぞれにドメイン適応を施す
💡技術の肝は
Backbone
AEDDによりドメイン不変
Transformer
WROTによりギャップを
埋める
Cascading Alignment for Unsupervised Domain-Adaptive DETR with
Improved DeNoising Anchor Boxes (CA-DINO),
Huantong Geng+ (Nanjing University of Information Science and Technology) [MDPI’22]

2023/9/6 21
Backbone
AEDD (Attention Enhanced Double Discriminator)
によりドメイン不変な特徴
CBAM [ECCV’18]
(Convolutional block attention module)
による強いドメイン識別器を導入

2023/9/6 22
Transformer
WROT (Weak Restraints on Category-Level Token)
𝑧：EncoderとDecoderの出力を平坦化
Frobenius normを計算し最小化

2023/9/6 23
Cityscapes → Foggy CityscapesのデータセットでSoTA

Summary
2023/9/6 24
• 概要
• Detection Transformer のための教師なしドメイン適応
• 技術的な構成
• BackboneやTransformerの特徴を使ってドメイン不変な特徴を獲得，
または分布距離の最小化を行うことでドメインギャップを埋めて
いる
• 傾向と今後
• シンプルなアイディアに基づく手法ばかりだった．
• 計算量がとても多い課題があるようなので，そちらに着目した手法も出てくる．
• 擬似ラベルを生成することやスタイルを変換し，特徴をターゲットに寄せる方
法も現れるのではないか．

Survey on Unsupervised Domain Adaptation for DETR.pptx

Recommended

Recommended

More Related Content

Similar to Survey on Unsupervised Domain Adaptation for DETR.pptx

Similar to Survey on Unsupervised Domain Adaptation for DETR.pptx (20)

Survey on Unsupervised Domain Adaptation for DETR.pptx