A Single Domain Generalization for Object Detection.pptx5. Single Domain Generalization for ODについてのサーベイ
・Single-Domain Generalized Object Detection in Urban Scene via Cyclic-
Disentangled Self-Distillation,
Aming Wu+ (Xidian) [CVPR2022]
5
(Learning Transferable Visual Models from Natural Language Supervision),
A,Radford+ (OpenAI) [ICML’22]
・CLIP the Gap: A Single Domain Generalization Approach for Object Detection,
V.Vidit+ (EPFL) [arXiv’23]
6. 6
全体の損失:ℒ = ℒ𝑟𝑝𝑛 + ℒ𝑙𝑜𝑐 + ℒ𝑐𝑙𝑠 + 𝜆(ℒ𝑐𝑑 + ℒ𝑠𝑑)
全体のコンセプト:得られる特徴をドメイン不変(DIR)とドメイン固有(DSR)に解き
ほぐし,DIRの情報を使って学習する.
Faster RCNNにおける損失
Single-Domain Generalized Object Detection in Urban Scene via Cyclic-
Disentangled Self-Distillation,
Aming Wu+ (Xidian) [CVPR2022]
7. Single-Domain Generalized Object Detection in Urban Scene via Cyclic-
Disentangled Self-Distillation,
Aming Wu+ (Xidian) [CVPR2022]
7
全体の損失:ℒ = ℒ𝑟𝑝𝑛 + ℒ𝑙𝑜𝑐 + ℒ𝑐𝑙𝑠 + 𝜆(ℒ𝑐𝑑 + ℒ𝑠𝑑)
学習するもの:𝐸𝐷𝑆𝑅,𝐸𝐷𝐼𝑅
ℒ𝑐𝑑 = +
ℒ𝑔𝑐:グローバルレベルで
𝐸𝐷𝐼𝑅はより不変な特徴を,
𝐸𝐷𝑆𝑅はより固有な特徴を得る.
ℒ𝑖𝑐:インスタンスレベルで
𝐸𝐷𝐼𝑅がより不変な特徴を得る.
結果:ドメイン不変な特徴 𝐹𝑑𝑖 を獲得.
8. ℒ𝑠𝑑 =
Single-Domain Generalized Object Detection in Urban Scene via Cyclic-
Disentangled Self-Distillation,
Aming Wu+ (Xidian) [CVPR2022]
8
全体の損失:ℒ = ℒ𝑟𝑝𝑛 + ℒ𝑙𝑜𝑐 + ℒ𝑐𝑙𝑠 + 𝜆(ℒ𝑐𝑑 + ℒ𝑠𝑑)
学習するもの:𝐸𝑛, 𝑇𝑛, 𝐶𝑙𝑠𝑛
+
ℒ𝑓𝑐:𝐹
𝑛を𝐹𝑑𝑖 ドメイン不変 に近づける.
ℒ𝑖𝑐:クラス分類において 𝐹𝑑𝑖 ドメイン不変
に近づける.
結果:𝐸𝑛においてドメイン不変な特徴を得
られる.
9. CLIP the Gap: A Single Domain Generalization Approach for Object Detection,
V.Vidit+ (EPFL)[arXiv’23]
9
全体のコンセプト:CLIPを使ったテキストからの特徴に合うセマンティックな特徴
の拡張を獲得し,CLIPを使用して検出器の学習をさせる.
全体の損失:ℒ = ℒ𝑟𝑝𝑛 + ℒ𝑟𝑒𝑔 + ℒ𝑐𝑙𝑖𝑝−𝑡
10. Learning Transferable Visual Models from Natural Language Supervision,
A,Radford+ (OpenAI)[ICML’22]
10
CLIP(Contrastive Language-Image Pre-training)
自然言語に含まれる表現と画像表現の関係性を学習する.
4億組のテキストと画像のペアを入力してTransformerを介して類似度を測る.
14. まとめ
• 概要
• 物体検出のためのSingle Domain Generalizationのサーベイ
• 技術的な構成
• たった一つのドメインで複数のドメインに対応するために,ドメイン不変
な特徴を獲得する,または様々なドメインの特徴を得られるように学習す
る方針を立てている.
• 傾向と今後
• 去年のCVPRから注目され,まだ2本しか発表されていない.
• 様々なドメインに拡張する手法が優れており,新たな提案が期待される.
• 2本ともFaster RCNN basedなため,Detection Transformerを使った高精度な手
法も出てくるのではないか.
14
Editor's Notes Domain invariant representation Domain Specific Representation