SlideShare a Scribd company logo
When Visual Prompt Tuning Meets
Source-Free Domain Adaptive
Semantic Segmentation
Xinhong Ma, Yiming Wang, Hao Liu, Tianyu Guo, Yunhe Wang
NeurIPS 2023
水野翼(名工大玉木研)
2024/5/30
概要
n教師なしドメイン適応セマンティックセグメンテーション
• 事前学習されたソースモデルを,ラベル付けされていないターゲットに適応
• これまで:ネットワーク全体を微調整
• 高価なパラメータチューニング
• 提案:Visual Prompt Tuning(VPT)の利用
• パラメータの効率的な適応のため
n本研究の貢献
1. Universal Unsupervised Visual Prompt Tuningの提案
• 普遍的な教師なしVPT
2. 軽量プロンプトアダプタの導入
3. 新しい適応的類似ラベル修正戦略を提案
VPT [Jia+, ECCV2022]
関連研究
nソースなしの教師なしドメイン適応
セマンティックセグメンテーション
• SFDA [Liu+, CVPR2021]
• 知識移転によってソースドメインの知識を回復
• ターゲットドメインから貴重な情報を抽出
• Kunduら[Kundu+, ICCV2021]
• マルチヘッドフレームワークを設計
• 自己学習のために信頼性の高い
ターゲット擬似ラベルを抽出
• モデル適応のためにファインチューニングを採用
• 大規模なTransformerベースのアーキテクチャでは非効率
SFDA [Liu+, CVPR2021]
関連研究
nVisual Prompt Tuning (VPT) [Jia+, ECCV2022]
• 大規模な事前学習済みモデルを下流のタスクに汎化
• トークンレベルのプロンプト学習手法[Jia+, ECCV2022], [Gan+, AAAI2023], [Lu+, CVPR2022], [Sohn+, arXiv2022]
• 学習可能な視覚的トークンをembedding層や複数のエンコーダ層に挿入
• ピクセルレベルのプロンプト学習手法[Bahng+, arXiv2022], [Chen+, CVPR2023], [Radford+, ICML2021]
• 学習可能なpixel perturbationsを元画像に導入
• モジュールレベルのプロンプト学習手法[Zhang+, arXiv2022], [Yu+, arXiv2022], [Chen+, NeurIPS2022]
• 事前学習モデルに対し補助層や補助ブロックを設計
• Online unlabeled adaption in image classificationのためにVPTを適用したのは
[Gan+, AAAI2023]のみ
• ソースフリーの教師なしドメイン適応セマンティックセグメンテーションの
ためのVPTについての研究はない
Universal Unsupervised Visual Prompt Tuning
nターゲットドメインに,事前学習されたソースモデルを効率的に適応
• 課題
1. どのように有益なプロンプトを設計するか
2. どのようにラベル付けされていないサンプルでプロンプトを学習するか
nUniversal Unsupervised Visual Prompt Tuning (Uni-UVPT)
フレームワーク
• 有益なプロンプトを生成
• 新しいプロンプトアダプタを設計
• ターゲット特徴の汎化を改善
• 効果的な適応的類似ラベル補正戦略
• マルチスケール一貫性損失を利用
• バックボーンは凍結
• パラメータ効率が良い
Prompt Adapter
n構成要素
• Prompt Generator (PG)
• 情報量の多いプロンプトの生成が目的
• 複数のPrompt Interactor (PI)
• 事前学習された知識からプロンプトを改良
• バックボーンと一致するようにターゲット特徴を変換
n処理
• ターゲット画像𝑥!を埋め込み層に入力
• バッチシーケンス𝐹"#!を生成
• 凍結バックボーンの入力になる
• ターゲット画像𝑥!をPGに入力
• 初期プロンプト𝐶$を出力
• 複数の解像度の𝐿次元空間特徴を含む
Prompt Generator
n各画素に対し情報量の多いプロンプトを設計
n構成
• Stemモジュール
• ResNet [He+, CVPR2016]から借用
• 次スライドで詳細解説
• レベル埋め込みモジュール:𝑄 = {𝑞%, 𝑞&, 𝑞'}
• 学習可能なベクトル群
n出力:入力画像のプロンプトピラミッド
• 𝐶$ = 𝑐%, 𝑐&, 𝑐'
• 𝑐( = 𝜅 𝑠(, 𝑞(
• 𝜅:特徴融合演算
Prompt Generator:Stemモジュール
n構成
• 3つの畳み込み+最大プーリング層
• 3 3畳み込みのスタック
(ストライド2)
• 特徴マップを小さくするためチャネル数2倍
• 1 1畳み込み
• 特徴マップをL次元に投影
n出力:特徴ピラミッド
• S= 𝑠%, 𝑠&, 𝑠'
• 𝑠%, 𝑠&, 𝑠'はそれぞれ元画像の1/2,1/4,1/8の
解像度の特徴マップを持つ
[He+, CVPR2016]
Prompt Interactor
n中間プロンプト(𝐶!)の更新式
• 𝐶( = 𝐶()% + Attention(norm 𝐶()% , norm(𝐹()%
"#!
))
• 前ステージのプロンプト(𝐶()%)をクエリとして使用
• 𝐹"#!:出力特徴量
• norm:LayerNorm [Ba+, arXiv2016]
• Attention:疎なアテンション層
• 計算量削減のため
n入力特徴量(𝐹!
!"
)の生成式
• 𝐹(
(*
= 𝐹()%
"#!
+ 𝛾( ; Attention(norm 𝐶()% , norm(𝐹()%
"#!
))
• 𝛾(:学習可能なベクトル
• アテンション層と出力特徴量の
バランスをとる
Adaptive Pseudo-Label Correction
n高品質な擬似ラベルを自己学習に利用
nソースデータに依存しない教師なしドメイン適応
(SFUDA)
• 従来
• 特徴空間で意味のあるクラスタ構造を学習
• 品質は元モデルが生成した擬似ラベルに依存
• Liら [Yi+, ICLR2023]
• ラベルノイズを伴う学習問題として定式化
• 詳細は割愛(補足スライド)
• 本研究ではLiらの手法を使用
実験設定:データセット
nGTA5 [Richter+, ECCV2016]
• クラス数:19
• 画像枚数
• 事前学習:24,966枚
nSYNTHIA [Ros+, CVPR2016]
• クラス数:16
• 画像枚数
• 事前学習:9,400枚
nCityscapes [Marius+, CVPR2016]
• クラス数:19
• 画像枚数
• 学習:2,975枚
• 推論:500枚
n実験での組み合わせ
• 以前の手法[Liu+, CVPR2021], [Kundu+, ICCV2021]
に従う
1. 事前学習:GTA5
学習・推論:Cityscapes
カテゴリ数:19
2. 事前学習:SYNTHIA
学習・推論:Cityscapes
カテゴリ数:13と16
• それぞれカテゴリに対するmIoUに
より評価
実験設定:データセット
GTA5 [Video] SYNTHIA [Video]
Cityscapes [Video]
nMMSegmentationのフレームワークに基づき実装
実験設定:実装
nバックボーン
• Swin-B [Liu+, ICCV2021]
• MiT-B5 [Xie+, NeurIPS2021]
• ImageNet [Deng+, CVPR2009]で
事前学習された重みで初期化
nデコーダヘッド
• DAFormer [Hoyer+, CVPR2022]
n最適化
• AdamW
n学習率
• Swin-B:6e-6
• MiT-B5:4e-6
• セグメンテーションヘッド
• バックボーンの10倍
• プロンプトアダプタ
• バックボーンの5倍
nUni-UVPTフレームワーク
• 収束するまでバッチサイズ1,
40,000~80,000回の反復が必要
比較実験
n最新のソースなしのドメイン適応セマンティックセグメンテーション
手法と比較
• SRDA [Bateson+, MICCAI2020]
• SFUDA [Ye+, ACMMM2021]
• SFDA [Liu+, CVPR2021]
• URMA [S&Fleuret, CVPR2021]
• BDT [Kundu+, ICML2022]
• GtA [Kundu+, ICCV2021]
nソースなしドメイン適応,ソースなしの教師なしドメイン適応の
代表的な擬似ラベルによる自己学習法と比較
• CPSL [Li+, CVPR2022]
• ELR [Yi+, ICLR2023]
• VPT [Jia+, ECCV2022]
比較実験の定量的結果
nいずれのデータセットの組み合わせにおいても提案手法が優れる
• Paramsが28.6Mの提案手法
• SYNTHIA→CityscapesにおいてmIoUが+8.0%(16クラス),+9.6%(13クラス)
比較実験の定性的結果
nGTA5→Cityscapesにおける定性的結果
• 提案手法は従来手法と比較し良好なパフォーマンス
Target Image GtA Ours
Ablation Study
n提案手法における各コンポーネントの貢献度を調査
nGTA5→Cityscapesで大規模な実験
n実験内容
実験1. プロンプトアダプタは妥当なプロンプトを学習し,特徴の汎化を推進でき
るか
実験2. ソースなしの教師なしドメイン適応において擬似ラベル補正は必要か
実験3. マルチスケール一貫性損失の有効性
実験1.
nプロンプトアダプタ
• PG:Prompt Generator
• ステムモジュール:Stem
• Multiscale:マルチスケール特徴マップ
• Singlescale:シングルスケール特徴マップ
• レベル埋め込みモジュール:LE
• PI:Prompt Interactor
n結果
• LEとPIを適用し,ステムモジュールにマルチスケール特徴マップを使用した
提案手法が最も優れる
• プロンプトアダプタは合理的なプロンプト学習と対照特徴の汎化を強化
LE
実験2.
n擬似ラベル補正戦略
• ELR [Yi+, ICLR2023]
• 早期学習現象によりパフォーマンスが悪い
• 本研究
• 適切なタイミングで行うべき
• モデルがノイズの多い擬似ラベルを記憶する前
n結果
• ELRに比べmIoUを0.64%改善
• 適切なタイミングで擬似ラベルを修正することで
より信頼できる事前学習知識を学習可能
• Ours + Offline
• 擬似ラベルを1度だけ修正
• 擬似ラベル補正は適応的に実行されるべき
実験3.
nマルチスケール一貫性損失:ℒ#$
• 再スケーリングされた入力特徴および予測の一貫性を保証
n結果
• 特徴量の一貫性がない場合(Featureが )
• mIoUは劇的に低下
• スケールの特徴が類似していることを保証できない
• 特徴の一貫性は空間的摂動に対する視覚プロンプトのロバスト性を向上
• 予測の一貫性(Prediction)
• スケールに頑健な予測値の生成に有効
• 全体的に一貫性な損失
• mIoUを2.43%増加
まとめ
nUniversal Unsupervised Visual Prompt Tuningを提案
• 大規模な事前学習済みのソースモデルを適応
• ソースなしのドメイン適応セマンティックセグメンテーションのため
• 新しいプロンプトアダプタを提案
• プロンプトに有益な知識を漸進的にエンコード
• ターゲット特徴が事前学習モデルと一致することを可能に
• マルチスケール一貫性損失による適応的類似ラベル補正戦略を提案
• 適切なタイミングで擬似ラベルを補正
• 視覚的プロンプトの空間的頑健性を向上
n広範な実験で本アプローチが効果的・効率的であることが証明
• 限界もある
補足スライド
LiらのSFUDA [Yi+, ICLR2023]
n ソースモデルによって予測された類似ラベルに関する学習曲線
• IoU+,:早期学習
• カテゴリごとに全く異なる軌跡
• 初期学習段階(誤ったラベルのピクセルを正しくセグメンテーション)
は増加するが,記憶されるにつれ減少
• IoU-:記憶
• 全てのカテゴリで,学習が進むにつれ大幅増加
• モデルの学習はノイズの多い擬似ラベルによって教師されるため
LiらのSFUDA [Yi+, ICLR2023]
n 適応的擬似ラベル修正戦略
• 最小二乗法を利用し次の指数パラメトリックモデルを学習IoUに当てはめる
• 𝑔 𝑡 = 𝑎𝑡' + 𝑏𝑡& + 𝑐𝑡 + 𝑑 ‥Eq(4)
• 𝑡:学習時間
• 𝑎, 𝑏, 𝑐, 𝑑:フィッティングパラメータ
• 全ての学習サンプルに対する学習IoUの計算は時間がかかる
• 𝑟個のサンプルを持つメモリーキューを利用
• 導関数𝑔.(𝑡)を計算, 𝑔.(𝑡)の相対変化が閾値𝜏を超えたとき類似ラベルを補正
•
/! !" )/!(!)
/!(!")
> 𝜏 ‥Eq(5)
• 𝑡$:補正ループにおける早期学習段階の開始時刻
• 擬似ラベル補正には学習セット全体でクラスごとに𝛾%以上の予測信頼度の
ピクセルを選択
• 全ての実験において,𝜏 = 0.9,𝛾 = 0.65
𝜏
𝜏
LiらのSFUDA [Yi+, ICLR2023]
n 最終的な擬似ラベルを生成
• 複数の再スケーリングされた入力コピーに対応するモデル出力を平均
• スケーリング操作回数:𝑚
• 実験では𝑚 = 3
• 補正された類似ラベルは複数の再スケーリングされた入力の予測値を平均す
ることで取得
• M
𝑦! =
%
3
∑45%
3
P
𝑦4 ‥Eq(6)
• 𝑥!:再スケーリングされた入力
• 𝑦4:対応するモデル予測値(1 ≤ 𝑘 ≤ 𝑚)
• P
𝑦4: 𝑦4を𝑥!のサイズに再スケーリング
• M
𝑦!:補正された類似ラベル
•
/! !" )/!(!)
/!(!")
> 𝜏を満たすカテゴリのみ修正
LiらのSFUDA [Yi+, ICLR2023]
n 新たな早期学習段階
• 自己学習損失
• ℒ6! = 𝔼7#~𝒟#
− M
𝑦!, log 𝑓(𝑥!) + 𝔼7#~𝒟#
− log 𝑓(𝑥!)
• −, − :ドット積
• 𝑓(𝑥!):モデル出力
• マルチスケール一貫性損失
• ℒ3: = 𝛼𝔼7#~𝒟#
∑(5%
; %
3
∑45%
3 [
𝐹(,4
(*
− [
𝐹(
(*
&
&
+ 𝛽𝔼7#~𝒟#
−
%
3
∑45%
3
KL(P
𝑦4||M
𝑦!)
• 𝛼, 𝛽:バランスパラメータ
• KL:KLダイバージェンス (Kullback-Leibler divergence)
• 最終的な損失
• ℒ = ℒ6! + ℒ3:
クロスエントロピー損失 予測エントロピー損失
特徴一貫性正則化ℒ!" 予測一貫性正則化ℒ#"
備考実験
nスケール拡張を天候拡張に置き換え
• 他の拡張サンプルの影響を分析
• スケールダウン/オリジナル/スケールアップ⟺雪/オリジナル/霜
• Ours:スケール拡張
• Ours-weather
n結果(mIoU)
• GTA5→Cityscapes
• Oursに比べ-1.5%~-0.1%
• SYNTHIA→Cityscapes
• Oursに比べ-0.1%~+1.6%
• 他の拡張サンプルにも有効
備考実験
n適応的擬似ラベル補正戦略の有効性
• 各カテゴリのIoU+,(早期学習)曲線とIoU-(記憶)曲線を確認
n結果
• IoU+,曲線
• 全てのカテゴリにおいてモデルが収束するまで増加
• IoU-曲線
• ノイズの記憶による減少現象が消失
• 適応的擬似ラベル補正戦略は擬似ラベルノイズによる悪影響を効果的に緩和
• ソースなしの教師なしドメイン適応においても擬似ラベル補正は機能

More Related Content

More from Toru Tamaki

論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
Toru Tamaki
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
Toru Tamaki
 
論文紹介:Learning from One Continuous Video Stream
論文紹介:Learning from One Continuous Video Stream論文紹介:Learning from One Continuous Video Stream
論文紹介:Learning from One Continuous Video Stream
Toru Tamaki
 
論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior
論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior
論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior
Toru Tamaki
 
論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...
論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...
論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...
Toru Tamaki
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
Toru Tamaki
 
論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
Toru Tamaki
 
論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...
論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...
論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...
Toru Tamaki
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Toru Tamaki
 
論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
Toru Tamaki
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
Toru Tamaki
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
Toru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
Toru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
Toru Tamaki
 

More from Toru Tamaki (20)

論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
 
論文紹介:Learning from One Continuous Video Stream
論文紹介:Learning from One Continuous Video Stream論文紹介:Learning from One Continuous Video Stream
論文紹介:Learning from One Continuous Video Stream
 
論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior
論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior
論文紹介:Coarse-to-Fine Amodal Segmentation with Shape Prior
 
論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...
論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...
論文紹介:A Systematic Survey of Prompt Engineering on Vision-Language Foundation ...
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
 
論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
論文紹介:Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
 
論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...
論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...
論文紹介:Multi-criteria Token Fusion with One-step-ahead Attention for Efficient ...
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
論文紹介:ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 

Recently uploaded

Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo Lab
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
chisatotakane
 
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
ARISE analytics
 
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
たけおか しょうぞう
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo Lab
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
Sony - Neural Network Libraries
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
CRI Japan, Inc.
 
20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf
Ayachika Kitazaki
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
Natsutani Minoru
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo Lab
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
Sony - Neural Network Libraries
 

Recently uploaded (12)

Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
 
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
 
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
 
20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
 

論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Segmentation

  • 1. When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Segmentation Xinhong Ma, Yiming Wang, Hao Liu, Tianyu Guo, Yunhe Wang NeurIPS 2023 水野翼(名工大玉木研) 2024/5/30
  • 2. 概要 n教師なしドメイン適応セマンティックセグメンテーション • 事前学習されたソースモデルを,ラベル付けされていないターゲットに適応 • これまで:ネットワーク全体を微調整 • 高価なパラメータチューニング • 提案:Visual Prompt Tuning(VPT)の利用 • パラメータの効率的な適応のため n本研究の貢献 1. Universal Unsupervised Visual Prompt Tuningの提案 • 普遍的な教師なしVPT 2. 軽量プロンプトアダプタの導入 3. 新しい適応的類似ラベル修正戦略を提案 VPT [Jia+, ECCV2022]
  • 3. 関連研究 nソースなしの教師なしドメイン適応 セマンティックセグメンテーション • SFDA [Liu+, CVPR2021] • 知識移転によってソースドメインの知識を回復 • ターゲットドメインから貴重な情報を抽出 • Kunduら[Kundu+, ICCV2021] • マルチヘッドフレームワークを設計 • 自己学習のために信頼性の高い ターゲット擬似ラベルを抽出 • モデル適応のためにファインチューニングを採用 • 大規模なTransformerベースのアーキテクチャでは非効率 SFDA [Liu+, CVPR2021]
  • 4. 関連研究 nVisual Prompt Tuning (VPT) [Jia+, ECCV2022] • 大規模な事前学習済みモデルを下流のタスクに汎化 • トークンレベルのプロンプト学習手法[Jia+, ECCV2022], [Gan+, AAAI2023], [Lu+, CVPR2022], [Sohn+, arXiv2022] • 学習可能な視覚的トークンをembedding層や複数のエンコーダ層に挿入 • ピクセルレベルのプロンプト学習手法[Bahng+, arXiv2022], [Chen+, CVPR2023], [Radford+, ICML2021] • 学習可能なpixel perturbationsを元画像に導入 • モジュールレベルのプロンプト学習手法[Zhang+, arXiv2022], [Yu+, arXiv2022], [Chen+, NeurIPS2022] • 事前学習モデルに対し補助層や補助ブロックを設計 • Online unlabeled adaption in image classificationのためにVPTを適用したのは [Gan+, AAAI2023]のみ • ソースフリーの教師なしドメイン適応セマンティックセグメンテーションの ためのVPTについての研究はない
  • 5. Universal Unsupervised Visual Prompt Tuning nターゲットドメインに,事前学習されたソースモデルを効率的に適応 • 課題 1. どのように有益なプロンプトを設計するか 2. どのようにラベル付けされていないサンプルでプロンプトを学習するか nUniversal Unsupervised Visual Prompt Tuning (Uni-UVPT) フレームワーク • 有益なプロンプトを生成 • 新しいプロンプトアダプタを設計 • ターゲット特徴の汎化を改善 • 効果的な適応的類似ラベル補正戦略 • マルチスケール一貫性損失を利用 • バックボーンは凍結 • パラメータ効率が良い
  • 6. Prompt Adapter n構成要素 • Prompt Generator (PG) • 情報量の多いプロンプトの生成が目的 • 複数のPrompt Interactor (PI) • 事前学習された知識からプロンプトを改良 • バックボーンと一致するようにターゲット特徴を変換 n処理 • ターゲット画像𝑥!を埋め込み層に入力 • バッチシーケンス𝐹"#!を生成 • 凍結バックボーンの入力になる • ターゲット画像𝑥!をPGに入力 • 初期プロンプト𝐶$を出力 • 複数の解像度の𝐿次元空間特徴を含む
  • 7. Prompt Generator n各画素に対し情報量の多いプロンプトを設計 n構成 • Stemモジュール • ResNet [He+, CVPR2016]から借用 • 次スライドで詳細解説 • レベル埋め込みモジュール:𝑄 = {𝑞%, 𝑞&, 𝑞'} • 学習可能なベクトル群 n出力:入力画像のプロンプトピラミッド • 𝐶$ = 𝑐%, 𝑐&, 𝑐' • 𝑐( = 𝜅 𝑠(, 𝑞( • 𝜅:特徴融合演算
  • 8. Prompt Generator:Stemモジュール n構成 • 3つの畳み込み+最大プーリング層 • 3 3畳み込みのスタック (ストライド2) • 特徴マップを小さくするためチャネル数2倍 • 1 1畳み込み • 特徴マップをL次元に投影 n出力:特徴ピラミッド • S= 𝑠%, 𝑠&, 𝑠' • 𝑠%, 𝑠&, 𝑠'はそれぞれ元画像の1/2,1/4,1/8の 解像度の特徴マップを持つ [He+, CVPR2016]
  • 9. Prompt Interactor n中間プロンプト(𝐶!)の更新式 • 𝐶( = 𝐶()% + Attention(norm 𝐶()% , norm(𝐹()% "#! )) • 前ステージのプロンプト(𝐶()%)をクエリとして使用 • 𝐹"#!:出力特徴量 • norm:LayerNorm [Ba+, arXiv2016] • Attention:疎なアテンション層 • 計算量削減のため n入力特徴量(𝐹! !" )の生成式 • 𝐹( (* = 𝐹()% "#! + 𝛾( ; Attention(norm 𝐶()% , norm(𝐹()% "#! )) • 𝛾(:学習可能なベクトル • アテンション層と出力特徴量の バランスをとる
  • 10. Adaptive Pseudo-Label Correction n高品質な擬似ラベルを自己学習に利用 nソースデータに依存しない教師なしドメイン適応 (SFUDA) • 従来 • 特徴空間で意味のあるクラスタ構造を学習 • 品質は元モデルが生成した擬似ラベルに依存 • Liら [Yi+, ICLR2023] • ラベルノイズを伴う学習問題として定式化 • 詳細は割愛(補足スライド) • 本研究ではLiらの手法を使用
  • 11. 実験設定:データセット nGTA5 [Richter+, ECCV2016] • クラス数:19 • 画像枚数 • 事前学習:24,966枚 nSYNTHIA [Ros+, CVPR2016] • クラス数:16 • 画像枚数 • 事前学習:9,400枚 nCityscapes [Marius+, CVPR2016] • クラス数:19 • 画像枚数 • 学習:2,975枚 • 推論:500枚 n実験での組み合わせ • 以前の手法[Liu+, CVPR2021], [Kundu+, ICCV2021] に従う 1. 事前学習:GTA5 学習・推論:Cityscapes カテゴリ数:19 2. 事前学習:SYNTHIA 学習・推論:Cityscapes カテゴリ数:13と16 • それぞれカテゴリに対するmIoUに より評価
  • 13. nMMSegmentationのフレームワークに基づき実装 実験設定:実装 nバックボーン • Swin-B [Liu+, ICCV2021] • MiT-B5 [Xie+, NeurIPS2021] • ImageNet [Deng+, CVPR2009]で 事前学習された重みで初期化 nデコーダヘッド • DAFormer [Hoyer+, CVPR2022] n最適化 • AdamW n学習率 • Swin-B:6e-6 • MiT-B5:4e-6 • セグメンテーションヘッド • バックボーンの10倍 • プロンプトアダプタ • バックボーンの5倍 nUni-UVPTフレームワーク • 収束するまでバッチサイズ1, 40,000~80,000回の反復が必要
  • 14. 比較実験 n最新のソースなしのドメイン適応セマンティックセグメンテーション 手法と比較 • SRDA [Bateson+, MICCAI2020] • SFUDA [Ye+, ACMMM2021] • SFDA [Liu+, CVPR2021] • URMA [S&Fleuret, CVPR2021] • BDT [Kundu+, ICML2022] • GtA [Kundu+, ICCV2021] nソースなしドメイン適応,ソースなしの教師なしドメイン適応の 代表的な擬似ラベルによる自己学習法と比較 • CPSL [Li+, CVPR2022] • ELR [Yi+, ICLR2023] • VPT [Jia+, ECCV2022]
  • 18. 実験1. nプロンプトアダプタ • PG:Prompt Generator • ステムモジュール:Stem • Multiscale:マルチスケール特徴マップ • Singlescale:シングルスケール特徴マップ • レベル埋め込みモジュール:LE • PI:Prompt Interactor n結果 • LEとPIを適用し,ステムモジュールにマルチスケール特徴マップを使用した 提案手法が最も優れる • プロンプトアダプタは合理的なプロンプト学習と対照特徴の汎化を強化 LE
  • 19. 実験2. n擬似ラベル補正戦略 • ELR [Yi+, ICLR2023] • 早期学習現象によりパフォーマンスが悪い • 本研究 • 適切なタイミングで行うべき • モデルがノイズの多い擬似ラベルを記憶する前 n結果 • ELRに比べmIoUを0.64%改善 • 適切なタイミングで擬似ラベルを修正することで より信頼できる事前学習知識を学習可能 • Ours + Offline • 擬似ラベルを1度だけ修正 • 擬似ラベル補正は適応的に実行されるべき
  • 20. 実験3. nマルチスケール一貫性損失:ℒ#$ • 再スケーリングされた入力特徴および予測の一貫性を保証 n結果 • 特徴量の一貫性がない場合(Featureが ) • mIoUは劇的に低下 • スケールの特徴が類似していることを保証できない • 特徴の一貫性は空間的摂動に対する視覚プロンプトのロバスト性を向上 • 予測の一貫性(Prediction) • スケールに頑健な予測値の生成に有効 • 全体的に一貫性な損失 • mIoUを2.43%増加
  • 21. まとめ nUniversal Unsupervised Visual Prompt Tuningを提案 • 大規模な事前学習済みのソースモデルを適応 • ソースなしのドメイン適応セマンティックセグメンテーションのため • 新しいプロンプトアダプタを提案 • プロンプトに有益な知識を漸進的にエンコード • ターゲット特徴が事前学習モデルと一致することを可能に • マルチスケール一貫性損失による適応的類似ラベル補正戦略を提案 • 適切なタイミングで擬似ラベルを補正 • 視覚的プロンプトの空間的頑健性を向上 n広範な実験で本アプローチが効果的・効率的であることが証明 • 限界もある
  • 23. LiらのSFUDA [Yi+, ICLR2023] n ソースモデルによって予測された類似ラベルに関する学習曲線 • IoU+,:早期学習 • カテゴリごとに全く異なる軌跡 • 初期学習段階(誤ったラベルのピクセルを正しくセグメンテーション) は増加するが,記憶されるにつれ減少 • IoU-:記憶 • 全てのカテゴリで,学習が進むにつれ大幅増加 • モデルの学習はノイズの多い擬似ラベルによって教師されるため
  • 24. LiらのSFUDA [Yi+, ICLR2023] n 適応的擬似ラベル修正戦略 • 最小二乗法を利用し次の指数パラメトリックモデルを学習IoUに当てはめる • 𝑔 𝑡 = 𝑎𝑡' + 𝑏𝑡& + 𝑐𝑡 + 𝑑 ‥Eq(4) • 𝑡:学習時間 • 𝑎, 𝑏, 𝑐, 𝑑:フィッティングパラメータ • 全ての学習サンプルに対する学習IoUの計算は時間がかかる • 𝑟個のサンプルを持つメモリーキューを利用 • 導関数𝑔.(𝑡)を計算, 𝑔.(𝑡)の相対変化が閾値𝜏を超えたとき類似ラベルを補正 • /! !" )/!(!) /!(!") > 𝜏 ‥Eq(5) • 𝑡$:補正ループにおける早期学習段階の開始時刻 • 擬似ラベル補正には学習セット全体でクラスごとに𝛾%以上の予測信頼度の ピクセルを選択 • 全ての実験において,𝜏 = 0.9,𝛾 = 0.65 𝜏 𝜏
  • 25. LiらのSFUDA [Yi+, ICLR2023] n 最終的な擬似ラベルを生成 • 複数の再スケーリングされた入力コピーに対応するモデル出力を平均 • スケーリング操作回数:𝑚 • 実験では𝑚 = 3 • 補正された類似ラベルは複数の再スケーリングされた入力の予測値を平均す ることで取得 • M 𝑦! = % 3 ∑45% 3 P 𝑦4 ‥Eq(6) • 𝑥!:再スケーリングされた入力 • 𝑦4:対応するモデル予測値(1 ≤ 𝑘 ≤ 𝑚) • P 𝑦4: 𝑦4を𝑥!のサイズに再スケーリング • M 𝑦!:補正された類似ラベル • /! !" )/!(!) /!(!") > 𝜏を満たすカテゴリのみ修正
  • 26. LiらのSFUDA [Yi+, ICLR2023] n 新たな早期学習段階 • 自己学習損失 • ℒ6! = 𝔼7#~𝒟# − M 𝑦!, log 𝑓(𝑥!) + 𝔼7#~𝒟# − log 𝑓(𝑥!) • −, − :ドット積 • 𝑓(𝑥!):モデル出力 • マルチスケール一貫性損失 • ℒ3: = 𝛼𝔼7#~𝒟# ∑(5% ; % 3 ∑45% 3 [ 𝐹(,4 (* − [ 𝐹( (* & & + 𝛽𝔼7#~𝒟# − % 3 ∑45% 3 KL(P 𝑦4||M 𝑦!) • 𝛼, 𝛽:バランスパラメータ • KL:KLダイバージェンス (Kullback-Leibler divergence) • 最終的な損失 • ℒ = ℒ6! + ℒ3: クロスエントロピー損失 予測エントロピー損失 特徴一貫性正則化ℒ!" 予測一貫性正則化ℒ#"
  • 27. 備考実験 nスケール拡張を天候拡張に置き換え • 他の拡張サンプルの影響を分析 • スケールダウン/オリジナル/スケールアップ⟺雪/オリジナル/霜 • Ours:スケール拡張 • Ours-weather n結果(mIoU) • GTA5→Cityscapes • Oursに比べ-1.5%~-0.1% • SYNTHIA→Cityscapes • Oursに比べ-0.1%~+1.6% • 他の拡張サンプルにも有効
  • 28. 備考実験 n適応的擬似ラベル補正戦略の有効性 • 各カテゴリのIoU+,(早期学習)曲線とIoU-(記憶)曲線を確認 n結果 • IoU+,曲線 • 全てのカテゴリにおいてモデルが収束するまで増加 • IoU-曲線 • ノイズの記憶による減少現象が消失 • 適応的擬似ラベル補正戦略は擬似ラベルノイズによる悪影響を効果的に緩和 • ソースなしの教師なしドメイン適応においても擬似ラベル補正は機能