OneFormer:
One Transformer to Rule Universal
Image Segmentation
Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi
CVPR2023
水野翼(名工大玉木研)
2023/9/27
概要
nOneFormerを提案
• Multi-task universal image segmentation framework
• 1回の汎化されたデータセットの学習で,3つのタスクを実現
• 画像セグメンテーションを真に統一
n研究の目的
• 1回の学習で,セマンティック・インスタンスのタスクも実現したい
• 1回の学習を行う際のタスク間およびクラス間の差異をよりよく学習したい
関連研究(Image Segmentation)
n Semantic Segmentation
• CNNを用いた画像分類問題として長い間取り組まれる
• MaskFormer [Cheng+, NeurIPS2021]
• Object Queries [Carion+, ECCV2020]を持つ変換デコーダを使用
• Semantic Segmentationをマスク分類問題と扱う
n Instance Segmentation
• Cascade R-CNN [Cai &Vasconcelos, CVPR2018], Hybrid Task Cascade [Chen+, CVPR2019],
Panoptic-DeepLab [Cheng+, CVPR2020]
• マスク分類器として定式化
n Panoptic Segmentation [Kirillov+, CVPR2019]
• 初期アーキテクチャ:Panoptic-FPN [Kirillov+, CVPR2019]
• Transformer-based
• Mask2Former [Cheng+, CVPR2022], MaskFormer [Cheng+, NeurIPS2021],
Max-DeepLab [Wang+, CVPR2021], Axial-DeepLab [Wang+, ECCV2020],
Cmt-DeepLab [Yu+, CVPR2022], k-means Mask TransFormer [Yu+, ECCV2022]
関連研究(Universal Segmentation, Transformer-based Architecture)
nUniversal Image Segmentation
• 画像とシーンの構文解析
Object Instance and Occlusion Ordering [Tighe+, CVPR2014],
Image Parsing [Tu+, IJCV2005], Describing the scene as a whole [Yao+, CVPR2012]
• Panoptic Segmentation [Kirillov+, CVPR2019]
• Panoptic Segmentation専用に設計されたアーキテクチャ
• Mask2Former [Cheng+, CVPR2022], MaskFormer [Cheng+, NeurIPS2021]
nTransformer-based Architecture
• 変換Encoder・Decoder構造に基づくアーキテクチャ
• DETR [Carion+, ECCV2020]
• Mask2Former [Cheng+, CVPR2022] :マスク分類を定式化
• Image Segmentationに有効であることを実証
Framework Architecture
n (a) Multi-Scale Feature Modeling
• Backboneを用いて
マルチスケール特徴量を抽出
• Pixel Decoderの適用
n (b) Unified Task-Conditioned
Query Formulation
• Text Mapperを使用し,
Text Queryを生成
n (c) Task-Dynamic Mask and Class Prediction Formation
• 多段L層変換Decoderの適用
• タスク動的クラスとマスク予測の取得
Task Conditioned Joint Training
nGT Labelのために
3つのタスクを同時に学習
nバイナリマスク
• タスクに基づいて,
画像の異なるカテゴリ用に生成
nテキスト生成
• バイナリマスクを使用し,
各マスクに対するテキストの説明のリストが生成
nタスクの条件づけ
• タスクに基づいて条件づけ
• モデルに特定のタスクを指示,ガイドするために使用
Query
n学習には2つのQueryを使用
• Object query:Q
• 画像ベースの表現
• Text query:Qtext
• 入力テキストリストTpadから生成
nQとQtextを用いてコントラスト損失を計算
𝑞!"#:Object Query,𝑞$%$:Text Query
⊙:ドット積
𝐵:バッチサイズ
𝜏:学習可能な温度パラメータ
Other Architecture Components, Losses
nBackbone and Pixel Decoder
• 入力画像からマルチスケール特徴量を抽出
• ImageNet Classification [Krizhevsky+, NeurIPS2012]の
事前学習済みBackBoneを使用
nTransformer Decoder
• マルチスケール戦略[Cheng+, CVPR2022]を使用
• 最終的な予測とマスク取得
nLosses
• ℒ!"#:CE-loss
• ℒ$!%:binary cross-entropy,ℒ&'!%:dice-lossの組み合わせ
• ℒ(')*":コントラスト損失と上記3つの損失の重み(𝜆)つき合計
実験設定
nDatasets
• Cityscapes [Marius+, CVPR2016]
• Train:2,975枚,Val:500枚,Test:1,525枚
• 19クラス(11の”stuff”,8の”thing”)
• ADE20K [Zhou+, CVPR2017]
• Train:20,210枚,Val:2,000枚
• 150クラス(50の”stuff”,100の”thing”)
• COCO [Lin+, ECCV2014]
• Train:118,000枚,Val:5,000枚
nEvaluation Metrics
• Semantic, Instance:AP [Lin+, ECCV2014], mIoU [Everingham+, IJCV2015]
• Panoptic:PQ [Kirillov+, CVPR2019]
実験結果(ADE20K)
n3つのタスクにおいてMask2Formerの性能を上回る
• OneFormer:1回の合同学習
• Mask2Former [Cheng+, CVPR2022]:個別学習モデル
• Backbone:Swin-L [Liu+, ICCV2021]
実験結果(Cityscapes)
nBackbone:Swin-L [Liu+, ICCV2021]
• PQ:+0.6%,AP:+1.9%の向上
nBackbone :ConvNeXt-L,ConvNeXt-XL [Liu+, CVPR2022]
• OneFormerはPQ:68.5%,AP:46.7%の性能を発揮
実験結果(Cityscapes)
nBackbone:Swin-L [Liu+, ICCV2021]
• PQ:+0.6%,AP:+1.9%の向上
nBackbone :ConvNeXt-L,ConvNeXt-XL [Liu+, CVPR2022]
• OneFormerはPQ:68.5%,AP:46.7%の性能を発揮
実験結果(COCO)
nBackbone:Swin-L
• 個別に学習したMask2Former [Cheng+, CVPR2022]と同等の性能
• PQ:+0.1%向上
• AP
• panoptic annotationから得られたGTを使用し評価
• panoptic annotationとinstance annotationに不一致があるため
• AP :instance annotationに対する評価
instance
まとめ
nOneFormerを紹介
• 3つのImage Segmentation Taskを統合
• 単一のモデル,データセットで合同学習
n個別学習されたMask2Formerよりも良い性能を発揮
• ADE20K,Cityscapes,COCOでの検証
• 学習時間,ウェイトストレージ,推論ホスティングを1/3に削減
nImage Segmentationを普遍的で利用しやすいものにする重要な一歩

論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation

  • 1.
    OneFormer: One Transformer toRule Universal Image Segmentation Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi CVPR2023 水野翼(名工大玉木研) 2023/9/27
  • 2.
    概要 nOneFormerを提案 • Multi-task universalimage segmentation framework • 1回の汎化されたデータセットの学習で,3つのタスクを実現 • 画像セグメンテーションを真に統一 n研究の目的 • 1回の学習で,セマンティック・インスタンスのタスクも実現したい • 1回の学習を行う際のタスク間およびクラス間の差異をよりよく学習したい
  • 3.
    関連研究(Image Segmentation) n SemanticSegmentation • CNNを用いた画像分類問題として長い間取り組まれる • MaskFormer [Cheng+, NeurIPS2021] • Object Queries [Carion+, ECCV2020]を持つ変換デコーダを使用 • Semantic Segmentationをマスク分類問題と扱う n Instance Segmentation • Cascade R-CNN [Cai &Vasconcelos, CVPR2018], Hybrid Task Cascade [Chen+, CVPR2019], Panoptic-DeepLab [Cheng+, CVPR2020] • マスク分類器として定式化 n Panoptic Segmentation [Kirillov+, CVPR2019] • 初期アーキテクチャ:Panoptic-FPN [Kirillov+, CVPR2019] • Transformer-based • Mask2Former [Cheng+, CVPR2022], MaskFormer [Cheng+, NeurIPS2021], Max-DeepLab [Wang+, CVPR2021], Axial-DeepLab [Wang+, ECCV2020], Cmt-DeepLab [Yu+, CVPR2022], k-means Mask TransFormer [Yu+, ECCV2022]
  • 4.
    関連研究(Universal Segmentation, Transformer-basedArchitecture) nUniversal Image Segmentation • 画像とシーンの構文解析 Object Instance and Occlusion Ordering [Tighe+, CVPR2014], Image Parsing [Tu+, IJCV2005], Describing the scene as a whole [Yao+, CVPR2012] • Panoptic Segmentation [Kirillov+, CVPR2019] • Panoptic Segmentation専用に設計されたアーキテクチャ • Mask2Former [Cheng+, CVPR2022], MaskFormer [Cheng+, NeurIPS2021] nTransformer-based Architecture • 変換Encoder・Decoder構造に基づくアーキテクチャ • DETR [Carion+, ECCV2020] • Mask2Former [Cheng+, CVPR2022] :マスク分類を定式化 • Image Segmentationに有効であることを実証
  • 5.
    Framework Architecture n (a)Multi-Scale Feature Modeling • Backboneを用いて マルチスケール特徴量を抽出 • Pixel Decoderの適用 n (b) Unified Task-Conditioned Query Formulation • Text Mapperを使用し, Text Queryを生成 n (c) Task-Dynamic Mask and Class Prediction Formation • 多段L層変換Decoderの適用 • タスク動的クラスとマスク予測の取得
  • 6.
    Task Conditioned JointTraining nGT Labelのために 3つのタスクを同時に学習 nバイナリマスク • タスクに基づいて, 画像の異なるカテゴリ用に生成 nテキスト生成 • バイナリマスクを使用し, 各マスクに対するテキストの説明のリストが生成 nタスクの条件づけ • タスクに基づいて条件づけ • モデルに特定のタスクを指示,ガイドするために使用
  • 7.
    Query n学習には2つのQueryを使用 • Object query:Q •画像ベースの表現 • Text query:Qtext • 入力テキストリストTpadから生成 nQとQtextを用いてコントラスト損失を計算 𝑞!"#:Object Query,𝑞$%$:Text Query ⊙:ドット積 𝐵:バッチサイズ 𝜏:学習可能な温度パラメータ
  • 8.
    Other Architecture Components,Losses nBackbone and Pixel Decoder • 入力画像からマルチスケール特徴量を抽出 • ImageNet Classification [Krizhevsky+, NeurIPS2012]の 事前学習済みBackBoneを使用 nTransformer Decoder • マルチスケール戦略[Cheng+, CVPR2022]を使用 • 最終的な予測とマスク取得 nLosses • ℒ!"#:CE-loss • ℒ$!%:binary cross-entropy,ℒ&'!%:dice-lossの組み合わせ • ℒ(')*":コントラスト損失と上記3つの損失の重み(𝜆)つき合計
  • 9.
    実験設定 nDatasets • Cityscapes [Marius+,CVPR2016] • Train:2,975枚,Val:500枚,Test:1,525枚 • 19クラス(11の”stuff”,8の”thing”) • ADE20K [Zhou+, CVPR2017] • Train:20,210枚,Val:2,000枚 • 150クラス(50の”stuff”,100の”thing”) • COCO [Lin+, ECCV2014] • Train:118,000枚,Val:5,000枚 nEvaluation Metrics • Semantic, Instance:AP [Lin+, ECCV2014], mIoU [Everingham+, IJCV2015] • Panoptic:PQ [Kirillov+, CVPR2019]
  • 10.
  • 11.
    実験結果(Cityscapes) nBackbone:Swin-L [Liu+, ICCV2021] •PQ:+0.6%,AP:+1.9%の向上 nBackbone :ConvNeXt-L,ConvNeXt-XL [Liu+, CVPR2022] • OneFormerはPQ:68.5%,AP:46.7%の性能を発揮
  • 12.
    実験結果(Cityscapes) nBackbone:Swin-L [Liu+, ICCV2021] •PQ:+0.6%,AP:+1.9%の向上 nBackbone :ConvNeXt-L,ConvNeXt-XL [Liu+, CVPR2022] • OneFormerはPQ:68.5%,AP:46.7%の性能を発揮
  • 13.
    実験結果(COCO) nBackbone:Swin-L • 個別に学習したMask2Former [Cheng+,CVPR2022]と同等の性能 • PQ:+0.1%向上 • AP • panoptic annotationから得られたGTを使用し評価 • panoptic annotationとinstance annotationに不一致があるため • AP :instance annotationに対する評価 instance
  • 14.
    まとめ nOneFormerを紹介 • 3つのImage SegmentationTaskを統合 • 単一のモデル,データセットで合同学習 n個別学習されたMask2Formerよりも良い性能を発揮 • ADE20K,Cityscapes,COCOでの検証 • 学習時間,ウェイトストレージ,推論ホスティングを1/3に削減 nImage Segmentationを普遍的で利用しやすいものにする重要な一歩