SlideShare a Scribd company logo
1 of 24
Download to read offline
Semantic Segmentation using
Vision Transformers:
A survey
Hans Thisanke, Chamli Deshan, Kavindu Chamith, Sachith Seneviratne,
Rajith Vidanaarachchi, Damayanthi Herath
Engineering Applications of Artificial Intelligence 2023
水野翼(名工大玉木研)
2024/4/18
概要
nSemantic Segmentation [Zheng+, CVPR2021]
• 画像の各ピクセルにクラスラベルを割り当て
nVision Transformer (ViT) [Dosovitskiy+, ICLR 2021]
• Transformer [Vaswani+, NeurIPS2017]をそのまま画像に適用
• CNNに依存しない
• 課題:汎用的なバックボーンではなく,
Prediction-Taskに直接適用不可
n本論文
• Semantic Segmentationに使用できる
ViTアーキテクチャについて議論
• どのようにして課題を解決したか
Semantic Segmentationの応用
nリモートセンシング
• 物理的に接触せず情報を取得,
その地域の特性を監視
• 衛星画像,航空画像など
• 異なる環境領域を
手作業でセグメンテーション
• 時間がかかる
• エラーが発生しやすい
• 専門知識が必要
n医療画像解析
• 医療画像を識別し
セグメンテーション
• モダリティに基づきグループ化
• MRI,CTスキャン,X線,超音波,
顕微鏡,皮膚鏡など
• 課題
• 利用可能な画像数が比較的少ない
• 専門知識が必要
Zhu+, GRSM2017 Cao+, ECCV2022
Semantic Segmentationの応用
nVideo Semantic Segmentation [Shelhamer+, ECCV2016]
• ヒューマンマシンインタラクション[Gorecky+, INDIN2014]
• Augment Reality [Azuma, PTVE1997]
• 自律走行車[Janai+, FTCGV2020]
• 画像検索エンジン
nビデオ=無相関の固定画像の集合 [Jain+, CVPR2019]
• 課題
• 計算の複雑さ
• 時間的フレームレートを使用し
動画の空間次元をスケーリング
• 解決策
• 特徴の再利用
• 特徴ワーピング[Ding+, AAAI2020]
データ制限を克服するための実践的アプローチ
n教師あり学習
• コンピュータ・ビジョンや自然言語処理で好成績を収める
• 現実世界では多くのラベルデータを必要としボトルネック
n自己教師あり学習:Self-supervised Learning (SSL) [Gustavsson, DiVA2019]
• ラベルのないデータセットを用いて学習
1. 事前学習タスクを解くように設定
2. 下流タスクに適用
• 異なる特徴に対し学習された重みを使用
• Semantic SegmentationはSSLを使用して
実行できる主要な下流タスクの一つ
Semantic Segmentationにおける損失関数
n交差エントロピー損失
𝐶𝐸!"## 𝑝, 𝑞 = − (
$%&
'
𝑝$ log(𝑞$)
• 各ピクセルのクラス予測値を独立に評価,全てのピクセルを平均
n重み付き交差エントロピー損失
𝑊𝐶𝐸!"## 𝑝, 𝑞 = − (
$%&
'
𝑝$𝑤$ log(𝑞$)
• データセットの偏りを考慮
• 大きく改善されず
• 交差エントロピーは境界となる隣接ピクセルを考慮せず
平均損失を計算するため
𝑝!:𝑖番目のクラスの真の確率
𝑞!:同じクラスの予想確率
𝑤!:𝑖番目のクラスの重み係数
Semantic Segmentationにおける損失関数
nフォーカル損失 [Lin+, ICCV2017]
• 交差エントロピー損失の構造を大きく変更
• 𝑝" > 0.5に対する相対的な損失を減らす
𝑝":真のクラスの予測確率
𝛼":スケーリング係数
𝛾:集中パラメータ
データセット
nPASCAL-Context [Yuan+, ECCV2020]
nADE20K [Zhou+, CVPR2017]
nKITTI [Geiger+, IJRR2013]
nCityscapes [Marius+, CVPR2016]
nIDD [Varma+, WACV2019]
nVirtual KITTI [Gaidon+, CVPR2016]
nIDDA [Alberti+, IROS2020]
n時間の都合上詳細は省略
PASCAL-Context
Cityscapes
ViTアーキテクチャの一覧
nSETR [Zheng+, CVPR2021]
nSwin-Transformer [Liu+, ICCV2021]
nSegmenter [Strudel+, ICCV2021]
nSegFormer [Xie+, NeurIPS2021]
nPVT [Wang+, ICCV2021]
nTwins [Chu+, NeurIPS2021]
nDPT [Ranftl+, ICCV2021]
nHRFormer [Yuan+, NeurIPS2021]
nMask2Former [Cheng+, CVPR2022]
SEgmentation TRansformer (SETR)
nSemantic Segmentationを,シーケンス間の予測タスクとして提案
nエンコーダとしてTransformerを採用
(a) SETRエンコーダ
• 標準的なTransformer
• 画像をパッチのシーケンスとして扱う
• 線形射影を行う
(b), (c):デコーダ
(b) SETR-PUP
• プログレッシブ・
アップサンプリング設計
(c) SETR-MLA
• マルチレベル特徴集約
Shifted Windows (Swin) -Transformer
n画像分類,密な予測などの汎用バックボーン
n階層的な特徴マップ
• Self-attentionの計算複雑度を線形的に
nシフトウィンドウアプローチ
• スライディングウィンドウアプローチと比ベ
レイテンシが低い
nアーキテクチャ
1. パッチ分割モジュール
2. 線形埋め込みの適用
3. 2連続Swin-Transformerブロック
n特徴マップの解像度がResNet [He+, CVPR2016]
など典型的なCNNアーキテクチャと類似
Segmenter
nSemantic Segmentationのための,純粋なTransformerベースのアプ
ローチ
• ImageNetで事前学習されたViTバックボーンから構成
• デコーダ:Mask Transformer
• 画像分類用のモデルを活用
• 適切な大きさのデータセットによる事前学習,微調整
nPanoptic Segmentationのタスク
にも適用可能
• モデルアーキテクチャを変更
• クラス埋め込みを
オブジェクト埋め込みに置換
SegFormer
nSemantic Segmentationのためのアーキテクチャ
• 階層的なTransformerエンコーダ
• 多層パーセプトロン(MLP)デコーダ
• 最終マスクの予測に使用
nパッチサイズ:4×4
• ViT: 16×16
• 正確なセグメンテーション結果を
得るため
n位置エンコーディングを使用しない
n一般的な破損や振動に対しロバスト
nモデルサイズ,精度,実行時間にトレードオフ
Pyramid Vision Transformer (PVT)
nPVT v1 [Wang+, ICCV2021]
• パッチサイズ:4×4
• SegFormer [Xie+, NeurIPS2021]と同じ
• 高解像度表現学習能力が向上
• 漸進的縮小ピラミッド
• 計算負荷を軽減
• 出力解像度を段階的に縮小
n PVT v1の欠点
• 高解像度処理の計算量が大きい
• 画像の局所的な連続性が失われる
• 可変サイズの入力ができない
nPVT v2
• 3つの特徴
• Linear special reduction attention
(LSRA)
• オーバーラップパッチ
埋め込み
• 畳み込み
フィードフォワード
ネットワーク
nTwins-SVT
• Swin-Transformer [Liu+, ICCV2021]を再検討
• Spatially separable self-attention (SSSA)メカニズムを使用
• 2つのTransformerメカニズム
• Global Sub-sampled Attention (GSA)
• Locally grouped self- attention (LSA)
nTwins-PCPVT
• PVT v1 [Wang+, ICCV2021] を再検討
• Conditional position encoding (CPE)を使用
• Conditional Position encoding Vision Transformer (CPVT) [Chu+, arXiv2021]で導入
Twins
Dense Prediction Transformer (DPT)
nエンコーダ・デコーダ設計の内部にTransformerバックボーンを導入
nDPT-Base, DPT-Large
• パッチベースの埋め込み方式を採用
• 入力画像を非重複画像バッチに分割
• 変換器ブロックに供給
• 学習可能な位置埋め込みを持つ
• 特徴サイズ
Base:12層,Largs:24層
nDPT-Hybrid
• 特徴抽出器:ResNet-50
• トークン入力:ピクセルベースの特徴マップ
• Transformerブロック:MSA [Vaswani+, NeurIPS2017]
• デコーダで残差畳み込みユニットを使って結合
High-Resolution Transformer (HRFormer)
nPrediction-Taskのために開発
• ポーズ推定,セマンティックセグメンテーション
nアーキテクチャ
• FFNによる深度方向の畳み込み設計
• Local window self-attentionを使用して構築
n低解像度の出力を生成する従来のViTモデルを凌駕
• 計算複雑さとメモリ使用量においてより効率的
(a) Self-attention block
(b) FFN
Masked-attention Mask Transformer (Mask2Former)
nセグメンテーションタスクに活用できる新しい変換アーキテクチャ
• 汎用的なアーキテクチャの導入に成功
nTransformer Decoder
• 標準的なTransformer:完全な特徴マップに注意
• Mask2Former
• 予測されたマスクの前景領域に
クロスアテンションを制限
• 局所的な特徴を抽出
n課題
• 特定のタスクごとに個別に学習する必要
• ユニバーサルアーキテクチャーの一般的な限界
まとめ
nこれらのアーキテクチャによる実験結果
• 異なるベンチマークデータセットによる
mIoUに基づくViTモデルの比較
• 最も高い結果
• DPT-HybridとPASCAL-Context
• Mask2FormerとADE20K
• Mask2FormerとCityscapes
nまとめ
• ViTがどのようにしてCNNに代わる強力な代替手段となり
セマンティックセグメンテーションに貢献したか議論
• 長所と限界
• リモートセンシング・医療・動画など様々な領域での使用
補足スライド
データセット
nPASCAL-Context
[Yuan+, ECCV2020]
nADE20K [Zhou+, CVPR2017]
データセット
nKITTI [Geiger+, IJRR2013] nCityscapes
[Marius+, CVPR2016]
データセット
nIDD [Varma+, WACV2019] nVirtual KITTI
[Gaidon+, CVPR2016]
データセット
nIDDA [Alberti+, IROS2020]

More Related Content

Similar to 論文紹介:Semantic segmentation using Vision Transformers: A survey

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)Yoichi Shirasawa
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object DetectionToru Tamaki
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A SurveyDeep Learning JP
 
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Yasutomo Kawanishi
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
Semantic Segmentation Review
Semantic Segmentation ReviewSemantic Segmentation Review
Semantic Segmentation ReviewTakeshi Otsuka
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Similar to 論文紹介:Semantic segmentation using Vision Transformers: A survey (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
 
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Semantic Segmentation Review
Semantic Segmentation ReviewSemantic Segmentation Review
Semantic Segmentation Review
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

More from Toru Tamaki

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex ScenesToru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...Toru Tamaki
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New HopeToru Tamaki
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...Toru Tamaki
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt TuningToru Tamaki
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in MoviesToru Tamaki
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICAToru Tamaki
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context RefinementToru Tamaki
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...Toru Tamaki
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...Toru Tamaki
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusionToru Tamaki
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large MotionToru Tamaki
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense PredictionsToru Tamaki
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understandingToru Tamaki
 
論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning
論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning
論文紹介:Masked Vision and Language Modeling for Multi-modal Representation LearningToru Tamaki
 
論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning
論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning
論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image CaptioningToru Tamaki
 

More from Toru Tamaki (20)

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
 
論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning
論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning
論文紹介:Masked Vision and Language Modeling for Multi-modal Representation Learning
 
論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning
論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning
論文紹介:Noise-Aware Learning from Web-Crawled Image-Text Data for Image Captioning
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Recently uploaded (8)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

論文紹介:Semantic segmentation using Vision Transformers: A survey

  • 1. Semantic Segmentation using Vision Transformers: A survey Hans Thisanke, Chamli Deshan, Kavindu Chamith, Sachith Seneviratne, Rajith Vidanaarachchi, Damayanthi Herath Engineering Applications of Artificial Intelligence 2023 水野翼(名工大玉木研) 2024/4/18
  • 2. 概要 nSemantic Segmentation [Zheng+, CVPR2021] • 画像の各ピクセルにクラスラベルを割り当て nVision Transformer (ViT) [Dosovitskiy+, ICLR 2021] • Transformer [Vaswani+, NeurIPS2017]をそのまま画像に適用 • CNNに依存しない • 課題:汎用的なバックボーンではなく, Prediction-Taskに直接適用不可 n本論文 • Semantic Segmentationに使用できる ViTアーキテクチャについて議論 • どのようにして課題を解決したか
  • 3. Semantic Segmentationの応用 nリモートセンシング • 物理的に接触せず情報を取得, その地域の特性を監視 • 衛星画像,航空画像など • 異なる環境領域を 手作業でセグメンテーション • 時間がかかる • エラーが発生しやすい • 専門知識が必要 n医療画像解析 • 医療画像を識別し セグメンテーション • モダリティに基づきグループ化 • MRI,CTスキャン,X線,超音波, 顕微鏡,皮膚鏡など • 課題 • 利用可能な画像数が比較的少ない • 専門知識が必要 Zhu+, GRSM2017 Cao+, ECCV2022
  • 4. Semantic Segmentationの応用 nVideo Semantic Segmentation [Shelhamer+, ECCV2016] • ヒューマンマシンインタラクション[Gorecky+, INDIN2014] • Augment Reality [Azuma, PTVE1997] • 自律走行車[Janai+, FTCGV2020] • 画像検索エンジン nビデオ=無相関の固定画像の集合 [Jain+, CVPR2019] • 課題 • 計算の複雑さ • 時間的フレームレートを使用し 動画の空間次元をスケーリング • 解決策 • 特徴の再利用 • 特徴ワーピング[Ding+, AAAI2020]
  • 5. データ制限を克服するための実践的アプローチ n教師あり学習 • コンピュータ・ビジョンや自然言語処理で好成績を収める • 現実世界では多くのラベルデータを必要としボトルネック n自己教師あり学習:Self-supervised Learning (SSL) [Gustavsson, DiVA2019] • ラベルのないデータセットを用いて学習 1. 事前学習タスクを解くように設定 2. 下流タスクに適用 • 異なる特徴に対し学習された重みを使用 • Semantic SegmentationはSSLを使用して 実行できる主要な下流タスクの一つ
  • 6. Semantic Segmentationにおける損失関数 n交差エントロピー損失 𝐶𝐸!"## 𝑝, 𝑞 = − ( $%& ' 𝑝$ log(𝑞$) • 各ピクセルのクラス予測値を独立に評価,全てのピクセルを平均 n重み付き交差エントロピー損失 𝑊𝐶𝐸!"## 𝑝, 𝑞 = − ( $%& ' 𝑝$𝑤$ log(𝑞$) • データセットの偏りを考慮 • 大きく改善されず • 交差エントロピーは境界となる隣接ピクセルを考慮せず 平均損失を計算するため 𝑝!:𝑖番目のクラスの真の確率 𝑞!:同じクラスの予想確率 𝑤!:𝑖番目のクラスの重み係数
  • 7. Semantic Segmentationにおける損失関数 nフォーカル損失 [Lin+, ICCV2017] • 交差エントロピー損失の構造を大きく変更 • 𝑝" > 0.5に対する相対的な損失を減らす 𝑝":真のクラスの予測確率 𝛼":スケーリング係数 𝛾:集中パラメータ
  • 8. データセット nPASCAL-Context [Yuan+, ECCV2020] nADE20K [Zhou+, CVPR2017] nKITTI [Geiger+, IJRR2013] nCityscapes [Marius+, CVPR2016] nIDD [Varma+, WACV2019] nVirtual KITTI [Gaidon+, CVPR2016] nIDDA [Alberti+, IROS2020] n時間の都合上詳細は省略 PASCAL-Context Cityscapes
  • 9. ViTアーキテクチャの一覧 nSETR [Zheng+, CVPR2021] nSwin-Transformer [Liu+, ICCV2021] nSegmenter [Strudel+, ICCV2021] nSegFormer [Xie+, NeurIPS2021] nPVT [Wang+, ICCV2021] nTwins [Chu+, NeurIPS2021] nDPT [Ranftl+, ICCV2021] nHRFormer [Yuan+, NeurIPS2021] nMask2Former [Cheng+, CVPR2022]
  • 10. SEgmentation TRansformer (SETR) nSemantic Segmentationを,シーケンス間の予測タスクとして提案 nエンコーダとしてTransformerを採用 (a) SETRエンコーダ • 標準的なTransformer • 画像をパッチのシーケンスとして扱う • 線形射影を行う (b), (c):デコーダ (b) SETR-PUP • プログレッシブ・ アップサンプリング設計 (c) SETR-MLA • マルチレベル特徴集約
  • 11. Shifted Windows (Swin) -Transformer n画像分類,密な予測などの汎用バックボーン n階層的な特徴マップ • Self-attentionの計算複雑度を線形的に nシフトウィンドウアプローチ • スライディングウィンドウアプローチと比ベ レイテンシが低い nアーキテクチャ 1. パッチ分割モジュール 2. 線形埋め込みの適用 3. 2連続Swin-Transformerブロック n特徴マップの解像度がResNet [He+, CVPR2016] など典型的なCNNアーキテクチャと類似
  • 12. Segmenter nSemantic Segmentationのための,純粋なTransformerベースのアプ ローチ • ImageNetで事前学習されたViTバックボーンから構成 • デコーダ:Mask Transformer • 画像分類用のモデルを活用 • 適切な大きさのデータセットによる事前学習,微調整 nPanoptic Segmentationのタスク にも適用可能 • モデルアーキテクチャを変更 • クラス埋め込みを オブジェクト埋め込みに置換
  • 13. SegFormer nSemantic Segmentationのためのアーキテクチャ • 階層的なTransformerエンコーダ • 多層パーセプトロン(MLP)デコーダ • 最終マスクの予測に使用 nパッチサイズ:4×4 • ViT: 16×16 • 正確なセグメンテーション結果を 得るため n位置エンコーディングを使用しない n一般的な破損や振動に対しロバスト nモデルサイズ,精度,実行時間にトレードオフ
  • 14. Pyramid Vision Transformer (PVT) nPVT v1 [Wang+, ICCV2021] • パッチサイズ:4×4 • SegFormer [Xie+, NeurIPS2021]と同じ • 高解像度表現学習能力が向上 • 漸進的縮小ピラミッド • 計算負荷を軽減 • 出力解像度を段階的に縮小 n PVT v1の欠点 • 高解像度処理の計算量が大きい • 画像の局所的な連続性が失われる • 可変サイズの入力ができない nPVT v2 • 3つの特徴 • Linear special reduction attention (LSRA) • オーバーラップパッチ 埋め込み • 畳み込み フィードフォワード ネットワーク
  • 15. nTwins-SVT • Swin-Transformer [Liu+, ICCV2021]を再検討 • Spatially separable self-attention (SSSA)メカニズムを使用 • 2つのTransformerメカニズム • Global Sub-sampled Attention (GSA) • Locally grouped self- attention (LSA) nTwins-PCPVT • PVT v1 [Wang+, ICCV2021] を再検討 • Conditional position encoding (CPE)を使用 • Conditional Position encoding Vision Transformer (CPVT) [Chu+, arXiv2021]で導入 Twins
  • 16. Dense Prediction Transformer (DPT) nエンコーダ・デコーダ設計の内部にTransformerバックボーンを導入 nDPT-Base, DPT-Large • パッチベースの埋め込み方式を採用 • 入力画像を非重複画像バッチに分割 • 変換器ブロックに供給 • 学習可能な位置埋め込みを持つ • 特徴サイズ Base:12層,Largs:24層 nDPT-Hybrid • 特徴抽出器:ResNet-50 • トークン入力:ピクセルベースの特徴マップ • Transformerブロック:MSA [Vaswani+, NeurIPS2017] • デコーダで残差畳み込みユニットを使って結合
  • 17. High-Resolution Transformer (HRFormer) nPrediction-Taskのために開発 • ポーズ推定,セマンティックセグメンテーション nアーキテクチャ • FFNによる深度方向の畳み込み設計 • Local window self-attentionを使用して構築 n低解像度の出力を生成する従来のViTモデルを凌駕 • 計算複雑さとメモリ使用量においてより効率的 (a) Self-attention block (b) FFN
  • 18. Masked-attention Mask Transformer (Mask2Former) nセグメンテーションタスクに活用できる新しい変換アーキテクチャ • 汎用的なアーキテクチャの導入に成功 nTransformer Decoder • 標準的なTransformer:完全な特徴マップに注意 • Mask2Former • 予測されたマスクの前景領域に クロスアテンションを制限 • 局所的な特徴を抽出 n課題 • 特定のタスクごとに個別に学習する必要 • ユニバーサルアーキテクチャーの一般的な限界
  • 19. まとめ nこれらのアーキテクチャによる実験結果 • 異なるベンチマークデータセットによる mIoUに基づくViTモデルの比較 • 最も高い結果 • DPT-HybridとPASCAL-Context • Mask2FormerとADE20K • Mask2FormerとCityscapes nまとめ • ViTがどのようにしてCNNに代わる強力な代替手段となり セマンティックセグメンテーションに貢献したか議論 • 長所と限界 • リモートセンシング・医療・動画など様々な領域での使用
  • 22. データセット nKITTI [Geiger+, IJRR2013] nCityscapes [Marius+, CVPR2016]
  • 23. データセット nIDD [Varma+, WACV2019] nVirtual KITTI [Gaidon+, CVPR2016]