論文紹介：ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

ViTPose:
Simple Vision Transformer Baselines
for Human Pose Estimation
Yufei Xu, Jing Zhang, Qiming ZHANG, Dacheng Tao
NeurIPS 2022
髙間勇作（名工大玉木研）
2024/5/16

姿勢推定
◼姿勢推定
• コンピュータビジョンにおける基本的なタスクの一つ
• CNNベースで取り組まれていたが，近年ViTが導入されている
ViTPose [Xu+, NeurIPS 2022]

従来手法
◼HRFormer [YUAN+, NeurIPS 2021]
• Transformerを用いて特徴量を抽出
• 多解像並列変換モジュールを介して高解像度表現を導入
◼従来手法の問題点
• 特徴抽出のための余分なCNNが必要（TransPose [Yang+, ICCV 2021]）
• Transformerの構造を注意深く設計する必要
→プレーンなViT [Dosovitskiy+, ICLR 2021]はどの程度姿勢推定に有効なのか
HRFormer [YUAN+, NeurIPS]

ViTPoseの概要
◼プレーンなViTがどの程度姿勢推定に有効か
◼ViTPoseというシンプルなモデルを提案
• バックボーンはプレーンで非階層なViTを採用
• 姿勢推定のための軽量なデコーダを採用
• シンプルな構造にもかかわらず，優れた性能を持つ
◼性能のほか優れた能力をもつ
• 次のスライド
◼一般的なベンチマークを用いた実験を実施

ViTPoseの優れた能力
◼シンプルさ
• 設計に特定のドメイン知識を必要としない
• デコーダをシンプル化
◼拡張性
• Transformer層の数，特徴次元を増減
• 推論速度と性能の調整が可能
◼柔軟性
• 入力解像度や特徴解像度へ容易に適応可能
• デコーダを追加することで複数のデータセットに適応可能

ViTPoseのシンプルさ
The Transformer Block The classic decoder The simple decoder
複数のデータセット
のためのデコーダ群

ViTPoseのシンプルさ：デコーダ
◼ViTから抽出された特徴を処理するための，2種類の軽量デコーダ
• クラシックなデコーダ
• Deconv : 転置畳み込み（アップサンプリング）
• BN : バッチ正規化
• Predictor : 畳み込み層でヒートマップを出力
• カーネルサイズ 1 × 1
• シンプルなデコーダ
• Bilinear : バイリニア補完で4倍アップサンプリング
• Predictor : カーネルサイズ 3 × 3
デコンボリューション
ブロック

ViTPoseの拡張性
◼Transfomer層の数，特徴次元を増減
◼推論速度と性能を容易に制御可能

ViTPoseの柔軟性
◼事前学習データの柔軟性
• Masked Autoencoder (MAE) [He+, CVPR 2022] を使って事前学習
• 異なるスケールのデータでも柔軟に学習可能
◼解像度の柔軟性
• 入力の解像度を変更可能
• 特徴量の解像度をダウンサンプリング比 d によって変更可能
入力画像
𝑋 ∈ 𝑅𝐻 × 𝑊 ×3
Patch Embedding layer
F ∈ 𝑅
𝐻
𝑑
×
𝑊
𝑑
×𝐶
𝑐 : チャネル数

Ablation study（構造のシンプルさと拡張性）
◼クラシックとシンプルなデコーダでそれぞれ学習
• SimpleBaseline [Xiao+, ECCV 2018] を２つのデコーダで学習
• バックボーン：ResNet [He+, CVPR 2016]
• シンプルなデコーダでも，わずかな性能低下
→プレーンなViTには複雑なデコーダは必要ない

Ablation study（事前学習データの影響）
◼異なるデータセットで事前学習
• ViTPose-B
• MS COCO [Lin+, arXiv 2014] + AI Challenger [Wu+, arXiv 2017]
• cropping：人物のみを切り出す
• 性能：ImageNet-1k [Deng+, CVPR 2009]と同等
• データセットの量は半分
• 人物を切り出さず画像を直接使っても同等の性能
→下流タスクのデータで事前学習を行う方が効率が良い

Ablation study（入力解像度の影響）
◼異なる入力画像サイズで学習
• ViTPose-B
• 入力解像度の増加とともに性能が向上
• 256 × 256 のようなアスペクト比が 1 : 1 のものはあまり向上せず
• MS COCOにおける人物の平均的なアスペクト比が 4 : 3 であるから

従来手法との比較
◼MS COCOにおける比較（※はマルチデータセット）
• ViTPose：モデルサイズは大きいが，速度と精度のトレードオフが良好

定性的結果
◼MS COCO [Lin+, arXiv 2014]での姿勢推定の結果
• 困難なケースでも，正確な姿勢推定結果を生成可能

まとめ
◼ViTPose
• ViTに基づく，シンプルな人物姿勢推定モデル
◼MS COCO [Lin+, arXiv 2014]を用いた実験
• シンプルさ，拡張性，柔軟性を実証

ViTPoseのシンプルさ：デコーダ
(a) (b)

論文紹介：ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Recommended

Recommended

More Related Content

Similar to 論文紹介：ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Similar to 論文紹介：ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation (10)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (15)

論文紹介：ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation