Deep High Resolution Representation Learning for Human Pose Estimation

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
DLゼミ
Deep High-Resolution Representation
Learning for Human Pose Estimation
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
修士課程2年森雄斗

2
論文情報
• 著者
• Ke Sun12, Bin Xiao2, Dong Liu1, Jingdong Wang2
• 1University of Science and Technology of Chine
• 2Microsoft
• 発表
• CVPR 2019
• 論文URL
• https://arxiv.org/pdf/1902.09212.pdf
• プロジェクトサイト
• https://jingdongwang2017.github.io/Projects/HRNet/PoseEst
imation.html
• GitHub (公式実装: pytorch)
• https://github.com/leoxiaobin/deep-high-resolution-
net.pytorch

3
論文概要
• Top-downアプローチの姿勢推定モデル
• 高解像度の表現を維持する機構を持つHRNetを使用
• 低解像度のサブネットワークを追加し、複数の解像度の
サブネットワークを並列に接続
• ポーズ追跡においても高い性能を確認
モデル構造姿勢の推定結果

4
姿勢推定とアプローチ
• 人間のキーポイント(両肩、膝など)を画像、動画から推定
– 一般的には17箇所の座標を出力
• 従来の2種類のアプローチ
提案モデルの出力結果別手法の結果 (PoseNet[1])
[1] https://www.tensorflow.org/lite/examples/pose_estimation/overview?hl=ja
個々の
人物推定
Top-down Bottom-up
個々の
姿勢推定
キーポイント
座標を推定
人物毎に
グルーピング
ex: DeepPose, Cascaded Pyramid Network ex: PoseNet (PersonLab), PifPaf

5
既存のモデルとの違い
• 正確なヒートマップ推定のために、全てのプロセスで高解
像度の表現を維持
• 中間のヒートマップの監視を行わないため、キーポイント
の検出精度に優れ、計算量やパラメータが効率的
提案するモデル構造
既存の姿勢推定モデルの構造
(a) Hourglass[1]
(b) Cascaded pyramid networks[2]
(c) SimpleBaseLine[3]
(d) Combination with dilated convolutions[4]
[1] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, pages 483–499, 2016.
[2] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun. Cascaded pyramid network for multi-person pose estimation. CoRR, abs/1711.07319, 2017.
[3] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In ECCV, pages 472–487, 2018.
[4] E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka, and B. Schiele. Deepercut: A deeper, stronger, and faster multiperson pose estimation model. In ECCV, pages 34–50, 2016.

6
姿勢推定の出力とヒートマップ
• 姿勢推定とは、サイズが 𝑊 × 𝐻 × 3 の画像から𝐾個の
キーポイント(膝や腕など)の位置を検出するタスク
• 最新の手法では、 𝑊′ × 𝐻′, {𝐻1, 𝐻2, … , 𝐻𝑘} の𝐾個の
ヒートマップを推定し、位置を求める
画像は別論文[1]から参照
[1] Wei, Shih-En, et al. "Convolutional pose machines." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2016.
入力画像: 𝑊 × 𝐻 × 3
キーポイント1の
ヒートマップ
キーポイント2の
ヒートマップ
キーポイントK − 1の
ヒートマップ
キーポイントKの
ヒートマップ

7
Parallel multi-resolution subnetworks
• 高解像度のサブネットワークを最初のネットワークとし、
一つずつ低解像度のサブネットワークを並列に接続
4つの並列サブネットワークの構造例
𝒩
𝑠𝑟: サブネットワーク
𝑠 : ステージ数
𝑟: 解像度インデックス
(解像度は第1サブネットワークの
1
2𝑟−1)

8
Exchange Units
• マルチスケールのサブネットワークを融合
• 他の並列サブネットワークから情報を繰り返し受け
取ることが可能
𝐶𝑠𝑟
𝑏
: 畳み込みユニット, 𝜀𝑠
𝑏
: exchange unit
𝑏 : ブロック数
𝑠 : ステージ数
𝑟 : 解像度インデックス
第3ステージ、3ブロックの並列畳み込みユニットとexchange unit

9
Exchange Units
• マルチスケールのサブネットワークを融合
• 他の並列サブネットワークから情報を繰り返し受け
取ることが可能
アップサンプリングとダウンサンプリングの戦略
: nearest neighbor up-sampling (最近傍アップサンプリング)
＋ 1 × 1 の畳み込み処理
: 3 × 3 のストライド付き畳み込み処理

10
ヒートマップの推定
• 最終の高解像度の表現からヒートマップを回帰
• 損失関数は予測ヒートマップとGround truthのヒート
マップの平均二乗誤差
• Ground truthは各キーポイントの位置を中心に標準偏差
1ピクセルの2次元ガウス関数を使用し生成
推論結果のヒートマップ画像
Ground truthはキーポイント
の座標(𝑥 × 𝑦)のみ
生成
Ground truthの
ヒートマップ画像
-比較-
損失関数

11
ネットワークのインスタンス化
• ネットワークはResNetのデザインルールを使用
• 4つの並列サブネットワークを持つ4つのステージ
から構成
• 実験では、大小のネットワークを使用
– HRNet-W32 (最後の3段階のチャンネル幅: 64, 128, 256)
– HRNet-W48 (最後の3段階のチャンネル幅: 96, 192, 386)

12
実験1: COCO Keypoint Detection
• データセット
– COCO Keypoint Detection
• 200,000以上の17のキーポイントが
ラベル付けされた画像
• https://cocodataset.org/#home
• 評価指標
– Object Keypoint Similarity (OKS)
𝑂𝐾𝑆 =
σ𝑖 𝑒𝑥𝑝 Τ
−𝑑𝑖
2
2𝑠2𝑘𝑖
2
𝛿 𝑣𝑖 > 0
σ𝑖 𝛿 𝑣𝑖 > 0
𝑑𝑖 : 推定座標とGround truthの座標のユークリッド距離
𝑠 : 人物領域の面積
𝑘𝑖 : 減衰を制御するキーポイントごとの定数 (eyes < nose < … < ankles < Hips)
𝑣𝑖 : Ground truthの可視性フラグ (部位が画像に存在するかどうか)

13
実験1: 結果
• モデルサイズ(Params)と計算量(GFLOPs)を抑えつつ、
高い精度を実現

14
実験1: 結果
• モデルサイズ(Params)と計算量(GFLOPs)を抑えつつ、
高い精度を実現
10個のOKS閾値に
対する平均適合率
OKS=0.5の
平均適合率
OKS=0.75の
平均適合率
中サイズの
人に対する
平均適合率
大サイズの人
に対する
平均適合率
10個のOKS閾
値に対する
平均再現率

15
実験2: MPII Human Pose Estimation
• データセット
– MPII Human Pose dataset
• 25,000枚のキーポイントラベル付きの画像
• http://human-pose.mpi-inf.mpg.de/
• 評価指標
– PCKh
• 頭部のサイズを1として、キーポイントがground truthの何％の範囲内
に入ってるか
• 一般的にはPCKh@0.5を使用

16
実験2: 結果
• 他のモデルよりも優れた精度
人体の構成を学習する
コンポジションモデルを
採用しているため高精度

17
Ablation Study
• マルチスケールの融合の効果を検証
• 入力サイズによる精度の違い
入力サイズが小さい方が
顕著に差があり
→ 処理全体で高解像度を
維持しているため
マルチスケールの融合は
精度向上に貢献し、回数
が増えるほど高精度

18
まとめ
• Top-downアプローチの姿勢推定モデル
• 高解像度の表現を維持する機構を持つHRNetを使用
• 低解像度のサブネットワークを追加し、複数の解像度の
サブネットワークを並列に接続
• ポーズ追跡においても高い性能を確認
モデル構造姿勢の推定結果

19
現在(2021年9月)への影響
• 物体検出など別分野でも使用可能
– Deep High-Resolution Representation Learning for
Visual Recognition[1]
• 拡張したネットワークの提案
– HigherHRNet[2] (CVPR 2020)
– HRNet-DEKR[3] (CVPR 2021)
– Lite HRNet[4] (CVPR 2021)
[1] Sun, Ke, et al. "Deep high-resolution representation learning for human pose estimation." Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2019.
[2] Cheng, Bowen, et al. "Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation." Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[3] Geng, Zigang, et al. "Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression." Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2021.
[4] Yu, Changqian, et al. "Lite-hrnet: A lightweight high-resolution network." Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition. 2021.

Deep High Resolution Representation Learning for Human Pose Estimation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Deep High Resolution Representation Learning for Human Pose Estimation

Similar to Deep High Resolution Representation Learning for Human Pose Estimation (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (20)

Deep High Resolution Representation Learning for Human Pose Estimation