Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]Whole-Body Human Pose Estimation in the Wild

395 views

Published on

2020/07/31
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[DL輪読会]Whole-Body Human Pose Estimation in the Wild

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Whole-Body Human Pose Estimation in theWild Shizuma Kubo, ACES.Inc
  2. 2. 書誌情報 • 書誌情報  Whole-Body Human Pose Estimation in the Wild  著者: Sheng Jin, Lumin Xu, Jin Xu, Can Wang, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo  所属: The University of Hong Kong / SenseTime Research 中心  ECCV’20 Poster (2020/07/23 on arXiv)  データセット: https://github.com/jin-s13/COCO-WholeBody 2
  3. 3. 概要 3  顔、手、身体、足の2次元特徴点のアノテーショ ンをCOCOデータセットに施したCOCO- WholeBodyを作成 (全て含まれるのは初)  VR、AR、行動認識へのアプリケーション応用を 想定 データセットの作成  これらの2次元特徴点推定をend-to-endで学習さ れるネットワークで一度に行うZoomNetを提案  このように全身のキーポイントを推定するタスク をWhole-body Pose Estimationと呼ぶ  Whole-body Pose Estimationで既存手法に対し て、大きく精度向上 モデルの提案
  4. 4. 目次 4 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  5. 5. 目次 5 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  6. 6. 既存の2次元特徴点データセット 6 • Body Pose Estimation: COCO (17点の身体キーポイント)、Body25 (足のアノテーション付) • Hand Keypoint: Panoptic (Lab環境での撮影)、Hand10K (in the wildだが、数が少ない) • Face Keypoint: 300W (複数のデータセットの組み合わせ、68点キーポイント) • DensePose: 3D表現に対応するアノテーション。関節点の情報が不足していたり、顔や手の キーポイントが少ない。今回のアノテーションには含まれない Body Hand Foot Face DensePose 画像引用: https://github.com/facebookresearch/DensePose
  7. 7. 既存の2次元特徴点データセットの課題 7 Body Hand Foot Face 1. In-the-wildな環境のHand Poseのデータセットがそもそも少ない 2. 光の当たり具合、姿勢、スケールの分散が各データセットごとに異なるため、全てを一緒 に学習することが難しい 課題 COCO-WholeBody Datasetはこ の問題を解決するために、COCOに face、hand、footのアノテーショ ンを追加した (All-in-One)
  8. 8. 既存のWhole-Body Pose Estimation 8 • OpenPose [Cao CVPR’17, Simon CVPR’17]: 身体と足のキーポイントの検知と手と顔の位 置をまず検出。その後、顔と手の推定を追加のネットワークで行う。複数のネットワークに依 存するため、学習が面倒、実行速度・計算量が増加してしまう • SN [Hidalgo CVPR’19]: 基本構造はOpenPoseと同じだが、全身のキーポイントを一気に出力 し、グルーピング。全身のデータセットはなかったため学習時のサンプリングを工夫 問題点 1. スケールの分散をうまく扱えていないことを指摘 (つまり、手と顔のサイズが身体に対して 小さいため、同一に扱うと学習がうまくいかない) 2. 特に、Bottom-Upアプローチであることに起因することを指摘 (提案手法はTop-Down)
  9. 9. 目次 9 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  10. 10. 2次元姿勢推定のパラダイム 10 1. まず、画像中のキーポイントを全て検出する 2. そのキーポイントを人物ごとにグルーピング する  人物に関係なくキーポイントの推論を行うた め、人物が増えても推論速度があまり変わら ない Bottom-Upアプローチ 1. まず、人物のbounding boxを検出する 2. そのbounding boxをboxごとにリサイズ、ク ロップして、キーポイントの検出を行う  人物のサイズを揃えることができるので精度 が高く出しやすい (SOTA論文はこのアプロー チから出る) Top-Downアプローチ キーポイント検出 グルーピング 物体検出 キーポイント検出
  11. 11. Whole-Body Pose Estimation のポイント 11 • Whole-body Pose Estimationには2段階のTop-Down/Bottom-Upの選択がある 1. 人物単位 (姿勢推定一般的な議論点) 2. 身体のパーツ単位 (Whole-body Pose Estimation特有の議論点) 物体検出 (Top-Down 1) ZOOM-in (Top-Down 2) キーポイント推論 パーツのキーポイント推論を人物画像に対して1度に行う (Bottom-Up)か、注目パーツごとに 分割して行う機構を取り入れて推論する(Top-Down)かの姿勢推定の際に人物ごとに分割する かどうか(Top-Down/Bottom-Up)と同様の議論が生じる ポイント
  12. 12. 目次 12 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  13. 13. COCO-WholeBody Dataset 13 • 人物ごとにBounding BoxとKeypointsのアノテーション • Bounding Box (person box、face box、left-hand box、right-hand box) • 133 Keypoints (body: 17、feet: 6、face: 68、hands: 42) Face Hand Whole Statistics of COCO-WholeBody
  14. 14. データセットの比較 14
  15. 15. データセットの詳細情報 15  手の形をfist、palm、others の3つのパターンに分類  一般的なデータセットである Panopticと比較  In-the-wildなデータセットで、 何かを掴んでいる手の画像が 多い Gesture Variance  図はキーポイント同士の距離 の分布を表す  Bodyとhand/faceでは分布が 大きく違う (当然の結果では ある)  これらのスケールの違うキー ポイントを推論するところに タスクの難しさがある スケールの違い  画像のblurinessを一般的な Faceのデータセットである 300Wと比較 (Blurinessは Laplacian methodによる)  300Wよりも広く分布してお り、blurinessが1よりも小さ いようなチャレンジングなも のを含まれる ぼやけ度 (Blurriness)
  16. 16. 16 • 最低限Keypointができる程度の見え方のbboxにvalidのラベルを振り、そのbboxに対して keypointのアノテーションを行った (画質が悪すぎる、オクルージョンが強すぎるものが invalid) • アノテーション時間目安 10 min/face、1.5min/hand、10 sec/box (by professional annotator) 1. 人物ごとにface/left-hand/right-handのbboxとvalid/invalidのラベルをアノテーション 2. 複数のアノテーターグループによる厳しい品質チェック 3. Validラベルのbboxにキーポイントのアノテーション HRNetv2ベースの学習済みモデルで 推論した結果を利用し、その結果を修正するようにしてアノテーション 4. 結果的に、handが約28%、faceが約6%だけが修正対象。この節約によって約89%の時間を 節約できたと推察 アノテーションステップ アノテーションの仕方
  17. 17. 目次 17 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  18. 18. ZoomNetの全体像 18 • 既存のFaster-RCNNで人物を検出し、以下のモジュールでその人物のキーポイントを推論する • FeatureNet: 2つの畳み込み層とbottleneck blockから成る。  入力サイズ: 384x288 -> F1: 192x144 -> F2: 96x72 • BodyNet: body/footのキーポイント予測とface/handのbbox予測を行う • HandHead/FaceHead: BodyNetから得られるface/handのbbox中のキーポイントを予測する
  19. 19. BodyNet 19 • CornerNet[Law+ ECCV’18]にインスパイアされた方法 (とはいえ、やり方は違う) • Bbox(face/left-hand/right-hand)をboxのコーナーの4点と中心点で表す • このbboxと身体のキーポイント (body/foot)を2次元のヒートマップとして予測する • 推論時には最も距離が近くなるboxのコーナー4点をbboxとみなす • 出力は38チャンネル (bbox 5点x3種=15, keypoint 17(body)+6(foot)=23) でbackboneはHRNet-W32
  20. 20. HandHead/FaceHead 20 • BodyNetのbboxの出力を用いて、ROI Alignを行い、F1/F2からface/handに対応する特徴量を取 得する • この特徴量からface/handそれぞれでキーポイントを推論する • BackboneはそれぞれHRNet-18を使用
  21. 21. 目次 21 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  22. 22. 定量評価 22 • Whole-Body Pose Estimationとして提案されているOpenPoseとSNに加えて、Bottom-Up手法の PAFとAE、Top-Down手法のHRNetを比較手法として追加 • COCO-WholeBodyで全てのモデルを学習させ、single-scaleでテストを実行 • ”-body”がつくものは17点の身体のキーポイントだけを使ったもの (他のキーポイントと一緒に 学習させてしまうと精度が悪化する)
  23. 23. 定性評価 23
  24. 24. Face/Handのデータセットの評価 24 • 左下図は顔の2次元特徴点抽出の手法比較 (300Wデータセットでの評価)  *HR-OursはWhole-Body Face (WBF)で学習して300Wでテスト、HR-Oursは300Wで学習して 300Wでテスト、extra付きはWBFで事前学習  事前学習の効果が出ている • 右下図は手の2次元特徴点抽出の実験 (Panoptic (Pano.)とWhole-Body Hand (WBH))  #1と#2の比較から事前学習効果が分かる  #1と#3の結果からWBHはスケールが小さく、チャレンジング
  25. 25. その他分析結果 25 • Bboxの精度の影響①: Ground Truthのbboxを使った 場合 (Oracle)、精度が大幅に向上 • 人物のスケールの影響②: Bottom-Upの手法は mediumサイズ(小さいサイズ)に弱く、精度が悪い • Faceのblurrinessとposeの影響③: blurrinessには影 響を受けやすいが、poseには影響を受けにくい • Handのposeの影響④: fistが比較的簡単 ① ② ③ ④
  26. 26. 目次 26 1. 既存手法  既存の2次元特徴点推定とWhole-Body Pose Estimation  2次元姿勢推定の整理 2. 提案手法  COCO-WholeBody Dataset  ZoomNet 3. 評価 4. まとめ
  27. 27. まとめ 27 • データセットの作成  Face/hand/footのkeypointアノテーションを加えたCOCO-WholeBodyの作成  これによって、Whole-body Pose Estimationを同一のデータセットで学習が可能になった  各パーツごとに見ても、in-the-wildで大規模なデータであり、有用 • モデルの提案  パーツごとのスケールの分散の問題に取り組んだZoomNetを提案  既存の手法・モデルに対して高い精度を達成 • 気になったこと  既存手法として比較されるOpenPose、SNに精度で勝ることは納得感はあるが、HRNetはもう 少し真面目にチューニングすれば論文で言及しているよりは精度出そう

×