Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Deep Learning JP
PPTX, PDF
6,825 views
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
2019/05/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
◦
Related topics:
Deep Learning
•
Read more
4
Save
Share
Embed
Embed presentation
Download
Downloaded 48 times
1
/ 23
2
/ 23
3
/ 23
4
/ 23
5
/ 23
6
/ 23
7
/ 23
8
/ 23
9
/ 23
10
/ 23
11
/ 23
12
/ 23
13
/ 23
14
/ 23
15
/ 23
16
/ 23
17
/ 23
18
/ 23
19
/ 23
20
/ 23
21
/ 23
22
/ 23
23
/ 23
More Related Content
PDF
Introduction to YOLO detection model
by
WEBFARMER. ltd.
PPTX
ResNetの仕組み
by
Kota Nagasato
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
by
Deep Learning JP
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
by
Deep Learning JP
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
by
Deep Learning JP
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
by
SSII
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
Introduction to YOLO detection model
by
WEBFARMER. ltd.
ResNetの仕組み
by
Kota Nagasato
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
by
Deep Learning JP
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
by
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
by
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
by
SSII
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
What's hot
PDF
【チュートリアル】コンピュータビジョンによる動画認識
by
Hirokatsu Kataoka
PPTX
backbone としての timm 入門
by
Takuji Tahara
PPTX
畳み込みニューラルネットワークの高精度化と高速化
by
Yusuke Uchida
PPTX
モデル高速化百選
by
Yusuke Uchida
PDF
Cosine Based Softmax による Metric Learning が上手くいく理由
by
tancoro
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
by
Yusuke Uchida
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
by
Deep Learning JP
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
by
Deep Learning JP
PDF
三次元表現まとめ(深層学習を中心に)
by
Tomohiro Motoda
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
by
SSII
PDF
全力解説!Transformer
by
Arithmer Inc.
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
by
Preferred Networks
PDF
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
PPTX
モデルアーキテクチャ観点からの高速化2019
by
Yusuke Uchida
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
by
Masanao Ochi
PPTX
Triplet Loss 徹底解説
by
tancoro
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
by
Deep Learning JP
PDF
Point net
by
Fujimoto Keisuke
PDF
Skip Connection まとめ(Neural Network)
by
Yamato OKAMOTO
PDF
深層学習によるHuman Pose Estimationの基礎
by
Takumi Ohkuma
【チュートリアル】コンピュータビジョンによる動画認識
by
Hirokatsu Kataoka
backbone としての timm 入門
by
Takuji Tahara
畳み込みニューラルネットワークの高精度化と高速化
by
Yusuke Uchida
モデル高速化百選
by
Yusuke Uchida
Cosine Based Softmax による Metric Learning が上手くいく理由
by
tancoro
Semi supervised, weakly-supervised, unsupervised, and active learning
by
Yusuke Uchida
[DL輪読会]Focal Loss for Dense Object Detection
by
Deep Learning JP
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
by
Deep Learning JP
三次元表現まとめ(深層学習を中心に)
by
Tomohiro Motoda
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
by
SSII
全力解説!Transformer
by
Arithmer Inc.
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
by
Preferred Networks
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
モデルアーキテクチャ観点からの高速化2019
by
Yusuke Uchida
【論文紹介】How Powerful are Graph Neural Networks?
by
Masanao Ochi
Triplet Loss 徹底解説
by
tancoro
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
by
Deep Learning JP
Point net
by
Fujimoto Keisuke
Skip Connection まとめ(Neural Network)
by
Yamato OKAMOTO
深層学習によるHuman Pose Estimationの基礎
by
Takumi Ohkuma
Similar to [DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
by
Deep Learning JP
PDF
DeepPose: Human Pose Estimation via Deep Neural Networks
by
Shunta Saito
PDF
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
by
Toru Tamaki
PPTX
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
by
Deep Learning JP
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
by
Deep Learning JP
PPTX
[DL輪読会]Human Pose Estimation @ ECCV2018
by
Deep Learning JP
PPTX
CVPR Festival
by
Masafumi Noda
PPTX
よわよわPCによる姿勢推定 -PoseNet-
by
Yuto Mori
PDF
【メタサーベイ】Face, Gesture, and Body Pose
by
cvpaper. challenge
PDF
CVPR2011 Festival PDF
by
Masafumi Noda
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
by
harmonylab
PDF
PFI成果発表会2014発表資料 Where Do You Look?
by
Hokuto Kagaya
PDF
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
by
Deep Learning JP
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
by
Takumi Ohkuma
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
by
Deep Learning JP
PPTX
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
by
Deep Learning JP
PPTX
2018 07 02_dense_pose
by
harmonylab
PDF
[DL Hacks 実装]Representation Learning by Rotating Your Faces
by
Deep Learning JP
PDF
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
by
Deep Learning JP
PPTX
Sprint16 papers research
by
MisakiRyo
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
by
Deep Learning JP
DeepPose: Human Pose Estimation via Deep Neural Networks
by
Shunta Saito
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
by
Toru Tamaki
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
by
Deep Learning JP
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
by
Deep Learning JP
[DL輪読会]Human Pose Estimation @ ECCV2018
by
Deep Learning JP
CVPR Festival
by
Masafumi Noda
よわよわPCによる姿勢推定 -PoseNet-
by
Yuto Mori
【メタサーベイ】Face, Gesture, and Body Pose
by
cvpaper. challenge
CVPR2011 Festival PDF
by
Masafumi Noda
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
by
harmonylab
PFI成果発表会2014発表資料 Where Do You Look?
by
Hokuto Kagaya
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
by
Deep Learning JP
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
by
Takumi Ohkuma
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
by
Deep Learning JP
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
by
Deep Learning JP
2018 07 02_dense_pose
by
harmonylab
[DL Hacks 実装]Representation Learning by Rotating Your Faces
by
Deep Learning JP
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
by
Deep Learning JP
Sprint16 papers research
by
MisakiRyo
More from Deep Learning JP
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ “Deep High-Resolution Representation Learning for Human Pose Estimation” Matsuo Lab, Ryo Okada/岡田 領
2.
Outline 1. 書誌情報 2. 論文の概要 3.
姿勢推定問題とは 4. 先行研究 5. 提案手法 6. 実験 7. まとめ 2
3.
書誌情報 • タイトル – Deep
High-Resolution Representation Learning for Human Pose Estimation • 著者 – Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang – University of Science and Technology of China, Microsoft Research Asia • CVPR’19 3
4.
概要 4
5.
本論文の概要 • Deep High-Resolution
Representation Learning for Human Pose Estimation – ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返し フィージョンする姿勢推定のためのhigh resolution network (HRNet)を提案 – 異なるスケールのインタラクションを密にして高精度出した 5
6.
姿勢推定とは 6
7.
Human Pose Estimation -
姿勢推定 • 姿勢推定とは – 画像や動画から肩や手首といった人間の関節部分 (キーポイント)を推定する問題 • 種類 – 2D姿勢推定 • 画像から関節部分の2次元(x, y)の位置を推定する – 3D姿勢推定 • 画像から関節部分の3次元(x, y, z)の位置を推定す る • 利用例 – 行動認識、アニメーション、ゲーム – Homecourt(バスケのシュートの分析アプリ) 7
8.
Human Pose Estimation
- 姿勢推定 • 姿勢推定モデルのアプローチ – トップダウンアプローチ • まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose Estimation)を行う。 • 人数に比例して計算量が増加する – ボトムアップアプローチ • 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせて いく。 • トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い 8
9.
先行研究 9
10.
姿勢推定の先行研究 10 Hourglass Cascaded pyramid
network Simple Baseline • 対照的な高->低、低->高解像度の ネットワーク(Hourglass)を直列に 8つつ繋ぐ。それぞれのhourglass ではIntermediate supervisionを用 いる。 • Skip connection使ってフュージョ ンする。 • トップダウンアプローチ(人物検 知->姿勢推定) • 左側の GlobalNetで単純明瞭な キーポイントを見つける。右部分 のRefineNetが複数スケールの特 徴をアップサンプリング・統合す ることで、抽象度の高く、見つけ づらいキーポイントの推定を行う。 • ResNetで高->低解像度、Hourglass ではアップサンプリングであった が、deconv layerでスケールを戻 す。 • シンプルなネットワークで高性能 を示した。 • ECCV Posetrack challenge 2018で優 勝 • 著者らの前作
11.
既存研究のポイントと提案手法の着想 11 既存研究 提案手法 直列に高->低解像度へ落とす 段階的に異なるスケールを加えていく ものが多い Intermediate supervisionを使用 (Hourglassなど) 並列に高->低解像度ネットワーク (分類やセグメンテーションのmulti
scale networkから着想. Ex. Convolutional neural fabric, interlinked CNN) 複数スケールを一気に繰り返しフュー ジョン (Deep fusionから着想) intermediate supervisionを使用 しないため、計算量小。 ネットワーク 構成 複数スケール の加算方 Intermediat e supervision
12.
提案手法 12
13.
HRNetのアーキテクチャ 13 • 高解像度から始め徐々に低解像度 のサブネットワークを加えていく。 • 後段のステージの並列ネットワー クの解像度は前段のステージのも のに加え、より解像度の低いもの で構成される。 •
サブネットワーク間で情報を繰り 返しフュージョンする • 異なるスケールのfeature mapは アップサンプリング (nearest neighbor サンプリング + 1x1 convolution) またはダウンサ ンプリング (strided 3x3 convolution) して加算。 並列マルチ解像度サブネットワーク Exchange Unit s: stage, r: resolution index
14.
HRNetのアーキテクチャ 14 • 最終層では1x, 2x,
4x, 8xの4スケー ルが出力される。このうち最も精度の 高い1xの出力のみが用いられる。 • 損失関数はground truthのキーポイン トヒートマップに対するmean square error。 HRNet全体イメージ 出力 • 4ステージ、4並列サブネットワーク • 実験では2サイズのネットワークを用意 • HRNet-W32(チャンネル幅32,64,128,256) • HRNet-W48(チャンネル幅48,96,192,384)
15.
実験 15
16.
実験 • 以下データセットで検証。それ ぞれSoTAを達成。 – MSCOCO •
物体検知・セグメンテーション・人物 姿勢を含むデータセット – MPII Human Pose Estimation, PoseTrack • 人物2D姿勢データセット • 評価指標(COCOでの検証の際) – Object Keypoint Similarity – 物体認識におけるIoUと似た役割 – OKS閾値でのStandard Average precisionとrecall scoresで評 価 16 http://image- net.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo int.pdf
17.
COCO test-devでの性能比較結果 17 提案手法が高精度を示 している • AP:
OKSを10段階に 変えた時のAverage Precisionの平均値 • AP50, AP75: OKSの閾 値0.5, 0.75 • APM,APL: 中サイズ、 大サイズ人物に対す るAP
18.
分解検証 18
19.
分解検証 • 以下3点について分解検証 1. フュージョン回数による効果 2.
ネットワーク内での解像度の扱いの影響 3. ヒートマップ推定に利用するfeature mapの解像度 4. 入力サイズの影響 19
20.
分解検証 20 ①フュージョンの繰り返しによる効果 提案手法(HRNet-W32)のほうが高性能となった。 徐々にスケール/サブネットワークを増やしていく のが性能向上につながると言える。 ②ネットワーク内での解像度の扱いの影響 マルチスケールのフュージョンは効果的であり、回 数を増やすほど高い性能に 最初から4つのサブネットワークを繋いだネット ワークと提案手法とを検証(variant of the HRNet)。 ネットワークの深さやフュージョンについては同じ。 -
結果 Variant of the HRNet: 72.5AP HRNet-W32:73.4 AP
21.
分解検証 21 ③ヒートマップ推定に利用する feature mapの解像度 小さいサイズにおける変化の方が性能の改善幅が大 きい。 ある程度の解像度を利用すれば精度の高い結果につ ながる。 ④入力サイズの影響 ネットワーク最後で利用するfeature mapの解像 度の精度への影響を検証。 解像度は予測精度に大きく影響することがわかる。
22.
まとめ • 姿勢推定のためのhigh resolution
network(HRNet)を提案した – プロセス全体で高解像度を維持し、解像度を復元する必要がない、 – 複数の解像度を繰り返しフュージョンし、高い精度を得た • Future work – HRNetの他のタスクでの効果検証(すでにいくつか検証している) • 物体検知 – High-Resolution Representation Learning for Object Detection • セグメンテーション – High-Resolution Representations for Labeling Pixels and Regions • 画像分類 – High-Resolution Representation Learning for ImageNet Classification • 顔認識 – 未 22
23.
THANK YOU. 23
Download