SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Seminar]
3D Human Pose Estimation @ CVPR’19 / ICCV’19
Hiromi Nakagawa, Matsuo Lab
https://deeplearning.jp
• CVPR’19 / ICCV’19 にAcceptされた3D Human Pose Estimationに関する論文7本を俯瞰
• 最も多く見られたのは、3D Poseのアノテーションコストが高いという課題感に対する
{Un/Self/Weakly/Semi}-Supervised Learningによるデータ(ラベル)効率改善の研究
– Multi-viewでの3D Poseの一貫性
– 2D↔3DのProjectionを活用した自己教師あり学習
– 敵対的誤差によるラベルなし表現の学習
• その他、Multi-person認識における深度推定問題や動画の時系列情報の活用などの方向性も見られた
• 各手法に共通する課題・背景やアプローチ、それぞれの手法で異なる点、注目ポイントなどを整理した
• note書きました↓
【CVPR‘19 / ICCV’19】3D Human Pose Estimationの最新研究動向まとめ(https://note.mu/hirominakagawa/n/nbc226d7d1bfb)
2
Overview
3
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
Input Target View
4
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 単一視点の画像から3D Poseを推定するアプローチ
• 2D→3Dの推定と3D→2Dの射影による相互変換を用いた学習テクニックの提案
• 2D Pose:比較的容易に・精度高く得られる
• 3D Pose:カメラパラメータを使うことで2Dへの変換は容易
Input Target View
• ①2D→3D変換の学習 と ②3D+カメラパラメータによる2Dへの射影 をうまく活用して3D Poseを学習
• 敵対的学習によって中間の3D表現の質を改善
5
RepNet: Weakly Supervised Training of an Adversarial Reprojection Network
for 3D Human Pose Estimation
①2D Poseから3D PoseとCamera Poseを生成
②3D PoseとCamera Poseから2D Poseを再構成して誤差を最小化
3D PoseはWGAN-GPで敵対的に学習。
人体構造を明示的に考慮する特徴のKCS
(Kinematic Chain Space)も加える
1
2
• 完全な教師ありには勝てないが、弱教師あり(WS)ではSoTA
• KCS + Discriminatorによる3D Poseの学習の効果が確認された
6
RepNet: Weakly Supervised Training of an Adversarial Reprojection Network
for 3D Human Pose Estimation
2
2
• [Wandt+ CVPR’19] RepNetと同様に、2D Poseから3D PoseとCamera Poseを推定→2Dに再射影して誤差
を最小化するように学習を行う
7
In the Wild Human Pose Estimation
Using Explicit 2D Features and Intermediate 3D Representations
違い①
2D Poseの情報と3D Poseに
関連する深さ情報(d)を明示的に分ける
→入力画像の見た目の変化などにより頑健
違い②
3D Poseは正解ラベルが存在する場合には
教師ありで学習(Boneの長さも考慮)
1
2
• 実験結果
8
In the Wild Human Pose Estimation
Using Explicit 2D Features and Intermediate 3D Representations
2
2
MPI-INF-3DHPではSoTA
Human3.6MではSoTAではないが善戦
(In-the-Wildなデータセットでこそ強みを発揮するとの主張)
• 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習
9
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
1
4
• 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習
10
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
①Lifting Networkで
2D Poseを3D Poseに変換
②ランダムな回転Rを適用 ③2Dに射影
④Lifting Networkで
2D Poseを3D Poseに変換
⑤逆回転R-1を適用⑤2Dに射影
2
4
• 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習
11
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
入力の2D Poseと
再構成した2D Poseの誤差
射影前の3D Poseと
射影後の3D Poseの誤差
2D Poseの敵対的誤差
(動画なら時間的一貫性も反映可能)
3
4
• 教師なしアプローチのSoTAを更新
• Ablation Study(右)
– 敵対的誤差(Adv)、2D/3Dでの自己教師あり学習(SS)、ドメイン適応(DA)、Discriminatorへの時間情報の入力(TD)
– 全部入れることでベストの性能
12
Unsupervised 3D Pose Estimation with Geometric Self-Supervision
4
4
13
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 視点の相互変換や、カメラ幾何を用いた3Dラベルの作成を活用し、
複数視点(Multi-view)の画像から3D Pose推定のための表現を学習
Input Target View
• Multi-viewの画像から3D Pose Estimationに有用な潜在表現を学習する
– Pose空間で潜在表現を学習することで、画像空間で直接学習する[Rhodin+ ECCV’18]よりロバスト
14
Weakly-Supervised Discovery of Geometry-Aware Representation
for 3D Human Pose Estimation
①各視点の画像から
2D Poseを生成
③反対の視点の2D Poseを
生成→誤差を最小化
④表現の一貫性が担保されるよう
潜在表現の誤差を最小化
カメラの外部パラメータ(視点間の
位置関係)は既知である前提
②視点間の位置関係に基づく
回転行列を潜在表現に適用
1
2
• 学習した潜在表現を既存のSoTAモデルに組み込む(特徴ベクトルを足す)ことで、精度が改善
15
Weakly-Supervised Discovery of Geometry-Aware Representation
for 3D Human Pose Estimation
2
2
• Multi-viewの画像からエピポーラ幾何を用いて3D Poseを学習するEpipolarPoseを提案
• 2つのPose Estimation Network(Branch)を用意
– Upper Branch:単一画像から3D Poseを推定
– Lower Branch:複数画像からそれぞれ2D Poseを出力した後、エピポーラ幾何を用いて3D Poseを生成
• Lower Branch+エピポーラ幾何で3D Poseの正解ラベルを作成してUpper Branchの教師ラベルと
して学習させることで、3Dの正解ラベルなしに単一画像から3D Poseを推定できるモデルを学習可能
16
Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
エピポーラ幾何を用いる際に必要な
カメラの位置関係などの
外部パラメータがわからない場合でも、
データから推定・キャリブレーション
できるテクニックも提案
1
2
• 教師ありのSoTAには勝てないが、善戦(左)
• 弱教師あり/半教師ありではSoTA(右)
17
Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
2
2
18
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 複数人(Multi-Person)の3D Poseを推定する際に課題となる
人物位置の絶対的な位置関係(深度)を推定するためのテクニックを提案
Input Target View
• 複数人(Multi-Person)の3D Pose Estimationを行う手法の提案
• 一般的な3D Pose Estimationのモデルは、骨盤など人物の空間位置の基準点となる関節(root)を
決めておき、その基準点からの相対的な位置関係で各関節の座標を表現
• 複数人の姿勢を推定するには、各人が空間上のどこにいるのか=rootの絶対座標も推定する必要がある
19
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
1
6
• 3つのネットワークからなるパイプラインを提案
1. 画像内から人物を検出してクロップする DetectNet
2. 人物画像からrootの絶対座標を推定する RootNet
3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet
20
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
2
6
• 3つのネットワークからなるパイプラインを提案
1. 画像内から人物を検出してクロップする DetectNet → Mask R-CNN [He+ ICCV’18]
2. 人物画像からrootの絶対座標を推定する RootNet
3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet → [Sun+ ECCV’18]
21
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
3
6
• RootNet:カメラ座標系における人物のroot 𝑅 = 𝑥 𝑅, 𝑦 𝑅, 𝑍 𝑅 を推定する
• 2D座標の 𝑥 𝑅, 𝑦 𝑅 は簡単に推定できるが3Dの深さ( 𝑍 𝑅 )は容易には求まらない
• 画像上の面積(pixel2)と実空間上の面積(mm2)の比率とカメラパラメータから深さ 𝑑 を近似
• 人物領域のbboxが実空間において 2,000mm x 2,000mm(x アスペクト比)であると仮定
• この仮定に基づいて計算した距離尺度 𝑘 と実際の距離は相関する(右下)
22
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
4
6
w[pix]
h[pix]
2,000mm
=
= 2,000[mm] x w/h
𝛼:焦点距離
𝐴 𝑟𝑒𝑎𝑙
𝐴 𝑟𝑒𝑎𝑙
𝐴𝑖𝑚𝑔
𝐴𝑖𝑚𝑔
• 課題:実際の画像では
(a) 異なるbboxのサイズだが、同じ距離にいる
(b) 同じbboxのサイズだが、異なる距離にいる
場合などがあり、この仮定のみではうまくいかない
• 画像の特徴も使い、補正係数γを算出して 𝑘 を補正、最終的な絶対深度を出力する
23
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
5
6
• root位置の正解を使わないアプローチでは大きく精度改善しSoTA(下)
• root位置の正解を使うアプローチの中でも、SoTAではないものの遜色のない精度を発揮(上)
24
Camera Distance-aware Top-down Approach for
3D Multi-person Pose Estimation from a Single RGB Image
6
6
25
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
• 動画の時系列情報を効率的に活用することで、単一画像のみでは解決しきれない
曖昧性を解消し、時間的に一貫性のある形で3D Poseを推定
Input Target View
• 動画の時系列情報を活用して3D Pose Estimationを行う手法
• 2Dと3Dの姿勢は一意に対応するとは限らないという根本的な曖昧性(ambiguity)の問題がある
→動画で観測できる連続的な人物の動きを活用することで曖昧性を解消
• Dilated Convolutionを用いたFully-Convolutionalなモデル(not RNN)で計算効率や学習効率を改善
• Back-Projectionによってラベルなしデータを効果的に利用する半教師あり学習も提案
26
3D human pose estimation in video
with temporal convolutions and semi-supervised training
1
3
• Human3.6MのデータセットにおいてSoTA
• 複数フレームを用いることによって速度の誤差も大きく減少
27
3D human pose estimation in video
with temporal convolutions and semi-supervised training
2
3
• 教師あり学習だけでも強力だが、半教師あり学習によって特に少データ時でも高い精度を発揮
– – – – 提案手法(教師あり)
–––––– 提案手法(半教師あり)
28
3D human pose estimation in video
with temporal convolutions and semi-supervised training
エラー率
データ数
3
3
29
Agenda
[Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation
[Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations
[Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision
[Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
[Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry
[Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training
Image
Video
Single-
Person
Multi-Person
Single-
View
Multi-
View
Input Target View
• CVPR’19/ICCV’19にAcceptされた3D Human Pose Estimationに関する7本の論文をまとめた
• 最も多いトピックとしては、{Un/Self/Weakly/Semi}-Supervised Learningによるデータ効率の改善
– Multi-viewでの3D Poseの一貫性、2D↔3DのProjectionを活用した自己教師あり学習、敵対的誤差によるラベルなし表現の学習
– 3D Poseはアノテーションが大変という課題感に対応
• 論文の目的・課題感やそもそもの実験設定が異なるものが多いため、単純な精度比較での優劣付けは難しい
– 提案手法単独ではなく、過去のSoTAモデルと組み合わせて使う前提のもの
– 部分的にGround Truthの情報を使うもの
– 異なるデータ分割や評価プロトコルを使うもの
• 今後の方向性としては、データ効率改善系は引き続き出てきそうだが、In-the-Wildなデータ・独自データでの学習の
ニーズを考えると、画像の枚数(視点数)やカメラパラメータに対する事前情報の制約が緩和された手法が好まれそう
– Human3.6Mのようなリッチなデータセットのみで学習できる手法は、他に転移できるくらいロバストであれば、価値がある
• 深度推定問題[Moon+ ICCV’19]や動画情報の効率的な活用[Pavllo+ CVPR’19]も、基本的な要件・評価指標など
として引き続き出てきそう
30
まとめ
• [Wandt+ CVPR'19] Wandt, Bastian, and Bodo Rosenhahn. "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation."
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
• [Habibie+ CVPR'19] Habibie, Ikhsanul, et al. "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2019.
• [Chen.C+ CVPR'19] Chen, Ching-Hang, et al. "Unsupervised 3D Pose Estimation with Geometric Self-Supervision." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. 2019.
• [Chen.X+ CVPR'19] Chen, Xipeng, et al. "Weakly-supervised discovery of geometry-aware representation for 3d human pose estimation." Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition. 2019.
• [Kocabas+ CVPR'19] Kocabas, Muhammed, Salih Karagoz, and Emre Akbas. "Self-supervised learning of 3d human pose using multi-view geometry." arXiv preprint
arXiv:1903.02330 (2019).
• [Pavllo+ CVPR'19] Pavllo, Dario, et al. "3D human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2019.
• [Moon+ ICCV'19] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single
RGB Image." arXiv preprint arXiv:1907.11346 (2019).
• [Rhodin+ ECCV’18] Rhodin, Helge, Mathieu Salzmann, and Pascal Fua. "Unsupervised geometry-aware representation for 3d human pose estimation." Proceedings of the
European Conference on Computer Vision (ECCV). 2018.
• [He+ ICCV’17] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.
• [Sun+ ECCV’18] Sun, Xiao, et al. "Integral human pose regression." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
31
参考文献

More Related Content

What's hot

[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
Deep Learning JP
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
Deep Learning JP
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
la_flance
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 

What's hot (20)

[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 

Similar to [DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19

[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018
Deep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
cvpaper. challenge
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
SSII
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
Hajime Taira
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
ProjectAsura
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
ishii yasunori
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
Preferred Networks
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Kohei Nishimura
 
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには? 【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
historia_Inc
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
kanejaki
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
3dc guide j_20100420
3dc guide j_201004203dc guide j_20100420
3dc guide j_20100420syncoptic
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
sumisumith
 
【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...
【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...
【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...
cvpaper. challenge
 

Similar to [DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19 (20)

[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018[DL輪読会]Human Pose Estimation @ ECCV2018
[DL輪読会]Human Pose Estimation @ ECCV2018
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
3d guidelines
3d guidelines3d guidelines
3d guidelines
 
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには? 【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
【出張ヒストリア2018】モーションキャプチャーを取り入れるには?
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images[DL輪読会]Unsupervised Learning of 3D Structure from Images
[DL輪読会]Unsupervised Learning of 3D Structure from Images
 
3dc guide j_20100420
3dc guide j_201004203dc guide j_20100420
3dc guide j_20100420
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 
【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...
【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...
【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB ...
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Recently uploaded

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 

Recently uploaded (8)

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 

[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19

  • 1. DEEP LEARNING JP [DL Seminar] 3D Human Pose Estimation @ CVPR’19 / ICCV’19 Hiromi Nakagawa, Matsuo Lab https://deeplearning.jp
  • 2. • CVPR’19 / ICCV’19 にAcceptされた3D Human Pose Estimationに関する論文7本を俯瞰 • 最も多く見られたのは、3D Poseのアノテーションコストが高いという課題感に対する {Un/Self/Weakly/Semi}-Supervised Learningによるデータ(ラベル)効率改善の研究 – Multi-viewでの3D Poseの一貫性 – 2D↔3DのProjectionを活用した自己教師あり学習 – 敵対的誤差によるラベルなし表現の学習 • その他、Multi-person認識における深度推定問題や動画の時系列情報の活用などの方向性も見られた • 各手法に共通する課題・背景やアプローチ、それぞれの手法で異なる点、注目ポイントなどを整理した • note書きました↓ 【CVPR‘19 / ICCV’19】3D Human Pose Estimationの最新研究動向まとめ(https://note.mu/hirominakagawa/n/nbc226d7d1bfb) 2 Overview
  • 3. 3 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View Input Target View
  • 4. 4 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 単一視点の画像から3D Poseを推定するアプローチ • 2D→3Dの推定と3D→2Dの射影による相互変換を用いた学習テクニックの提案 • 2D Pose:比較的容易に・精度高く得られる • 3D Pose:カメラパラメータを使うことで2Dへの変換は容易 Input Target View
  • 5. • ①2D→3D変換の学習 と ②3D+カメラパラメータによる2Dへの射影 をうまく活用して3D Poseを学習 • 敵対的学習によって中間の3D表現の質を改善 5 RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation ①2D Poseから3D PoseとCamera Poseを生成 ②3D PoseとCamera Poseから2D Poseを再構成して誤差を最小化 3D PoseはWGAN-GPで敵対的に学習。 人体構造を明示的に考慮する特徴のKCS (Kinematic Chain Space)も加える 1 2
  • 6. • 完全な教師ありには勝てないが、弱教師あり(WS)ではSoTA • KCS + Discriminatorによる3D Poseの学習の効果が確認された 6 RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation 2 2
  • 7. • [Wandt+ CVPR’19] RepNetと同様に、2D Poseから3D PoseとCamera Poseを推定→2Dに再射影して誤差 を最小化するように学習を行う 7 In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations 違い① 2D Poseの情報と3D Poseに 関連する深さ情報(d)を明示的に分ける →入力画像の見た目の変化などにより頑健 違い② 3D Poseは正解ラベルが存在する場合には 教師ありで学習(Boneの長さも考慮) 1 2
  • 8. • 実験結果 8 In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations 2 2 MPI-INF-3DHPではSoTA Human3.6MではSoTAではないが善戦 (In-the-Wildなデータセットでこそ強みを発揮するとの主張)
  • 10. • 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習 10 Unsupervised 3D Pose Estimation with Geometric Self-Supervision ①Lifting Networkで 2D Poseを3D Poseに変換 ②ランダムな回転Rを適用 ③2Dに射影 ④Lifting Networkで 2D Poseを3D Poseに変換 ⑤逆回転R-1を適用⑤2Dに射影 2 4
  • 11. • 2D↔3D間の射影を考慮した幾何学的(Geometric)な制約を用いた自己教師あり学習 11 Unsupervised 3D Pose Estimation with Geometric Self-Supervision 入力の2D Poseと 再構成した2D Poseの誤差 射影前の3D Poseと 射影後の3D Poseの誤差 2D Poseの敵対的誤差 (動画なら時間的一貫性も反映可能) 3 4
  • 12. • 教師なしアプローチのSoTAを更新 • Ablation Study(右) – 敵対的誤差(Adv)、2D/3Dでの自己教師あり学習(SS)、ドメイン適応(DA)、Discriminatorへの時間情報の入力(TD) – 全部入れることでベストの性能 12 Unsupervised 3D Pose Estimation with Geometric Self-Supervision 4 4
  • 13. 13 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 視点の相互変換や、カメラ幾何を用いた3Dラベルの作成を活用し、 複数視点(Multi-view)の画像から3D Pose推定のための表現を学習 Input Target View
  • 14. • Multi-viewの画像から3D Pose Estimationに有用な潜在表現を学習する – Pose空間で潜在表現を学習することで、画像空間で直接学習する[Rhodin+ ECCV’18]よりロバスト 14 Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation ①各視点の画像から 2D Poseを生成 ③反対の視点の2D Poseを 生成→誤差を最小化 ④表現の一貫性が担保されるよう 潜在表現の誤差を最小化 カメラの外部パラメータ(視点間の 位置関係)は既知である前提 ②視点間の位置関係に基づく 回転行列を潜在表現に適用 1 2
  • 16. • Multi-viewの画像からエピポーラ幾何を用いて3D Poseを学習するEpipolarPoseを提案 • 2つのPose Estimation Network(Branch)を用意 – Upper Branch:単一画像から3D Poseを推定 – Lower Branch:複数画像からそれぞれ2D Poseを出力した後、エピポーラ幾何を用いて3D Poseを生成 • Lower Branch+エピポーラ幾何で3D Poseの正解ラベルを作成してUpper Branchの教師ラベルと して学習させることで、3Dの正解ラベルなしに単一画像から3D Poseを推定できるモデルを学習可能 16 Self-Supervised Learning of 3D Human Pose using Multi-view Geometry エピポーラ幾何を用いる際に必要な カメラの位置関係などの 外部パラメータがわからない場合でも、 データから推定・キャリブレーション できるテクニックも提案 1 2
  • 18. 18 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 複数人(Multi-Person)の3D Poseを推定する際に課題となる 人物位置の絶対的な位置関係(深度)を推定するためのテクニックを提案 Input Target View
  • 19. • 複数人(Multi-Person)の3D Pose Estimationを行う手法の提案 • 一般的な3D Pose Estimationのモデルは、骨盤など人物の空間位置の基準点となる関節(root)を 決めておき、その基準点からの相対的な位置関係で各関節の座標を表現 • 複数人の姿勢を推定するには、各人が空間上のどこにいるのか=rootの絶対座標も推定する必要がある 19 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 1 6
  • 20. • 3つのネットワークからなるパイプラインを提案 1. 画像内から人物を検出してクロップする DetectNet 2. 人物画像からrootの絶対座標を推定する RootNet 3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet 20 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 2 6
  • 21. • 3つのネットワークからなるパイプラインを提案 1. 画像内から人物を検出してクロップする DetectNet → Mask R-CNN [He+ ICCV’18] 2. 人物画像からrootの絶対座標を推定する RootNet 3. 人物画像から各関節のrootからの相対的な位置を推定する PoseNet → [Sun+ ECCV’18] 21 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 3 6
  • 22. • RootNet:カメラ座標系における人物のroot 𝑅 = 𝑥 𝑅, 𝑦 𝑅, 𝑍 𝑅 を推定する • 2D座標の 𝑥 𝑅, 𝑦 𝑅 は簡単に推定できるが3Dの深さ( 𝑍 𝑅 )は容易には求まらない • 画像上の面積(pixel2)と実空間上の面積(mm2)の比率とカメラパラメータから深さ 𝑑 を近似 • 人物領域のbboxが実空間において 2,000mm x 2,000mm(x アスペクト比)であると仮定 • この仮定に基づいて計算した距離尺度 𝑘 と実際の距離は相関する(右下) 22 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 4 6 w[pix] h[pix] 2,000mm = = 2,000[mm] x w/h 𝛼:焦点距離 𝐴 𝑟𝑒𝑎𝑙 𝐴 𝑟𝑒𝑎𝑙 𝐴𝑖𝑚𝑔 𝐴𝑖𝑚𝑔
  • 23. • 課題:実際の画像では (a) 異なるbboxのサイズだが、同じ距離にいる (b) 同じbboxのサイズだが、異なる距離にいる 場合などがあり、この仮定のみではうまくいかない • 画像の特徴も使い、補正係数γを算出して 𝑘 を補正、最終的な絶対深度を出力する 23 Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image 5 6
  • 25. 25 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View • 動画の時系列情報を効率的に活用することで、単一画像のみでは解決しきれない 曖昧性を解消し、時間的に一貫性のある形で3D Poseを推定 Input Target View
  • 26. • 動画の時系列情報を活用して3D Pose Estimationを行う手法 • 2Dと3Dの姿勢は一意に対応するとは限らないという根本的な曖昧性(ambiguity)の問題がある →動画で観測できる連続的な人物の動きを活用することで曖昧性を解消 • Dilated Convolutionを用いたFully-Convolutionalなモデル(not RNN)で計算効率や学習効率を改善 • Back-Projectionによってラベルなしデータを効果的に利用する半教師あり学習も提案 26 3D human pose estimation in video with temporal convolutions and semi-supervised training 1 3
  • 28. • 教師あり学習だけでも強力だが、半教師あり学習によって特に少データ時でも高い精度を発揮 – – – – 提案手法(教師あり) –––––– 提案手法(半教師あり) 28 3D human pose estimation in video with temporal convolutions and semi-supervised training エラー率 データ数 3 3
  • 29. 29 Agenda [Wandt+ CVPR'19] RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation [Habibie+ CVPR'19] In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations [Chen.C+ CVPR'19] Unsupervised 3D Pose Estimation with Geometric Self-Supervision [Chen.X+ CVPR'19] Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation [Kocabas+ CVPR'19] Self-Supervised Learning of 3D Human Pose using Multi-view Geometry [Moon+ ICCV'19] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image [Pavllo+ CVPR'19] 3D human pose estimation in video with temporal convolutions and semi-supervised training Image Video Single- Person Multi-Person Single- View Multi- View Input Target View
  • 30. • CVPR’19/ICCV’19にAcceptされた3D Human Pose Estimationに関する7本の論文をまとめた • 最も多いトピックとしては、{Un/Self/Weakly/Semi}-Supervised Learningによるデータ効率の改善 – Multi-viewでの3D Poseの一貫性、2D↔3DのProjectionを活用した自己教師あり学習、敵対的誤差によるラベルなし表現の学習 – 3D Poseはアノテーションが大変という課題感に対応 • 論文の目的・課題感やそもそもの実験設定が異なるものが多いため、単純な精度比較での優劣付けは難しい – 提案手法単独ではなく、過去のSoTAモデルと組み合わせて使う前提のもの – 部分的にGround Truthの情報を使うもの – 異なるデータ分割や評価プロトコルを使うもの • 今後の方向性としては、データ効率改善系は引き続き出てきそうだが、In-the-Wildなデータ・独自データでの学習の ニーズを考えると、画像の枚数(視点数)やカメラパラメータに対する事前情報の制約が緩和された手法が好まれそう – Human3.6Mのようなリッチなデータセットのみで学習できる手法は、他に転移できるくらいロバストであれば、価値がある • 深度推定問題[Moon+ ICCV’19]や動画情報の効率的な活用[Pavllo+ CVPR’19]も、基本的な要件・評価指標など として引き続き出てきそう 30 まとめ
  • 31. • [Wandt+ CVPR'19] Wandt, Bastian, and Bodo Rosenhahn. "RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D Human Pose Estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Habibie+ CVPR'19] Habibie, Ikhsanul, et al. "In the Wild Human Pose Estimation Using Explicit 2D Features and Intermediate 3D Representations." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Chen.C+ CVPR'19] Chen, Ching-Hang, et al. "Unsupervised 3D Pose Estimation with Geometric Self-Supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Chen.X+ CVPR'19] Chen, Xipeng, et al. "Weakly-supervised discovery of geometry-aware representation for 3d human pose estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Kocabas+ CVPR'19] Kocabas, Muhammed, Salih Karagoz, and Emre Akbas. "Self-supervised learning of 3d human pose using multi-view geometry." arXiv preprint arXiv:1903.02330 (2019). • [Pavllo+ CVPR'19] Pavllo, Dario, et al. "3D human pose estimation in video with temporal convolutions and semi-supervised training." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. • [Moon+ ICCV'19] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image." arXiv preprint arXiv:1907.11346 (2019). • [Rhodin+ ECCV’18] Rhodin, Helge, Mathieu Salzmann, and Pascal Fua. "Unsupervised geometry-aware representation for 3d human pose estimation." Proceedings of the European Conference on Computer Vision (ECCV). 2018. • [He+ ICCV’17] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017. • [Sun+ ECCV’18] Sun, Xiao, et al. "Integral human pose regression." Proceedings of the European Conference on Computer Vision (ECCV). 2018. 31 参考文献