EP LEARNING JP
[DL Papers]
Weakly-Supervised	Discovery	of	Geometry-Aware		
Representa<on	for	3D	Human	Pose	Es<ma<on
Koichiro	Tamura,	Matsuo	L
http://deeplearn
PAPER INFORMATION
Weakly-Supervised Discovery of Geometry-Aware
�epresentation for 3D Human Pose Estimation�
–  Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, Xiaogang Wang,
Liang Lin�
–  Submitted on 21 Mar 2019 (arxiv��
–  https://arxiv.org/abs/1903.08839�
–  Accepted as a C�P� 2019 oral paper�
3D Pose Estimation�
–  Multi View の 2D Pose Estimationを⽤いて,特定の画⾓から他の画⾓への
換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的なヒトの
次元構造の潜在表現を得る�
2
Outline
.  イントロ�
.  既存⼿法の整理と新規性�
.  提案⼿法�
.  実験�
.  まとめ�
3
イインントトロロ
動画像から3D Pose Estimationを⾏う研究�
–  ⽤途: action recognition, human-computer interaction, autonomous driving, (A�/��)�
–  研究/実⽤におけるボトルネック: annotationが難しい�
–  本研究のモチベーション: 3Dのannotationが(事実上)必要なく,2DのPose Estimationのannotationのみで3D推
をしたい�
–  類似研究�
•  ⼤量の2Dのannotationを⽤いて3D annotationを作成する⽅法 => ドメイン変換が悩みのタネ�
•  事前に定義された3Dモデルに対して適⽤する⽅法 => ヒトの多種多様な動きに対して対応できない�
•  複数視点から3Dモデルを得る⽅法 => 固形物はそこそこできるが、ヒトの多種多様な動きに対して対応できない�
4
Mul$	View	の	2D	Pose	Es$ma$onを⽤いて,特定の画⾓から他の画⾓への
変換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的な
ヒトの3次元構造の潜在表現を得るモデルを提案
既既存存手手法法のの整整理理とと新新規規性性
Geometry-Aware �epresentations�
1.  あらかじめ定義された構造情報に当てはめるような⼿法�
2.  複数の視点を利⽤した⼿法�
–  固形物や顔/⼿などに適⽤されることが多かったが,関節点と可動域が⼤きい
⾝体の場合,少ないデータセットでかつsimpleな制約条件でどうするかとい
ことは,未解決問題だった�
3D Human Pose Estimation�
–  Fully-supervised: データセットに様々な条件や制約�
–  Weakly-supervised=> 今回はこれ�
5
本研究は,2D Pose Estimationのannotationだけを⽤いて,�
幾何学的意味を持つ汎⽤的な潜在表現を獲得することが新規性�
提提案案手手法法
6
提提案案手手法法
�
1.  Image	Skelton	Mapping	
•  Mul<	Viewにおけるencoder-decoder	frameworkでは,
⽣画像でなく2D	skeleton	informa<onで⼗分	
•  画⾓iと画⾓jから獲得した画像​𝐼𝐼 𝐼𝐼𝐼𝐼,	​𝐼𝐼 𝐼𝐼𝐼𝐼に対して,
2D	Pose	Es<ma<onの推論を⾏い,K個の関節点の
Heatmaps(1channelに対して1関節点の画像)を得る	
•  Heatmapsから,2D	skeleton	maps	​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆,	​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆∈​{0,
1}↑(𝐾𝐾−1)∗ 𝑊𝑊∗ 𝐻𝐻𝐻を⽣成する	
•  (多分Pose	Es<ma<onの推論できればなんでもよし)	
•  しかし,まだ2つの問題がある	
•  画⾓は有限である	
•  画⾓の分布が不均⼀	
•  Learning	Pose	Grammar	to	Encode	Human	Body	
Configura<on	for	3D	Pose	Es<ma<on(AAAI2018)	
•  Pose	Sample	Simulator	=>	これを使う(これがすごい説)	
•  上記論⽂では2D-3Dのpairを⽣成していたが,ただ
random	samplingするだけ	
•  3Dのground	truthを持つデータに対して,ある画⾓か
ら正射影することで2DPoseを得る	
•  (だから今回Weakly-Supervised)
提提案案手手法法
8
Geometry	representa<on	via	
view	synthesis	
•  ​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆	->	(encoder)	->	​ 𝐺𝐺𝐺𝐺𝐺𝐺->	(回
転⾏列​ 𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗)	->	​ 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺	>	
(decoder)	->	​​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆	
•  変換(⽣成)後の​​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆と​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆
で誤差を取る	
•  ​ 𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗は(多分)固定	
回転⾏列�
潜在表現�
loss�loss�
提提案案手手法法
9
Representa<on	consistency	
constraint		
•  「ヒト」としてありえない構造
をとることに対して,制約を加
えたい
•  ​ 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺と​ 𝐺𝐺𝐺𝐺𝐺𝐺の差分をloss関数
に加える	
回転⾏列�
潜在表現�
loss�
提提案案手手法法
損失関数�
–  今までのお話をまとめると,損失関数は��の通��
10
1�2�
3�
1� 2� 3�
実実験験
データセット�
–  Human3.6M: 3Dデータセットで⼀番⼤きい, 3.6million,11actors, 15da
activities, from 4camera�
–  MPI-INF-3DHP: 3d benchmark dataset, indoor(制約付き) & outdoor(⾮
約)�
–  MPII: 2D human Pose�
評価⽅法�
–  3つの形式的な評価プロトコルで⽐較�
11
実実験験
検証1�
–  (Human3.6におけるMPJPE, PMPJPE評価法にて)�
–  まずは,潜在表現Gを⽤いることの有⽤性を検証�
•  Gをneural networkの⼊⼒として,3D Pose を推論�
•  Gを⽤いず,2Dをneural networkの⼊⼒として,3D Poseを推論�
�
12
学習データセットの規模を⼤きくするほど,Gは良い潜在表現を獲得し,
また潜在表現Gを⽤いる有⽤性が⽰された�
実実験験
検証2�
–  他⼿法との⽐較�
–  MPJPEの場合�
•  Martinez et al. の⼿法に,潜在表現Gを利⽤した場合: 62.9 => 56.3�
•  Sun et al.の⼿法に,潜在表現Gを利⽤した場合: 49.8 => 46.3�
•  Integral human pose regression + 本研究がS��A�
–  (2Fc layersだと,普通に性能が悪い)�
13
実実験験
潜在表現について�
–  潜在表現は,constraint lossを加えたことによって,point cloudの形式の幾
何学的意味を持つヒトの3次元構造をなす�
–  潜在表現を⽤いていることで,よ�ドメイン��性能が⾼い�
14
実実験験
�⼒�
15
ままととめめ
16
multi viewの2D Pose Estimationのannotationだけを⽤
いて、auto-encoderでヒトの3次元的幾何学的意味を持つ
潜在表現を獲得�
どんなもの?	
次に読むべき論文は?	
議論点	
どうやって有効だと証明した?	
技術や手法のキモは?	
先行研究との差分は?	
1.  multi viewの2D Pose Estimationのannotationだけ�
2.  幾何学的意味を持つ潜在表現�
�
1.  3D annotation-> 2d annotationに無限サンプリング�
2.  Auto-encoderにおいて,潜在表現間におけるlossも考
��
潜在表現を⽤いた推論とそうでない場合を,Human3.6M
などで,先⾏研究などと⽐較&組み合��ながら検証�
•  2D annotationだけでいけること,既存⼿法のフレーム
ワークに組み込める点で実⽤性が⾼いか�
•  2D Pose Estimationの����に⼤きく�存しそう�
1.  Learning Pose Grammar to Encode Human Body
Con�guration for 3D Pose Estimation(AAAI2018)�
2.  Integral human pose regression�

[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation

  • 1.
    EP LEARNING JP [DLPapers] Weakly-Supervised Discovery of Geometry-Aware Representa<on for 3D Human Pose Es<ma<on Koichiro Tamura, Matsuo L http://deeplearn
  • 2.
    PAPER INFORMATION Weakly-Supervised Discoveryof Geometry-Aware �epresentation for 3D Human Pose Estimation� –  Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, Xiaogang Wang, Liang Lin� –  Submitted on 21 Mar 2019 (arxiv�� –  https://arxiv.org/abs/1903.08839� –  Accepted as a C�P� 2019 oral paper� 3D Pose Estimation� –  Multi View の 2D Pose Estimationを⽤いて,特定の画⾓から他の画⾓への 換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的なヒトの 次元構造の潜在表現を得る� 2
  • 3.
    Outline .  イントロ� .  既存⼿法の整理と新規性� . 提案⼿法� .  実験� .  まとめ� 3
  • 4.
    イインントトロロ 動画像から3D Pose Estimationを⾏う研究� – ⽤途: action recognition, human-computer interaction, autonomous driving, (A�/��)� –  研究/実⽤におけるボトルネック: annotationが難しい� –  本研究のモチベーション: 3Dのannotationが(事実上)必要なく,2DのPose Estimationのannotationのみで3D推 をしたい� –  類似研究� •  ⼤量の2Dのannotationを⽤いて3D annotationを作成する⽅法 => ドメイン変換が悩みのタネ� •  事前に定義された3Dモデルに対して適⽤する⽅法 => ヒトの多種多様な動きに対して対応できない� •  複数視点から3Dモデルを得る⽅法 => 固形物はそこそこできるが、ヒトの多種多様な動きに対して対応できない� 4 Mul$ View の 2D Pose Es$ma$onを⽤いて,特定の画⾓から他の画⾓への 変換を⾏うauto-encoderを学習し、幾何学的な意味合いを持つメタ的な ヒトの3次元構造の潜在表現を得るモデルを提案
  • 5.
    既既存存手手法法のの整整理理とと新新規規性性 Geometry-Aware �epresentations� 1.  あらかじめ定義された構造情報に当てはめるような⼿法� 2. 複数の視点を利⽤した⼿法� –  固形物や顔/⼿などに適⽤されることが多かったが,関節点と可動域が⼤きい ⾝体の場合,少ないデータセットでかつsimpleな制約条件でどうするかとい ことは,未解決問題だった� 3D Human Pose Estimation� –  Fully-supervised: データセットに様々な条件や制約� –  Weakly-supervised=> 今回はこれ� 5 本研究は,2D Pose Estimationのannotationだけを⽤いて,� 幾何学的意味を持つ汎⽤的な潜在表現を獲得することが新規性�
  • 6.
  • 7.
    提提案案手手法法 � 1.  Image Skelton Mapping •  Mul< Viewにおけるencoder-decoder frameworkでは, ⽣画像でなく2D skeleton informa<onで⼗分 • 画⾓iと画⾓jから獲得した画像​𝐼𝐼 𝐼𝐼𝐼𝐼, ​𝐼𝐼 𝐼𝐼𝐼𝐼に対して, 2D Pose Es<ma<onの推論を⾏い,K個の関節点の Heatmaps(1channelに対して1関節点の画像)を得る •  Heatmapsから,2D skeleton maps ​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆, ​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆∈​{0, 1}↑(𝐾𝐾−1)∗ 𝑊𝑊∗ 𝐻𝐻𝐻を⽣成する •  (多分Pose Es<ma<onの推論できればなんでもよし) •  しかし,まだ2つの問題がある •  画⾓は有限である •  画⾓の分布が不均⼀ •  Learning Pose Grammar to Encode Human Body Configura<on for 3D Pose Es<ma<on(AAAI2018) •  Pose Sample Simulator => これを使う(これがすごい説) •  上記論⽂では2D-3Dのpairを⽣成していたが,ただ random samplingするだけ •  3Dのground truthを持つデータに対して,ある画⾓か ら正射影することで2DPoseを得る •  (だから今回Weakly-Supervised)
  • 8.
    提提案案手手法法 8 Geometry representa<on via view synthesis •  ​𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆𝑆 -> (encoder) -> ​ 𝐺𝐺𝐺𝐺𝐺𝐺-> (回 転⾏列​ 𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗) -> ​ 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 > (decoder) -> ​​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆 •  変換(⽣成)後の​​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆と​𝑆𝑆 𝑆𝑆𝑆 𝑆𝑆𝑆𝑆 で誤差を取る •  ​ 𝑅𝑅𝑅𝑅𝑅→𝑗𝑗𝑗は(多分)固定 回転⾏列� 潜在表現� loss�loss�
  • 9.
    提提案案手手法法 9 Representa<on consistency constraint •  「ヒト」としてありえない構造 をとることに対して,制約を加 えたい •  ​𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺と​ 𝐺𝐺𝐺𝐺𝐺𝐺の差分をloss関数 に加える 回転⾏列� 潜在表現� loss�
  • 10.
  • 11.
    実実験験 データセット� –  Human3.6M: 3Dデータセットで⼀番⼤きい,3.6million,11actors, 15da activities, from 4camera� –  MPI-INF-3DHP: 3d benchmark dataset, indoor(制約付き) & outdoor(⾮ 約)� –  MPII: 2D human Pose� 評価⽅法� –  3つの形式的な評価プロトコルで⽐較� 11
  • 12.
    実実験験 検証1� –  (Human3.6におけるMPJPE, PMPJPE評価法にて)� – まずは,潜在表現Gを⽤いることの有⽤性を検証� •  Gをneural networkの⼊⼒として,3D Pose を推論� •  Gを⽤いず,2Dをneural networkの⼊⼒として,3D Poseを推論� � 12 学習データセットの規模を⼤きくするほど,Gは良い潜在表現を獲得し, また潜在表現Gを⽤いる有⽤性が⽰された�
  • 13.
    実実験験 検証2� –  他⼿法との⽐較� –  MPJPEの場合� • Martinez et al. の⼿法に,潜在表現Gを利⽤した場合: 62.9 => 56.3� •  Sun et al.の⼿法に,潜在表現Gを利⽤した場合: 49.8 => 46.3� •  Integral human pose regression + 本研究がS��A� –  (2Fc layersだと,普通に性能が悪い)� 13
  • 14.
    実実験験 潜在表現について� –  潜在表現は,constraint lossを加えたことによって,pointcloudの形式の幾 何学的意味を持つヒトの3次元構造をなす� –  潜在表現を⽤いていることで,よ�ドメイン��性能が⾼い� 14
  • 15.
  • 16.
    ままととめめ 16 multi viewの2D PoseEstimationのannotationだけを⽤ いて、auto-encoderでヒトの3次元的幾何学的意味を持つ 潜在表現を獲得� どんなもの? 次に読むべき論文は? 議論点 どうやって有効だと証明した? 技術や手法のキモは? 先行研究との差分は? 1.  multi viewの2D Pose Estimationのannotationだけ� 2.  幾何学的意味を持つ潜在表現� � 1.  3D annotation-> 2d annotationに無限サンプリング� 2.  Auto-encoderにおいて,潜在表現間におけるlossも考 �� 潜在表現を⽤いた推論とそうでない場合を,Human3.6M などで,先⾏研究などと⽐較&組み合��ながら検証� •  2D annotationだけでいけること,既存⼿法のフレーム ワークに組み込める点で実⽤性が⾼いか� •  2D Pose Estimationの����に⼤きく�存しそう� 1.  Learning Pose Grammar to Encode Human Body Con�guration for 3D Pose Estimation(AAAI2018)� 2.  Integral human pose regression�