SlideShare a Scribd company logo
1 of 17
Download to read offline
End-to-end Recovery of
Human Shape and Pose
東京⼤学 松尾研究室
⼤野峻典
書誌情報
• https://arxiv.org/abs/1712.06584
• 著者:Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra
Malik
– University of California Berkeley, MPI for Intelligent Systems Tubingen
Germany, University of Maryland College Park
• 公開⽇:18 Dec 2017
• プロジェクトページ:https://akanazawa.github.io/hmr/
• デモビデオ:https://www.youtube.com/watch?v=bmMV9aJKa-c
2
アジェンダ
• Human Mesh Recovery(HMR)タスクとは
• ⽣成された3Dの真偽の識別器を導⼊した, end2endアーキテクチャ
– 論⽂の主張・ポイント
– 従来⼿法の問題点
– 提案⼿法
– 実験結果
3
Human Mesh Recovery (HMR) タスクとは
• 今回取り組むタスク
• (⼊⼒)単⼀のRGB画像 → (出⼒)⼈体の完全な3Dメッシュ
– こんな感じ
• 難しさ
– ⾃然な(in-the-wildな)画像の3D教師データ⽤意が⼤変(3D測定できるようにした特
殊な環境下で撮影されたものばかりで実⽤性△)
– 単視点だと、同じ⾒え⽅でも3Dのあり⽅は異なるものなどある.
– ⼈がどれくらいのスケールで写っているかわからない.
4
論⽂の主張・ポイント
• GAN的発想を取り⼊れる事で, 画像と対になる⼈の3Dデータが無くても,
それらしい⼈の3Dの⽣成ができるようになる.
– 本物か/⽣成されたものか判断する識別器を学習することで, 独⽴した⼈の3Dデータ
セットから, それらしい⼈の3Dデータに関して, 弱教師あり学習的に関節的に学ぶ
• (2D関節位置推定を挟まずに,) end2endで3Dの姿勢推定を⾏うことで, 2D
画像にある情報を無駄にしない.
• (スケルトンででなく) メッシュを出⼒. 情報量多い分応⽤範囲も広い.
5
従来⼿法の問題点
• 適⽤可能な画像のバリエーションの⼩ささ
– 問題:既存の3D復元⼿法は、セットアップされた環境下で撮影された画像を対象にし
ており、in-the-wildな画像へは適⽤できない. (ドメイン変化に対するロバスト性❌)
• 2stage:2Dの関節位置推定 ⇛ この結果を⽤いて3D推定
– 問題:2D関節位置推定の精度依存, 2D情報の無駄
– 背景:既存は, 3D推定のモデルがドメイン変化に対してロバスト出なかったため, ドメ
インの変化分を⼩さくするため2Dのキーポイントに情報を抽象化してから, 3Dモデル
に渡していた
6
提案⼿法
• 画像の特徴量表現から3D回帰モデルにより3Dの潜在表現を推定. 以下の誤
差に対して最適化するように学習.
– 再構築誤差 Lreproj
– 識別器Dに関する誤差 Ladv
7
提案⼿法:3D Body Representation
• ⼈体:Skinned Multi-Person Linear (SMPL) で表現
– Shape β ∈ R10 :主成分空間の10次元で表現. (height, weight, body proportions等)
– Pose θ ∈ R3K: K=23関節の3D回転度で表現. (各関節の変形度等)
• カメラ:
– 回転 R∈R3x3, 平⾏移動 t∈R2、スケール s∈R
• ⇛ 全て合わせて
• Θが与えられた時, ⼈ X(θ, β) は で投影され
る.
8
提案⼿法:Iterative 3D Regression with Feedback
• Θを直接回帰で求めるのは難しいので, 残差計算し, Θを繰り返し更新する.
– 3D回帰モジュールの⼊⼒に, 画像特徴量Φと現在のパラメータΘtを受取り, 残差ΔΘtを
出⼒する
• 誤差
– 2Dの関節reprojection誤差
– 3Dのground truthデータがある時は, 以下の誤差関数を最⼩化
– Adversarial Loss(後述)により, 学習が⼈体3Dのマニフォールド上で進むように.
9
提案⼿法:Factorized Adversarial Prior
• SMPLパラメータの真偽を判定する識別器.
• Shape, Poseそれぞれに対して独⽴に識別器を⽤意.
– Poseはさらに分解:
• 各関節回転毎に識別器を⽤意. ⇛ 各関節の⾓度の制約を学習できる.
• 全ての関節を⼊⼒にした, 全体観をチェックするような識別器も学習. ⇛ 全ての関節の回転⾓
を組み合わせた分布も学習
– ⇛ 識別器の⼊⼒が低次元になるため, 学習が安定する.
• 関節の制約に関する事前知識は⼊れない(先⾏研究とは異なる)
– 本⼿法では, 識別器によりデータドリブンに制約を学習.
• エンコーダ E に関する⽬的関数:
• 各識別器 Di の⽬的関数:
10
実験結果
• 3Dスケルトン以上のことをしているが、いかんせんground truthが存在し
ないので、そのままの評価が難しい
• ⇛ 今回の評価軸
– (標準的な)3D関節位置推定タスク
– Body part segmentationタスク
• データセット:MS	COCO
• 青は2d-3d対あり、赤は対無し
11
実験結果:3D 関節位置推定
• データセット
– Human3.6M:研究環境で撮られた系の画像
– MPI-INF-3DHP:より多様なポーズ, ⼈の画像(in-the-wildにはまだ遠い)
• 評価指標
– Mean Per Joint Position Error (MPJPE)
– Reconstruction Error: 厳格なアライメントの後のMPJPE. グローバルミスアラインメ
ントを除いて, 再構成された3Dスケルトンの質を評価. (⼈体的にありえないけど、誤差
最⼩化するようなトリッキーな推定を排除したもの(と理解))
• Human 3.6M
12
実験結果:3D 関節位置推定
• データセット:Human3.6M
13
Protocol2: 同じsubjectの訓練/テスト
セットを使⽤し, テストは前からのカメ
ラに限定
今回同様3Djoints+SMPLまで出⼒する既存⼿
法. 2Dkeypointsを⼊⼒にもつのは異なる.
本⼿法が⼤差で勝った.
Protocol1: 5subjects上で訓練して, 異
なる2subjects上でテスト.
今回同様関節位置のみならずキネマティックツ
リーにおける関節⾓も出⼒する既存⼿法. ただ
し, 事前知識として各関節の全27⾃由度しか与
えていない(本⼿法はshape含む85⾃由度)
また, 既存⼿法ではスケールと⾻の⻑さの仮定
を与えている.
3Djoints+αで出⼒している⼿法には勝ってい
て, 3Djointsのみのモデルとも良い勝負.
参考: http://vision.imar.ro/human3.6m/description.php
実験結果:3D 関節位置推定
• MPJPEと視覚的なクオリティはあまり相関していないことがわかった.
14
実験結果:3D 関節位置推定
• データセット:MPI-INF-3DHP
– 室内、屋外で撮影されたもの. マーカを⽤いずにground truthを作成するので、
ground truthに⽐較的ノイズが含まれがち.
– 指標
• MPJPE
• Percentage of Correct Keypoints (PCK): threshold 150mm
• Area Under the Curve (AUC): PCKの閾値の範囲でのAUC
15
3Djoints専⽤の既存⼿法といい勝負.
After Rigid Alignmentでは上回る.
⇛ 既存⼿法では⼈体的な制約を無視し体歪ませて評価
値上げられるのに対して, 本⼿法のshape/poseの⽅が
より意味的に正しいということでは
実験結果:Human Body Segmentation
• 6つの⾝体部位+背景のセグメンテーション
• 今回はセグメンテーションラベルは学習には⽤いていない
16
セグメンテーションデータを最適化対象として学習時
に利⽤した既存⼿法と、いい勝負.
実験結果:Without paired 3D Supervision
• 関節位置推定, 3D再構築を⾏う既存⼿法では、3Dの教師データを必要とし
た.
• 本⼿法では、2D-to-3Dの対の教師データ無くとも、Adversarial Priorがあ
れば既存のタスク設定においても、精度が出ることを⽰した。
17
⾚が対データ無し
Adversarial priorが無いとぐちゃぐちゃに.(ただしそれでも2D誤差は低い)

More Related Content

What's hot

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...Deep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection modelWEBFARMER. ltd.
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 

What's hot (20)

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 

Similar to [DL輪読会]End-to-end Recovery of Human Shape and Pose

cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)Deep Learning JP
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介nlab_utokyo
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar諒介 荒木
 
新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知る新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知るMasahiro Hidaka
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddingsharmonylab
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 

Similar to [DL輪読会]End-to-end Recovery of Human Shape and Pose (16)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar
 
新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知る新版 OutOfMemoryErrorを知る
新版 OutOfMemoryErrorを知る
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
画像処理入門
画像処理入門画像処理入門
画像処理入門
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

[DL輪読会]End-to-end Recovery of Human Shape and Pose

  • 1. End-to-end Recovery of Human Shape and Pose 東京⼤学 松尾研究室 ⼤野峻典
  • 2. 書誌情報 • https://arxiv.org/abs/1712.06584 • 著者:Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik – University of California Berkeley, MPI for Intelligent Systems Tubingen Germany, University of Maryland College Park • 公開⽇:18 Dec 2017 • プロジェクトページ:https://akanazawa.github.io/hmr/ • デモビデオ:https://www.youtube.com/watch?v=bmMV9aJKa-c 2
  • 3. アジェンダ • Human Mesh Recovery(HMR)タスクとは • ⽣成された3Dの真偽の識別器を導⼊した, end2endアーキテクチャ – 論⽂の主張・ポイント – 従来⼿法の問題点 – 提案⼿法 – 実験結果 3
  • 4. Human Mesh Recovery (HMR) タスクとは • 今回取り組むタスク • (⼊⼒)単⼀のRGB画像 → (出⼒)⼈体の完全な3Dメッシュ – こんな感じ • 難しさ – ⾃然な(in-the-wildな)画像の3D教師データ⽤意が⼤変(3D測定できるようにした特 殊な環境下で撮影されたものばかりで実⽤性△) – 単視点だと、同じ⾒え⽅でも3Dのあり⽅は異なるものなどある. – ⼈がどれくらいのスケールで写っているかわからない. 4
  • 5. 論⽂の主張・ポイント • GAN的発想を取り⼊れる事で, 画像と対になる⼈の3Dデータが無くても, それらしい⼈の3Dの⽣成ができるようになる. – 本物か/⽣成されたものか判断する識別器を学習することで, 独⽴した⼈の3Dデータ セットから, それらしい⼈の3Dデータに関して, 弱教師あり学習的に関節的に学ぶ • (2D関節位置推定を挟まずに,) end2endで3Dの姿勢推定を⾏うことで, 2D 画像にある情報を無駄にしない. • (スケルトンででなく) メッシュを出⼒. 情報量多い分応⽤範囲も広い. 5
  • 6. 従来⼿法の問題点 • 適⽤可能な画像のバリエーションの⼩ささ – 問題:既存の3D復元⼿法は、セットアップされた環境下で撮影された画像を対象にし ており、in-the-wildな画像へは適⽤できない. (ドメイン変化に対するロバスト性❌) • 2stage:2Dの関節位置推定 ⇛ この結果を⽤いて3D推定 – 問題:2D関節位置推定の精度依存, 2D情報の無駄 – 背景:既存は, 3D推定のモデルがドメイン変化に対してロバスト出なかったため, ドメ インの変化分を⼩さくするため2Dのキーポイントに情報を抽象化してから, 3Dモデル に渡していた 6
  • 8. 提案⼿法:3D Body Representation • ⼈体:Skinned Multi-Person Linear (SMPL) で表現 – Shape β ∈ R10 :主成分空間の10次元で表現. (height, weight, body proportions等) – Pose θ ∈ R3K: K=23関節の3D回転度で表現. (各関節の変形度等) • カメラ: – 回転 R∈R3x3, 平⾏移動 t∈R2、スケール s∈R • ⇛ 全て合わせて • Θが与えられた時, ⼈ X(θ, β) は で投影され る. 8
  • 9. 提案⼿法:Iterative 3D Regression with Feedback • Θを直接回帰で求めるのは難しいので, 残差計算し, Θを繰り返し更新する. – 3D回帰モジュールの⼊⼒に, 画像特徴量Φと現在のパラメータΘtを受取り, 残差ΔΘtを 出⼒する • 誤差 – 2Dの関節reprojection誤差 – 3Dのground truthデータがある時は, 以下の誤差関数を最⼩化 – Adversarial Loss(後述)により, 学習が⼈体3Dのマニフォールド上で進むように. 9
  • 10. 提案⼿法:Factorized Adversarial Prior • SMPLパラメータの真偽を判定する識別器. • Shape, Poseそれぞれに対して独⽴に識別器を⽤意. – Poseはさらに分解: • 各関節回転毎に識別器を⽤意. ⇛ 各関節の⾓度の制約を学習できる. • 全ての関節を⼊⼒にした, 全体観をチェックするような識別器も学習. ⇛ 全ての関節の回転⾓ を組み合わせた分布も学習 – ⇛ 識別器の⼊⼒が低次元になるため, 学習が安定する. • 関節の制約に関する事前知識は⼊れない(先⾏研究とは異なる) – 本⼿法では, 識別器によりデータドリブンに制約を学習. • エンコーダ E に関する⽬的関数: • 各識別器 Di の⽬的関数: 10
  • 11. 実験結果 • 3Dスケルトン以上のことをしているが、いかんせんground truthが存在し ないので、そのままの評価が難しい • ⇛ 今回の評価軸 – (標準的な)3D関節位置推定タスク – Body part segmentationタスク • データセット:MS COCO • 青は2d-3d対あり、赤は対無し 11
  • 12. 実験結果:3D 関節位置推定 • データセット – Human3.6M:研究環境で撮られた系の画像 – MPI-INF-3DHP:より多様なポーズ, ⼈の画像(in-the-wildにはまだ遠い) • 評価指標 – Mean Per Joint Position Error (MPJPE) – Reconstruction Error: 厳格なアライメントの後のMPJPE. グローバルミスアラインメ ントを除いて, 再構成された3Dスケルトンの質を評価. (⼈体的にありえないけど、誤差 最⼩化するようなトリッキーな推定を排除したもの(と理解)) • Human 3.6M 12
  • 13. 実験結果:3D 関節位置推定 • データセット:Human3.6M 13 Protocol2: 同じsubjectの訓練/テスト セットを使⽤し, テストは前からのカメ ラに限定 今回同様3Djoints+SMPLまで出⼒する既存⼿ 法. 2Dkeypointsを⼊⼒にもつのは異なる. 本⼿法が⼤差で勝った. Protocol1: 5subjects上で訓練して, 異 なる2subjects上でテスト. 今回同様関節位置のみならずキネマティックツ リーにおける関節⾓も出⼒する既存⼿法. ただ し, 事前知識として各関節の全27⾃由度しか与 えていない(本⼿法はshape含む85⾃由度) また, 既存⼿法ではスケールと⾻の⻑さの仮定 を与えている. 3Djoints+αで出⼒している⼿法には勝ってい て, 3Djointsのみのモデルとも良い勝負. 参考: http://vision.imar.ro/human3.6m/description.php
  • 15. 実験結果:3D 関節位置推定 • データセット:MPI-INF-3DHP – 室内、屋外で撮影されたもの. マーカを⽤いずにground truthを作成するので、 ground truthに⽐較的ノイズが含まれがち. – 指標 • MPJPE • Percentage of Correct Keypoints (PCK): threshold 150mm • Area Under the Curve (AUC): PCKの閾値の範囲でのAUC 15 3Djoints専⽤の既存⼿法といい勝負. After Rigid Alignmentでは上回る. ⇛ 既存⼿法では⼈体的な制約を無視し体歪ませて評価 値上げられるのに対して, 本⼿法のshape/poseの⽅が より意味的に正しいということでは
  • 16. 実験結果:Human Body Segmentation • 6つの⾝体部位+背景のセグメンテーション • 今回はセグメンテーションラベルは学習には⽤いていない 16 セグメンテーションデータを最適化対象として学習時 に利⽤した既存⼿法と、いい勝負.
  • 17. 実験結果:Without paired 3D Supervision • 関節位置推定, 3D再構築を⾏う既存⼿法では、3Dの教師データを必要とし た. • 本⼿法では、2D-to-3Dの対の教師データ無くとも、Adversarial Priorがあ れば既存のタスク設定においても、精度が出ることを⽰した。 17 ⾚が対データ無し Adversarial priorが無いとぐちゃぐちゃに.(ただしそれでも2D誤差は低い)