SlideShare a Scribd company logo
1 of 17
Download to read offline
VNect: Real-time 3D Human Pose
Estimation with a Single RGB Camera
Atsushi Kayama
M2 Kanzaki Takahashi Lab
書誌情報・選定理由
p VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
n Dushyant Mehta1,2 Srinath Sridhar1 Oleksandr Sotnychenko1 Helge Rhodin1 Mohammad Shafiei1,2
Hans-Peter Seidel1 Weipeng Xu1 Dan Casas3 Christian Theobalt1
- 1Max Planck Institute for Informatics (GVV Group) 2Saarland University 3Universidad Rey Juan Carlos
n Submitted on 3 May 2017
n CVPR2017, SIGRAPH 2017
p 選定理由
n リアルタイムで単一RGBカメラ映像から3次元関節位置座標推定を行うための工夫が記されている
- 先端人工知能論 Ⅱ のプロジェクトで実装して筋トレ回数カウント,姿勢評価に使いたかった.
p Excuse
n モデルの学習部分について記述が不明瞭な所が多く,所々推測をお話します
n 自身の理解不足でしたら申し訳ありません.
研究目的・関連研究
p RGB-D カメラ(Kinect etc) を用いた姿勢推定にはいくつか問題が存在
n 野外での日光の影響に寄る不安定性・機体は大きくエネルギー消費大・解像度,視野角が限られる
n なにより,普通のカメラほど安くはなく普及もしていない
p 単一RGBカメラを用いた3次元姿勢推定も2015年頃から出てきたが幾つか問題が存在
n オフラインで動かすことが前提
n 画像毎に三次元関節位置推定を行っており,時間変動が不安定
p 単一RGBカメラの映像から,屋内外関わらずリアルタイムで高精度な 3次元姿勢推定を行う
n 2DヒートマップとX,Y,Z 相対座標マップを CNNで推定することにより,画像情報をより考慮した3D姿勢
推定を行う
n BB の計算コストを下げることでリアルタイムに3D姿勢推定を行う
n 3D姿勢推定値にスケルトンフィッティングを行うことで座標値の時間変動を滑らかにする.
処理概要
1. CNN を用いて関節位置座標ヒートマップ作成,推定位置からバウンディングボックス更新
n H : 各関節の存在位置確率ヒートマップ
n X,Y,Z:各関節の pelvis に対する x,y,z 相対座標値マップ
n 例
- 右肩の二次元位置座標は H右肩が最大値となる座標 (r, c)
- 右肩の x 座標は X(r, c),y, z 座標も同様
n 姿勢推定開始時の数フレームは入力画像全体から直接関節座標推定
n 以降は,前のフレームで推定した2D関節位置座標からバウンディングボックスを作成・更新(計算コスト削
減)し,BB内での3D関節座標推定
2. 推定した関節座標の時間変動を平滑化した上で推定関節座標へスケルトンをフィッティング
n スケルトン関節位置座標を推定された関節位置座標との差分,並びにスケルトン関節座標の移動加速度がコス
ト関数を最小化する,スケルトンの位置 d ,関節角度 θ を求める
n スケルトンの関節座標を三次元関節位置座標として利用
CNNを用いた3次元関節位置座標推定
p ResNet 50 を基本構造として採用
n 5段目以降を変更
n Stride = 1, padding=’SAME’(推測)
p MPII, LSPデータセットを用いて2D姿勢推定を事前学習
n 重みの初期値は ImageNet 論文のもの(推測)
n H の出力部分のみ誤差を計算して学習(推測)
- ロスはH最大値を取る座標と GT座標のユークリッド距離(推測)
p Human3.6m, MPI-INF-3DHP を用いて3D姿勢推定を学習
CNNを用いた3次元関節位置座標推定
p 3D姿勢推定学習における ロス関数
n Pelvis に相対的な各関節 X, Y, Z 適切に出力できるように学習
- 2D関節座標のGTヒートマップは,関節座標を平均とする分散の小さいガウス分布で作成
- 関節が実際に存在する点付近での X,Y, Z 推定値のみ誤差評価
n 2D関節座標推定 H について の3次元データセットでの学習は特に触れられていない
CNNを用いた3次元関節位置座標推定
p Intermediate Supervision
n 2Dヒートマップ,3D関節相対座標マップを res4d, res5a の特徴量から推定して誤差逆伝播
- Res4d :(h/8, w/8, 1024), Res5a : (h/8, w/8, 1024) (推測)
- 最終的な出力と同じサイズにして誤差を計算すると考えると例えば,
kernel = 4x4, ch = 4xJ, stride = 2, padding = 1 のDeconv で (h/4, w/4, 4J) の出力作成,誤差逆伝播 ということにな
るか
p Kinematic parent relative location map
n Kinematic parent な関節 (例:手首<-> 肘)との位置差 Δ を推定して,各関節間の距離特徴 BLj を算出
3D姿勢推定の特徴量として用いる
n HGT 周りでのΔX,Y,Z の値の誤差を計算して逆伝播か(推測)
CNNを用いた3次元関節位置座標推定
p パラメータ更新アルゴリズム,学習率の調整
n AdaDelta 使用
n 学習率はイテレーション毎に減衰させる
n パラメータ等 詳細は不明
p Human3.6m, MPI-INF-DHPデータを予め人が中心に来るようにCropしたもので学習
n 学習データ例
n Human3.6m:右端上下画像
n MPI-INF-DHP:その他画像
- 背景,椅子,服装についてはクロマキー合成でデータ拡張
n スケールについては 0.7・1.0倍したものを作成
バウンディングボックスの作成
p 前フレームで推定した 2D関節座標からバウンディングボックスを更新することで再計算コスト削減
1. 推定した関節座標Kを全て含む最小の長方形を作成 -> 0.2H, 0.4W 幅だけ,長方形を拡大
2. BB を 2次元推定関節座標 の中央値へ水平にシフト,
3. BBの4隅を,前フレームの4隅の座標と重み付き平均(w = 0.75) した位置に修正
4. BBでCropした部分を368x368にリサイズ (スケール調整)
p 最初の数フレームは画像全体に対して Multi-scale prediction(slow),し,BBがない状態で推定した人物
の関節位置にBBを設定して以後の処理を継続
n 最初の数フレームはBBを設定しないで計算し,2D関節座標推定を平均して BBを定めるのか(推定)
スケルトンの3次元関節位置座標推定値へのフィッティング
p 2D 推定座標 Kt 並びに,3D推定 Pt
L の時間変動をフィルタリングで平滑化
n 1€フィルタ [Casiez et al 2012]
p Pt
L から計算できる関節間距離をスケルトンに揃える
n 関節角が変わらないように Pt の座標値を変更する.
p Pt
L との差,関節位置変動の加速度を最小化するようなスケルトンの姿勢 Pt
G を求める
n スケルトンの3次元座標 Pt
Gは,各関節の角度θ,ルート関節(骨盤)の3次元座標で決まる
- 骨の長さは予め決まっているため
n コスト関数を最小化するスケルトンの位置 d ,関節角度 θ を求める
p 求めたスケルトンの3D関節位置座標の時間変動に再び1Euro フィルターを適用
スケルトンの3次元関節位置座標推定値へのフィッティング
p Eproj
n 2次元関節座標推定値との差がなるべく小さくなるようにスケルトンのθ, dを調整する項
- Π は3次元座標の2次元空間への投射関数 ( z の値を除くだけ)
p EIk
n 3次元関節座標推定値との差がなるべく小さくなるようにスケルトンのθ, d を調整する項
- 元々 3次元座標推定値は pelvis相対値(RootRelative )なので,スケルトン関節座標値から root 座標 d を引いておく
p Esmooth
n スケルトンの3D関節座標変動の加速度罰則項
p Edepth
n スケルトンの3D関節座標 z軸(奥行き)方向の加速度罰則項
- 奥行方向は特に不安定になるので
p Levenberg-Marquardt法でコスト関数を最小化する θ, d を算出
p スケルトンフィッティングコスト関数
結果:他手法との定量的な比較
p 指標
n Percentage of Correct Keypoints metric ( 3D PCK @ 150mm)
- GT関節座標を中心とした半径 150mm の球内に推定した関節座標が存在する確率
n AUC of 3D PCK
- PCKにおいて,半径の値を変えいていった際の正解率の変化を表す曲線下領域の面積
n Mean Per Joing Position Error ( MPJPE )
- GT関節座標と推定した関節座標の距離平均
- 外れ値に影響されやすい
p 比較条件
n MPI-INF-3DHP のテストセットでの比較
- SOTA な手法(Mehta et al 2016)と14キーポイントで比較
- 頭,首,肩,肘,手首,尻,膝,足首
- 同じデータ Human3.6m, MPI-INF-3DHPで学習
- ResNet101, 50 両方を基盤アーキテクチャとして使用した際の結果を先行研究と比較
- バウンディングボックスは予め与えた上での推定結果を比較
- BB の推定は比較の際は行っていない
- スケルトンフィッティングする前の CNN で推定した 3D姿勢推定結果で比較
n Human3.6m での比較
- 複数のオフライン既存手法と比較
- プロトコルは MPI-INF-3DHPの場合とほぼ同じ
結果:他手法との定量的な比較 (MPI-INF-3DHP)
p ResNet50を用いた VNectの 精度 (PCK) が平均的に一番よかった
n ネットワークサイズが小さいことを考慮すると,その分学習の際にミニバッチサイズを大きく出来た(メ
モリに載せられる)ためより良い勾配の推定が出来たために精度が出たのではとのこと
p Stand/Walk, Exercise, Sports, Misc 等 self-Occlusion がないケースで既存よりも PCKが良い
n 三次元関節座標推定において,より画像の見た目をより考慮できているためであると主張
p VNect の方が,既存手法よりも外れ値の割合が多い
n スケルトンフィッティング,フィルタリングで除去これらの影響は抑えられる
結果:他手法との定量的な比較 (MPI-INF-3DHP)
p ResNet50を用いた VNectの 精度 (PCK) が平均的に一番よかった
n ネットワークサイズが小さいことを考慮すると,その分学習の際にミニバッチサイズを大きく出来た(メ
モリに載せられる)ためより良い勾配の推定が出来たために精度が出たのではとのこと
p Stand/Walk, Exercise, Sports, Misc 等 self-Occlusion がないケースで既存よりも PCKが良い
n 三次元関節座標推定において,より画像の見た目をより考慮できているためであると主張
p VNect の方が,既存手法よりも外れ値の割合が多い
n スケルトンフィッティング,フィルタリングで除去これらの影響は抑えられる
結果:他手法との定量的な比較 (Human3.6m)
p MPJPEを比較すると殆どの手法よりも VNect の方が推定精度がよかった
n VNect では時々大きく推定を失敗するケースが有り,そのためMPJPEが低下
- 多くは2D姿勢推定に失敗しているケース
結果:スケルトンフィッティングの効果並びに計算時間検証
p 3次元CNN推定+スケルトンフィティングをしたものが PCK @ 150mm ではベスト
n 1 Euro filter 処理を加えたものは,定性的には良くなっていた(動画)が,外れ値から元に戻るのがゆっく
りになるため,エラーが上昇してしまったと考えられる
n Raw CNN 3D output はジッタリングが多く存在
p VNect では30Hz リアルタイムでスムーズが関節位置の移動推定が可能に
n 6-core Xeon CPU 3.8GHz, single Titan X (Pascal architecture) GPU
n CNN計算 18ms, スケルトンフィッティング 7-10ms, 前処理・フィルタリング 5ms -> 全部で 33ms 程
手法の欠点・改善方法検討
p 欠点
n 二次元位置推定が失敗すると,それに引っ張られて三次元位置推定も失敗してしまう
- スケルトンのフィッティングによって緩和されてはいるものの
- 予測間の依存性を上げれば解消できるか
n Self occlusion が多い様な場合はうまく推定できない
n 速い動きの場合は,スケルトンのフィッティング最適化計算が収束しない場合がある
- 具体例はないが,加速度罰則項の影響が大きくなりすぎてしまうからか?
p 発展展望
n 複数人への対応
- BBを複数作成すれば対応可能だが,リアルタイム性が損なわれる
- Cao et al (2016) “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields” 等利用できるか
- 詳細は不明
n 2D姿勢推定精度を改善する事によって3D姿勢推定の精度を上げる
- HGTを用いて VNectに3D姿勢推定を PCK が 2.8向上した
- 例えば繰返しCNNを適用することで2D姿勢推定の精度を上げれば3D姿勢推定も良くなる
- Newell et al (2016) “Stacked Hourglass Networks for Human Pose Estimation”
p 応用の際に可能な改善方法
n 床の場所がわかっていれば,足と床に接触制約を設けることで安定化させられる
n VR用途であれば,HMDの場所情報を与えることで推定精度が上がる

More Related Content

What's hot

動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィNorishige Fukushima
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusionHiroki Mizuno
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門Yasunori Nihei
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2harmonylab
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A SurveyDeep Learning JP
 

What's hot (20)

動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Vision-Centric BEV Perception: A Survey
 

Similar to [DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcameraKyohei Unno
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozakiRCCSRENKEI
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCITomokiFurihara
 
20140726 関東cv勉強会
20140726 関東cv勉強会20140726 関東cv勉強会
20140726 関東cv勉強会M Kimura
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」Hironobu Fujiyoshi
 
打ち切りデータのヒストグラム
打ち切りデータのヒストグラム打ち切りデータのヒストグラム
打ち切りデータのヒストグラムKo Abe
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 

Similar to [DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera (9)

20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozaki
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
 
20140726 関東cv勉強会
20140726 関東cv勉強会20140726 関東cv勉強会
20140726 関東cv勉強会
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」
 
打ち切りデータのヒストグラム
打ち切りデータのヒストグラム打ち切りデータのヒストグラム
打ち切りデータのヒストグラム
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (10)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

  • 1. VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera Atsushi Kayama M2 Kanzaki Takahashi Lab
  • 2. 書誌情報・選定理由 p VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera n Dushyant Mehta1,2 Srinath Sridhar1 Oleksandr Sotnychenko1 Helge Rhodin1 Mohammad Shafiei1,2 Hans-Peter Seidel1 Weipeng Xu1 Dan Casas3 Christian Theobalt1 - 1Max Planck Institute for Informatics (GVV Group) 2Saarland University 3Universidad Rey Juan Carlos n Submitted on 3 May 2017 n CVPR2017, SIGRAPH 2017 p 選定理由 n リアルタイムで単一RGBカメラ映像から3次元関節位置座標推定を行うための工夫が記されている - 先端人工知能論 Ⅱ のプロジェクトで実装して筋トレ回数カウント,姿勢評価に使いたかった. p Excuse n モデルの学習部分について記述が不明瞭な所が多く,所々推測をお話します n 自身の理解不足でしたら申し訳ありません.
  • 3. 研究目的・関連研究 p RGB-D カメラ(Kinect etc) を用いた姿勢推定にはいくつか問題が存在 n 野外での日光の影響に寄る不安定性・機体は大きくエネルギー消費大・解像度,視野角が限られる n なにより,普通のカメラほど安くはなく普及もしていない p 単一RGBカメラを用いた3次元姿勢推定も2015年頃から出てきたが幾つか問題が存在 n オフラインで動かすことが前提 n 画像毎に三次元関節位置推定を行っており,時間変動が不安定 p 単一RGBカメラの映像から,屋内外関わらずリアルタイムで高精度な 3次元姿勢推定を行う n 2DヒートマップとX,Y,Z 相対座標マップを CNNで推定することにより,画像情報をより考慮した3D姿勢 推定を行う n BB の計算コストを下げることでリアルタイムに3D姿勢推定を行う n 3D姿勢推定値にスケルトンフィッティングを行うことで座標値の時間変動を滑らかにする.
  • 4. 処理概要 1. CNN を用いて関節位置座標ヒートマップ作成,推定位置からバウンディングボックス更新 n H : 各関節の存在位置確率ヒートマップ n X,Y,Z:各関節の pelvis に対する x,y,z 相対座標値マップ n 例 - 右肩の二次元位置座標は H右肩が最大値となる座標 (r, c) - 右肩の x 座標は X(r, c),y, z 座標も同様 n 姿勢推定開始時の数フレームは入力画像全体から直接関節座標推定 n 以降は,前のフレームで推定した2D関節位置座標からバウンディングボックスを作成・更新(計算コスト削 減)し,BB内での3D関節座標推定 2. 推定した関節座標の時間変動を平滑化した上で推定関節座標へスケルトンをフィッティング n スケルトン関節位置座標を推定された関節位置座標との差分,並びにスケルトン関節座標の移動加速度がコス ト関数を最小化する,スケルトンの位置 d ,関節角度 θ を求める n スケルトンの関節座標を三次元関節位置座標として利用
  • 5. CNNを用いた3次元関節位置座標推定 p ResNet 50 を基本構造として採用 n 5段目以降を変更 n Stride = 1, padding=’SAME’(推測) p MPII, LSPデータセットを用いて2D姿勢推定を事前学習 n 重みの初期値は ImageNet 論文のもの(推測) n H の出力部分のみ誤差を計算して学習(推測) - ロスはH最大値を取る座標と GT座標のユークリッド距離(推測) p Human3.6m, MPI-INF-3DHP を用いて3D姿勢推定を学習
  • 6. CNNを用いた3次元関節位置座標推定 p 3D姿勢推定学習における ロス関数 n Pelvis に相対的な各関節 X, Y, Z 適切に出力できるように学習 - 2D関節座標のGTヒートマップは,関節座標を平均とする分散の小さいガウス分布で作成 - 関節が実際に存在する点付近での X,Y, Z 推定値のみ誤差評価 n 2D関節座標推定 H について の3次元データセットでの学習は特に触れられていない
  • 7. CNNを用いた3次元関節位置座標推定 p Intermediate Supervision n 2Dヒートマップ,3D関節相対座標マップを res4d, res5a の特徴量から推定して誤差逆伝播 - Res4d :(h/8, w/8, 1024), Res5a : (h/8, w/8, 1024) (推測) - 最終的な出力と同じサイズにして誤差を計算すると考えると例えば, kernel = 4x4, ch = 4xJ, stride = 2, padding = 1 のDeconv で (h/4, w/4, 4J) の出力作成,誤差逆伝播 ということにな るか p Kinematic parent relative location map n Kinematic parent な関節 (例:手首<-> 肘)との位置差 Δ を推定して,各関節間の距離特徴 BLj を算出 3D姿勢推定の特徴量として用いる n HGT 周りでのΔX,Y,Z の値の誤差を計算して逆伝播か(推測)
  • 8. CNNを用いた3次元関節位置座標推定 p パラメータ更新アルゴリズム,学習率の調整 n AdaDelta 使用 n 学習率はイテレーション毎に減衰させる n パラメータ等 詳細は不明 p Human3.6m, MPI-INF-DHPデータを予め人が中心に来るようにCropしたもので学習 n 学習データ例 n Human3.6m:右端上下画像 n MPI-INF-DHP:その他画像 - 背景,椅子,服装についてはクロマキー合成でデータ拡張 n スケールについては 0.7・1.0倍したものを作成
  • 9. バウンディングボックスの作成 p 前フレームで推定した 2D関節座標からバウンディングボックスを更新することで再計算コスト削減 1. 推定した関節座標Kを全て含む最小の長方形を作成 -> 0.2H, 0.4W 幅だけ,長方形を拡大 2. BB を 2次元推定関節座標 の中央値へ水平にシフト, 3. BBの4隅を,前フレームの4隅の座標と重み付き平均(w = 0.75) した位置に修正 4. BBでCropした部分を368x368にリサイズ (スケール調整) p 最初の数フレームは画像全体に対して Multi-scale prediction(slow),し,BBがない状態で推定した人物 の関節位置にBBを設定して以後の処理を継続 n 最初の数フレームはBBを設定しないで計算し,2D関節座標推定を平均して BBを定めるのか(推定)
  • 10. スケルトンの3次元関節位置座標推定値へのフィッティング p 2D 推定座標 Kt 並びに,3D推定 Pt L の時間変動をフィルタリングで平滑化 n 1€フィルタ [Casiez et al 2012] p Pt L から計算できる関節間距離をスケルトンに揃える n 関節角が変わらないように Pt の座標値を変更する. p Pt L との差,関節位置変動の加速度を最小化するようなスケルトンの姿勢 Pt G を求める n スケルトンの3次元座標 Pt Gは,各関節の角度θ,ルート関節(骨盤)の3次元座標で決まる - 骨の長さは予め決まっているため n コスト関数を最小化するスケルトンの位置 d ,関節角度 θ を求める p 求めたスケルトンの3D関節位置座標の時間変動に再び1Euro フィルターを適用
  • 11. スケルトンの3次元関節位置座標推定値へのフィッティング p Eproj n 2次元関節座標推定値との差がなるべく小さくなるようにスケルトンのθ, dを調整する項 - Π は3次元座標の2次元空間への投射関数 ( z の値を除くだけ) p EIk n 3次元関節座標推定値との差がなるべく小さくなるようにスケルトンのθ, d を調整する項 - 元々 3次元座標推定値は pelvis相対値(RootRelative )なので,スケルトン関節座標値から root 座標 d を引いておく p Esmooth n スケルトンの3D関節座標変動の加速度罰則項 p Edepth n スケルトンの3D関節座標 z軸(奥行き)方向の加速度罰則項 - 奥行方向は特に不安定になるので p Levenberg-Marquardt法でコスト関数を最小化する θ, d を算出 p スケルトンフィッティングコスト関数
  • 12. 結果:他手法との定量的な比較 p 指標 n Percentage of Correct Keypoints metric ( 3D PCK @ 150mm) - GT関節座標を中心とした半径 150mm の球内に推定した関節座標が存在する確率 n AUC of 3D PCK - PCKにおいて,半径の値を変えいていった際の正解率の変化を表す曲線下領域の面積 n Mean Per Joing Position Error ( MPJPE ) - GT関節座標と推定した関節座標の距離平均 - 外れ値に影響されやすい p 比較条件 n MPI-INF-3DHP のテストセットでの比較 - SOTA な手法(Mehta et al 2016)と14キーポイントで比較 - 頭,首,肩,肘,手首,尻,膝,足首 - 同じデータ Human3.6m, MPI-INF-3DHPで学習 - ResNet101, 50 両方を基盤アーキテクチャとして使用した際の結果を先行研究と比較 - バウンディングボックスは予め与えた上での推定結果を比較 - BB の推定は比較の際は行っていない - スケルトンフィッティングする前の CNN で推定した 3D姿勢推定結果で比較 n Human3.6m での比較 - 複数のオフライン既存手法と比較 - プロトコルは MPI-INF-3DHPの場合とほぼ同じ
  • 13. 結果:他手法との定量的な比較 (MPI-INF-3DHP) p ResNet50を用いた VNectの 精度 (PCK) が平均的に一番よかった n ネットワークサイズが小さいことを考慮すると,その分学習の際にミニバッチサイズを大きく出来た(メ モリに載せられる)ためより良い勾配の推定が出来たために精度が出たのではとのこと p Stand/Walk, Exercise, Sports, Misc 等 self-Occlusion がないケースで既存よりも PCKが良い n 三次元関節座標推定において,より画像の見た目をより考慮できているためであると主張 p VNect の方が,既存手法よりも外れ値の割合が多い n スケルトンフィッティング,フィルタリングで除去これらの影響は抑えられる
  • 14. 結果:他手法との定量的な比較 (MPI-INF-3DHP) p ResNet50を用いた VNectの 精度 (PCK) が平均的に一番よかった n ネットワークサイズが小さいことを考慮すると,その分学習の際にミニバッチサイズを大きく出来た(メ モリに載せられる)ためより良い勾配の推定が出来たために精度が出たのではとのこと p Stand/Walk, Exercise, Sports, Misc 等 self-Occlusion がないケースで既存よりも PCKが良い n 三次元関節座標推定において,より画像の見た目をより考慮できているためであると主張 p VNect の方が,既存手法よりも外れ値の割合が多い n スケルトンフィッティング,フィルタリングで除去これらの影響は抑えられる
  • 15. 結果:他手法との定量的な比較 (Human3.6m) p MPJPEを比較すると殆どの手法よりも VNect の方が推定精度がよかった n VNect では時々大きく推定を失敗するケースが有り,そのためMPJPEが低下 - 多くは2D姿勢推定に失敗しているケース
  • 16. 結果:スケルトンフィッティングの効果並びに計算時間検証 p 3次元CNN推定+スケルトンフィティングをしたものが PCK @ 150mm ではベスト n 1 Euro filter 処理を加えたものは,定性的には良くなっていた(動画)が,外れ値から元に戻るのがゆっく りになるため,エラーが上昇してしまったと考えられる n Raw CNN 3D output はジッタリングが多く存在 p VNect では30Hz リアルタイムでスムーズが関節位置の移動推定が可能に n 6-core Xeon CPU 3.8GHz, single Titan X (Pascal architecture) GPU n CNN計算 18ms, スケルトンフィッティング 7-10ms, 前処理・フィルタリング 5ms -> 全部で 33ms 程
  • 17. 手法の欠点・改善方法検討 p 欠点 n 二次元位置推定が失敗すると,それに引っ張られて三次元位置推定も失敗してしまう - スケルトンのフィッティングによって緩和されてはいるものの - 予測間の依存性を上げれば解消できるか n Self occlusion が多い様な場合はうまく推定できない n 速い動きの場合は,スケルトンのフィッティング最適化計算が収束しない場合がある - 具体例はないが,加速度罰則項の影響が大きくなりすぎてしまうからか? p 発展展望 n 複数人への対応 - BBを複数作成すれば対応可能だが,リアルタイム性が損なわれる - Cao et al (2016) “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields” 等利用できるか - 詳細は不明 n 2D姿勢推定精度を改善する事によって3D姿勢推定の精度を上げる - HGTを用いて VNectに3D姿勢推定を PCK が 2.8向上した - 例えば繰返しCNNを適用することで2D姿勢推定の精度を上げれば3D姿勢推定も良くなる - Newell et al (2016) “Stacked Hourglass Networks for Human Pose Estimation” p 応用の際に可能な改善方法 n 床の場所がわかっていれば,足と床に接触制約を設けることで安定化させられる n VR用途であれば,HMDの場所情報を与えることで推定精度が上がる