SlideShare a Scribd company logo
1 of 36
DLゼミ (論文紹介)
Ego-Body Pose Estimation
via Ego-Head Pose Estimation
北海道大学大学院 情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
博士後期課程2年 森 雄斗
2023/05/01
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
Ego-Body Pose Estimation via Ego-Head Pose
Estimation
著者
Jiaman Li, C. Karen Liu, Jiajun Wu
Stanford University
発表
CVPR2023 (受賞候補: 0.51% of accepted papers)
URL
プロジェクトページ
https://lijiaman.github.io/projects/egoego/
論文 (arXiv)
https://arxiv.org/abs/2212.04636
デモ動画
https://www.youtube.com/watch?v=Dg66DY2sGus
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 3
一人称視点映像 (egocentric video)を用いた
人間の3Dモーション生成手法 EgoEgo の提案
中間表現として自身の頭部情報 (Ego-head)を使用
大規模で汎用的なSynthetic Datasetの自動生成
従来データセットと新規データセットで現在のSoTAより優れた性能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 4
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
分野: 3D human motionの推論 5
一人称視点映像から3次元の人間の動きを推定
人間の行動理解に重要な役割
VR/ARにおいて応用が可能
Ground truthが一意に定まらない場合がある
https://lijiaman.github.io/projects/egoego/
一人称映像
(Egocentric video)
3次元の人間の動き
(3D human motion)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
タスクの難しさ 6
一人称カメラに自分の動きは映らない
学習に必要なデータセットが大規模
連動した一人称視点と3D human posesが必要
大規模のデータセットは存在しない
小規模かつlab-likeなデータセット[1]はすでにある
[1] Zheng, Yang, et al. "Gimo: Gaze-informed human motion prediction in context." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022,
Proceedings, Part XIII. Cham: Springer Nature Switzerland, 2022.
GIMOの3Dシーン
EgoEgo on GIMO
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法のキー 7
Head Poseを使った問題の分離
それぞれの既存データセットが使える
(1) 一人称映像 → Head pose (2) Head pose →3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 8
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究: 一人称映像以外を使った例 9
センサーを使ったmotion推定
TransPose[1]: IMUとtransformerモデルの活用
3次元映像を使ったmotion推定
Self-supervised Learning of Motion Capture[2]
[1] Yi, Xinyu, Yuxiao Zhou, and Feng Xu. "Transpose: Real-time 3d human translation and pose estimation with six inertial sensors." ACM Transactions on Graphics (TOG)
40.4 (2021): 1-13.
[2] Tung, Hsiao-Yu, et al. "Self-supervised learning of motion capture." Advances in Neural Information Processing Systems 30 (2017).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究: Kinpoly[1] 10
一人称映像を用いたmotion推定手法
運動学と動力学を統合し、妥当なモーションを推定
ただし、汎用的なシーンを扱うことができない
[1] Luo, Zhengyi, et al. "Dynamics-regulated kinematic policy for egocentric pose estimation." Advances in Neural Information
Processing Systems 34 (2021): 25019-25032.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 11
(1) 一人称映像 → Head pose (2) Head pose →3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 12
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(1) 一人称映像 → Head pose の課題 13
解くべきタスクはロボットや自動運転における
Localization problemを同じ
正面映像を用いた自身の位置決め
しかし、通常の単眼SLAM法[1]では適用不可能
重力方向が未知
推定結果と現実空間のスケールが不一致
回転運動に対する精度低下
[1] Teed, Zachary, and Jia Deng. "Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras." Advances in neural
information processing systems 34 (2021): 16558-16569.
撮影場所の推定結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(1) 一人称映像 → Head pose の解決策 14
Gravity Net
既存手法の単眼SLAMの結果を用いた重力方向
推定モデル
Head Net
オプティカルフロー特徴を用いた頭部の回転と
並進距離を推定するモデル
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Gravity Net 15
連続したhead poses ℎ1, ℎ1, … , ℎ𝑇 から重力方向 𝑔 ∈ ℝ3
を予測
ℎ𝑡 は6次元の回転行列
𝑡 stepの回転行列𝑂𝑡としたとき、𝑂𝑡−1
−1
𝑂𝑡で計算可能
学習は大規模モーションキャプチャデータセット
AMASS[1]を使用
正確な重心方向𝑔𝑐 = 0, 0, −1 𝑇を持つ
ランダムスケールとランダム回転で異なる分布を獲得
予測値𝑔と𝑔𝑐を一致させるための回転行列𝑅𝑔を
transformer-base[2]のモデルで学習
𝑇: シーケンスの合計数
t: 特定のシーケンス
[1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as
surface shapes. In ICCV, 2019. 3, 5
[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention
is all you need. In NeurIPS, 2017. 3
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Head Net 16
オプティカルフロー特徴量𝑜1, … , 𝑜𝑇 から
距離𝑑1, … , 𝑑𝑇 と 頭部回転 𝑹1, … , 𝑹𝑇 を予測
𝑜𝑡 は事前学習したResNet-18で抽出
モデルアーキテクチャはGravity Netと同じ
損失関数 ℒ = ℒ𝑑𝑖𝑠𝑡 + ℒ𝑣𝑒𝑙 + ℒ𝑟𝑜𝑡
ℒ𝑑𝑖𝑠𝑡: 並進距離のL1 loss
ℒ𝑣𝑒𝑙: 角速度のL1 loss
ℒ𝑟𝑜𝑡: 回転損失 (ℒ𝑟𝑜𝑡 = 𝑹𝑝𝑟𝑒𝑑𝑹𝑔𝑡
𝑇
− 𝑰
1
)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
補足: オプティカルフロー 17
画像の各画素がその方向にどれだけ動いたの
かを求めた値
出典: ドローンマニアックス, https://toy-drone.com/dorone-opticalflow,
ThoghChildren, http://www.thothchildren.com/chapter/5bcc61fb51d9305189030d50, Accessed 2023/4/29
概要図 車のオプティカルフロー
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 18
(1) 一人称映像 → Head pose (2) Head pose →3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 19
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(2) head pose → 3D human motion 20
異なる全身動作が同じ頭部姿勢をとる可能性
あり
一対一対応ではない
条件付き生成モデルを使用
拡散モデルを導入
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3D body poseの定義 21
body pose 𝑋𝑡 ∈ ℝ𝐷
は以下を含む
グローバル座標の関節位置: ℝ𝑗×3
グローバル座標の関節回転: ℝ𝑗×6
スケルトンはSMPLモデル[1]を採用
関節数 𝑗 は22個
[1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned
multiperson linear model. ACM Transactions on Graphics (TOG), 34(6):1–16, 2015.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
拡散モデル - 順拡散過程 22
Forward diffusion process
元データ 𝑥0 にガウシアンノイズを徐々に追加
マルコフ連鎖で定義可能
𝛽𝑛: 時刻𝑛のノイズの強さ
𝑥𝑛 の分布は𝑥𝑛−1に依存 (マルコフ性)
正規分布に従ってノイズを付与
平均 分散
{𝑥𝑖}𝑡=1
𝑇
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
拡散モデル - 逆拡散過程 23
Reverse diffusion process
拡散プロセスを逆転させて
head-poseを条件とした3D human motionを生成
学習された平均と分散を持つマルコフ連鎖として
近似可能
𝜃: ニューラルネットワークのパラメータ
𝑐: head-poseの条件
𝜇𝜃: 学習した平均
𝛼𝑛, 𝛼𝑛: 固定パラメータ
𝑥𝜃(𝑥𝑛, 𝑛, 𝑐): 𝑥0の予測値
分散は単純化
損失関数 (復元度合い)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
拡散モデル - 逆拡散過程 24
Reverse diffusion process
拡散プロセスを逆転させて
head-poseを条件とした3D human motionを生成
学習された平均と分散を持つマルコフ連鎖として
近似可能
𝑐: head-poseの条件
ノイズ除去ネットワークのアーキテクチャ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 25
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Synthetic Data Generation 26
一人称映像と3D human motionが対になった大規模デー
タセットの自動生成
大規模モーションキャプチャデータセットAMASS[1]と
3DシーンデータセットReplica[2]を使用
足が床に接触しているランダムな場所に配置
次のシーケンスの各姿勢について、Wangら[3]の透過損失を計算
※ 物体への貫通
生成されたデータセット AMASS-Replica-Ego-Syn (ARES)
[1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019.
[2] Julian Straub, Thomas Whelan, Lingni Ma, Yufan Chen, Erik Wijmans, Simon Green, Jakob J Engel, Raul Mur-Artal, Carl Ren, Shobhit Verma, et al. The Replica dataset: A digital
replica of indoor spaces. arXiv preprint arXiv:1906.05797, 2019
[3] Jiashun Wang, Huazhe Xu, Jingwei Xu, Sifei Liu, and Xiaolong Wang. Synthesizing long-term 3D human motion and interaction in 3D scenes. In CVPR, 2021
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目次 27
3D human motion 分野の背景
関連研究
提案手法
(1) 一人称映像 → head pose
(2) head pose → 3d human motion
Synthetic データセット
実験
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - データセット 28
AMASS-Replica-Ego-Syn (ARES)
一人称映像と3D human motionの対のデータセット
18シーンで約15時間
AMASS
モーションキャプチャのデータセット
約45時間
Kinploy-MoCap
一人称映像と3D human motionの対のデータセット
約80分
研究室シーンのみ
Kinploy-RealWorld
一人称映像と3D human motionの対のデータセット
iPhone ARKitで撮影
182シーケンス, 50k frames
GIMO
一人称映像と3D human motionの対のデータセット
Hololens, iPhone 12, IMUベースのmocapスーツ
計19シーン
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 評価指標 29
Head Orientation Error (𝑂ℎ𝑒𝑎𝑑)
回転行列 R𝑝𝑟𝑒𝑑𝑅𝑔𝑡
−1
− 𝐼
2
の差のフロベニウスノルム
Head Translation Error (𝑇ℎ𝑒𝑎𝑑)
2つの軌跡の平均ユークリッド距離 (mm)
MPJPE
関節ごとの平均位置誤差 (mm)
Accel
予測された関節位置とground truthの関節位置の
加速度の差 (𝑚𝑚 𝑠2)
FS
足の滑りの指標 (NeMF[1]を参照)
[1] Chengan He, Jun Saito, James Zachary, Holly Rushmeier, and Yi Zhou. NeMF: Neural motion fields for kinematic animation. In NeurIPS, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - ベースライン 30
PoseReg[1]
オプティカルフロー特徴のシーケンスを入力
LSTMモデルで各ステップのposeを推定
Kinpoly-OF[2]
オプティカルフローの特徴から全身運動を推定
ステップごとの回帰モデルを提案
[1] Ye Yuan and Kris Kitani. Ego-pose estimation and forecasting as real-time PD control. In ICCV, 2019
[2] Zhengyi Luo, Ryo Hachiuma, Ye Yuan, and Kris Kitani. Dynamics-regulated kinematic policy for egocentric pose estimation. In NeurIPS, 2021.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 結果 (一人称映像 → 3D human motion) 31
すべての評価指標でベースライン手法より優れた結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 結果 (一人称映像 → Head pose) 32
頭部回転予測
ARESで良い結果
リアルキャプチャデータでは同等の結果
データが少ないため今後は改善される
頭部軌跡
重力の整列がよく作用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験 - 結果 (head pose → 3D human motion) 33
ベースライン
AvatarPoser: 手のpose情報を取り除いて比較
Kinploy-Head: そのまま
拡散モデルで高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Ablation Studies – 頭部姿勢推定の各要素 34
重力方向を揃えるための回転と
学習したスケールは有効
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Ablation Studies – 人間の知覚評価 35
どちらの結果が「より確からしいか」
Amazon Mechanical Turk 20人の評価
ベースライン手法より優れた評価
一人称映像 → 3D human motion Head-pose → 3D human motion
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 36
一人称視点映像 (egocentric video)を用いた
人間の3Dモーション生成手法 EgoEgo の提案
中間表現として自身の頭部情報 (Ego-head)を使用
大規模で汎用的なSynthetic Datasetの自動生成
従来データセットと新規データセットで現在のSoTAより優れた性能

More Related Content

What's hot

【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment AnythingDeep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争Yosuke Shinya
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...Toru Tamaki
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
ピンホールカメラモデル
ピンホールカメラモデルピンホールカメラモデル
ピンホールカメラモデルShohei Mori
 

What's hot (20)

【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
LiDARとSensor Fusion
LiDARとSensor FusionLiDARとSensor Fusion
LiDARとSensor Fusion
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
ピンホールカメラモデル
ピンホールカメラモデルピンホールカメラモデル
ピンホールカメラモデル
 

Similar to DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...harmonylab
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matchingharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedbackharmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2Kuniyuki Takahashi
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理SIGDance
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 

Similar to DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation (20)

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理
 
ダンス情報処理
ダンス情報処理ダンス情報処理
ダンス情報処理
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

  • 1. DLゼミ (論文紹介) Ego-Body Pose Estimation via Ego-Head Pose Estimation 北海道大学大学院 情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程2年 森 雄斗 2023/05/01
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 タイトル Ego-Body Pose Estimation via Ego-Head Pose Estimation 著者 Jiaman Li, C. Karen Liu, Jiajun Wu Stanford University 発表 CVPR2023 (受賞候補: 0.51% of accepted papers) URL プロジェクトページ https://lijiaman.github.io/projects/egoego/ 論文 (arXiv) https://arxiv.org/abs/2212.04636 デモ動画 https://www.youtube.com/watch?v=Dg66DY2sGus
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 3 一人称視点映像 (egocentric video)を用いた 人間の3Dモーション生成手法 EgoEgo の提案 中間表現として自身の頭部情報 (Ego-head)を使用 大規模で汎用的なSynthetic Datasetの自動生成 従来データセットと新規データセットで現在のSoTAより優れた性能
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 4 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 分野: 3D human motionの推論 5 一人称視点映像から3次元の人間の動きを推定 人間の行動理解に重要な役割 VR/ARにおいて応用が可能 Ground truthが一意に定まらない場合がある https://lijiaman.github.io/projects/egoego/ 一人称映像 (Egocentric video) 3次元の人間の動き (3D human motion)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. タスクの難しさ 6 一人称カメラに自分の動きは映らない 学習に必要なデータセットが大規模 連動した一人称視点と3D human posesが必要 大規模のデータセットは存在しない 小規模かつlab-likeなデータセット[1]はすでにある [1] Zheng, Yang, et al. "Gimo: Gaze-informed human motion prediction in context." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XIII. Cham: Springer Nature Switzerland, 2022. GIMOの3Dシーン EgoEgo on GIMO
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法のキー 7 Head Poseを使った問題の分離 それぞれの既存データセットが使える (1) 一人称映像 → Head pose (2) Head pose →3D human motion
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 8 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究: 一人称映像以外を使った例 9 センサーを使ったmotion推定 TransPose[1]: IMUとtransformerモデルの活用 3次元映像を使ったmotion推定 Self-supervised Learning of Motion Capture[2] [1] Yi, Xinyu, Yuxiao Zhou, and Feng Xu. "Transpose: Real-time 3d human translation and pose estimation with six inertial sensors." ACM Transactions on Graphics (TOG) 40.4 (2021): 1-13. [2] Tung, Hsiao-Yu, et al. "Self-supervised learning of motion capture." Advances in Neural Information Processing Systems 30 (2017).
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究: Kinpoly[1] 10 一人称映像を用いたmotion推定手法 運動学と動力学を統合し、妥当なモーションを推定 ただし、汎用的なシーンを扱うことができない [1] Luo, Zhengyi, et al. "Dynamics-regulated kinematic policy for egocentric pose estimation." Advances in Neural Information Processing Systems 34 (2021): 25019-25032.
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 11 (1) 一人称映像 → Head pose (2) Head pose →3D human motion
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 12 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (1) 一人称映像 → Head pose の課題 13 解くべきタスクはロボットや自動運転における Localization problemを同じ 正面映像を用いた自身の位置決め しかし、通常の単眼SLAM法[1]では適用不可能 重力方向が未知 推定結果と現実空間のスケールが不一致 回転運動に対する精度低下 [1] Teed, Zachary, and Jia Deng. "Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras." Advances in neural information processing systems 34 (2021): 16558-16569. 撮影場所の推定結果
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (1) 一人称映像 → Head pose の解決策 14 Gravity Net 既存手法の単眼SLAMの結果を用いた重力方向 推定モデル Head Net オプティカルフロー特徴を用いた頭部の回転と 並進距離を推定するモデル
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Gravity Net 15 連続したhead poses ℎ1, ℎ1, … , ℎ𝑇 から重力方向 𝑔 ∈ ℝ3 を予測 ℎ𝑡 は6次元の回転行列 𝑡 stepの回転行列𝑂𝑡としたとき、𝑂𝑡−1 −1 𝑂𝑡で計算可能 学習は大規模モーションキャプチャデータセット AMASS[1]を使用 正確な重心方向𝑔𝑐 = 0, 0, −1 𝑇を持つ ランダムスケールとランダム回転で異なる分布を獲得 予測値𝑔と𝑔𝑐を一致させるための回転行列𝑅𝑔を transformer-base[2]のモデルで学習 𝑇: シーケンスの合計数 t: 特定のシーケンス [1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019. 3, 5 [2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017. 3
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Head Net 16 オプティカルフロー特徴量𝑜1, … , 𝑜𝑇 から 距離𝑑1, … , 𝑑𝑇 と 頭部回転 𝑹1, … , 𝑹𝑇 を予測 𝑜𝑡 は事前学習したResNet-18で抽出 モデルアーキテクチャはGravity Netと同じ 損失関数 ℒ = ℒ𝑑𝑖𝑠𝑡 + ℒ𝑣𝑒𝑙 + ℒ𝑟𝑜𝑡 ℒ𝑑𝑖𝑠𝑡: 並進距離のL1 loss ℒ𝑣𝑒𝑙: 角速度のL1 loss ℒ𝑟𝑜𝑡: 回転損失 (ℒ𝑟𝑜𝑡 = 𝑹𝑝𝑟𝑒𝑑𝑹𝑔𝑡 𝑇 − 𝑰 1 )
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 補足: オプティカルフロー 17 画像の各画素がその方向にどれだけ動いたの かを求めた値 出典: ドローンマニアックス, https://toy-drone.com/dorone-opticalflow, ThoghChildren, http://www.thothchildren.com/chapter/5bcc61fb51d9305189030d50, Accessed 2023/4/29 概要図 車のオプティカルフロー
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 18 (1) 一人称映像 → Head pose (2) Head pose →3D human motion
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 19 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (2) head pose → 3D human motion 20 異なる全身動作が同じ頭部姿勢をとる可能性 あり 一対一対応ではない 条件付き生成モデルを使用 拡散モデルを導入
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3D body poseの定義 21 body pose 𝑋𝑡 ∈ ℝ𝐷 は以下を含む グローバル座標の関節位置: ℝ𝑗×3 グローバル座標の関節回転: ℝ𝑗×6 スケルトンはSMPLモデル[1]を採用 関節数 𝑗 は22個 [1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, and Michael J. Black. SMPL: A skinned multiperson linear model. ACM Transactions on Graphics (TOG), 34(6):1–16, 2015.
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 拡散モデル - 順拡散過程 22 Forward diffusion process 元データ 𝑥0 にガウシアンノイズを徐々に追加 マルコフ連鎖で定義可能 𝛽𝑛: 時刻𝑛のノイズの強さ 𝑥𝑛 の分布は𝑥𝑛−1に依存 (マルコフ性) 正規分布に従ってノイズを付与 平均 分散 {𝑥𝑖}𝑡=1 𝑇
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 拡散モデル - 逆拡散過程 23 Reverse diffusion process 拡散プロセスを逆転させて head-poseを条件とした3D human motionを生成 学習された平均と分散を持つマルコフ連鎖として 近似可能 𝜃: ニューラルネットワークのパラメータ 𝑐: head-poseの条件 𝜇𝜃: 学習した平均 𝛼𝑛, 𝛼𝑛: 固定パラメータ 𝑥𝜃(𝑥𝑛, 𝑛, 𝑐): 𝑥0の予測値 分散は単純化 損失関数 (復元度合い)
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 拡散モデル - 逆拡散過程 24 Reverse diffusion process 拡散プロセスを逆転させて head-poseを条件とした3D human motionを生成 学習された平均と分散を持つマルコフ連鎖として 近似可能 𝑐: head-poseの条件 ノイズ除去ネットワークのアーキテクチャ
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 25 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Synthetic Data Generation 26 一人称映像と3D human motionが対になった大規模デー タセットの自動生成 大規模モーションキャプチャデータセットAMASS[1]と 3DシーンデータセットReplica[2]を使用 足が床に接触しているランダムな場所に配置 次のシーケンスの各姿勢について、Wangら[3]の透過損失を計算 ※ 物体への貫通 生成されたデータセット AMASS-Replica-Ego-Syn (ARES) [1] Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. AMASS: Archive of motion capture as surface shapes. In ICCV, 2019. [2] Julian Straub, Thomas Whelan, Lingni Ma, Yufan Chen, Erik Wijmans, Simon Green, Jakob J Engel, Raul Mur-Artal, Carl Ren, Shobhit Verma, et al. The Replica dataset: A digital replica of indoor spaces. arXiv preprint arXiv:1906.05797, 2019 [3] Jiashun Wang, Huazhe Xu, Jingwei Xu, Sifei Liu, and Xiaolong Wang. Synthesizing long-term 3D human motion and interaction in 3D scenes. In CVPR, 2021
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目次 27 3D human motion 分野の背景 関連研究 提案手法 (1) 一人称映像 → head pose (2) head pose → 3d human motion Synthetic データセット 実験
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - データセット 28 AMASS-Replica-Ego-Syn (ARES) 一人称映像と3D human motionの対のデータセット 18シーンで約15時間 AMASS モーションキャプチャのデータセット 約45時間 Kinploy-MoCap 一人称映像と3D human motionの対のデータセット 約80分 研究室シーンのみ Kinploy-RealWorld 一人称映像と3D human motionの対のデータセット iPhone ARKitで撮影 182シーケンス, 50k frames GIMO 一人称映像と3D human motionの対のデータセット Hololens, iPhone 12, IMUベースのmocapスーツ 計19シーン
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 評価指標 29 Head Orientation Error (𝑂ℎ𝑒𝑎𝑑) 回転行列 R𝑝𝑟𝑒𝑑𝑅𝑔𝑡 −1 − 𝐼 2 の差のフロベニウスノルム Head Translation Error (𝑇ℎ𝑒𝑎𝑑) 2つの軌跡の平均ユークリッド距離 (mm) MPJPE 関節ごとの平均位置誤差 (mm) Accel 予測された関節位置とground truthの関節位置の 加速度の差 (𝑚𝑚 𝑠2) FS 足の滑りの指標 (NeMF[1]を参照) [1] Chengan He, Jun Saito, James Zachary, Holly Rushmeier, and Yi Zhou. NeMF: Neural motion fields for kinematic animation. In NeurIPS, 2022.
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - ベースライン 30 PoseReg[1] オプティカルフロー特徴のシーケンスを入力 LSTMモデルで各ステップのposeを推定 Kinpoly-OF[2] オプティカルフローの特徴から全身運動を推定 ステップごとの回帰モデルを提案 [1] Ye Yuan and Kris Kitani. Ego-pose estimation and forecasting as real-time PD control. In ICCV, 2019 [2] Zhengyi Luo, Ryo Hachiuma, Ye Yuan, and Kris Kitani. Dynamics-regulated kinematic policy for egocentric pose estimation. In NeurIPS, 2021.
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 結果 (一人称映像 → 3D human motion) 31 すべての評価指標でベースライン手法より優れた結果
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 結果 (一人称映像 → Head pose) 32 頭部回転予測 ARESで良い結果 リアルキャプチャデータでは同等の結果 データが少ないため今後は改善される 頭部軌跡 重力の整列がよく作用
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験 - 結果 (head pose → 3D human motion) 33 ベースライン AvatarPoser: 手のpose情報を取り除いて比較 Kinploy-Head: そのまま 拡散モデルで高精度を記録
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Ablation Studies – 頭部姿勢推定の各要素 34 重力方向を揃えるための回転と 学習したスケールは有効
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Ablation Studies – 人間の知覚評価 35 どちらの結果が「より確からしいか」 Amazon Mechanical Turk 20人の評価 ベースライン手法より優れた評価 一人称映像 → 3D human motion Head-pose → 3D human motion
  • 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 36 一人称視点映像 (egocentric video)を用いた 人間の3Dモーション生成手法 EgoEgo の提案 中間表現として自身の頭部情報 (Ego-head)を使用 大規模で汎用的なSynthetic Datasetの自動生成 従来データセットと新規データセットで現在のSoTAより優れた性能

Editor's Notes

  1. 回転行列は直行行列であるから
  2. penetration loss → 元論文に該当箇所なし (異なる語で言い換えてる可能性あり)
  3. フロベニウスノルム = 行列の全成分を一列に並べたベクトルとみなしたときのベクトルの長さ