SlideShare a Scribd company logo
1 of 41
Download to read offline
Fusion4D: Real-time
Performance Capture of
Challenging Scenes
Mingsong Dou Sameh Khamis Yury Degtyarev Philip
Davidson* Sean Ryan Fanello* Adarsh Kowdle* Sergio Orts
Escolano* Christoph Rhemann* David Kim Jonathan Taylor
Pushmeet Kohli Vladimir Tankovich Shahram Izadi†
Microsoft Research
Hideki Iwasawa : May 27 2018
第1回 3D勉強会@関東
第1回 3D勉強会@ 1
SIGGRAPH 2016
Free View Point Video
多視点カメラでReal Time 3次元復元
第1回 3D勉強会@ 2
カメラのない視点からでも自由に観ることが出来る映像
2020年にはオリンピックが自由視点で観れるかも
Motivation
• 自由視点映像システムを実装してみたが、精度が出なかった
• 元々の距離画像の精度を向上させる方向を模索していた
• Fusion4Dのデモ映像を観て驚いた
第1回 3D勉強会@ 3
Comparison Environment
第1回 3D勉強会@ 4
Fusion4D Our Demo
Comparison Demo
第1回 3D勉強会@ 5
Fusion4D Our Demo
Hardware
・3台1組のカメラ
(IRカメラ×2, RGBカメラ×1)
各 1M ピクセル
・3台構成のカメラを8組
・コンピュータ × 12
CPU Intel Core i7, 3.4GHz CPU
メモリ 16GB
GPU NVIDIA Titan X × 2
・マスター コンピュータ × 1
CPU Intel Core i7, 3.4GHz CPU
メモリ 16GB
GPU NVIDIA Titan X
第1回 3D勉強会@ 6
システム概要
第1回 3D勉強会@ 7
Nonrigid Motion Field Estimation
• N枚のDepthmapによるTSDFデータ
• RawDepthmapに合わせてモデルを変形させるED-Model
• 最適化の為のエネルギー関数 E(G)
第1回 3D勉強会@ 8
Deformation field
• 𝒯 𝑣 𝑚; 𝐺 = 𝑅 σ 𝑘∈𝑆 𝑚
𝑤 𝑘
𝑚
𝐴 𝑘 𝑣 − 𝑔 𝑘 + 𝑔 𝑘 + 𝑡 𝑘 + 𝑇
• 𝒯⊥
𝑛 𝑚; 𝐺 = 𝑅 σ 𝑘∈𝑆 𝑚
𝑤 𝑘
𝑚
𝐴 𝑘
−𝑇
𝑛 𝑚
𝑤 𝑘
𝑚
=
1
𝑧
𝑒𝑥𝑝
𝑣 𝑚−𝑔 𝑘
2
2𝜎2
Global Rotation Global TranslationLocal Rotation Local RotationED Node
TSDFによって求められたPoint
【 SUMNER, R. W., SCHMID, J., AND PAULY, M. 2007. Embedded
deformation for shape manipulation. ACM TOG 26, 3, 80. 】
ノードに対して近い点は大きく影響を受ける
ノードに対して遠い点は影響を受けにくい
EDノードは4cm毎にサンプリングされており合計2K程とのこと
第1回 3D勉強会@ 9
Truncated Signed Distance Function(TSDF)
• 符号付きのVoxel
• 物体の表面を0とし、表面から離れる程値が大きくなる
• voxelの絶対値は一定以上は大きくならない
「セルの値」 = 「センサーから表面までのDepth値」 – 「センサーからVoxelまでの
距離」
第1回 3D勉強会@ 10
TSDF(複数視点)
• 複数視点から取得したDepthMapをTSDFで合わせこむ
※実装では体積分解能を4mmとしているとのこと第1回 3D勉強会@ 11
メッシュの抽出
• TSDFデータからMarching cubes を用いてメッシュを抽出する
【 Zhongjie Long, Kouki Nagamune. Submitted on 28 Sep 2015. A Marching Cubes Algorithm: Application for Three-dimensional Surface Reconstruction Based on Endoscope and Optical Fiber】
※実装では約250Kの頂点を持つメッシュ
を抽出しているとのこと
第1回 3D勉強会@ 12
Energey Function
• 𝐸 𝐺 = 𝜆 𝑑𝑎𝑡𝑎 𝐸 𝑑𝑎𝑡𝑎 𝐺 + 𝜆ℎ𝑢𝑙𝑙 𝐸ℎ𝑢𝑙𝑙 𝐺 + 𝜆 𝑐𝑜𝑟𝑟 𝐸𝑐𝑜𝑟𝑟 𝐺
+ 𝜆 𝑟𝑜𝑡 𝐸𝑟𝑜𝑡 𝐺 + 𝜆 𝑠𝑚𝑜𝑜𝑡ℎ 𝐸𝑠𝑚𝑜𝑜𝑡ℎ 𝐺
5つのエネルギー関数から成るエネルギー関数
第1回 3D勉強会@ 13
Data Term
• ෠𝐸 𝑑𝑎𝑡𝑎 𝐺 = σ 𝑛=1
𝑁 σ 𝑚=1
𝑁
𝑚𝑖𝑛 𝑥∈𝑝(𝔻 𝑛) 𝒯 𝑣 𝑚; 𝐺 − 𝑥 2
• 𝐸 𝑑𝑎𝑡𝑎 𝐺 = σ 𝑛=1
𝑁 σ 𝑚∈𝑉𝑛 𝐺 ෦𝑛 𝑚 𝐺 ⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺
2
理想的には推定した3D点とDepthMapから
取得したRaw dataを使う
実際にはこっちを使う
第1回 3D勉強会@ 14
Data Term
• 𝐸 𝑑𝑎𝑡𝑎 𝐺 = σ 𝑛=1
𝑁 σ 𝑚∈𝑉𝑛 𝐺 ෦𝑛 𝑚 𝐺 ⊺
෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺
2
• 𝛤𝑛 𝑣 = 𝑃𝑛 Π 𝑛 𝑣
• Π 𝑛: ℝ3
→ ℝ2
• Ρ𝑛: ℝ2 → ℝ3
Model point data Current point
data
カメラ座標上のピクセルに対応する点
෦𝑣 𝑚 𝐺
Γ𝑛 ෦𝑣 𝑚 𝐺
point to plane
Kok-Lim Low . Technical Report TR04-004, Department of Computer Science, University of North Carolina
at Chapel Hill, February 2004. Linear Least-Squares Optimization for Point-to-Plane ICP Surface
Registration
第1回 3D勉強会@ 15
Regularization Terms
• 𝐸𝑟𝑜𝑡 𝐺 = σ 𝑘=1
𝐾
𝐴 𝑘
𝑇
𝐴 𝑘 − Ι 𝐹
+ σ 𝑘=1
𝐾
𝑑𝑒𝑡 𝐴 𝑘 − 1 2
𝐴 𝑘は直交座標系の回転行列になる
フロベニウスノルム
直交座標系で
はIになる
直交座標系で
は1になる
第1回 3D勉強会@ 16
Regularization Terms
• 𝐸𝑠𝑚𝑜𝑜𝑡ℎ 𝐺 = σ 𝑛=1
𝑁
𝑤𝑗𝑘 𝜌 𝐴𝑗 𝑔 𝑘 − 𝑔𝑗 + 𝑔𝑗 + 𝑡𝑗 − 𝑔 𝑘 + 𝑡 𝑘
2
• 𝑤𝑗𝑘 = 𝑒𝑥𝑝
− 𝑔 𝑘−𝑔 𝑗
2
2𝜎2
𝐴𝑗 𝑣 − 𝑔𝑗 + 𝑔𝑗 + 𝑡𝑗 − 𝐴𝑗 𝑣 − 𝑔 𝑘 + 𝑔 𝑘 + 𝑡 𝑘
隣同士の差があまりないようにする
第1回 3D勉強会@ 17
Visual Hull Term
• 𝐸ℎ𝑢𝑙𝑙 𝐺 = σ 𝑚=1
𝑀
ℋ 𝒯 𝑣 𝑚; 𝐺
2
• occupancy Volume:ℍ 𝑣𝑜𝑥𝑒𝑙 = ൝
1 𝑣𝑜𝑥𝑒𝑙 𝑖𝑛𝑠𝑖𝑑𝑒 𝑜𝑓 ℎ𝑢𝑙𝑙
0
各カメラが映す空間の積集合で
モデル全体が何処に在るべきかを定義する
第1回 3D勉強会@ 18KUTULAKOS, K. N., AND SEITZ, S. M. 2000. A theory of shape by space carving. IJCV.
Correspondence Term
WANG, S., FANELLO, S. R., RHEMANN, C., IZADI, S., AND KOHLI, P. 2016. The global patch collider. CVPR.
5つの決定木で深さ15で上手くいったらしい
f 𝑝; 𝜃 = ቊ
𝐿 𝑖𝑓 𝐼𝑠 𝑝 + Τ𝑢 𝑑 𝑠 − 𝐼𝑡 𝑝 + Τ𝑣 𝑑 𝑡 < 𝜃
𝑅 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
距離で正規化
ソース ターゲット
𝐸𝑐𝑜𝑟𝑟 𝐺 = ෍
𝑛=1
𝑁
෍
𝑓=1
𝐹 𝑛
𝜌 𝒯 𝑞 𝑛𝑓; 𝐺 − 𝑃𝑛 𝑢 𝑛𝑓
2
𝑞 𝑛𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑣∈𝑉 Π 𝑛 𝒯 𝑣; 𝐺 𝑝𝑟𝑒𝑣 − 𝑢 𝑛𝑓
𝑝𝑟𝑒𝑣
Π 𝑛: ℝ3
→ ℝ2
Ρ𝑛: ℝ2
→ ℝ3
ピクセル値 前のフレームの
Deformedpoint 3D correspondence
robustifier
I:中心座標をpとするローカルパッチx
(u,v) は 2D pixel のオフセット
𝛿 = 𝑢, 𝑣, 𝜃 は学習済
第1回 3D勉強会@ 19
Optimization
• 𝐸 𝐺 = 𝑓 𝑥 ⊺ 𝑓 𝑥
• →非線形最小二乗問題として取り扱うことが可能
𝐽⊺ 𝐽 + 𝜇Ι ℎ = −𝐽⊺ 𝑓
𝐿𝑒𝑣𝑒𝑛𝑏𝑒𝑟𝑔𝑀𝑎𝑟𝑞𝑢𝑎𝑟𝑑𝑡 (𝐿𝑀)
𝐸 𝑑𝑎𝑡𝑎 𝐺 = ෍
𝑛=1
𝑁
෍
𝑚∈𝑉𝑛 𝐺0
෦𝑛 𝑚 𝐺0
⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺0
2
実際には近似式を使った
第1回 3D勉強会@ 20
Optimization
• 𝐸 𝐺 = 𝑓 𝑥 ⊺ 𝑓 𝑥
• →非線形最小二乗問題として取り扱うことが可能
𝐽⊺ 𝐽 + 𝜇Ι ℎ = −𝐽⊺ 𝑓
𝐿𝑒𝑣𝑒𝑛𝑏𝑒𝑟𝑔𝑀𝑎𝑟𝑞𝑢𝑎𝑟𝑑𝑡 (𝐿𝑀)
𝐸 𝑑𝑎𝑡𝑎 𝐺 = ෍
𝑛=1
𝑁
෍
𝑚∈𝑉𝑛 𝐺0
෦𝑛 𝑚 𝐺0
⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺0
2
実際には近似式を使った
第1回 3D勉強会@ 21
Linear Solving
• Linear Solverで最適化
• preconditioned conjugate gradient (PCG)を使用する
• ヤコビアンの評価が大幅に少なくてすむため、かなり高速
第1回 3D勉強会@ 22
Linear Solving
第1回 3D勉強会@ 23
Fusion at Data frame – Selective Fusion
෪𝑒 𝑟 = ቐ
𝐷 𝑑 ෪𝑥 𝑟 𝑖𝑓ℋ 𝑑 ෪𝑥 𝑟 = 0
𝑚𝑖𝑛 𝐷 𝑑 ෪𝑥 𝑟 , ℋ 𝑑 ෪𝑥 𝑟 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
𝑒 𝑝𝑖𝑥𝑒𝑙 = ቐ
𝑚𝑖𝑛 1.0,
𝑑−𝑑 𝑝𝑟𝑜𝑗
𝑑 𝑚𝑎𝑥
𝑖𝑓𝑑 𝑝𝑟𝑜𝑗 𝑖𝑠 𝑣𝑎𝑙𝑖𝑑
1.0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
第1回 3D勉強会@ 24
Voxel Misalignment
現実にはトポロジーが変化する物体を
1つのモデルで表現することは難しい
システム概要
第1回 3D勉強会@ 25
Key Volumes
第1回 3D勉強会@ 26
第1回 3D勉強会@ 27
第1回 3D勉強会@ 28
第1回 3D勉強会@ 29
第1回 3D勉強会@ 30
第1回 3D勉強会@ 31
第1回 3D勉強会@ 32
第1回 3D勉強会@ 33
第1回 3D勉強会@ 34
Comparison
カメラの数がFusion4Dより82台多い“Collet et al. 2015”の4倍の速度
第1回 3D勉強会@ 35
Time consumption
第1回 3D勉強会@ 36
Limitations
第1回 3D勉強会@ 37
Results
第1回 3D勉強会@ 38
Results
第1回 3D勉強会@ 39
• 名前:岩澤 秀樹
• フリーランスエンジニア
• Mail: hiwasawa0715@gmail.com
ご興味、ご指摘等ありましたらご連絡頂ければと思います。
第1回 3D勉強会@ 40
ご清聴大変ありがとうございました。
第1回 3D勉強会@ 41

More Related Content

What's hot

200604material ozaki
200604material ozaki200604material ozaki
200604material ozakiRCCSRENKEI
 
Very helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference methodVery helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference method智啓 出川
 
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"Hajime Mihara
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2RCCSRENKEI
 
200611material ozaki
200611material ozaki200611material ozaki
200611material ozakiRCCSRENKEI
 
【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】
【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】
【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】Yuuki Takano
 

What's hot (9)

LT@Chainer Meetup
LT@Chainer MeetupLT@Chainer Meetup
LT@Chainer Meetup
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozaki
 
Very helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference methodVery helpful python code to find coefficients of the finite difference method
Very helpful python code to find coefficients of the finite difference method
 
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2
 
CMSI計算科学技術特論B(12) 大規模量子化学計算(1)
CMSI計算科学技術特論B(12) 大規模量子化学計算(1)CMSI計算科学技術特論B(12) 大規模量子化学計算(1)
CMSI計算科学技術特論B(12) 大規模量子化学計算(1)
 
200611material ozaki
200611material ozaki200611material ozaki
200611material ozaki
 
【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】
【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】
【やってみた】リーマン多様体へのグラフ描画アルゴリズムの実装【実装してみた】
 

Similar to Fusion4dIntroduction

Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publishtomoaki0705
 
Arduinoでプログラミングに触れてみよう
Arduinoでプログラミングに触れてみようArduinoでプログラミングに触れてみよう
Arduinoでプログラミングに触れてみようHiromu Yakura
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAHiroki Nakahara
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicAkira Tanimoto
 
Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」Masayuki Isobe
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
AGA_CVPR2017
AGA_CVPR2017AGA_CVPR2017
AGA_CVPR2017nonane
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
Code iq×japanr 公開用
Code iq×japanr 公開用Code iq×japanr 公開用
Code iq×japanr 公開用Nobuaki Oshiro
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative OptimizationTakuya Minagawa
 

Similar to Fusion4dIntroduction (20)

Kosakunakano
KosakunakanoKosakunakano
Kosakunakano
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publish
 
Arduinoでプログラミングに触れてみよう
Arduinoでプログラミングに触れてみようArduinoでプログラミングに触れてみよう
Arduinoでプログラミングに触れてみよう
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
 
Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」Tokyo.R #19 発表資料 「Rで色々やってみました」
Tokyo.R #19 発表資料 「Rで色々やってみました」
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
AGA_CVPR2017
AGA_CVPR2017AGA_CVPR2017
AGA_CVPR2017
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
How good is my GAN?
How good is my GAN?How good is my GAN?
How good is my GAN?
 
Code iq×japanr 公開用
Code iq×japanr 公開用Code iq×japanr 公開用
Code iq×japanr 公開用
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (12)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

Fusion4dIntroduction

  • 1. Fusion4D: Real-time Performance Capture of Challenging Scenes Mingsong Dou Sameh Khamis Yury Degtyarev Philip Davidson* Sean Ryan Fanello* Adarsh Kowdle* Sergio Orts Escolano* Christoph Rhemann* David Kim Jonathan Taylor Pushmeet Kohli Vladimir Tankovich Shahram Izadi† Microsoft Research Hideki Iwasawa : May 27 2018 第1回 3D勉強会@関東 第1回 3D勉強会@ 1 SIGGRAPH 2016
  • 2. Free View Point Video 多視点カメラでReal Time 3次元復元 第1回 3D勉強会@ 2 カメラのない視点からでも自由に観ることが出来る映像 2020年にはオリンピックが自由視点で観れるかも
  • 6. Hardware ・3台1組のカメラ (IRカメラ×2, RGBカメラ×1) 各 1M ピクセル ・3台構成のカメラを8組 ・コンピュータ × 12 CPU Intel Core i7, 3.4GHz CPU メモリ 16GB GPU NVIDIA Titan X × 2 ・マスター コンピュータ × 1 CPU Intel Core i7, 3.4GHz CPU メモリ 16GB GPU NVIDIA Titan X 第1回 3D勉強会@ 6
  • 8. Nonrigid Motion Field Estimation • N枚のDepthmapによるTSDFデータ • RawDepthmapに合わせてモデルを変形させるED-Model • 最適化の為のエネルギー関数 E(G) 第1回 3D勉強会@ 8
  • 9. Deformation field • 𝒯 𝑣 𝑚; 𝐺 = 𝑅 σ 𝑘∈𝑆 𝑚 𝑤 𝑘 𝑚 𝐴 𝑘 𝑣 − 𝑔 𝑘 + 𝑔 𝑘 + 𝑡 𝑘 + 𝑇 • 𝒯⊥ 𝑛 𝑚; 𝐺 = 𝑅 σ 𝑘∈𝑆 𝑚 𝑤 𝑘 𝑚 𝐴 𝑘 −𝑇 𝑛 𝑚 𝑤 𝑘 𝑚 = 1 𝑧 𝑒𝑥𝑝 𝑣 𝑚−𝑔 𝑘 2 2𝜎2 Global Rotation Global TranslationLocal Rotation Local RotationED Node TSDFによって求められたPoint 【 SUMNER, R. W., SCHMID, J., AND PAULY, M. 2007. Embedded deformation for shape manipulation. ACM TOG 26, 3, 80. 】 ノードに対して近い点は大きく影響を受ける ノードに対して遠い点は影響を受けにくい EDノードは4cm毎にサンプリングされており合計2K程とのこと 第1回 3D勉強会@ 9
  • 10. Truncated Signed Distance Function(TSDF) • 符号付きのVoxel • 物体の表面を0とし、表面から離れる程値が大きくなる • voxelの絶対値は一定以上は大きくならない 「セルの値」 = 「センサーから表面までのDepth値」 – 「センサーからVoxelまでの 距離」 第1回 3D勉強会@ 10
  • 12. メッシュの抽出 • TSDFデータからMarching cubes を用いてメッシュを抽出する 【 Zhongjie Long, Kouki Nagamune. Submitted on 28 Sep 2015. A Marching Cubes Algorithm: Application for Three-dimensional Surface Reconstruction Based on Endoscope and Optical Fiber】 ※実装では約250Kの頂点を持つメッシュ を抽出しているとのこと 第1回 3D勉強会@ 12
  • 13. Energey Function • 𝐸 𝐺 = 𝜆 𝑑𝑎𝑡𝑎 𝐸 𝑑𝑎𝑡𝑎 𝐺 + 𝜆ℎ𝑢𝑙𝑙 𝐸ℎ𝑢𝑙𝑙 𝐺 + 𝜆 𝑐𝑜𝑟𝑟 𝐸𝑐𝑜𝑟𝑟 𝐺 + 𝜆 𝑟𝑜𝑡 𝐸𝑟𝑜𝑡 𝐺 + 𝜆 𝑠𝑚𝑜𝑜𝑡ℎ 𝐸𝑠𝑚𝑜𝑜𝑡ℎ 𝐺 5つのエネルギー関数から成るエネルギー関数 第1回 3D勉強会@ 13
  • 14. Data Term • ෠𝐸 𝑑𝑎𝑡𝑎 𝐺 = σ 𝑛=1 𝑁 σ 𝑚=1 𝑁 𝑚𝑖𝑛 𝑥∈𝑝(𝔻 𝑛) 𝒯 𝑣 𝑚; 𝐺 − 𝑥 2 • 𝐸 𝑑𝑎𝑡𝑎 𝐺 = σ 𝑛=1 𝑁 σ 𝑚∈𝑉𝑛 𝐺 ෦𝑛 𝑚 𝐺 ⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺 2 理想的には推定した3D点とDepthMapから 取得したRaw dataを使う 実際にはこっちを使う 第1回 3D勉強会@ 14
  • 15. Data Term • 𝐸 𝑑𝑎𝑡𝑎 𝐺 = σ 𝑛=1 𝑁 σ 𝑚∈𝑉𝑛 𝐺 ෦𝑛 𝑚 𝐺 ⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺 2 • 𝛤𝑛 𝑣 = 𝑃𝑛 Π 𝑛 𝑣 • Π 𝑛: ℝ3 → ℝ2 • Ρ𝑛: ℝ2 → ℝ3 Model point data Current point data カメラ座標上のピクセルに対応する点 ෦𝑣 𝑚 𝐺 Γ𝑛 ෦𝑣 𝑚 𝐺 point to plane Kok-Lim Low . Technical Report TR04-004, Department of Computer Science, University of North Carolina at Chapel Hill, February 2004. Linear Least-Squares Optimization for Point-to-Plane ICP Surface Registration 第1回 3D勉強会@ 15
  • 16. Regularization Terms • 𝐸𝑟𝑜𝑡 𝐺 = σ 𝑘=1 𝐾 𝐴 𝑘 𝑇 𝐴 𝑘 − Ι 𝐹 + σ 𝑘=1 𝐾 𝑑𝑒𝑡 𝐴 𝑘 − 1 2 𝐴 𝑘は直交座標系の回転行列になる フロベニウスノルム 直交座標系で はIになる 直交座標系で は1になる 第1回 3D勉強会@ 16
  • 17. Regularization Terms • 𝐸𝑠𝑚𝑜𝑜𝑡ℎ 𝐺 = σ 𝑛=1 𝑁 𝑤𝑗𝑘 𝜌 𝐴𝑗 𝑔 𝑘 − 𝑔𝑗 + 𝑔𝑗 + 𝑡𝑗 − 𝑔 𝑘 + 𝑡 𝑘 2 • 𝑤𝑗𝑘 = 𝑒𝑥𝑝 − 𝑔 𝑘−𝑔 𝑗 2 2𝜎2 𝐴𝑗 𝑣 − 𝑔𝑗 + 𝑔𝑗 + 𝑡𝑗 − 𝐴𝑗 𝑣 − 𝑔 𝑘 + 𝑔 𝑘 + 𝑡 𝑘 隣同士の差があまりないようにする 第1回 3D勉強会@ 17
  • 18. Visual Hull Term • 𝐸ℎ𝑢𝑙𝑙 𝐺 = σ 𝑚=1 𝑀 ℋ 𝒯 𝑣 𝑚; 𝐺 2 • occupancy Volume:ℍ 𝑣𝑜𝑥𝑒𝑙 = ൝ 1 𝑣𝑜𝑥𝑒𝑙 𝑖𝑛𝑠𝑖𝑑𝑒 𝑜𝑓 ℎ𝑢𝑙𝑙 0 各カメラが映す空間の積集合で モデル全体が何処に在るべきかを定義する 第1回 3D勉強会@ 18KUTULAKOS, K. N., AND SEITZ, S. M. 2000. A theory of shape by space carving. IJCV.
  • 19. Correspondence Term WANG, S., FANELLO, S. R., RHEMANN, C., IZADI, S., AND KOHLI, P. 2016. The global patch collider. CVPR. 5つの決定木で深さ15で上手くいったらしい f 𝑝; 𝜃 = ቊ 𝐿 𝑖𝑓 𝐼𝑠 𝑝 + Τ𝑢 𝑑 𝑠 − 𝐼𝑡 𝑝 + Τ𝑣 𝑑 𝑡 < 𝜃 𝑅 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 距離で正規化 ソース ターゲット 𝐸𝑐𝑜𝑟𝑟 𝐺 = ෍ 𝑛=1 𝑁 ෍ 𝑓=1 𝐹 𝑛 𝜌 𝒯 𝑞 𝑛𝑓; 𝐺 − 𝑃𝑛 𝑢 𝑛𝑓 2 𝑞 𝑛𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑣∈𝑉 Π 𝑛 𝒯 𝑣; 𝐺 𝑝𝑟𝑒𝑣 − 𝑢 𝑛𝑓 𝑝𝑟𝑒𝑣 Π 𝑛: ℝ3 → ℝ2 Ρ𝑛: ℝ2 → ℝ3 ピクセル値 前のフレームの Deformedpoint 3D correspondence robustifier I:中心座標をpとするローカルパッチx (u,v) は 2D pixel のオフセット 𝛿 = 𝑢, 𝑣, 𝜃 は学習済 第1回 3D勉強会@ 19
  • 20. Optimization • 𝐸 𝐺 = 𝑓 𝑥 ⊺ 𝑓 𝑥 • →非線形最小二乗問題として取り扱うことが可能 𝐽⊺ 𝐽 + 𝜇Ι ℎ = −𝐽⊺ 𝑓 𝐿𝑒𝑣𝑒𝑛𝑏𝑒𝑟𝑔𝑀𝑎𝑟𝑞𝑢𝑎𝑟𝑑𝑡 (𝐿𝑀) 𝐸 𝑑𝑎𝑡𝑎 𝐺 = ෍ 𝑛=1 𝑁 ෍ 𝑚∈𝑉𝑛 𝐺0 ෦𝑛 𝑚 𝐺0 ⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺0 2 実際には近似式を使った 第1回 3D勉強会@ 20
  • 21. Optimization • 𝐸 𝐺 = 𝑓 𝑥 ⊺ 𝑓 𝑥 • →非線形最小二乗問題として取り扱うことが可能 𝐽⊺ 𝐽 + 𝜇Ι ℎ = −𝐽⊺ 𝑓 𝐿𝑒𝑣𝑒𝑛𝑏𝑒𝑟𝑔𝑀𝑎𝑟𝑞𝑢𝑎𝑟𝑑𝑡 (𝐿𝑀) 𝐸 𝑑𝑎𝑡𝑎 𝐺 = ෍ 𝑛=1 𝑁 ෍ 𝑚∈𝑉𝑛 𝐺0 ෦𝑛 𝑚 𝐺0 ⊺ ෦𝑣 𝑚 𝐺 − Γ𝑛 ෦𝑣 𝑚 𝐺0 2 実際には近似式を使った 第1回 3D勉強会@ 21
  • 22. Linear Solving • Linear Solverで最適化 • preconditioned conjugate gradient (PCG)を使用する • ヤコビアンの評価が大幅に少なくてすむため、かなり高速 第1回 3D勉強会@ 22
  • 24. Fusion at Data frame – Selective Fusion ෪𝑒 𝑟 = ቐ 𝐷 𝑑 ෪𝑥 𝑟 𝑖𝑓ℋ 𝑑 ෪𝑥 𝑟 = 0 𝑚𝑖𝑛 𝐷 𝑑 ෪𝑥 𝑟 , ℋ 𝑑 ෪𝑥 𝑟 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑒 𝑝𝑖𝑥𝑒𝑙 = ቐ 𝑚𝑖𝑛 1.0, 𝑑−𝑑 𝑝𝑟𝑜𝑗 𝑑 𝑚𝑎𝑥 𝑖𝑓𝑑 𝑝𝑟𝑜𝑗 𝑖𝑠 𝑣𝑎𝑙𝑖𝑑 1.0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 第1回 3D勉強会@ 24 Voxel Misalignment 現実にはトポロジーが変化する物体を 1つのモデルで表現することは難しい
  • 35. Comparison カメラの数がFusion4Dより82台多い“Collet et al. 2015”の4倍の速度 第1回 3D勉強会@ 35
  • 40. • 名前:岩澤 秀樹 • フリーランスエンジニア • Mail: hiwasawa0715@gmail.com ご興味、ご指摘等ありましたらご連絡頂ければと思います。 第1回 3D勉強会@ 40