SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
BANMo: Building Animatable 3D Neural Models from
Many Casual Videos
Kento Doi, Matsuo Lab.
何ができるか?
• Deformableなオブジェクトの動画から,動かせる3Dモデルを復元
• ニューラル陰関数表現 (neural implicit representation (NIR)) でcanonical 3D
shape, appearance, skinning weights, time-varying articulationを表現
• 3D shapeはSDFで表現
• skinning weights … 各⾻格 (bone) に対する物体表⾯ (skin) の対応度合いを表す
• time-varying articulation … 時刻ごとの関節の動き
何ができるか?
書誌情報
• 著者の所属はMeta AI, Meta Reality Labs, CMU
• Metaは前Facebook
• Meta AIにおけるインターンシップでの成果
• 2021/12にarXivで公開された
• 投稿された会議などは不明
• CVPR2022, ECCV2022, SIGGRAPH2022あたり?
モチベーション
• モチベーション:動画から3Dモデルを復元したい
• 静的なシーンでは,SfMを⽤いて3D形状の復元が可能
• 例) ウェブ上の画像からランドマークや街の形状を復元
Ø⽣き物のように,変形する (deformable) オブジェクトを復元するには?
• 問題設定:Deformableなオブジェクトが映る動画を⽤いた3D復元
• ただし,同じオブジェクトを写した複数の動画があるとする
• 例) 異なる⽇に撮影された飼い猫の動画
提案⼿法:overview
• BANMo (Builder of Animatable 3D Neural Models)
• 多数の動画フレームの情報をcanonical spaceに統合し,3D shape,
appearance, articulationを学習
• Canonical space中のモデルを変形させることで,各時刻のフレームのオブ
ジェクト表現
提案⼿法:overview
• BANMo (Builder of Animatable 3D Neural Models)
• 変形 (articulation) をどのように表現するか
• Neural blend skinningを⽤いる
• NIRで表現されたモデルの各部位を複数の剛体変換の重みづけにより変換
• 各部位で異なる重みづけを⾏うことで,変形を表現可能
提案⼿法:課題
• Canonical spaceでモデルを獲得する上での課題が3つ
1. どのようにオブジェクトの⾒かけと変形を表現するか
2. Canonical spaceと各フレーム間のマッピングをどのように獲得するか
3. フレーム間の対応をどのように獲得するか
Øこれらを解決する⼯夫を提案
提案⼿法:Shape and Appearance Model
• オブジェクトの形状と⾒かけをどう表現するか
• Canonical space中のモデルと,各時刻のモデルの関係性は??
提案⼿法:Preliminary
• NeRF (Neural Radiance Fields)
• Radiance field is a continuous function whose input is the 3D coordinates plus the
view direction (𝑥, 𝑦, 𝑧, 𝜃, 𝜙) and output is the density and the view-dependent color
(𝑅𝐺𝐵𝜎)
• Arbitrarily view is rendered using the classical volume rendering and NeRF
10
B. Mildenhall et al. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV, 2020. https://github.com/bmild/nerf
提案⼿法:Canonical shape model
• Canonical spaceでの3Dモデルを定義し,各フレームのオブジェクト
の形状をcanonical spaceのモデルの変換で表現
• Canonical spaceではモデルを以下のように表現する
𝑋∗ ∈ ℝ" : canonical spaceの三次元点座標
𝑣# ∈ ℝ$ : 時刻ごとの視線⽅向
𝜔%
#
∈ ℝ&'
: 照明条件を司る潜在表現 (動画で共通)(learnable parameter)
𝑐# ∈ ℝ" : 三次元点のRGB color
𝜎 ∈ [0, 1] : 三次元点の密度
𝜓 ∈ ℝ(& : canonical embedding (後で使う)
※ 𝜎 はSDFをラプラス分布で密度に変換している
提案⼿法:Space-time warping model
• Canonical spaceのモデルを各時刻のモデルの変形させるには
• 三次元点を別の三次元点に移すwarping関数を考える
• Forwardとbackwardの2種類のwarpingを定義
• Forward warping function
• Backward warping function
<latexit sha1_base64="6ACywV6Or5w7o1sDHmKIIB2nvA8=">AAACl3ichVFNSxtBGH5crR+x1agXSy+LwVJKCRMRFS+KBfFo1JiA0TC7jsngfjE7ieiSP+AfUPBUoYj0P3jxoH+gB39C8WihFw++2SxoK9V32ZnnfeZ93nlmxgocGWrGbjqMzq433T29fan+t+8GBtNDw+uhX1e2KNi+46uSxUPhSE8UtNSOKAVKcNdyRNHa/dpaLzaECqXvren9QGy6vOrJHWlzTVQlPVF2ua7Z3ImKza1IfzHLSlZrmivl7zXNWbO09fkpRbmupDMsy+Iwn4NcAjJIYtlPn6GMbfiwUYcLAQ+asAOOkL4N5MAQELeJiDhFSMbrAk2kSFunKkEVnNhdGquUbSSsR3mrZxirbdrFoV+R0sQ4+8nO2R27Zj/YL3b/315R3KPlZZ9mq60VQWXwcHT1z6sql2aN2qPqRc8aO5iJvUryHsRM6xR2W984OLpbnV0Zjz6yU3ZL/r+xG3ZJJ/Aav+3vebFyghQ9QO7f634O1ieyuansZH4yM7+QPEUvPmAMn+i+pzGPJSyjQPse4wJXuDbeG3PGorHULjU6Es0I/goj/wDEcp1O</latexit>
Wt,!
: X⇤
! Xt
<latexit sha1_base64="RFw6zqauKE8nrkeUVnDBo3YTduc=">AAAClnichVFNSxtBGH7cqrWp1VgvQi9Lg1KKhNkirXgo0lLsMX7EBIyG2XWSDM5+MDtJ0SV/oH/AgycLUkp/Q0+C9g/04E8oHi300oNvNgtiRX2XnXneZ97nnWdm3EjJ2DB2NmA9GBwafjjyKPd49MnYeH7i6XoctrUnyl6oQl11eSyUDETZSKNENdKC+64SFXfnfW+90hE6lmGwZnYjsenzZiAb0uOGqHreqfnctDyukkp3KzGzdk2JhuFah5+69oJd3TJ2Tctmq09R/rKeL7AiS8O+CZwMFJBFKcx/RQ3bCOGhDR8CAQxhBY6Yvg04YIiI20RCnCYk03WBLnKkbVOVoApO7A6NTco2MjagvNczTtUe7aLo16S0Mc1+sW/sgv1k39lv9u/WXknao+dll2a3rxVRffzz1Orfe1U+zQatK9Wdng0amE+9SvIepUzvFF5f39nbv1hdWJlOZtgXdk7+D9kZO6YTBJ0/3tGyWDlAjh7A+f+6b4L1V0XndXFuea6w+C57ihE8w3O8oPt+g0V8RAll2ncfP3CCU2vKemt9sJb6pdZAppnEtbBKl6hRnNE=</latexit>
Wt,
: Xt
! X⇤
提案⼿法:Space-time warping model
• NeRFと同様に,volume renderingで各時刻の画像をレンダリング
• Warpingを考慮すると次の式のようになる
• ただし,𝜏.は点iにレイが到達する確率,𝑜 はピクセルの透過率を表す
• 𝜏.はレイが点に到達するまでに物体にぶつからない場合に⾼くなる
提案⼿法:Deformation Model via Neural Blend Skinning
• Canonical spaceの三次元点𝑋∗
と各時刻の三次元点𝑋"
の間のワープを
どのように表現するか
提案⼿法:Blend skinning deformation
• Canonical → 各フレームのワーピングは次のような式で⾏われる
• ただし,G, Jは共に剛体変換を表す
• また,G, JはMLPにより各時刻の潜在変数から計算される
• さらに,JはB個の剛体変換の加重平均により得られる (linear blend skinning)
• Wは重み,ΔJは剛体変換のパラメータを表す
提案⼿法: Skinning weights
• 前ページの重みWをどのように求めるか,
ØCanonical spaceにB個のガウス分布を配置
Ø点𝑋∗とガウス分布の中⼼とのマハラノビス距離で重みづけを⾏う
Øガウス分布のパラメータを学習
提案⼿法: Registration via Canonical Embeddings
• 異なる時刻で観測したピクセルを対応づけるため,canonical space
の三次元点のセマンティックな情報の埋め込みを学習する
• 具体的には,三次元点𝑋∗
をMLPを⽤いて𝜓 ∈ ℝ#$
に埋め込む
提案⼿法:Canonical embeddings matching
• 得られた埋め込みを⽤いて2D-3Dのマッチングを計算できる
Ø特徴を⽤いたマッチングと幾何的な変換の整合を正則化として⽤いる
• 2Dの特徴は,CNNにより抽出したものを⽤いる
• 2D-3Dの対応はsoft argmaxにより求める:
2D特徴の
embedding
3D特徴の
embedding
Optimization
RGB値の⼆乗誤差 &
ピクセルの透過率の誤差
2D optical flowと
canonical spaceを経由し
て求めたflowの整合
skinningとembedding
matchingの整合
feature matchingにより
求めた3D点を2Dに投影
forward warpingと
backward warpingの整合
実験:定性評価
• データセット:
• 猫(ブリティッシュショートヘア)の動画20本
• ⼈物の動画10本
• シルエットとoptical flowはそれぞれ学習済みモデルを⽤いて取得
• ベースライン:
• Nerfies … NeRF系のモデル.radiance field + deformationでシーンをモデル
化
• ViSER … 類似⼿法.複数視点の動画から動かせるオブジェクトを復元.NIR
の代わりにmeshモデルを利⽤
実験:定性評価
実験:定量評価
• データセット:
• AMA human dataset … メッシュのGTがある⼈物の動画データセット
• Animated Objects dataset … CGで作成した動画のデータセット
• 評価指標:
• 再構成した3Dモデルと正解のメッシュモデルの間のChamfer距離
実験:定量評価
実験:定量評価
まとめ
• 動画から動きのある3Dモデルを復元するBANMoを提案
• Canonical space中の3Dモデルを各フレームに投影する⽅法でオブ
ジェクトを表現
• モデルの変形をneural blend skinningで表現
• フレームとcanonical spaceの対応づけを強化するための埋め込みを
提案
• 感想
• 物体が中央に写っている動画があれば3Dモデルを復元できるのはすごい
• DeformableなNeRFの極みのような研究だと思った

More Related Content

What's hot

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
Ryutaro Yamauchi
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge
 
Point net
Point netPoint net
Point net
Fujimoto Keisuke
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
Deep Learning JP
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
Deep Learning JP
 

What's hot (20)

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
Point net
Point netPoint net
Point net
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
 

Similar to [DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
Deep Learning JP
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
kanejaki
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
Sho Kagami
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Kohei Nishimura
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
omochi64
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
Kento Doi
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
Atsushi Hashimoto
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
MakotoItoh
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
Deep Learning JP
 
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
Deep Learning JP
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
Naoya Chiba
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
Deep Learning JP
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
 

Similar to [DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos (20)

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
 
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
[DL輪読会]3D Hair Synthesis Using Volumetric Variational Autoencoders
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 

Recently uploaded (16)

MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ BANMo: Building Animatable 3D Neural Models from Many Casual Videos Kento Doi, Matsuo Lab.
  • 2. 何ができるか? • Deformableなオブジェクトの動画から,動かせる3Dモデルを復元 • ニューラル陰関数表現 (neural implicit representation (NIR)) でcanonical 3D shape, appearance, skinning weights, time-varying articulationを表現 • 3D shapeはSDFで表現 • skinning weights … 各⾻格 (bone) に対する物体表⾯ (skin) の対応度合いを表す • time-varying articulation … 時刻ごとの関節の動き
  • 4. 書誌情報 • 著者の所属はMeta AI, Meta Reality Labs, CMU • Metaは前Facebook • Meta AIにおけるインターンシップでの成果 • 2021/12にarXivで公開された • 投稿された会議などは不明 • CVPR2022, ECCV2022, SIGGRAPH2022あたり?
  • 5. モチベーション • モチベーション:動画から3Dモデルを復元したい • 静的なシーンでは,SfMを⽤いて3D形状の復元が可能 • 例) ウェブ上の画像からランドマークや街の形状を復元 Ø⽣き物のように,変形する (deformable) オブジェクトを復元するには? • 問題設定:Deformableなオブジェクトが映る動画を⽤いた3D復元 • ただし,同じオブジェクトを写した複数の動画があるとする • 例) 異なる⽇に撮影された飼い猫の動画
  • 6. 提案⼿法:overview • BANMo (Builder of Animatable 3D Neural Models) • 多数の動画フレームの情報をcanonical spaceに統合し,3D shape, appearance, articulationを学習 • Canonical space中のモデルを変形させることで,各時刻のフレームのオブ ジェクト表現
  • 7. 提案⼿法:overview • BANMo (Builder of Animatable 3D Neural Models) • 変形 (articulation) をどのように表現するか • Neural blend skinningを⽤いる • NIRで表現されたモデルの各部位を複数の剛体変換の重みづけにより変換 • 各部位で異なる重みづけを⾏うことで,変形を表現可能
  • 8. 提案⼿法:課題 • Canonical spaceでモデルを獲得する上での課題が3つ 1. どのようにオブジェクトの⾒かけと変形を表現するか 2. Canonical spaceと各フレーム間のマッピングをどのように獲得するか 3. フレーム間の対応をどのように獲得するか Øこれらを解決する⼯夫を提案
  • 9. 提案⼿法:Shape and Appearance Model • オブジェクトの形状と⾒かけをどう表現するか • Canonical space中のモデルと,各時刻のモデルの関係性は??
  • 10. 提案⼿法:Preliminary • NeRF (Neural Radiance Fields) • Radiance field is a continuous function whose input is the 3D coordinates plus the view direction (𝑥, 𝑦, 𝑧, 𝜃, 𝜙) and output is the density and the view-dependent color (𝑅𝐺𝐵𝜎) • Arbitrarily view is rendered using the classical volume rendering and NeRF 10 B. Mildenhall et al. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV, 2020. https://github.com/bmild/nerf
  • 11. 提案⼿法:Canonical shape model • Canonical spaceでの3Dモデルを定義し,各フレームのオブジェクト の形状をcanonical spaceのモデルの変換で表現 • Canonical spaceではモデルを以下のように表現する 𝑋∗ ∈ ℝ" : canonical spaceの三次元点座標 𝑣# ∈ ℝ$ : 時刻ごとの視線⽅向 𝜔% # ∈ ℝ&' : 照明条件を司る潜在表現 (動画で共通)(learnable parameter) 𝑐# ∈ ℝ" : 三次元点のRGB color 𝜎 ∈ [0, 1] : 三次元点の密度 𝜓 ∈ ℝ(& : canonical embedding (後で使う) ※ 𝜎 はSDFをラプラス分布で密度に変換している
  • 12. 提案⼿法:Space-time warping model • Canonical spaceのモデルを各時刻のモデルの変形させるには • 三次元点を別の三次元点に移すwarping関数を考える • Forwardとbackwardの2種類のwarpingを定義 • Forward warping function • Backward warping function <latexit sha1_base64="6ACywV6Or5w7o1sDHmKIIB2nvA8=">AAACl3ichVFNSxtBGH5crR+x1agXSy+LwVJKCRMRFS+KBfFo1JiA0TC7jsngfjE7ieiSP+AfUPBUoYj0P3jxoH+gB39C8WihFw++2SxoK9V32ZnnfeZ93nlmxgocGWrGbjqMzq433T29fan+t+8GBtNDw+uhX1e2KNi+46uSxUPhSE8UtNSOKAVKcNdyRNHa/dpaLzaECqXvren9QGy6vOrJHWlzTVQlPVF2ua7Z3ImKza1IfzHLSlZrmivl7zXNWbO09fkpRbmupDMsy+Iwn4NcAjJIYtlPn6GMbfiwUYcLAQ+asAOOkL4N5MAQELeJiDhFSMbrAk2kSFunKkEVnNhdGquUbSSsR3mrZxirbdrFoV+R0sQ4+8nO2R27Zj/YL3b/315R3KPlZZ9mq60VQWXwcHT1z6sql2aN2qPqRc8aO5iJvUryHsRM6xR2W984OLpbnV0Zjz6yU3ZL/r+xG3ZJJ/Aav+3vebFyghQ9QO7f634O1ieyuansZH4yM7+QPEUvPmAMn+i+pzGPJSyjQPse4wJXuDbeG3PGorHULjU6Es0I/goj/wDEcp1O</latexit> Wt,! : X⇤ ! Xt <latexit sha1_base64="RFw6zqauKE8nrkeUVnDBo3YTduc=">AAAClnichVFNSxtBGH7cqrWp1VgvQi9Lg1KKhNkirXgo0lLsMX7EBIyG2XWSDM5+MDtJ0SV/oH/AgycLUkp/Q0+C9g/04E8oHi300oNvNgtiRX2XnXneZ97nnWdm3EjJ2DB2NmA9GBwafjjyKPd49MnYeH7i6XoctrUnyl6oQl11eSyUDETZSKNENdKC+64SFXfnfW+90hE6lmGwZnYjsenzZiAb0uOGqHreqfnctDyukkp3KzGzdk2JhuFah5+69oJd3TJ2Tctmq09R/rKeL7AiS8O+CZwMFJBFKcx/RQ3bCOGhDR8CAQxhBY6Yvg04YIiI20RCnCYk03WBLnKkbVOVoApO7A6NTco2MjagvNczTtUe7aLo16S0Mc1+sW/sgv1k39lv9u/WXknao+dll2a3rxVRffzz1Orfe1U+zQatK9Wdng0amE+9SvIepUzvFF5f39nbv1hdWJlOZtgXdk7+D9kZO6YTBJ0/3tGyWDlAjh7A+f+6b4L1V0XndXFuea6w+C57ihE8w3O8oPt+g0V8RAll2ncfP3CCU2vKemt9sJb6pdZAppnEtbBKl6hRnNE=</latexit> Wt, : Xt ! X⇤
  • 13. 提案⼿法:Space-time warping model • NeRFと同様に,volume renderingで各時刻の画像をレンダリング • Warpingを考慮すると次の式のようになる • ただし,𝜏.は点iにレイが到達する確率,𝑜 はピクセルの透過率を表す • 𝜏.はレイが点に到達するまでに物体にぶつからない場合に⾼くなる
  • 14. 提案⼿法:Deformation Model via Neural Blend Skinning • Canonical spaceの三次元点𝑋∗ と各時刻の三次元点𝑋" の間のワープを どのように表現するか
  • 15. 提案⼿法:Blend skinning deformation • Canonical → 各フレームのワーピングは次のような式で⾏われる • ただし,G, Jは共に剛体変換を表す • また,G, JはMLPにより各時刻の潜在変数から計算される • さらに,JはB個の剛体変換の加重平均により得られる (linear blend skinning) • Wは重み,ΔJは剛体変換のパラメータを表す
  • 16. 提案⼿法: Skinning weights • 前ページの重みWをどのように求めるか, ØCanonical spaceにB個のガウス分布を配置 Ø点𝑋∗とガウス分布の中⼼とのマハラノビス距離で重みづけを⾏う Øガウス分布のパラメータを学習
  • 17. 提案⼿法: Registration via Canonical Embeddings • 異なる時刻で観測したピクセルを対応づけるため,canonical space の三次元点のセマンティックな情報の埋め込みを学習する • 具体的には,三次元点𝑋∗ をMLPを⽤いて𝜓 ∈ ℝ#$ に埋め込む
  • 18. 提案⼿法:Canonical embeddings matching • 得られた埋め込みを⽤いて2D-3Dのマッチングを計算できる Ø特徴を⽤いたマッチングと幾何的な変換の整合を正則化として⽤いる • 2Dの特徴は,CNNにより抽出したものを⽤いる • 2D-3Dの対応はsoft argmaxにより求める: 2D特徴の embedding 3D特徴の embedding
  • 19. Optimization RGB値の⼆乗誤差 & ピクセルの透過率の誤差 2D optical flowと canonical spaceを経由し て求めたflowの整合 skinningとembedding matchingの整合 feature matchingにより 求めた3D点を2Dに投影 forward warpingと backward warpingの整合
  • 20. 実験:定性評価 • データセット: • 猫(ブリティッシュショートヘア)の動画20本 • ⼈物の動画10本 • シルエットとoptical flowはそれぞれ学習済みモデルを⽤いて取得 • ベースライン: • Nerfies … NeRF系のモデル.radiance field + deformationでシーンをモデル 化 • ViSER … 類似⼿法.複数視点の動画から動かせるオブジェクトを復元.NIR の代わりにmeshモデルを利⽤
  • 22. 実験:定量評価 • データセット: • AMA human dataset … メッシュのGTがある⼈物の動画データセット • Animated Objects dataset … CGで作成した動画のデータセット • 評価指標: • 再構成した3Dモデルと正解のメッシュモデルの間のChamfer距離
  • 25. まとめ • 動画から動きのある3Dモデルを復元するBANMoを提案 • Canonical space中の3Dモデルを各フレームに投影する⽅法でオブ ジェクトを表現 • モデルの変形をneural blend skinningで表現 • フレームとcanonical spaceの対応づけを強化するための埋め込みを 提案 • 感想 • 物体が中央に写っている動画があれば3Dモデルを復元できるのはすごい • DeformableなNeRFの極みのような研究だと思った