[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields

A Higher-Dimensional Representation
for Topologically Varying Neural Radiance Fields
Naruya Kondo (Digital Nature Group M1)

video
2
https://www.yout
ube.com/watch?
v=qzgdE_ghkaI

プロジェクトページ
3
https://hypernerf.github.io/

書誌情報
4
• HyperNeRF: A Higher-Dimensional Representation for Topologically
Varying Neural Radiance Fields
– https://arxiv.org/pdf/2106.13228.pdf
– SIGGRAPH Asia 2021
– Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien
Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz
– University of Washington, Google Research
• ひとことで言うと
– 動的なシーンを1つの映像だけで3D再構成 (view interpolationに近い) する
– シーン上の各点を、テンプレートNeRFの点に飛ばしそこで(c,σ)を計算
– テンプレート場を3Dではなくより多次元に拡張した
– (NeRF -> Nerfies -> HyperNeRF)

NeRF
5
土井さんのDL輪読会資料より
https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis

似た手法で動的なシーンを扱う研究
6
• Neural Volumes: Learning Dynamic Renderable Volumes from Images
(SIGGRAPH 2019)
– ダイナミックシーンで、複数視点の画像を入力に別視点の観測を生成
– reference画像をembeddingしてtemplate fieldを作る
• Nerfies: Deformable Neural Radiance Fields (ICCV 2021)
• Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a
Dynamic Scene From Monocular Video (ICCV 2021)
• D-NeRF: Neural Radiance Fields for Dynamic Scenes (CVPR 2021)
– 1動画を入力にして、テンプレートNeRFを作りつつ再構成
– Template Fieldとか、Canonical Volumeとかと呼ばれる

Nerﬁes: Deformable Neural Radiance Fields
7

Nerﬁes
9
• Nerfies: Deformable Neural Radiance Fields
– ICCV 2021
– 動画入力で、少しだけ変化のある動的なシーンも扱えるNeRF
– 動画の全時刻(全視点)を1つのテンプレートNeRFで学習
– シーンの中で若干の変化があるので、テンプレートの中で色(c,σ)をサンプリングする
座標を少しずらす(warping)

Nerﬁes
10
• 背景
– ハイクオリティな人間の3Dモデリングが、自撮りでできたらいいよね
• 人に限らず、3Dモデリング技術的に広くやりたい
– 自撮りでの難しさ
• nonrigidity
– 完全にじっとすることが無理
• challenging materials
– 髪、メガネ、イヤリング (反射部分?) の3D再構成が難しい
– NeRFは表現力が高いが、静的なシーンに限る＆100枚くらい画像が必要
• アイディア
– 単一動画入力だけ(若干シーンが変化している環境)でも、基準となるNeRF場の学習
＆活用に落とし込めれば3D再構成ができる

Nerﬁes
11
1. 貢献
a. 非剛体で変形する対象でも扱えるNeRFを提案。
各時刻の観測からその時刻のDeformation Fieldを生成
b. 各時刻のDeformation Fieldを生成に、Template Fieldを使うことを提案
c. シーンの鮮明さと(少しの)シーンの変化の学習を両立させるため、coarse-to-fine
regularizationを提案
d. (アプリケーション化 (自撮り映像で3D化))

Deformation Neural Radiance Field
12
• (c, σ)がほしい視点の座標xをそのまま使わず、
deformation field (MLP) で x -> x’ に変換してか使う
• どの時刻(視点)でも、同じcanonicalなNeRFで(c, σ)を学習・推論
• 任意のωで、学習データとは違う(x,y,z)を入力してinterpolateする
⇦ここだけ
　NeRF
欲しい露光、
ホワイトバランス等
その時刻の画像を
エンコードした
ベクトル

Coarse-to-Fine Regularization
13
• NeRFでは通常、入力xにpositional encodingを適用して入力にする
– これを頼りに高周波な質感が生成できる
• 高周波にしすぎると既知のviewに過学習
してしまい、novel viewで繊細な画像が
生成できなくなる
⇨ 各項に重みをつけ、徐々に0から1に上げる

その他工夫点
14
1. Background Regularization
– 動かないと分かっている座標の点は、座標を
x->x’で動かしたらペナルティ
– SfM等を使えば、動かない点(poseの推論に使う特徴点)が求まる
2. Elastic Regularization
– できるだけ座標を移動しないためのペナルティ
– おおよそ全部の点の移動量の二乗和の平方根(厳密にはややこしいかったです...)
3. x->xで自由に動かすぎないよう、各点は回転と平行移動の
6自由度(MLPの出力)で変換
4. 各視点(時刻)の位置姿勢は、SfM(structure from motion)で取得

A Higher-Dimensional Representation
for Topologically Varying Neural Radiance Fields
16

HyperNeRF (再掲)
17
• HyperNeRF: A Higher-Dimensional Representation for Topologically
Varying Neural Radiance Fields
– https://arxiv.org/pdf/2106.13228.pdf
– SIGGRAPH Asia 2021
– Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien
Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz
– University of Washington, Google Research
– 動的なシーンを1つの映像だけで3D再構成 (view interpolationに近い) する
– シーン上の各点を、テンプレートNeRFの点に飛ばしそこで(c,σ)を計算
– テンプレート場を3Dではなくより多次元に拡張した
– (NeRF -> Nerfies -> HyperNeRF)

HyperNeRF (再掲)
18
• 背景
– より動的なシーンを単一動画から3D再構成できるようにしたい
– 少しの変化ならNerfies等でよいが、トポロジカルな変化には対応できない
• レモンを切る、紙をやぶる、口をあける...
• アイディア
– トポロジカルな変化をdeepで連続的に扱える “level set method” を、
Nerfiesのテンプレート場への座標変換 x->x’ に使う
• (お気持ち強め？)
• 貢献
– よりチャレンジングな動的なシーンでも3D再構成できるようになった

Level Set Method
19
• 陰関数で形状を表現する
• 複雑な場(⇦NNで獲得する)をw=wiで切ると、トポロジカルな変化を表現可能
– wをtにすると時間発展が表現できる
• DeepSDF、A-SDF等もlevel set methodを使っている (signed distance field)
3D shape
4D function
(表現したい本来の次元(x,y) +
additional な次元(w))

• F(x,y,z) = “境界面との距離”
とする関数
– F(x,y,z) > 0: 境界の外
– F(x,y,z) < 0: 境界の中
– (勝手に地球をイメージ)
20
F(x,y) =
c
c
この2次元の形
をFで表したい⇨
この空間を考える⇨
-10
0
0
100
F=cがその形。内側: F>c, 外側: F<c
(signed distance ﬁeld)

Deformable Slicing Surfaces
21
◯と花の形8個 x’y’z’ x’y’z’
w
w
◯と花の形4個
• 平面で切ると、全ての状態を
一列に並べる必要が合る。
– 部分的な形を複数並べるのは無駄
– 曲面で切れれば、使いまわせる
• (Nerfiesはx’だけだった)
• 256次元の空間にNeRF場が散らばっている
• wは1or0ではなく尤度みたいな扱い

Hyper-Space Neural Radiance Fields
22
• やっていることは、CanonicalなNeRFの入力を3+256次元にしただけ
– 実際にはwで切ったりせず、そのままwをNeRFの入力にする
– (level set methodは後付けなのでは...？)
• deformingに頼らないために，wのpositional encodingの各項の係数を最初は0に
x’もwも
positional encodingする
3DのNeRF場が256Dの空間
に広がっている

結果
23
• pixel値ではなく、
意味のあるdynamicな
interpolationができている
• (すごい)

[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields

Similar to [DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields (16)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields