SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
NeRF: Representing Scenes as Neural Radiance Fields
for View Synthesis
Kento Doi, Matsuo Lab
概要: 何がすごいか??
• 複数の視点と画像のペアからMulti layer perceptron (MLP) を学習することにより、新規視点⽣
成のタスクで⾮常に素晴らしい結果を達成
• 新規視点⽣成とは … あるシーンを観測する視点を与えたときに、その視点に対応する画像を⽣成する
こと
• まずはproject pageからダウンロードした結果を⾒てください
• http://www.matthewtancik.com/nerf
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
書誌情報、選定理由など
• UC Berkeley, Google Research, UC San Diegoの研究者が著者
• equal contributionが3⼈!!
• 論⽂のフォーマットからECCV2020への投稿と思われる
• 選定理由
• 結果の動画を⾒て、⾮常に⾼精細な画像が⽣成できていると驚いた
• 画像⽣成形の論⽂情報はroadrunnerさんが早い (Twitter: @ak92501)
• ⽣成結果のインパクトが⼤きく各所で話題になっていた
• 軽く読んでみてアイデアが (⾃分にとって) 新しく⾯⽩かったため
概要: どうやって実現している?
• MLPでNeural Radiance Field (NeRF) を学習
• Neural Radiance Fieldとは
• 三次元空間のある点の位置と視線⽅向 (⾓度) を与えると、その点の密
度 (density) と⾊が定まるNNにより表現された「場」
• 場とは … 時空の各点に関する物理量で、座標と時間を指定すると⼀つの
物理量が定まる。数学的には空間座標が独⽴変数となる関数で表現可能*
• 密度 (density) とは … 光をどれくらい透過するかを表すパラメーター
(densityが⾼いほど光を通しにくいということだと思います)
• カメラレイから定まる空間の各点の位置と視線の⽅向をクエリにして、
古典的なレンダリング⼿法 (volume rendering) を⽤いて視点に対応す
る画像をレンダリングできる
• volume renderingが微分可能なので画像を使ってend-to-endで学習できる
• 複数の観測 (画像と視点のペア) でNeRFを訓練する⽅法を提案
*https://www.wikiwand.com/ja/%E5%A0%B4 http://www.matthewtancik.com/nerf
レンダリングの⼿順
1. カメラレイをシーンの中を進ませ、三次元点をサンプル
• カメラに⼊ってくる光を逆向きに進ませるイメージ
• その光が通る点を考慮して画像をレンダリングする
2. サンプルした点と対応する視線の⽅向をNNに⼊⼒し各点の⾊と密度を⽣成
3. 古典的なボリュームレンダリングの技術で⾊と密度から画像を合成
• カメラレイを逆向きに辿り密度を考慮しながら⾊を⾜し合わせていくイメージ
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
技術的な貢献
• 複雑な幾何形状を持つシーンをMLPでパラメタライズしたneural radiance field
で表現したこと
• 古典的なボリュームレンダリングの⼿法に基づく微分可能なレンダリング⼿法の
提案
• MLPのキャパシティを考慮した三次元点の階層的なサンプリング⼿法も提案
• 複雑な形状を持つシーンを表現するために5D (三次元位置、視線⽅向) を⾼次元
空間に埋め込むテクニックの提案
Ø新規視点合成の既存⼿法と⽐較しstate-of-the-artの結果を得た
Ø次のスライドから詳細について説明します
NeRFによるシーン表現の獲得
• シーンを5Dベクトル (三次元位置、視線⽅向) を⼊⼒として、とvolume density
を出⼒する関数として表現
• 三次元位置: x = (x, y, z)
• 視線⽅向: (θ, φ)
• ⾊: c = (r, g, b)
• volume density: σ
• volume densityは、xのみにより定まる値
• ⾊はxと (θ, φ) により定まる値
• 上の制約からMLPは2つに分かれる
1. xを⼊⼒としσと256次元のベクトルを出⼒
2. 1の出⼒の256次元のベクトルと(θ, φ)からc = (r, g, b)を出⼒
• ⾊を視線⽅向に依存するように設計する理由
Ø 鏡⾯反射など、⽅向に依存する現象 (non-Lambertian) を考慮できるようにするため
視点に依存する効果のモデリング
• (a), (b) 同じ箇所を異なる⽅向から⾒ると、⾊が変わるということが再現できて
いる
• (c) あらゆる⽅向から同じ箇所を⾒た場合の⾊の変化を可視化
• 半球状のあらゆる視点から同じ箇所を⾒ようとした場合の⾊を円の中に表⽰している
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
Radiance fieldからのボリュームレンダリング 1
• 古典的なボリュームレンダリングの原理に基づいた⽅法を使⽤
• 1984年にKajitaらが提案した⼿法 (Ray Tracing Volume Densities) を引⽤していた
• Ray Tracingとは、カメラに届く光線を逆⽅向に辿ることにより画像を⽣成する⼿法のこと
• 本物の写真に近い画像をレンダリングできる⼿法として知られている
• レイトレーシングによるボリュームレンダリングでは、光線を逆⽅向に辿りながら、物体のvolume
density (透過率) を考慮しつつ各点の⾊を⾜し合わせ2D画像のあるピクセルの⾊を計算するイメー
ジ (私の理解です)
• 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる
• カメラの光線を表すベクトル (oを通りdの⽅向に伸びる) :
• t_n, t_fは仮想的に設定した最も近い点と遠い点
• T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで
粒⼦にぶつかることなく移動する確率を表す
Radiance fieldからのボリュームレンダリング 2
• 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を⽤
いて区分求積法に基づいた近似計算を⾏う
• この⽅法についてはMaxのボリュームレンダリングのレビュー論⽂で議論されている
• サンプルする点の間隔は学習時には毎回ランダムに変化させている
NeRFの最適化 1: Positional encoding
• xyzθφをMLPにそのまま⼊⼒しても画像の⾼周波成分は再現できない
• DNNは低周波成分ばかりを学習してしまうバイアスがある (Rahaman et al. 2018)
• ⼊⼒を⼀旦、⾼周波関数(high frequency functions)で⾼次元空間にマッピングしてからDNN
に⼊⼒すると⾼周波成分を持つデータにfitしやすいらしい
• 以下の埋め込み関数を⽤いて⼊⼒のベクトルを⾼次元空間に写像
• 三次元位置を表すベクトルx = (x, y, z)の各成分をこの関数に⼊⼒
• 視線⽅向 (θ, φ) については(x, y, z)成分を持つ単位ベクトルに変換し上の関数に⼊⼒
• このテクニックはTransformer (Vaswani et al. 2017) でも使われているらしい
• 詳しい⼈教えてください
NeRFの最適化 2 : 階層的ボリュームサンプリング
• 光線に沿って点を密にサンプルするのは計算効率が悪いので、重要度を考慮して、
出⼒画像により寄与する点を選ぶのが良い
Ø階層的サンプリングという⼿法を提案
• 発想⾃体はボリュームレンダリングの研究で既出 (Levoy, 1990)
1. “corse”と”fine“の2つのネットワークを準備
2. 光線に沿って粗くサンプルした点を”coarse”ネットワークに⼊⼒し⾊と密度を
得たのちレンダリング
3. 得られた各点の重要度を⽤いて再度点をサンプルしなおす
4. 全ての点から”fine”ネットワークで⾊と密度を計算し画像をレンダリング
実装詳細
• データセットは画像と視点のペア、カメラ内部パラメータ、シーンの境界 (範囲)
• シミュレーションデータのデータセットからは⾃明に得られる
• 実データでは三次元復元のソフトウェアを⽤い推定したパラメータを使⽤
• 各イテレーションでランダムに光線をサンプルし、その後階層的サンプリングで三次元点を
サンプルした
• ボリュームレンダリングによりそれぞれの光線に対応するピクセルの⾊を計算
• 計算したピクセル値とGTとの⼆乗誤差を計算
• Rは光線の集合を表す, Cはピクセル値 (⾊), 添字のc, rはcoarse, fine networkに対応
• 光線は4096個サンプル, 三次元点は64 (coarse), 128 (fine) 個を階層的にサンプル
• 10~30万iteration, NVIDIA V100 1個を⽤いて1~2⽇間学習
実験 : dataset
• 合成データ
• Deep Voxels dataset (Sitzmann et al. 2019)
• 複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット
• 鏡⾯反射なし
• 画像のサイズは512x512
• 新しくCGでデータセットを作成
• 8種類のオブジェクト
• 学習⽤に100視点、テスト⽤に200視点レンダリング
• 画像のサイズは800x800
• 実データ
• 8つのシーンを携帯電話のカメラでいろいろな視点から撮影したデータ
• ⼀部はMildenhallらが作成したデータ
• 20~62枚撮影
• 学習:テスト = 8:2
• 画像のサイズは1008x756
実験: ⽐較⼿法
• Neural Volumes (NV) (S. Lombardi et al. 2019.)
• ダイナミックな3Dシーンをモデリング
• 観測からRGBαボクセルグリッドとそのワープを推定
• クエリ視点でレイマーチング (カメラに⼊る光線を逆⽅向に辿るレンダリング⼿法)
により新規視点のビューをレンダリング
• Scene Representation Networks (SRN) (V. Sitzmann et al. 2019.)
• シーンを不透明な表⾯として表現
• MLPで各点 (x, y, z) のfeatureを計算
• RNNで光線を進む幅を計算する→計算した分だけ進む を繰り返す
• 最終ステップの時の位置を物体の表⾯とし、⾊をfeatureからデコードする
• Local Light Field Fusion (LLFF) (B. Mildenhall et al. 2019)
• 3D convolution により⼊⼒の各視点のRGBαグリッド (multiplane image (MPI))を
直接推定
• クエリ視点でに対応する画像を複数のMPIから合成する
実験: 定量評価
• 3つの画質評価指標を⽤いて、新規視点画像合成のパフォーマンスを⽐較
• LPIPSはpretrained-CNNから抽出したfeatureの距離だったと思います (詳しい⼈
教えてください)
実験: 定性評価
• 提案⼿法とLLFFは細かく復元ができ
ている
• LLFFは観測画像を再利⽤するような⼿
法であることが⼤きい
• SRNとNVは細かい画像を⽣成する表現
⼒がない
• NVではシーン表現が粗いボクセルなの
が原因
• SRNはちょっとわかりません。。。
実験: 定性評価
artifactが出やすい、視点間の⼀貫性がない場合がある
視点間の⼀貫性はあるが、解像度が低い
細かい形状を合成できない、視点間の⼀貫性がない
引⽤元 : https://www.youtube.com/watch?v=JuH79E8rdKc
詳しい結果は上記リンクからYouTubeの動画をご
覧ください
実験: 定量評価
• シーン表現を計算するのにかかる時間
• 提案⼿法は1つのシーンを表現するのにモデルを最低でも12時間学習する必要
がある
• LLFFなど、事前に⾊々なシーンでモデルを学習しておくことで推論に時間が
かからないものもある
• 計算コスト
• 提案⼿法は、ネットワークの重みが5MBでマシンの負荷が少ない
• LLFFでは観測した画像データをメモリに保持するので15GBと負荷が⼤きい
実験: Ablation study
• CGのシーンで⾊々条件を変えた結果を⽐較
• 提案⼿法でどこが結果に効いているか
• Positional encoding, view dependenceは結果にかなり効く
• 階層サンプリングは性能にはそこまで効かない (計算量の効率化に寄与)
• 画像の枚数が少なすぎると性能が低下
• positional encoding時の周波数の数が少なすぎると性能が低下
• この辺りは順当な結果
まとめ
• 提案⼿法まとめ
• MLPを訓練することで、ある点の三次元空間の座標と視線⽅向を⼊⼒すると
⾊と密度を出⼒する Neural Radiance Field (NeRF)を獲得
• NeRFから古典的なボリュームレンダリングの⼿法を⽤いて新たな視点の
ビューを⽣成することができる
• 新規視点画像合成のタスクでSoTA
• Future work
• よりサンプル効率の⾼い⽅法 (学習時も推論時も)
• 解釈性の問題
• シーン表現をMLPの重みという形式で獲得しているため直接解釈できない
⾊々なシーンにおける結果
YouTubeの動画の後半をご覧ください
参考⽂献
• B. Midenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
arxiv prepring, 2020.
• J. T. Kajiya et al.: Ray Tracing Volume Densities. Computer Graphics, 1984.
• N. Max: Optical models for direct volume rendering. IEEE Transactions on Visualization and
Computer Graphics 1995.
• M. Levoy: Efficient ray tracing of volume data. ACM Transactions on Graphics 1990.
• N. Rahaman et al.: On the spectral bias of neural networks. in ICML 2018.
• A. Vaswani et al.: Attention is all you need. in NeurIPS 2018.
• S. Lombardi et al.: Neural volumes: Learning dynamic renderable volumes from images.
SIGGRAPH 2019.
• V. Sitzmann et al.: Scene Representation Networks: Continuous 3D-Structure-Aware Neural
Scene Representations. in NurIPS, 2019.
• B. Mildenhall et al.: Local light field fusion: Practical view synthesis with prescriptive sampling
guidelines. SIGGRAPH 2019.

More Related Content

What's hot

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
Deep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
Takuya Minagawa
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
Deep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
 
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
Hiroharu Kato
 

What's hot (20)

画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
 

Similar to [DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
Atsushi Hashimoto
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Yoshitaka Ushiku
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
ishii yasunori
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
Takayoshi Yamashita
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
Rei Takami
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
Hajime Mihara
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Deep Learning JP
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
Deep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
S_aiueo32
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
TomokiFurihara
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
Efficient Det
Efficient DetEfficient Det
Efficient Det
TakeruEndo
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
Norishige Fukushima
 

Similar to [DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (20)

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Efficient Det
Efficient DetEfficient Det
Efficient Det
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 

Recently uploaded (15)

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 

[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Kento Doi, Matsuo Lab
  • 2. 概要: 何がすごいか?? • 複数の視点と画像のペアからMulti layer perceptron (MLP) を学習することにより、新規視点⽣ 成のタスクで⾮常に素晴らしい結果を達成 • 新規視点⽣成とは … あるシーンを観測する視点を与えたときに、その視点に対応する画像を⽣成する こと • まずはproject pageからダウンロードした結果を⾒てください • http://www.matthewtancik.com/nerf B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 3. 書誌情報、選定理由など • UC Berkeley, Google Research, UC San Diegoの研究者が著者 • equal contributionが3⼈!! • 論⽂のフォーマットからECCV2020への投稿と思われる • 選定理由 • 結果の動画を⾒て、⾮常に⾼精細な画像が⽣成できていると驚いた • 画像⽣成形の論⽂情報はroadrunnerさんが早い (Twitter: @ak92501) • ⽣成結果のインパクトが⼤きく各所で話題になっていた • 軽く読んでみてアイデアが (⾃分にとって) 新しく⾯⽩かったため
  • 4. 概要: どうやって実現している? • MLPでNeural Radiance Field (NeRF) を学習 • Neural Radiance Fieldとは • 三次元空間のある点の位置と視線⽅向 (⾓度) を与えると、その点の密 度 (density) と⾊が定まるNNにより表現された「場」 • 場とは … 時空の各点に関する物理量で、座標と時間を指定すると⼀つの 物理量が定まる。数学的には空間座標が独⽴変数となる関数で表現可能* • 密度 (density) とは … 光をどれくらい透過するかを表すパラメーター (densityが⾼いほど光を通しにくいということだと思います) • カメラレイから定まる空間の各点の位置と視線の⽅向をクエリにして、 古典的なレンダリング⼿法 (volume rendering) を⽤いて視点に対応す る画像をレンダリングできる • volume renderingが微分可能なので画像を使ってend-to-endで学習できる • 複数の観測 (画像と視点のペア) でNeRFを訓練する⽅法を提案 *https://www.wikiwand.com/ja/%E5%A0%B4 http://www.matthewtancik.com/nerf
  • 5. レンダリングの⼿順 1. カメラレイをシーンの中を進ませ、三次元点をサンプル • カメラに⼊ってくる光を逆向きに進ませるイメージ • その光が通る点を考慮して画像をレンダリングする 2. サンプルした点と対応する視線の⽅向をNNに⼊⼒し各点の⾊と密度を⽣成 3. 古典的なボリュームレンダリングの技術で⾊と密度から画像を合成 • カメラレイを逆向きに辿り密度を考慮しながら⾊を⾜し合わせていくイメージ B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 6. 技術的な貢献 • 複雑な幾何形状を持つシーンをMLPでパラメタライズしたneural radiance field で表現したこと • 古典的なボリュームレンダリングの⼿法に基づく微分可能なレンダリング⼿法の 提案 • MLPのキャパシティを考慮した三次元点の階層的なサンプリング⼿法も提案 • 複雑な形状を持つシーンを表現するために5D (三次元位置、視線⽅向) を⾼次元 空間に埋め込むテクニックの提案 Ø新規視点合成の既存⼿法と⽐較しstate-of-the-artの結果を得た Ø次のスライドから詳細について説明します
  • 7. NeRFによるシーン表現の獲得 • シーンを5Dベクトル (三次元位置、視線⽅向) を⼊⼒として、とvolume density を出⼒する関数として表現 • 三次元位置: x = (x, y, z) • 視線⽅向: (θ, φ) • ⾊: c = (r, g, b) • volume density: σ • volume densityは、xのみにより定まる値 • ⾊はxと (θ, φ) により定まる値 • 上の制約からMLPは2つに分かれる 1. xを⼊⼒としσと256次元のベクトルを出⼒ 2. 1の出⼒の256次元のベクトルと(θ, φ)からc = (r, g, b)を出⼒ • ⾊を視線⽅向に依存するように設計する理由 Ø 鏡⾯反射など、⽅向に依存する現象 (non-Lambertian) を考慮できるようにするため
  • 8. 視点に依存する効果のモデリング • (a), (b) 同じ箇所を異なる⽅向から⾒ると、⾊が変わるということが再現できて いる • (c) あらゆる⽅向から同じ箇所を⾒た場合の⾊の変化を可視化 • 半球状のあらゆる視点から同じ箇所を⾒ようとした場合の⾊を円の中に表⽰している B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 9. Radiance fieldからのボリュームレンダリング 1 • 古典的なボリュームレンダリングの原理に基づいた⽅法を使⽤ • 1984年にKajitaらが提案した⼿法 (Ray Tracing Volume Densities) を引⽤していた • Ray Tracingとは、カメラに届く光線を逆⽅向に辿ることにより画像を⽣成する⼿法のこと • 本物の写真に近い画像をレンダリングできる⼿法として知られている • レイトレーシングによるボリュームレンダリングでは、光線を逆⽅向に辿りながら、物体のvolume density (透過率) を考慮しつつ各点の⾊を⾜し合わせ2D画像のあるピクセルの⾊を計算するイメー ジ (私の理解です) • 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる • カメラの光線を表すベクトル (oを通りdの⽅向に伸びる) : • t_n, t_fは仮想的に設定した最も近い点と遠い点 • T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで 粒⼦にぶつかることなく移動する確率を表す
  • 10. Radiance fieldからのボリュームレンダリング 2 • 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を⽤ いて区分求積法に基づいた近似計算を⾏う • この⽅法についてはMaxのボリュームレンダリングのレビュー論⽂で議論されている • サンプルする点の間隔は学習時には毎回ランダムに変化させている
  • 11. NeRFの最適化 1: Positional encoding • xyzθφをMLPにそのまま⼊⼒しても画像の⾼周波成分は再現できない • DNNは低周波成分ばかりを学習してしまうバイアスがある (Rahaman et al. 2018) • ⼊⼒を⼀旦、⾼周波関数(high frequency functions)で⾼次元空間にマッピングしてからDNN に⼊⼒すると⾼周波成分を持つデータにfitしやすいらしい • 以下の埋め込み関数を⽤いて⼊⼒のベクトルを⾼次元空間に写像 • 三次元位置を表すベクトルx = (x, y, z)の各成分をこの関数に⼊⼒ • 視線⽅向 (θ, φ) については(x, y, z)成分を持つ単位ベクトルに変換し上の関数に⼊⼒ • このテクニックはTransformer (Vaswani et al. 2017) でも使われているらしい • 詳しい⼈教えてください
  • 12. NeRFの最適化 2 : 階層的ボリュームサンプリング • 光線に沿って点を密にサンプルするのは計算効率が悪いので、重要度を考慮して、 出⼒画像により寄与する点を選ぶのが良い Ø階層的サンプリングという⼿法を提案 • 発想⾃体はボリュームレンダリングの研究で既出 (Levoy, 1990) 1. “corse”と”fine“の2つのネットワークを準備 2. 光線に沿って粗くサンプルした点を”coarse”ネットワークに⼊⼒し⾊と密度を 得たのちレンダリング 3. 得られた各点の重要度を⽤いて再度点をサンプルしなおす 4. 全ての点から”fine”ネットワークで⾊と密度を計算し画像をレンダリング
  • 13. 実装詳細 • データセットは画像と視点のペア、カメラ内部パラメータ、シーンの境界 (範囲) • シミュレーションデータのデータセットからは⾃明に得られる • 実データでは三次元復元のソフトウェアを⽤い推定したパラメータを使⽤ • 各イテレーションでランダムに光線をサンプルし、その後階層的サンプリングで三次元点を サンプルした • ボリュームレンダリングによりそれぞれの光線に対応するピクセルの⾊を計算 • 計算したピクセル値とGTとの⼆乗誤差を計算 • Rは光線の集合を表す, Cはピクセル値 (⾊), 添字のc, rはcoarse, fine networkに対応 • 光線は4096個サンプル, 三次元点は64 (coarse), 128 (fine) 個を階層的にサンプル • 10~30万iteration, NVIDIA V100 1個を⽤いて1~2⽇間学習
  • 14. 実験 : dataset • 合成データ • Deep Voxels dataset (Sitzmann et al. 2019) • 複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット • 鏡⾯反射なし • 画像のサイズは512x512 • 新しくCGでデータセットを作成 • 8種類のオブジェクト • 学習⽤に100視点、テスト⽤に200視点レンダリング • 画像のサイズは800x800 • 実データ • 8つのシーンを携帯電話のカメラでいろいろな視点から撮影したデータ • ⼀部はMildenhallらが作成したデータ • 20~62枚撮影 • 学習:テスト = 8:2 • 画像のサイズは1008x756
  • 15. 実験: ⽐較⼿法 • Neural Volumes (NV) (S. Lombardi et al. 2019.) • ダイナミックな3Dシーンをモデリング • 観測からRGBαボクセルグリッドとそのワープを推定 • クエリ視点でレイマーチング (カメラに⼊る光線を逆⽅向に辿るレンダリング⼿法) により新規視点のビューをレンダリング • Scene Representation Networks (SRN) (V. Sitzmann et al. 2019.) • シーンを不透明な表⾯として表現 • MLPで各点 (x, y, z) のfeatureを計算 • RNNで光線を進む幅を計算する→計算した分だけ進む を繰り返す • 最終ステップの時の位置を物体の表⾯とし、⾊をfeatureからデコードする • Local Light Field Fusion (LLFF) (B. Mildenhall et al. 2019) • 3D convolution により⼊⼒の各視点のRGBαグリッド (multiplane image (MPI))を 直接推定 • クエリ視点でに対応する画像を複数のMPIから合成する
  • 16. 実験: 定量評価 • 3つの画質評価指標を⽤いて、新規視点画像合成のパフォーマンスを⽐較 • LPIPSはpretrained-CNNから抽出したfeatureの距離だったと思います (詳しい⼈ 教えてください)
  • 17. 実験: 定性評価 • 提案⼿法とLLFFは細かく復元ができ ている • LLFFは観測画像を再利⽤するような⼿ 法であることが⼤きい • SRNとNVは細かい画像を⽣成する表現 ⼒がない • NVではシーン表現が粗いボクセルなの が原因 • SRNはちょっとわかりません。。。
  • 19. 実験: 定量評価 • シーン表現を計算するのにかかる時間 • 提案⼿法は1つのシーンを表現するのにモデルを最低でも12時間学習する必要 がある • LLFFなど、事前に⾊々なシーンでモデルを学習しておくことで推論に時間が かからないものもある • 計算コスト • 提案⼿法は、ネットワークの重みが5MBでマシンの負荷が少ない • LLFFでは観測した画像データをメモリに保持するので15GBと負荷が⼤きい
  • 20. 実験: Ablation study • CGのシーンで⾊々条件を変えた結果を⽐較 • 提案⼿法でどこが結果に効いているか • Positional encoding, view dependenceは結果にかなり効く • 階層サンプリングは性能にはそこまで効かない (計算量の効率化に寄与) • 画像の枚数が少なすぎると性能が低下 • positional encoding時の周波数の数が少なすぎると性能が低下 • この辺りは順当な結果
  • 21. まとめ • 提案⼿法まとめ • MLPを訓練することで、ある点の三次元空間の座標と視線⽅向を⼊⼒すると ⾊と密度を出⼒する Neural Radiance Field (NeRF)を獲得 • NeRFから古典的なボリュームレンダリングの⼿法を⽤いて新たな視点の ビューを⽣成することができる • 新規視点画像合成のタスクでSoTA • Future work • よりサンプル効率の⾼い⽅法 (学習時も推論時も) • 解釈性の問題 • シーン表現をMLPの重みという形式で獲得しているため直接解釈できない
  • 23. 参考⽂献 • B. Midenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. arxiv prepring, 2020. • J. T. Kajiya et al.: Ray Tracing Volume Densities. Computer Graphics, 1984. • N. Max: Optical models for direct volume rendering. IEEE Transactions on Visualization and Computer Graphics 1995. • M. Levoy: Efficient ray tracing of volume data. ACM Transactions on Graphics 1990. • N. Rahaman et al.: On the spectral bias of neural networks. in ICML 2018. • A. Vaswani et al.: Attention is all you need. in NeurIPS 2018. • S. Lombardi et al.: Neural volumes: Learning dynamic renderable volumes from images. SIGGRAPH 2019. • V. Sitzmann et al.: Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations. in NurIPS, 2019. • B. Mildenhall et al.: Local light field fusion: Practical view synthesis with prescriptive sampling guidelines. SIGGRAPH 2019.