SlideShare a Scribd company logo
1 of 41
Download to read offline
Stereo Magnification: Learning view synthesis using
multiplane images, +α
今回触れる論文
1. Stereo Magnification: Learning view synthesis using multiplane
images
– SIGGRAPH 2018
2. DeepView: View Synthesis with Learned Gradient Descent
– CVPR 2019
– 1の派生
3. Immersive Light Field Video with a Layered Mesh Representation
– SIGGRAPH 2020
• Best in Show – Immersive Experience award (没入体験賞)?
– 2の派生
全部Google(1は + UC Berkeley)
デモ (③ Immersive Light Field Video with a Layered Mesh Representation)
デモと動画
• デモ
– ③: https://augmentedperception.github.io/deepviewvideo/
– ②: https://augmentedperception.github.io/deepview/
• 動画
– ③: https://www.youtube.com/watch?v=SvRgkXQZIQg
– ②: https://www.youtube.com/watch?v=CQ0kdR3c4Ec
– ①: https://www.youtube.com/watch?v=oAKDhHPwSUE
発表の概要
• Immersive Light Field Video + 前提の二本を紹介
• ひとことで言うと
– 複数の画像/映像から一人称視点の1~6DoFの3D世界を再構成する
• キーワード
– view synthesis, image-based rendering
• 選定理由
– Deep×VR系がアツい
• G社F社M社あたりが結構本気感
• 将来的なVRプラットフォームの覇権争い????
– (コロナでみんなVRやりたくなってるんじゃないかなと思って)
発表の概要
1. Stereo Magnification: Learning view synthesis using multiplane
images, 2018
– 『MPI: multi-plane image』という疑似的な3D化手法を提案
– 2画像(ステレオカメラ)間の内挿&外挿
2. DeepView: View Synthesis with Learned Gradient Descent, 2019
– 1の改善, ~12カメラ
3. Immersive Light Field Video with a Layered Mesh Representation,
2020
– 2を球面に拡張, ~48カメラ
DLなところを中心に扱います
(余談) 最近のDeep×VR系で凄そうな研究
• リアルアバターVTuber by Google AI
– Volumetric Performance Capture of Humans with Realistic Relighting
– https://www.youtube.com/watch?v=anBRroZWfzI
• HMD被ったまま表情トラッキング&表情生成 by Facebook
– VR Facial Animation via Multiview Image Translation
– https://www.youtube.com/watch?v=IoVP3cMIm_Q
Stereo Magnification: Learning view synthesis using
multiplane images, 2018
Stereo Magnification: Learning view synthesis using multiplane images, 2018
• https://www.youtube.com/watch?v=oAKDhHPwSUE
Stereo Magnification: Learning view synthesis using multiplane images, 2018
• 問題設定
– 2視点の画像を使い、その内挿&外挿視点からの画像を生成(合成)
似たタスク
• https://www.youtube.com/
watch?v=D0JObXCfxv0
• 似たタスク(で最近
バズってたやつ) ⇨
– 単一カメラなので少し違う
• 前景と背景を切り分け、
前景で隠れてた部分を
塗りつぶす
• 3Dというよりは画像編集
(フォトショ的な)とか短い映像
用な気がする
• ① 2画像から、画像中の物体を深度ごとに分けた「multi-plane images」を
作る (DLポイント)
– 前景・背景分解をもっと細かくするイメージ
• ②「multi-plane images」を使って(少しずつずらして)欲しい視点からの画
像を生成(合成)する
手法の全体像
- 右から見るときは、
MPIを左にずらせばいい
(手前のplaneほど大きく
ずらす)
- 分かりやすいデモ
- 平面を動かすだけで(平面と
気づかないレベルで)立体感
が出る。天才
• 素朴には…
– 2画像(+2画像の位置関係に関する情報)を入力して、
D枚のmulti-plane imagesを生成するNNを作る
• 工夫点
– 「各レイヤーは入力画像のある深度部分を切り取ったらだいたい事足りるので、わ
ざわざRGBA画像を位置から生成する必要はない」
– ⇨ 1枚の画像をくり抜いて(0~1の重みをかけて)MPIを作る
• 論文ではD=32
MPIの求め方
1. 2枚の画像の視差を使いD枚のplane sweep画像を生成
2. plane sweep画像と画像1を使って①最背景、②画像1をくり抜く際の重
み、③透過率(ガラスや反射用)マップ(RGBAのA)を求める(NN)
3. 画像1をくり抜いてD枚のMPIを合成
MPIの求め方
①
②
③
• 視差を使って深度推定しつつ、
ある視点からの画像を合成するCV手法
• それなりにうまくいくけどザラザラな画像に
なる
• 恐らくPSVがMPIの発想的な由来
PSV: plane sweep volume
情報処理学会研究報告 可視性マップの逐次更新を利用したプレーンスイープ法
https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=80462&item_no=1&attribute_id=1&file_no=1
D枚
• 手法
– ある視線上に各画像とプレーンとの交点がD
個ずつある
– D個の点のうち、その点での2画像の画素値
が近い点をその視線の色+深度として採用
– 全ての視線(画素)について計算
• ある視点からの画像と、深度ごとに分かれ
た画像(プレーン)が得られる
– このプレーン(大雑把な各深度の画像?)を
今回使う
PSV: plane sweep volume
D枚
視点
視線
各planeの求め方
• 推定した重みを元に画像1をくり抜く
– 重みwでI1,1-wで背景
②
①
①②
画像1(I1)
画像2(I2)
• 入力:I1(H×W×3)
plane sweep(H×W×3×D)
• 出力:① 背景画像(H×W×3) (透過なしのRGB)
② くり抜き用の重み(H×W×D)
③ 各planeの透過率(H×W×D)
NN学習部分
②
①
画像1(I1)
画像2(I2)
③
結局この手法は、
うまく深度推定してくり抜
けるかがメイン
• モデル:CNN(UNet)
– skip connectionあり、dilated convあり
– 出力は1024×576
– 微分可能な関数でMPIをターゲット視点で合成、lossをとる
• 目的関数
–
– ターゲットの予測誤差だけど単純な二乗誤差ではなく、feature matchin loss
• VGG-19で得られる特徴量(数ヵ所の層での出力)
• λはその層の出力の数の逆数
• 計算コスト
– P100 1枚で1週間
NN学習部分
• データ
– (1500video) 7000 video clip, 750K frames
– 良さそうなYouTubeチャンネルを探した&SLAMでカメラ姿勢推定した
• 適当に参照用画像2フレーム
を取って、
内挿予測用と外挿予測用の
ターゲットをサンプルして
学習
NN学習部分
カメラが動いている様子 ⇨
⇩ point cloud
• (補間の幅は小さいものの)はっきりした合成画像ができる
• SSIMやPSNRも既存手法比で改善
評価
• 壁の横(隠れていた部分)、細かい線などは難しい
limitation
DeepView: View Synthesis with Learned Gradient
Descent, 2019
DeepView: View Synthesis with Learned Gradient Descent, 2019
• https://www.youtube.com/watch?v=CQ0kdR3c4Ec
•
Immersive Light Field Video with a Layered Mesh Representation, 2020
• 問題設定
– 複数(~12)視点の画像を使い、その内挿&外挿視点からの画像を生成(合成)
問題意識
• そもそもMPIを求めるのは(不良設定)逆問題だよね
– ある視点の画像を合成することは順問題
• ((不良設定)逆問題一般的な話だけど、)
• 一発で正確に全ての視点画像を再合成できるMPIを求めるのは困難
• MPIを生成した後、まだ既知の画像との誤差があれば修正してほしい
• お気持ち
– 「奥のモノを推論したときに
手前のモノでどう隠れるかは、
もう一度順問題に流さないと
なかなかわからないよね」
ill-posed inverse problem
• well-posed ⇔ ill-posed
– 以下の3つを満たせば(アダマールの意味で) well-posed (良設定)
• 解が存在する
• 解がただ一つ
• 入力に微小な変動を与えたときに、出力の変動も微小
• inverse problem
– f(x) = x**2, f(x) = 25 のとき、xを求める
– ロボットアームを決められた位置姿勢に移動させる関節角度を求める
ill-posed inverse problem
• ill-posedな問題の近似解を求める際によく使う方法 (線形問題)
–
– 誤差項 + 正則化項
– Jを最小化する
– 正則化項は「推定パラメタはほとんど零である」や「推定パラメタはばらつきが少な
い」などの事前知識を与えている
https://ja.wikipedia.org/wiki/逆問題
提案手法
• MPIの推定を逆問題と捉え、逐次最適化によって解く
– 「MPIの推定 ⇨ 誤差の調査」を繰り返して最適なMPIを求める
• M: multi-plane layers。{{c_1, α_1}…{c_d, α_d}…{c_D, α_D}}
• K: 入力画像(視点)の数
• L_k: 本来の目的関数
– L2誤差とか特徴誤差とか
– 後述
• Φ: 正則化関数
– とくに決まっていない
– 後述
M
LGD: Learned Gradient Descent
• 素朴には…
– Lを二乗誤差等にして、純粋に勾配法でMPIをN回アップデートする
• (微分可能な方法でターゲット視点の画像を合成して誤差を取る)
• ちょっと待った!
– 逆問題なんかで逐次的な更新をする場合、単純な勾配法を使うのではなく、更新の
仕方も学習してもらった方がいい
• Solving ill-posed inverse problems using iterative deep neural networks, 2017
• Learned primal-dual reconstruction, 2018
LGD: Learned Gradient Descent
• もともと
• 普通の勾配法でN回逐次最適化。(これでもいける)
• Learned Gradient Descent
– K個の視点での勾配と直前のMを入力として、更新量ΔMを推論
– 実はLGDの方が精度が出る
• Learned Gradient Descent
– 損失関数に渡す   の微分を計算してみる
• W: 視点位置に応じてMPIを縦横にずらす行列. 逆にW^{-1}はMPIを原点に戻す
• O: MPIを透過率を考慮しながら重ね合わせて1枚の画像にする関数
–
– (d=1が奥,d=Dが手前)
– Mの成分c_d, α_dでの微分は、
Learned Gradient Descent の入力
• Learned Gradient Descent
– 更新方法だけでなく、さらに更新時の損失関数も自由度を持たせる
– ⇨ 明示的な損失関数を決めなくても、T, A, Mを入力にしていればいい
Learned Gradient Descent の入力
L = f( , ),
T (transmittance項) TA (accumulate項)
• もともと
• 被明示的な(中間)loss ver
– ↑: broadcast
– W: 視点位置に応じてMPIを縦横にずらす行列
– W^{-1}: MPIを原点に戻す
Learned Gradient Descent
• 被明示的な(中間)loss ver
• 最終的な目的関数(LはVGG-16でfeature similarity loss)
– update回数は4
Learned Gradient Descent
• update回数は4
• モデル
• データ
– train: 90シーン、12 input view、4 output view
– test: 10シーン
学習
• 既存手法(もとのMPI, Soft3D)と比べて
SSIMが向上
• 被明示的なlossを使うことで精度向上
評価
Immersive Light Field Video with a Layered Mesh
Representation, 2020
Immersive Light Field Video with a Layered Mesh Representation, 2020
• https://www.youtube.com/watch?v=SvRgkXQZIQg
DeepViewとの差分
• 球面状のmulti-plane images、multi-sphere imagesの提案
– 6DoF(70cmまで動ける, 角度は180°まで)の実現
• 大規模サイズのMSI(H×W×3×D=1800×1350×3×160)の効率的な圧縮方
法の提案
– 境界線を検出して面でつなぎ、メッシュを作る
• VRデモの実装
– 200MB/sくらいでストリーミングできる
• (deep的な差分はほぼなし)
まとめ
• Multi-plane Imagesの発想はすごい
• 逆問題で逐次最適化したい時、Learned Gradientを使うと良さそう
• データドリブンなVR開発はこれからも進みそう

More Related Content

What's hot

StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAKento Doi
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)Hiroharu Kato
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Yusuke Uchida
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion ModelsDeep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Yosuke Shinya
 
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Densitycvpaper. challenge
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerYasutomo Kawanishi
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB ImagesDeep Learning JP
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2harmonylab
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 

What's hot (20)

StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 

Similar to [DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α

物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記Silicon Studio Corporation
 
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...tomoaki0705
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognitioncvpaper. challenge
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)Shintaro Yamamoto
 
20150805卒研進捗LT (share)
20150805卒研進捗LT (share)20150805卒研進捗LT (share)
20150805卒研進捗LT (share)mohemohe
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]MakotoItoh
 
SSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーションSSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーションSSII
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東 20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東 Kyohei Unno
 
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalizationcvpaper. challenge
 
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -Project Samurai
 
Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介Toru Tamaki
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!Silicon Studio Corporation
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"Hajime Mihara
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜Michiharu Niimi
 

Similar to [DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α (20)

物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記物理ベース時代のライトマップベイク奮闘記
物理ベース時代のライトマップベイク奮闘記
 
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)
 
20150805卒研進捗LT (share)
20150805卒研進捗LT (share)20150805卒研進捗LT (share)
20150805卒研進捗LT (share)
 
Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]Unity名古屋セミナー [Shadowgun]
Unity名古屋セミナー [Shadowgun]
 
SSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーションSSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーション
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東 20190227 第51回CV勉強会@関東
20190227 第51回CV勉強会@関東
 
CEDEC2014: アンリアル・エンジン4を技術者が活用するための最新ノウハウ
CEDEC2014: アンリアル・エンジン4を技術者が活用するための最新ノウハウCEDEC2014: アンリアル・エンジン4を技術者が活用するための最新ノウハウ
CEDEC2014: アンリアル・エンジン4を技術者が活用するための最新ノウハウ
 
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization
 
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
 
Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α

  • 1. Stereo Magnification: Learning view synthesis using multiplane images, +α
  • 2. 今回触れる論文 1. Stereo Magnification: Learning view synthesis using multiplane images – SIGGRAPH 2018 2. DeepView: View Synthesis with Learned Gradient Descent – CVPR 2019 – 1の派生 3. Immersive Light Field Video with a Layered Mesh Representation – SIGGRAPH 2020 • Best in Show – Immersive Experience award (没入体験賞)? – 2の派生 全部Google(1は + UC Berkeley)
  • 3. デモ (③ Immersive Light Field Video with a Layered Mesh Representation)
  • 4. デモと動画 • デモ – ③: https://augmentedperception.github.io/deepviewvideo/ – ②: https://augmentedperception.github.io/deepview/ • 動画 – ③: https://www.youtube.com/watch?v=SvRgkXQZIQg – ②: https://www.youtube.com/watch?v=CQ0kdR3c4Ec – ①: https://www.youtube.com/watch?v=oAKDhHPwSUE
  • 5. 発表の概要 • Immersive Light Field Video + 前提の二本を紹介 • ひとことで言うと – 複数の画像/映像から一人称視点の1~6DoFの3D世界を再構成する • キーワード – view synthesis, image-based rendering • 選定理由 – Deep×VR系がアツい • G社F社M社あたりが結構本気感 • 将来的なVRプラットフォームの覇権争い???? – (コロナでみんなVRやりたくなってるんじゃないかなと思って)
  • 6. 発表の概要 1. Stereo Magnification: Learning view synthesis using multiplane images, 2018 – 『MPI: multi-plane image』という疑似的な3D化手法を提案 – 2画像(ステレオカメラ)間の内挿&外挿 2. DeepView: View Synthesis with Learned Gradient Descent, 2019 – 1の改善, ~12カメラ 3. Immersive Light Field Video with a Layered Mesh Representation, 2020 – 2を球面に拡張, ~48カメラ DLなところを中心に扱います
  • 7. (余談) 最近のDeep×VR系で凄そうな研究 • リアルアバターVTuber by Google AI – Volumetric Performance Capture of Humans with Realistic Relighting – https://www.youtube.com/watch?v=anBRroZWfzI • HMD被ったまま表情トラッキング&表情生成 by Facebook – VR Facial Animation via Multiview Image Translation – https://www.youtube.com/watch?v=IoVP3cMIm_Q
  • 8. Stereo Magnification: Learning view synthesis using multiplane images, 2018
  • 9. Stereo Magnification: Learning view synthesis using multiplane images, 2018 • https://www.youtube.com/watch?v=oAKDhHPwSUE
  • 10. Stereo Magnification: Learning view synthesis using multiplane images, 2018 • 問題設定 – 2視点の画像を使い、その内挿&外挿視点からの画像を生成(合成)
  • 11. 似たタスク • https://www.youtube.com/ watch?v=D0JObXCfxv0 • 似たタスク(で最近 バズってたやつ) ⇨ – 単一カメラなので少し違う • 前景と背景を切り分け、 前景で隠れてた部分を 塗りつぶす • 3Dというよりは画像編集 (フォトショ的な)とか短い映像 用な気がする
  • 12. • ① 2画像から、画像中の物体を深度ごとに分けた「multi-plane images」を 作る (DLポイント) – 前景・背景分解をもっと細かくするイメージ • ②「multi-plane images」を使って(少しずつずらして)欲しい視点からの画 像を生成(合成)する 手法の全体像 - 右から見るときは、 MPIを左にずらせばいい (手前のplaneほど大きく ずらす) - 分かりやすいデモ - 平面を動かすだけで(平面と 気づかないレベルで)立体感 が出る。天才
  • 13. • 素朴には… – 2画像(+2画像の位置関係に関する情報)を入力して、 D枚のmulti-plane imagesを生成するNNを作る • 工夫点 – 「各レイヤーは入力画像のある深度部分を切り取ったらだいたい事足りるので、わ ざわざRGBA画像を位置から生成する必要はない」 – ⇨ 1枚の画像をくり抜いて(0~1の重みをかけて)MPIを作る • 論文ではD=32 MPIの求め方
  • 14. 1. 2枚の画像の視差を使いD枚のplane sweep画像を生成 2. plane sweep画像と画像1を使って①最背景、②画像1をくり抜く際の重 み、③透過率(ガラスや反射用)マップ(RGBAのA)を求める(NN) 3. 画像1をくり抜いてD枚のMPIを合成 MPIの求め方 ① ② ③
  • 15. • 視差を使って深度推定しつつ、 ある視点からの画像を合成するCV手法 • それなりにうまくいくけどザラザラな画像に なる • 恐らくPSVがMPIの発想的な由来 PSV: plane sweep volume 情報処理学会研究報告 可視性マップの逐次更新を利用したプレーンスイープ法 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=80462&item_no=1&attribute_id=1&file_no=1 D枚
  • 16. • 手法 – ある視線上に各画像とプレーンとの交点がD 個ずつある – D個の点のうち、その点での2画像の画素値 が近い点をその視線の色+深度として採用 – 全ての視線(画素)について計算 • ある視点からの画像と、深度ごとに分かれ た画像(プレーン)が得られる – このプレーン(大雑把な各深度の画像?)を 今回使う PSV: plane sweep volume D枚 視点 視線
  • 18. • 入力:I1(H×W×3) plane sweep(H×W×3×D) • 出力:① 背景画像(H×W×3) (透過なしのRGB) ② くり抜き用の重み(H×W×D) ③ 各planeの透過率(H×W×D) NN学習部分 ② ① 画像1(I1) 画像2(I2) ③ 結局この手法は、 うまく深度推定してくり抜 けるかがメイン
  • 19. • モデル:CNN(UNet) – skip connectionあり、dilated convあり – 出力は1024×576 – 微分可能な関数でMPIをターゲット視点で合成、lossをとる • 目的関数 – – ターゲットの予測誤差だけど単純な二乗誤差ではなく、feature matchin loss • VGG-19で得られる特徴量(数ヵ所の層での出力) • λはその層の出力の数の逆数 • 計算コスト – P100 1枚で1週間 NN学習部分
  • 20. • データ – (1500video) 7000 video clip, 750K frames – 良さそうなYouTubeチャンネルを探した&SLAMでカメラ姿勢推定した • 適当に参照用画像2フレーム を取って、 内挿予測用と外挿予測用の ターゲットをサンプルして 学習 NN学習部分 カメラが動いている様子 ⇨ ⇩ point cloud
  • 23. DeepView: View Synthesis with Learned Gradient Descent, 2019
  • 24. DeepView: View Synthesis with Learned Gradient Descent, 2019 • https://www.youtube.com/watch?v=CQ0kdR3c4Ec •
  • 25. Immersive Light Field Video with a Layered Mesh Representation, 2020 • 問題設定 – 複数(~12)視点の画像を使い、その内挿&外挿視点からの画像を生成(合成)
  • 26. 問題意識 • そもそもMPIを求めるのは(不良設定)逆問題だよね – ある視点の画像を合成することは順問題 • ((不良設定)逆問題一般的な話だけど、) • 一発で正確に全ての視点画像を再合成できるMPIを求めるのは困難 • MPIを生成した後、まだ既知の画像との誤差があれば修正してほしい • お気持ち – 「奥のモノを推論したときに 手前のモノでどう隠れるかは、 もう一度順問題に流さないと なかなかわからないよね」
  • 27. ill-posed inverse problem • well-posed ⇔ ill-posed – 以下の3つを満たせば(アダマールの意味で) well-posed (良設定) • 解が存在する • 解がただ一つ • 入力に微小な変動を与えたときに、出力の変動も微小 • inverse problem – f(x) = x**2, f(x) = 25 のとき、xを求める – ロボットアームを決められた位置姿勢に移動させる関節角度を求める
  • 28. ill-posed inverse problem • ill-posedな問題の近似解を求める際によく使う方法 (線形問題) – – 誤差項 + 正則化項 – Jを最小化する – 正則化項は「推定パラメタはほとんど零である」や「推定パラメタはばらつきが少な い」などの事前知識を与えている https://ja.wikipedia.org/wiki/逆問題
  • 29. 提案手法 • MPIの推定を逆問題と捉え、逐次最適化によって解く – 「MPIの推定 ⇨ 誤差の調査」を繰り返して最適なMPIを求める • M: multi-plane layers。{{c_1, α_1}…{c_d, α_d}…{c_D, α_D}} • K: 入力画像(視点)の数 • L_k: 本来の目的関数 – L2誤差とか特徴誤差とか – 後述 • Φ: 正則化関数 – とくに決まっていない – 後述 M
  • 30. LGD: Learned Gradient Descent • 素朴には… – Lを二乗誤差等にして、純粋に勾配法でMPIをN回アップデートする • (微分可能な方法でターゲット視点の画像を合成して誤差を取る) • ちょっと待った! – 逆問題なんかで逐次的な更新をする場合、単純な勾配法を使うのではなく、更新の 仕方も学習してもらった方がいい • Solving ill-posed inverse problems using iterative deep neural networks, 2017 • Learned primal-dual reconstruction, 2018
  • 31. LGD: Learned Gradient Descent • もともと • 普通の勾配法でN回逐次最適化。(これでもいける) • Learned Gradient Descent – K個の視点での勾配と直前のMを入力として、更新量ΔMを推論 – 実はLGDの方が精度が出る
  • 32. • Learned Gradient Descent – 損失関数に渡す   の微分を計算してみる • W: 視点位置に応じてMPIを縦横にずらす行列. 逆にW^{-1}はMPIを原点に戻す • O: MPIを透過率を考慮しながら重ね合わせて1枚の画像にする関数 – – (d=1が奥,d=Dが手前) – Mの成分c_d, α_dでの微分は、 Learned Gradient Descent の入力
  • 33. • Learned Gradient Descent – 更新方法だけでなく、さらに更新時の損失関数も自由度を持たせる – ⇨ 明示的な損失関数を決めなくても、T, A, Mを入力にしていればいい Learned Gradient Descent の入力 L = f( , ), T (transmittance項) TA (accumulate項)
  • 34. • もともと • 被明示的な(中間)loss ver – ↑: broadcast – W: 視点位置に応じてMPIを縦横にずらす行列 – W^{-1}: MPIを原点に戻す Learned Gradient Descent
  • 35. • 被明示的な(中間)loss ver • 最終的な目的関数(LはVGG-16でfeature similarity loss) – update回数は4 Learned Gradient Descent
  • 36. • update回数は4 • モデル • データ – train: 90シーン、12 input view、4 output view – test: 10シーン 学習
  • 37. • 既存手法(もとのMPI, Soft3D)と比べて SSIMが向上 • 被明示的なlossを使うことで精度向上 評価
  • 38. Immersive Light Field Video with a Layered Mesh Representation, 2020
  • 39. Immersive Light Field Video with a Layered Mesh Representation, 2020 • https://www.youtube.com/watch?v=SvRgkXQZIQg
  • 40. DeepViewとの差分 • 球面状のmulti-plane images、multi-sphere imagesの提案 – 6DoF(70cmまで動ける, 角度は180°まで)の実現 • 大規模サイズのMSI(H×W×3×D=1800×1350×3×160)の効率的な圧縮方 法の提案 – 境界線を検出して面でつなぎ、メッシュを作る • VRデモの実装 – 200MB/sくらいでストリーミングできる • (deep的な差分はほぼなし)
  • 41. まとめ • Multi-plane Imagesの発想はすごい • 逆問題で逐次最適化したい時、Learned Gradientを使うと良さそう • データドリブンなVR開発はこれからも進みそう