SlideShare a Scribd company logo
1 of 61
Download to read offline
第3回 3D勉強会@関東 (Deep SLAM論文読み会)
Neural scene representation and
rendering (Science)
東京大学 相澤研究室所属
M1 金子 真也 (@syinari0123)
1
自己紹介
• 氏名
– 金子 真也 (かねこ まさや)
• 所属
– 東京大学大学院 学際情報学府 相澤研 M1
• Recently
– 2018年8月-9月 Sony Internship (SLAM)
– 2018年9月- 産総研 Research Assistant (櫻田先生)
• 深層学習やVisual SLAMと戯れています
• 就活に向けて情報収集中なのでSLAM関連でおすすめの企業があり
ましたらぜひ教えてください
まさや
(@syinari0123)
2
本論文
Neural scene representation and rendering
– [Eslami, Rezende, et al. (DeepMind), Science(2018)]
– 著者はVAEを作ったRezende氏, Last authorにHassabis氏
– Scienceに掲載
3
どのようなものか?
• Generative Query Network (GQN) の提案
– あるマップを複数視点から撮影した画像群から, 別視点の画像を
生成するネットワーク (Rendererの実現)
4
どのようなものか?
• Generative Query Network (GQN) の提案
– あるマップを複数視点から撮影した画像群から, 別視点の画像を
生成するネットワーク (Rendererの実現)
1. 複数視点の画像群からScene Representationを作成
5
どのようなものか?
• Generative Query Network (GQN) の提案
– あるマップを複数視点から撮影した画像群から, 別視点の画像を
生成するネットワーク (Rendererの実現)
1. 複数視点の画像群からScene Representationを作成
2. Scene Representationを手掛かりとして, ある視点位置
が入力されたらそこから見える画像を生成
6
どのようなものか?
• Generative Query Network (GQN) の提案
– あるマップを複数視点から撮影した画像群から, 別視点の画像を
生成するネットワーク (Rendererの実現)
どこかで見たことあるような気がする…???
SfM/SLAM …???
三次元地図…??
7
関連研究:SfM/SLAM
• SfM/SLAM [Structure from Motion / Simultaneous Localization and Mapping]
– 画像群から, 抽出した特徴点の三次元位置と各画像のカメラ姿勢
(三次元地図)を同時に求める
三次元地図の作成
(点の三次元位置+カメラ姿勢)
画像群
[1] Building Rome in a Day [Agarwal+, ICCV2009]
8
関連研究:SfM/SLAM
• SfM/SLAM [Structure from Motion / Simultaneous Localization and Mapping]
– 画像群から, 抽出した特徴点の三次元位置と各画像のカメラ姿勢
(三次元地図)を同時に求める
– 三次元地図を使い, 画像から位置推定もできる(Localization)
三次元地図の作成
(点の三次元位置+カメラ姿勢)
画像群
Localization
カメラ姿勢
[1] Building Rome in a Day [Agarwal+, ICCV2009]
9
関連研究:SfM/SLAM
• SfM/SLAM [Structure from Motion / Simultaneous Localization and Mapping]
– 画像群から, 抽出した特徴点の三次元位置と各画像のカメラ姿勢
(三次元地図)を同時に求める
– 三次元地図を使い, 画像から位置推定もできる(Localization)
– 逆に位置から画像の推定も可能 (Rendering)
三次元地図の作成
(点の三次元位置+カメラ姿勢)
画像群
Localization Rendering
カメラ姿勢
[1] Building Rome in a Day [Agarwal+, ICCV2009]
10
関連研究
• SfM/SLAM vs GQN
– 両者の大きな違いは三次元地図を特徴量として保持している点
– 地図の可視性/Localization機能は失われるが, 深層学習で空間
情報を容易に扱うことができる (非常に重要)
手法 SfM/SLAM GQN
目標 三次元構造の復元 Rendererの実現
三次元地図 Pointcloud表現 特徴量ベクトル
地図の可視性 〇 ×
Localization
(画像→位置)
〇 ×
Rendering
(位置→画像)
〇 〇
深層学習との相性 × 〇
11
関連研究
• 三次元地図のPointcloud表現
– 人間が空間把握するには非常にわかりやすい表現
– 一方, CNNで取り扱うには非常に難しい表現
• 座標値が並んでいるだけなので隣接関係が分からず畳み込み
が容易ではない
• 様々な手法が近年提案されているが決定的な手法はない印象
– PointNet++ [NIPS’17], SPLATNet [CVPR’18], …
– 皆川さんのスライドが非常にわかりやすいです
(https://www.slideshare.net/takmin/cvpr2018pointcloudcnnsplatnet)
𝑥𝑥1, 𝑦𝑦1, 𝑧𝑧1
𝑥𝑥2, 𝑦𝑦2, 𝑧𝑧2
𝑥𝑥3, 𝑦𝑦3, 𝑧𝑧3
…
• 三次元地図のPointcloud表現
– 人間が空間把握するには非常にわかりやすい表現
– 一方, CNNで取り扱うには非常に難しい表現
• 座標値が並んでいるだけなので隣接関係が分からず畳み込み
が容易ではない
• 様々な手法が近年提案されているが決定的な手法はない印象
– PointNet++ [NIPS’17], SPLATNet [CVPR’18], …
– 皆川さんのスライドが非常にわかりやすいです
(https://www.slideshare.net/takmin/cvpr2018pointcloudcnnsplatnet)
12
関連研究
𝑥𝑥1, 𝑦𝑦1, 𝑧𝑧1
𝑥𝑥2, 𝑦𝑦2, 𝑧𝑧2
𝑥𝑥3, 𝑦𝑦3, 𝑧𝑧3
…
直接三次元地図の特徴量を得るGQNは以下が期待できる
1. 難しいとされる点群畳み込みを介さないため,
良い特徴量を抽出できそう
2. 畳み込まないので地図のスケールが増えても,
計算量は増大しない
13
手法解説
• どのように実現するか?
– 目標1:あるマップを複数視点から撮影した画像群から, 未知の
視点のマップ画像を生成したい
複数視点からマップを
撮影した画像群
新しい視点の画像
新しい視点の画像の生成
14
手法解説
• どのように実現するか?
– 目標1:あるマップを複数視点から撮影した画像群から, 未知の
視点のマップ画像を生成したい
複数視点からマップを
撮影した画像群
新しい視点の画像
マップ
マップがまず存在して
そこから画像が生成される
15
手法解説
• どのように実現するか?
– 目標1:あるマップを複数視点から撮影した画像群から, 未知の
視点のマップ画像を生成したい
• マップ画像をうまく生成するようなモデルを推定すればよい
– Variational Autoencoder [Kingma+, 2013]が使える
複数視点からマップを
撮影した画像群
新しい視点の画像
マップ画像を生成する
モデル
?
16
関連研究:VAE
• Variational Autoencoder (VAE) [Kingma+, ICLR’14]
– 画像𝑥𝑥が自身を再構成するように低次元の潜在変数𝑧𝑧を抽出
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
潜在変数 𝑧𝑧
入力 𝑥𝑥
Loss
17
関連研究:VAE
• Variational Autoencoder (VAE) [Kingma+, ICLR’14]
– 画像𝑥𝑥が自身を再構成するように低次元の潜在変数𝑧𝑧を抽出
– 正規分布に従うような制約を𝑧𝑧にかけ, 𝑧𝑧空間での連続性を保つ
正規分布 𝑁𝑁(0, 𝐼𝐼)
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
潜在変数 𝑧𝑧
入力 𝑥𝑥
Loss
Loss
18
関連研究:VAE
• Variational Autoencoder (VAE) [Kingma+, ICLR’14]
– 画像𝑥𝑥が自身を再構成するように低次元の潜在変数𝑧𝑧を抽出
– 正規分布に従うような制約を𝑧𝑧にかけ, 𝑧𝑧空間での連続性を保つ
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
潜在変数 𝑧𝑧
正規分布 𝑁𝑁(0, 𝐼𝐼)
入力 𝑥𝑥
Loss
Loss
潜在変数空間[1] 生成画像[1]
[1] https://qiita.com/kenmatsu4/items/
b029d697e9995d93aa24
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
19
手法解説
• VAEによりマップの画像生成モデルを構築できそう
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
潜在変数 𝑧𝑧
正規分布 𝑁𝑁(0, 𝐼𝐼)
入力 𝑥𝑥
Loss
Loss
学習時
複数視点からマップを撮影した画像群
20
手法解説
• VAEによりマップの画像生成モデルを構築できそう
– 現段階では未知の潜在変数を動かし新しい画像生成するのみ
– 目標2:潜在変数をうまく取り扱いたい
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
画像生成 𝑥𝑥𝑥
潜在変数 𝑧𝑧
潜在変数zを動かすことで
新しい画像生成推論時
21
手法解説
• VAEによりマップの画像生成モデルを構築できそう
– 現段階では未知の潜在変数を動かし新しい画像生成するのみ
– 目標2:潜在変数をうまく取り扱いたい
1. 様々なマップに対応するモデルを生成したい
マップの複数視点画像
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
画像生成 𝑥𝑥𝑥
潜在変数 𝑧𝑧改良案
22
手法解説
• VAEによりマップの画像生成モデルを構築できそう
– 現段階では未知の潜在変数を動かし新しい画像生成するのみ
– 目標2:潜在変数をうまく取り扱いたい
1. 様々なマップに対応するモデルを生成したい
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
画像生成 𝑥𝑥𝑥
潜在変数 𝑧𝑧改良案
マップの複数視点画像
23
手法解説
• VAEによりマップの画像生成モデルを構築できそう
– 現段階では未知の潜在変数を動かし新しい画像生成するのみ
– 目標2:潜在変数をうまく取り扱いたい
1. 様々なマップに対応するモデルを生成したい
2. さらに視点を指定して対応する画像を生成したい
視点
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
画像生成 𝑥𝑥𝑥
潜在変数 𝑧𝑧改良案
マップの複数視点画像
24
手法解説
• VAEによりマップの画像生成モデルを構築できそう
– 現段階では未知の潜在変数を動かし新しい画像生成するのみ
– 目標2:潜在変数をうまく取り扱いたい
1. 様々なマップに対応するモデルを生成したい
2. さらに視点を指定して対応する画像を生成したい
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
画像生成 𝑥𝑥𝑥
潜在変数 𝑧𝑧改良案
マップの複数視点画像 視点
25
手法解説
• VAEによりマップの画像生成モデルを構築できそう
– 現段階では未知の潜在変数を動かし新しい画像生成するのみ
– 目標2:潜在変数をうまく取り扱いたい
1. 様々なマップに対応するモデルを生成したい
2. さらに視点を指定して対応する画像を生成したい
– Conditional VAE [Sohn+, 2015]が使える
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛)
画像生成 𝑥𝑥𝑥
潜在変数 𝑧𝑧改良案
マップの複数視点画像 視点
26
関連研究:CVAE
• Conditional VAE (CVAE) [Sohn+, NIPS’15]
– VAEに任意の情報yを条件づけたモデル
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
入力 𝑥𝑥
Loss
学習時
27
関連研究:CVAE
• Conditional VAE (CVAE) [Sohn+, NIPS’15]
– VAEに任意の情報yを条件づけたモデル
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
入力 𝑥𝑥
Loss
「9」
条件 𝑦𝑦
学習時
28
関連研究:CVAE
• Conditional VAE (CVAE) [Sohn+, NIPS’15]
– VAEに任意の情報yを条件づけたモデル
– 条件yから直接潜在変数zを推論するPriorを付加
入力 𝑥𝑥 再構成 𝑥𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
入力 𝑥𝑥
Loss
「9」
条件 𝑦𝑦
Prior
𝒑𝒑(𝒛𝒛|𝒚𝒚)
潜在変数 𝑧𝑧
Loss
学習時
29
関連研究:CVAE
• Conditional VAE (CVAE) [Sohn+, NIPS’15]
– VAEに任意の情報yを条件づけたモデル
– 条件yから直接潜在変数zを推論するPriorを付加
生成 𝑥𝑥
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
「9」
条件 𝑦𝑦
Prior
𝒑𝒑(𝒛𝒛|𝒚𝒚)
潜在変数 𝑧𝑧
推論時
ラベル「9」から潜在変数zを推論し,
モデル空間の生成が期待される
30
関連研究:CVAE
• Conditional VAE (CVAE) [Sohn+, NIPS’15]
– 条件として数字ラベルを与え, 潜在変数を動かして生成した例
[1] https://github.com/hwalsuklee/tensorflow-mnist-CVAE
31
手法の概要
• CVAEを使ったGQNの構造概要
– 以下の構造によって目標を満たすことができる!
視点画像 𝑥𝑥 𝑞𝑞
推定結果 𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
Loss
Prior
𝒑𝒑(𝒛𝒛|𝒚𝒚)
潜在変数 𝑧𝑧
条件 𝑦𝑦
マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
視点画像 𝑥𝑥 𝑞𝑞
Loss
32
手法の概要
• CVAEを使ったGQNの構造概要
– 以下の構造によって目標を満たすことができる!
視点画像 𝑥𝑥 𝑞𝑞
推定結果 𝑥𝑥
Inference
𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚)
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
Loss
Prior
𝒑𝒑(𝒛𝒛|𝒚𝒚)
潜在変数 𝑧𝑧
視点画像 𝑥𝑥 𝑞𝑞
Loss
条件 𝑦𝑦
マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
視点𝑣𝑣 =[𝑥𝑥, 𝑦𝑦, 𝑧𝑧, 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝, 𝑦𝑦𝑦𝑦𝑦𝑦]
x
y
z
pitch
yaw
33
手法の概要
• CVAEを使ったGQNの構造概要
– 以下の構造によって目標を満たすことができる!
生成 𝑥𝑥
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
Prior
𝒑𝒑(𝒛𝒛|𝒚𝒚)
潜在変数 𝑧𝑧
条件 𝑦𝑦
マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
34
手法の概要
• CVAEを使ったGQNの構造概要
– 以下の構造によって目標を満たすことができる!
生成 𝑥𝑥
Generation
𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚)
潜在変数 𝑧𝑧
Prior
𝒑𝒑(𝒛𝒛|𝒚𝒚)
潜在変数 𝑧𝑧
条件 𝑦𝑦
マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
このままでは複雑な画像生成が難しいので
GQNではこの構造をいじっている
35
手法の実装
• 実際の構造
– 元のCVAEに対してどの部分が変化しているのかを解説する
マップの複数視点画像
視点𝑣𝑣 𝑞𝑞
InferenceInference
Generation
(Prior)
Generation
潜在変数 𝑧𝑧
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
潜在変数 𝑧𝑧
条件 𝑦𝑦
Prior
Loss
36
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
マップの複数視点画像
視点𝑣𝑣 𝑞𝑞
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
条件 𝑦𝑦
InferenceInference
Generation
(Prior)
Generation
潜在変数 𝑧𝑧
潜在変数 𝑧𝑧
Prior
Loss
37
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
マップの複数視点画像
視点𝑣𝑣 𝑞𝑞
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
条件 𝑦𝑦
InferenceInference
Generation
(Prior)
Generation
(Prior)
潜在変数 𝑧𝑧
Loss
潜在変数 𝑧𝑧
38
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
InferenceInference
Generation
(Prior)
Generation
(Prior)
潜在変数 𝑧𝑧
視点画像𝑥𝑥 𝑞𝑞
Loss
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
潜在変数 𝑧𝑧
マップの複数視点画像
視点𝑣𝑣 𝑞𝑞
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
条件 𝑦𝑦
39
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
InferenceInference
Generation
(Prior)
Generation
(Prior)
潜在変数 𝑧𝑧
視点画像𝑥𝑥 𝑞𝑞
Loss
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
潜在変数 𝑧𝑧
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
条件 𝑦𝑦
𝑟𝑟
Scene Representation
40
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
InferenceInference
Generation
(Prior)
Generation
(Prior)
潜在変数 𝑧𝑧
視点画像𝑥𝑥 𝑞𝑞
Loss
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
潜在変数 𝑧𝑧
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
条件 𝑦𝑦
𝑟𝑟
Scene Representation
• 観測結果を表現ネットワークに
よって1表現に要約
• 各視点の総和を取ることで,
順番や枚数に依存しない表現
41
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
InferenceInference
Generation
(Prior)
Generation
(Prior)
潜在変数 𝑧𝑧
視点画像𝑥𝑥 𝑞𝑞
Loss
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
潜在変数 𝑧𝑧
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
条件 𝑦𝑦
𝑟𝑟
Scene Representation
• 表現ネットワークの詳細構造
42
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
条件 𝑦𝑦
𝑟𝑟
Scene Representation
InferenceInference
Generation
(Prior)
Generation
(Prior)
潜在変数 𝑧𝑧
Loss
潜在変数 𝑧𝑧
43
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓
𝑟𝑟
Scene Representation
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
条件 𝑦𝑦
表現ネットワーク
Inference
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Inference
Generation
(Prior)
Generation
(Prior)
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Loss
自己回帰モデル (ConvLSTM)
44
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓
𝑟𝑟
Scene Representation
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
条件 𝑦𝑦
表現ネットワーク
Inference
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Inference
Generation
(Prior)
Generation
(Prior)
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Loss
自己回帰モデル (ConvLSTM)
DRAW [Gregor+,2015] に似た構造
• VAEをRNNを使うことで自己回帰
的にモデル化
45
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓
𝑟𝑟
Scene Representation
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
条件 𝑦𝑦
表現ネットワーク
Inference
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Inference
Generation
(Prior)
Generation
(Prior)
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Loss
自己回帰モデル (ConvLSTM)
DRAW [Gregor+,2015] に似た構造
• まずは大雑把に, 徐々に細かく画像
が生成される
46
手法の実装
• 実際の構造 (train時)
1. Prior/Generation部分の一体化
2. 表現ネットワーク:複数視点画像群から特徴量を抽出
3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓
𝑟𝑟
Scene Representation
視点画像𝑥𝑥 𝑞𝑞
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
条件 𝑦𝑦
表現ネットワーク
Inference
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Inference
Generation
(Prior)
Generation
(Prior)
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Loss
自己回帰モデル (ConvLSTM)
ネットワークの詳細構造
47
手法の実装
• 実際の構造 (train時)
– 最終的な構造まとめ
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓
𝑟𝑟
Scene Representation
Inference
𝑧𝑧1 𝑧𝑧𝐿𝐿…
Inference
Generation
(Prior)
Generation
(Prior)
𝑧𝑧1 𝑧𝑧𝐿𝐿…
視点画像𝑥𝑥 𝑞𝑞
Loss
Loss
視点画像
𝑥𝑥 𝑞𝑞
推定結果
𝑥𝑥
条件 𝑦𝑦
表現ネットワーク
自己回帰モデル (ConvLSTM)
48
手法の実装
• 実際の構造 (Test時)
– 最終的な構造まとめ
𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
マップの複数視点画像+その視点
視点𝑣𝑣 𝑞𝑞
𝑟𝑟1
𝑟𝑟2
𝑟𝑟3
𝜓𝜓 𝜓𝜓 𝜓𝜓
𝑟𝑟
Scene Representation
Generation
(Prior)
Generation
(Prior)
𝑧𝑧1 𝑧𝑧𝐿𝐿…
推定結果
𝑥𝑥
条件 𝑦𝑦
表現ネットワーク
自己回帰モデル (ConvLSTM)
49
実験環境
• 4種類の環境での実験を行った
2. Mazes
4. Robot arms3. Shepard-Metzler objects
1. Rooms
50
実験結果
1. Rooms
– ランダムな四角い部屋にランダムに物体を配置
– 200万種類のシーン(各シーン5視点)で学習した結果
51
実験結果
1. Rooms
– Scene representationの可視化結果 (GQN vs VAE)
– GQNではシーンの三次元構造に基づいた空間分布
– VAEでは画像の色合いに基づいた分布しかなっていない
GQN VAE
52
実験結果
1. Rooms
– Scene representationの足し算引き算
• シーンに写っている物体の意味や位置に関して
足し算引き算ができるような特徴量
53
実験結果
2. Mazes
– 7x7グリッドのランダムな迷路
– 200万シーン(各300視点)を学習させた結果
• ミニバッチで1~20枚の視点で学習
54
実験結果
3. Shepard-Metzler objects
– ランダムな色と形の3D物体
– 視点の物体からの距離は一定
– 200万種類のシーン(15視点)を学習した結果
55
実験結果
4. Robot arms
– 仮想環境上のアームをターゲットに近づける
1. GQNによって三次元マップを学習
56
実験結果
4. Robot arms
– 仮想環境上のアームをターゲットに近づける
1. GQNによって三次元マップを学習
2. 学習したScene表現を使い, A3Cで強化学習
– 三次元構造に関する特徴量を使うことで適切に学習が進む
57
実験環境
• 4種類の環境での実験を行った
2. Mazes
4. Robot arms3. Shepard-Metzler objects
1. Rooms
すべてのCG環境において非常に高い
性能を出すことができた!
58
まとめ
• GQNの提案
– マップ画像群から三次元構造を反映した特徴量の抽出が可能
– 深層学習への融和性が非常に高い
• 深層学習で実際に性能向上させることができた
• 三次元地図作成において構造だけでなく, より高次元の情報
抽出が期待される(texture, object meaning, light…)
59
おまけ:GQNの発展
DeepMindからGQNの後続論文がいくつか出ている模様
1. Consistent GQN [Kumar+, 2018]
• 動画生成(一貫性を持つような生成)
2. SLIM [Pamalho+, 2018]
• 文章からの画像生成
3. Reversed-GQN [Rosenbaum+, 2018]
• RenderingでなくLocalization(画像から位置を推定)
60
参考文献
1. Neural scene representation and rendering
– DeepMindのブログ記事です. 一番詳しいです(それはそう)
– https://deepmind.com/blog/neural-scene-representation-and-rendering/
2. [DL輪読会] GQNと関連研究,世界モデルとの関係について(by 鈴木さん)
– 非常にわかりやすいまとめです. 世界モデルと関連付けた解説はとても面白いです.
– https://www.slideshare.net/DeepLearningJP2016/dlgqn-111725780
3. 再現実装
– Chainer (by musyoku氏)
• https://github.com/musyoku/generative-query-network
– Pytorch
• https://github.com/wohlert/generative-query-network-pytorch
– TensorFlow
• https://github.com/ogroth/tf-gqn

More Related Content

What's hot

【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion ModelsDeep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 

What's hot (20)

【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 

Similar to Neural scene representation and rendering の解説(第3回3D勉強会@関東)

論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Masaya Kaneko
 
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説Masaya Kaneko
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsTakuya Akiba
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsTakuya Akiba
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...Deep Learning JP
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...Yoshitaka Ushiku
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)Masaya Kaneko
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
WWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph AlgorithmsWWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph Algorithmscyberagent
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -Project Samurai
 

Similar to Neural scene representation and rendering の解説(第3回3D勉強会@関東) (20)

論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
WWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph AlgorithmsWWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph Algorithms
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
Pythonで画像処理をやってみよう!第7回 - Scale-space 第6回 -
 

More from Masaya Kaneko

Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...Masaya Kaneko
 
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])Masaya Kaneko
 
論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)Masaya Kaneko
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)Masaya Kaneko
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説Masaya Kaneko
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between CapsulesMasaya Kaneko
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)Masaya Kaneko
 

More from Masaya Kaneko (9)

Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
 
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
論文読み会@AIST (Deep Virtual Stereo Odometry [ECCV2018])
 
論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

Neural scene representation and rendering の解説(第3回3D勉強会@関東)

  • 1. 第3回 3D勉強会@関東 (Deep SLAM論文読み会) Neural scene representation and rendering (Science) 東京大学 相澤研究室所属 M1 金子 真也 (@syinari0123)
  • 2. 1 自己紹介 • 氏名 – 金子 真也 (かねこ まさや) • 所属 – 東京大学大学院 学際情報学府 相澤研 M1 • Recently – 2018年8月-9月 Sony Internship (SLAM) – 2018年9月- 産総研 Research Assistant (櫻田先生) • 深層学習やVisual SLAMと戯れています • 就活に向けて情報収集中なのでSLAM関連でおすすめの企業があり ましたらぜひ教えてください まさや (@syinari0123)
  • 3. 2 本論文 Neural scene representation and rendering – [Eslami, Rezende, et al. (DeepMind), Science(2018)] – 著者はVAEを作ったRezende氏, Last authorにHassabis氏 – Scienceに掲載
  • 4. 3 どのようなものか? • Generative Query Network (GQN) の提案 – あるマップを複数視点から撮影した画像群から, 別視点の画像を 生成するネットワーク (Rendererの実現)
  • 5. 4 どのようなものか? • Generative Query Network (GQN) の提案 – あるマップを複数視点から撮影した画像群から, 別視点の画像を 生成するネットワーク (Rendererの実現) 1. 複数視点の画像群からScene Representationを作成
  • 6. 5 どのようなものか? • Generative Query Network (GQN) の提案 – あるマップを複数視点から撮影した画像群から, 別視点の画像を 生成するネットワーク (Rendererの実現) 1. 複数視点の画像群からScene Representationを作成 2. Scene Representationを手掛かりとして, ある視点位置 が入力されたらそこから見える画像を生成
  • 7. 6 どのようなものか? • Generative Query Network (GQN) の提案 – あるマップを複数視点から撮影した画像群から, 別視点の画像を 生成するネットワーク (Rendererの実現) どこかで見たことあるような気がする…??? SfM/SLAM …??? 三次元地図…??
  • 8. 7 関連研究:SfM/SLAM • SfM/SLAM [Structure from Motion / Simultaneous Localization and Mapping] – 画像群から, 抽出した特徴点の三次元位置と各画像のカメラ姿勢 (三次元地図)を同時に求める 三次元地図の作成 (点の三次元位置+カメラ姿勢) 画像群 [1] Building Rome in a Day [Agarwal+, ICCV2009]
  • 9. 8 関連研究:SfM/SLAM • SfM/SLAM [Structure from Motion / Simultaneous Localization and Mapping] – 画像群から, 抽出した特徴点の三次元位置と各画像のカメラ姿勢 (三次元地図)を同時に求める – 三次元地図を使い, 画像から位置推定もできる(Localization) 三次元地図の作成 (点の三次元位置+カメラ姿勢) 画像群 Localization カメラ姿勢 [1] Building Rome in a Day [Agarwal+, ICCV2009]
  • 10. 9 関連研究:SfM/SLAM • SfM/SLAM [Structure from Motion / Simultaneous Localization and Mapping] – 画像群から, 抽出した特徴点の三次元位置と各画像のカメラ姿勢 (三次元地図)を同時に求める – 三次元地図を使い, 画像から位置推定もできる(Localization) – 逆に位置から画像の推定も可能 (Rendering) 三次元地図の作成 (点の三次元位置+カメラ姿勢) 画像群 Localization Rendering カメラ姿勢 [1] Building Rome in a Day [Agarwal+, ICCV2009]
  • 11. 10 関連研究 • SfM/SLAM vs GQN – 両者の大きな違いは三次元地図を特徴量として保持している点 – 地図の可視性/Localization機能は失われるが, 深層学習で空間 情報を容易に扱うことができる (非常に重要) 手法 SfM/SLAM GQN 目標 三次元構造の復元 Rendererの実現 三次元地図 Pointcloud表現 特徴量ベクトル 地図の可視性 〇 × Localization (画像→位置) 〇 × Rendering (位置→画像) 〇 〇 深層学習との相性 × 〇
  • 12. 11 関連研究 • 三次元地図のPointcloud表現 – 人間が空間把握するには非常にわかりやすい表現 – 一方, CNNで取り扱うには非常に難しい表現 • 座標値が並んでいるだけなので隣接関係が分からず畳み込み が容易ではない • 様々な手法が近年提案されているが決定的な手法はない印象 – PointNet++ [NIPS’17], SPLATNet [CVPR’18], … – 皆川さんのスライドが非常にわかりやすいです (https://www.slideshare.net/takmin/cvpr2018pointcloudcnnsplatnet) 𝑥𝑥1, 𝑦𝑦1, 𝑧𝑧1 𝑥𝑥2, 𝑦𝑦2, 𝑧𝑧2 𝑥𝑥3, 𝑦𝑦3, 𝑧𝑧3 …
  • 13. • 三次元地図のPointcloud表現 – 人間が空間把握するには非常にわかりやすい表現 – 一方, CNNで取り扱うには非常に難しい表現 • 座標値が並んでいるだけなので隣接関係が分からず畳み込み が容易ではない • 様々な手法が近年提案されているが決定的な手法はない印象 – PointNet++ [NIPS’17], SPLATNet [CVPR’18], … – 皆川さんのスライドが非常にわかりやすいです (https://www.slideshare.net/takmin/cvpr2018pointcloudcnnsplatnet) 12 関連研究 𝑥𝑥1, 𝑦𝑦1, 𝑧𝑧1 𝑥𝑥2, 𝑦𝑦2, 𝑧𝑧2 𝑥𝑥3, 𝑦𝑦3, 𝑧𝑧3 … 直接三次元地図の特徴量を得るGQNは以下が期待できる 1. 難しいとされる点群畳み込みを介さないため, 良い特徴量を抽出できそう 2. 畳み込まないので地図のスケールが増えても, 計算量は増大しない
  • 14. 13 手法解説 • どのように実現するか? – 目標1:あるマップを複数視点から撮影した画像群から, 未知の 視点のマップ画像を生成したい 複数視点からマップを 撮影した画像群 新しい視点の画像 新しい視点の画像の生成
  • 15. 14 手法解説 • どのように実現するか? – 目標1:あるマップを複数視点から撮影した画像群から, 未知の 視点のマップ画像を生成したい 複数視点からマップを 撮影した画像群 新しい視点の画像 マップ マップがまず存在して そこから画像が生成される
  • 16. 15 手法解説 • どのように実現するか? – 目標1:あるマップを複数視点から撮影した画像群から, 未知の 視点のマップ画像を生成したい • マップ画像をうまく生成するようなモデルを推定すればよい – Variational Autoencoder [Kingma+, 2013]が使える 複数視点からマップを 撮影した画像群 新しい視点の画像 マップ画像を生成する モデル ?
  • 17. 16 関連研究:VAE • Variational Autoencoder (VAE) [Kingma+, ICLR’14] – 画像𝑥𝑥が自身を再構成するように低次元の潜在変数𝑧𝑧を抽出 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 潜在変数 𝑧𝑧 入力 𝑥𝑥 Loss
  • 18. 17 関連研究:VAE • Variational Autoencoder (VAE) [Kingma+, ICLR’14] – 画像𝑥𝑥が自身を再構成するように低次元の潜在変数𝑧𝑧を抽出 – 正規分布に従うような制約を𝑧𝑧にかけ, 𝑧𝑧空間での連続性を保つ 正規分布 𝑁𝑁(0, 𝐼𝐼) 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 潜在変数 𝑧𝑧 入力 𝑥𝑥 Loss Loss
  • 19. 18 関連研究:VAE • Variational Autoencoder (VAE) [Kingma+, ICLR’14] – 画像𝑥𝑥が自身を再構成するように低次元の潜在変数𝑧𝑧を抽出 – 正規分布に従うような制約を𝑧𝑧にかけ, 𝑧𝑧空間での連続性を保つ 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 潜在変数 𝑧𝑧 正規分布 𝑁𝑁(0, 𝐼𝐼) 入力 𝑥𝑥 Loss Loss 潜在変数空間[1] 生成画像[1] [1] https://qiita.com/kenmatsu4/items/ b029d697e9995d93aa24
  • 20. Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 19 手法解説 • VAEによりマップの画像生成モデルを構築できそう 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 潜在変数 𝑧𝑧 正規分布 𝑁𝑁(0, 𝐼𝐼) 入力 𝑥𝑥 Loss Loss 学習時 複数視点からマップを撮影した画像群
  • 21. 20 手法解説 • VAEによりマップの画像生成モデルを構築できそう – 現段階では未知の潜在変数を動かし新しい画像生成するのみ – 目標2:潜在変数をうまく取り扱いたい Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 画像生成 𝑥𝑥𝑥 潜在変数 𝑧𝑧 潜在変数zを動かすことで 新しい画像生成推論時
  • 22. 21 手法解説 • VAEによりマップの画像生成モデルを構築できそう – 現段階では未知の潜在変数を動かし新しい画像生成するのみ – 目標2:潜在変数をうまく取り扱いたい 1. 様々なマップに対応するモデルを生成したい マップの複数視点画像 Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 画像生成 𝑥𝑥𝑥 潜在変数 𝑧𝑧改良案
  • 23. 22 手法解説 • VAEによりマップの画像生成モデルを構築できそう – 現段階では未知の潜在変数を動かし新しい画像生成するのみ – 目標2:潜在変数をうまく取り扱いたい 1. 様々なマップに対応するモデルを生成したい Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 画像生成 𝑥𝑥𝑥 潜在変数 𝑧𝑧改良案 マップの複数視点画像
  • 24. 23 手法解説 • VAEによりマップの画像生成モデルを構築できそう – 現段階では未知の潜在変数を動かし新しい画像生成するのみ – 目標2:潜在変数をうまく取り扱いたい 1. 様々なマップに対応するモデルを生成したい 2. さらに視点を指定して対応する画像を生成したい 視点 Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 画像生成 𝑥𝑥𝑥 潜在変数 𝑧𝑧改良案 マップの複数視点画像
  • 25. 24 手法解説 • VAEによりマップの画像生成モデルを構築できそう – 現段階では未知の潜在変数を動かし新しい画像生成するのみ – 目標2:潜在変数をうまく取り扱いたい 1. 様々なマップに対応するモデルを生成したい 2. さらに視点を指定して対応する画像を生成したい Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 画像生成 𝑥𝑥𝑥 潜在変数 𝑧𝑧改良案 マップの複数視点画像 視点
  • 26. 25 手法解説 • VAEによりマップの画像生成モデルを構築できそう – 現段階では未知の潜在変数を動かし新しい画像生成するのみ – 目標2:潜在変数をうまく取り扱いたい 1. 様々なマップに対応するモデルを生成したい 2. さらに視点を指定して対応する画像を生成したい – Conditional VAE [Sohn+, 2015]が使える Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛) 画像生成 𝑥𝑥𝑥 潜在変数 𝑧𝑧改良案 マップの複数視点画像 視点
  • 27. 26 関連研究:CVAE • Conditional VAE (CVAE) [Sohn+, NIPS’15] – VAEに任意の情報yを条件づけたモデル 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 入力 𝑥𝑥 Loss 学習時
  • 28. 27 関連研究:CVAE • Conditional VAE (CVAE) [Sohn+, NIPS’15] – VAEに任意の情報yを条件づけたモデル 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 入力 𝑥𝑥 Loss 「9」 条件 𝑦𝑦 学習時
  • 29. 28 関連研究:CVAE • Conditional VAE (CVAE) [Sohn+, NIPS’15] – VAEに任意の情報yを条件づけたモデル – 条件yから直接潜在変数zを推論するPriorを付加 入力 𝑥𝑥 再構成 𝑥𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 入力 𝑥𝑥 Loss 「9」 条件 𝑦𝑦 Prior 𝒑𝒑(𝒛𝒛|𝒚𝒚) 潜在変数 𝑧𝑧 Loss 学習時
  • 30. 29 関連研究:CVAE • Conditional VAE (CVAE) [Sohn+, NIPS’15] – VAEに任意の情報yを条件づけたモデル – 条件yから直接潜在変数zを推論するPriorを付加 生成 𝑥𝑥 Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 「9」 条件 𝑦𝑦 Prior 𝒑𝒑(𝒛𝒛|𝒚𝒚) 潜在変数 𝑧𝑧 推論時 ラベル「9」から潜在変数zを推論し, モデル空間の生成が期待される
  • 31. 30 関連研究:CVAE • Conditional VAE (CVAE) [Sohn+, NIPS’15] – 条件として数字ラベルを与え, 潜在変数を動かして生成した例 [1] https://github.com/hwalsuklee/tensorflow-mnist-CVAE
  • 32. 31 手法の概要 • CVAEを使ったGQNの構造概要 – 以下の構造によって目標を満たすことができる! 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 Loss Prior 𝒑𝒑(𝒛𝒛|𝒚𝒚) 潜在変数 𝑧𝑧 条件 𝑦𝑦 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 視点画像 𝑥𝑥 𝑞𝑞 Loss
  • 33. 32 手法の概要 • CVAEを使ったGQNの構造概要 – 以下の構造によって目標を満たすことができる! 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 Inference 𝒒𝒒(𝒛𝒛|𝒙𝒙, 𝒚𝒚) Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 Loss Prior 𝒑𝒑(𝒛𝒛|𝒚𝒚) 潜在変数 𝑧𝑧 視点画像 𝑥𝑥 𝑞𝑞 Loss 条件 𝑦𝑦 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 視点𝑣𝑣 =[𝑥𝑥, 𝑦𝑦, 𝑧𝑧, 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝, 𝑦𝑦𝑦𝑦𝑦𝑦] x y z pitch yaw
  • 34. 33 手法の概要 • CVAEを使ったGQNの構造概要 – 以下の構造によって目標を満たすことができる! 生成 𝑥𝑥 Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 Prior 𝒑𝒑(𝒛𝒛|𝒚𝒚) 潜在変数 𝑧𝑧 条件 𝑦𝑦 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3
  • 35. 34 手法の概要 • CVAEを使ったGQNの構造概要 – 以下の構造によって目標を満たすことができる! 生成 𝑥𝑥 Generation 𝒑𝒑(𝒙𝒙|𝒛𝒛, 𝒚𝒚) 潜在変数 𝑧𝑧 Prior 𝒑𝒑(𝒛𝒛|𝒚𝒚) 潜在変数 𝑧𝑧 条件 𝑦𝑦 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 このままでは複雑な画像生成が難しいので GQNではこの構造をいじっている
  • 36. 35 手法の実装 • 実際の構造 – 元のCVAEに対してどの部分が変化しているのかを解説する マップの複数視点画像 視点𝑣𝑣 𝑞𝑞 InferenceInference Generation (Prior) Generation 潜在変数 𝑧𝑧 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 潜在変数 𝑧𝑧 条件 𝑦𝑦 Prior Loss
  • 37. 36 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 マップの複数視点画像 視点𝑣𝑣 𝑞𝑞 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 条件 𝑦𝑦 InferenceInference Generation (Prior) Generation 潜在変数 𝑧𝑧 潜在変数 𝑧𝑧 Prior Loss
  • 38. 37 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 マップの複数視点画像 視点𝑣𝑣 𝑞𝑞 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 条件 𝑦𝑦 InferenceInference Generation (Prior) Generation (Prior) 潜在変数 𝑧𝑧 Loss 潜在変数 𝑧𝑧
  • 39. 38 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 InferenceInference Generation (Prior) Generation (Prior) 潜在変数 𝑧𝑧 視点画像𝑥𝑥 𝑞𝑞 Loss Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 潜在変数 𝑧𝑧 マップの複数視点画像 視点𝑣𝑣 𝑞𝑞 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 条件 𝑦𝑦
  • 40. 39 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 InferenceInference Generation (Prior) Generation (Prior) 潜在変数 𝑧𝑧 視点画像𝑥𝑥 𝑞𝑞 Loss Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 潜在変数 𝑧𝑧 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 条件 𝑦𝑦 𝑟𝑟 Scene Representation
  • 41. 40 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 InferenceInference Generation (Prior) Generation (Prior) 潜在変数 𝑧𝑧 視点画像𝑥𝑥 𝑞𝑞 Loss Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 潜在変数 𝑧𝑧 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 条件 𝑦𝑦 𝑟𝑟 Scene Representation • 観測結果を表現ネットワークに よって1表現に要約 • 各視点の総和を取ることで, 順番や枚数に依存しない表現
  • 42. 41 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 InferenceInference Generation (Prior) Generation (Prior) 潜在変数 𝑧𝑧 視点画像𝑥𝑥 𝑞𝑞 Loss Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 潜在変数 𝑧𝑧 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 条件 𝑦𝑦 𝑟𝑟 Scene Representation • 表現ネットワークの詳細構造
  • 43. 42 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 表現ネットワーク マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 条件 𝑦𝑦 𝑟𝑟 Scene Representation InferenceInference Generation (Prior) Generation (Prior) 潜在変数 𝑧𝑧 Loss 潜在変数 𝑧𝑧
  • 44. 43 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 𝑟𝑟 Scene Representation 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 条件 𝑦𝑦 表現ネットワーク Inference 𝑧𝑧1 𝑧𝑧𝐿𝐿… Inference Generation (Prior) Generation (Prior) 𝑧𝑧1 𝑧𝑧𝐿𝐿… Loss 自己回帰モデル (ConvLSTM)
  • 45. 44 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 𝑟𝑟 Scene Representation 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 条件 𝑦𝑦 表現ネットワーク Inference 𝑧𝑧1 𝑧𝑧𝐿𝐿… Inference Generation (Prior) Generation (Prior) 𝑧𝑧1 𝑧𝑧𝐿𝐿… Loss 自己回帰モデル (ConvLSTM) DRAW [Gregor+,2015] に似た構造 • VAEをRNNを使うことで自己回帰 的にモデル化
  • 46. 45 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 𝑟𝑟 Scene Representation 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 条件 𝑦𝑦 表現ネットワーク Inference 𝑧𝑧1 𝑧𝑧𝐿𝐿… Inference Generation (Prior) Generation (Prior) 𝑧𝑧1 𝑧𝑧𝐿𝐿… Loss 自己回帰モデル (ConvLSTM) DRAW [Gregor+,2015] に似た構造 • まずは大雑把に, 徐々に細かく画像 が生成される
  • 47. 46 手法の実装 • 実際の構造 (train時) 1. Prior/Generation部分の一体化 2. 表現ネットワーク:複数視点画像群から特徴量を抽出 3. 自己回帰モデル:潜在変数を複数の条件付き分布の積で表現 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 𝑟𝑟 Scene Representation 視点画像𝑥𝑥 𝑞𝑞 Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 条件 𝑦𝑦 表現ネットワーク Inference 𝑧𝑧1 𝑧𝑧𝐿𝐿… Inference Generation (Prior) Generation (Prior) 𝑧𝑧1 𝑧𝑧𝐿𝐿… Loss 自己回帰モデル (ConvLSTM) ネットワークの詳細構造
  • 48. 47 手法の実装 • 実際の構造 (train時) – 最終的な構造まとめ 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 𝑟𝑟 Scene Representation Inference 𝑧𝑧1 𝑧𝑧𝐿𝐿… Inference Generation (Prior) Generation (Prior) 𝑧𝑧1 𝑧𝑧𝐿𝐿… 視点画像𝑥𝑥 𝑞𝑞 Loss Loss 視点画像 𝑥𝑥 𝑞𝑞 推定結果 𝑥𝑥 条件 𝑦𝑦 表現ネットワーク 自己回帰モデル (ConvLSTM)
  • 49. 48 手法の実装 • 実際の構造 (Test時) – 最終的な構造まとめ 𝑣𝑣1 𝑣𝑣2 𝑣𝑣3 マップの複数視点画像+その視点 視点𝑣𝑣 𝑞𝑞 𝑟𝑟1 𝑟𝑟2 𝑟𝑟3 𝜓𝜓 𝜓𝜓 𝜓𝜓 𝑟𝑟 Scene Representation Generation (Prior) Generation (Prior) 𝑧𝑧1 𝑧𝑧𝐿𝐿… 推定結果 𝑥𝑥 条件 𝑦𝑦 表現ネットワーク 自己回帰モデル (ConvLSTM)
  • 50. 49 実験環境 • 4種類の環境での実験を行った 2. Mazes 4. Robot arms3. Shepard-Metzler objects 1. Rooms
  • 51. 50 実験結果 1. Rooms – ランダムな四角い部屋にランダムに物体を配置 – 200万種類のシーン(各シーン5視点)で学習した結果
  • 52. 51 実験結果 1. Rooms – Scene representationの可視化結果 (GQN vs VAE) – GQNではシーンの三次元構造に基づいた空間分布 – VAEでは画像の色合いに基づいた分布しかなっていない GQN VAE
  • 53. 52 実験結果 1. Rooms – Scene representationの足し算引き算 • シーンに写っている物体の意味や位置に関して 足し算引き算ができるような特徴量
  • 54. 53 実験結果 2. Mazes – 7x7グリッドのランダムな迷路 – 200万シーン(各300視点)を学習させた結果 • ミニバッチで1~20枚の視点で学習
  • 55. 54 実験結果 3. Shepard-Metzler objects – ランダムな色と形の3D物体 – 視点の物体からの距離は一定 – 200万種類のシーン(15視点)を学習した結果
  • 56. 55 実験結果 4. Robot arms – 仮想環境上のアームをターゲットに近づける 1. GQNによって三次元マップを学習
  • 57. 56 実験結果 4. Robot arms – 仮想環境上のアームをターゲットに近づける 1. GQNによって三次元マップを学習 2. 学習したScene表現を使い, A3Cで強化学習 – 三次元構造に関する特徴量を使うことで適切に学習が進む
  • 58. 57 実験環境 • 4種類の環境での実験を行った 2. Mazes 4. Robot arms3. Shepard-Metzler objects 1. Rooms すべてのCG環境において非常に高い 性能を出すことができた!
  • 59. 58 まとめ • GQNの提案 – マップ画像群から三次元構造を反映した特徴量の抽出が可能 – 深層学習への融和性が非常に高い • 深層学習で実際に性能向上させることができた • 三次元地図作成において構造だけでなく, より高次元の情報 抽出が期待される(texture, object meaning, light…)
  • 60. 59 おまけ:GQNの発展 DeepMindからGQNの後続論文がいくつか出ている模様 1. Consistent GQN [Kumar+, 2018] • 動画生成(一貫性を持つような生成) 2. SLIM [Pamalho+, 2018] • 文章からの画像生成 3. Reversed-GQN [Rosenbaum+, 2018] • RenderingでなくLocalization(画像から位置を推定)
  • 61. 60 参考文献 1. Neural scene representation and rendering – DeepMindのブログ記事です. 一番詳しいです(それはそう) – https://deepmind.com/blog/neural-scene-representation-and-rendering/ 2. [DL輪読会] GQNと関連研究,世界モデルとの関係について(by 鈴木さん) – 非常にわかりやすいまとめです. 世界モデルと関連付けた解説はとても面白いです. – https://www.slideshare.net/DeepLearningJP2016/dlgqn-111725780 3. 再現実装 – Chainer (by musyoku氏) • https://github.com/musyoku/generative-query-network – Pytorch • https://github.com/wohlert/generative-query-network-pytorch – TensorFlow • https://github.com/ogroth/tf-gqn