SlideShare a Scribd company logo
GENESIS: Generative Scene Inference and
Sampling with Object-Centric Latent
Representations
2019/12/06
Kento Doi
1
書誌情報
• 著者
– Oxford Universityの研究グループ
• ICLR2020 under review
– スコアが6-6-8なので多分通る??
• 選定理由
– シーン認識において、その構造を理解することは大切
– 特に、潜在表現をシーンを構成する物体ごとに分離したいというモチベーショ
ンに共感した
※画像は特に記述のない場合は本論文からの引用
2
論文概要
• モチベーション
– シーンの構造を明示的に捉えることのできる潜在変数モデルを作りたい
– このとき、物体同士の相互関係も考慮したい
• 本論文の貢献
– 物体同士の相互関係を捉えることで, シーンの分解と生成が可能な物体指向の
生成モデルを初めて提案
• シーンの潜在表現を構成要素ごとに分解
• 自己回帰モデルで潜在表現を計算 (物体同士の相互関係をモデリング)
• 各潜在表現をdecodeして得られるspatial GMMで画像を表現
– 3D環境をレンダリングした画像データセットで実験
• シーンを構成要素ごとに分解しつつ, 一貫性のあるシーンを生成できた
• 学習した潜在表現を用いて積み木が不安定化どうか分類することができた
– PyTorch実装を公開 (ありがたい)
3
先行研究
• 確率的生成モデル
– エビデンス 𝑝 𝜃 𝑥 を最適化
– 例) VAE … 潜在変数zを仮定しエビデンスの下限 (ELBO) を最大化して学習
• シーンの構成を考慮した確率的生成モデル
• 潜在変数を構成要素ごとに分解することで, 𝑝 𝜃(𝑥)にシーンの構成的な性質を捉
えさせたい
• MONET [Curgess+ 2019], IODINE [Greff+ 2019]が同じモチベーション
• これらの手法には以下の課題が
× 潜在表現が独立しているため, 物体の相互関係をモデリングできない
× CNNによる演算を繰り返すので複雑なシーンにスケールしない
GENESISはこれらの問題を解決
物体間の相互関係を自己回帰モデルにより考慮
潜在空間は低次元 (CNNの重い計算を繰り返さないので計算効率が良い)
4
先行研究: MONet
• マスクの生成→VAEでマスク領
域を再構成 という処理を再帰的
に繰り返し行う
• マスクの生成の際にCNNの計算
をマスク数分だけ行うため計算
効率が悪い (GENESIS比)
• GENESISとモデル自体はそこま
で変わらない
5
C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019.
先行研究: IODINE
• 複数物体があるシーンについて, 物体の領域と
その見え方をモデリングする
– 領域ごとに潜在変数を分離する考え方はGENESISと
同じ
• iterative refinementという手法を用いて潜在
変数を段階的にアップデート
– 計算コスト高
• 物体ごとの相互関係をモデリングできない
6
K. Greff et al. “Multi-Object Representation Learning
with Iterative Variational Inference”, ICML, 2019.
提案手法: 生成モデル
• Spatial Gaussian mixture model (GMM)
– 画像生成を画像と同じ次元のGMMで定式化
– 画像 :
– 構成要素:
– 混合比 :
– 混合比は対応する構成要素の存在を表す”マスク”のような扱い
– 混合比の各ピクセル位置での和は1
7
提案手法: 生成モデル
• 混合比𝜋 𝑘は対応する潜在変数𝑧 𝑘
𝑚
により定まる
– 添字のmはマスクの意味
• K個のマスクの潜在変数𝑧1:𝐾
𝑚
は, 物体同士の相互関係を考慮するために
自己回帰モデルで計算する
– 𝑢 𝑘はRNNの隠れ状態
– 自己回帰モデルの出力は前の時刻の出力に依存するので, 潜在変数の依存関係
をモデルかできる
8
提案手法: 生成モデル
• シーンの構成要素𝑥 𝑘はその位置𝑧 𝑘
𝑚
が与えられたもとで条件付き独立
• 各構成要素𝑥 𝑘に対応する潜在表現𝑧 𝑘
𝑐
は以下のように与えられる
• 画像の尤度は𝑧1:𝐾
𝑚
, 𝑧1:𝐾
𝑐
から次のように計算される
– ただし, 混合比 (マスク) 𝜋 𝑘は以下のようにstick-breaking process [Burgess+ 2019] で𝑧 𝑘
𝑚
から
デコードされる
9
提案手法: 生成モデル
• GENESISの生成モデルは結局以下の式で書ける
– 確率分布は全てガウシアン
– マスクと各構成要素の潜在表現を分けているところがポイント
– 実験では潜在表現を分けない確率モデル (GENESIS-S) と比較
10
提案手法: Approximate posterior
• ここまではpriorから画像を生成する話
• 画像が与えられた時のposteriorはamortise inferenceで推論する
– Amortized Inference…潜在変数を1つ1つ最適化するのではなく関数で推論するhouhou
11
提案手法: Learning
• VAEなどど同様, ELBOの最大化で学習
• ここで, 推定した潜在変数𝑞 𝜃 = 𝔼 𝑝 𝑑𝑎𝑡𝑎(𝑥)[𝑞∅ 𝑧 𝑥 ]がpriorのガウス分布から乖離す
ることで, priorから潜在変数をサンプルして生成した画像の質が大きく低下する
ことがある
 代わりにGeneralised ELBO with Constrained Optimisation (GECO)を最適化
• 次のように問題を緩和 (KL項がちゃんと小さくなるように学習)
12
提案手法: 全体図
13
concat
提案手法: 既存手法と比較
• GENESISのポイント
– 自己回帰モデル (実験ではLSTM) などで潜在変数を計算
– GMMの混合比 (物体領域のマスク) と各構成要素の潜在変数を分ける
14
実験: Dataset
• coloured Multi-dSprites dataset
• GQN “rooms-ring-camera” datast
• ShapeStacks dataset
– 積み木のデータセット. 安定・不安定のラベルが付いている (後で使う)
15
https://github.com/deepmind/ dsprites-dataset https://shapestacks.robots.ox.ac.uk/https://github.com/musyoku/gqn-dataset-renderer
実験: Baseline
• GENESIS-S
• MONET
• VAE (BD-VAE, DC-VAE)
– 普通のVAE, decoder部分のアーキテクチャの違い
16
実験: シーン生成
• GQN datasetで学習したモデルを用い
てpriorからシーンを生成
• GENESISはシーンの構造を捉えた画
像生成ができている
• priorからの生成なのでGECOで学習し
ているGENESISが有利なのでは? 
– GECOで学習しているので, KL項の制約が
大きく, priorからの生成がうまくいきや
すいはず
– MONETはELBOで学習…
17
実験: シーン再構成
18
• 定性的な傾向は同じ
– 背景, 物体がそれぞれ分解されている
– 定量評価ではGENESISが勝っていた
• segmentation covering (SC) [Arbelaez+ 2010]:
• Shape Stack (積み木) のデータセットで GENESIS (SC: 0.64 ± 0.08, mSC: 0.60 ± 0.09)
に対してMONet (SC: 0.52 ± 0.09, mSC: 0.49 ± 0.09)
• mSCはSCを物体ごとの領域の大きさで正規化したスコア
実験: シーン表現の有用性
• シーン表現が他のタスクに使えるか検証
• 3つの分類タスクで評価
– 積み木の安定性 (stable or unstable)
– 積み木の高さ (ブロックの数)
– カメラ位置の推定 (16通り)
• ベースラインの手法
– GENESIS-S
– MONET
– VAE (+BD-VAE and DC-VAE)
• ベースラインにそこまで勝ってない
– Heightのタスクは実質ブロックの数を数えるタスクなので, 提案手法のようにシーンを構成要
素に分解する手法は有効そう 19
実験: 生成画像の質
• priorから生成した画像の質を評価
• FIDスコアにより評価
– 正解データセットとの”分布の差”を調べる評価指標
– 前述のように, MONetは生成のタスクが得意でないのでunfairな比較では??
– “It is not surprising that the FIDs for MONet are relatively large given that it
was not designed for generating scenes.”
– VAEに勝っているのでシーン表現を分解する手法は有効であることがわかる
20
まとめ
• シーンを構成要素ごとに分解するGENESISというモデルを提案
– 出力する画像をspatial GMMでモデリング
– GMMの混合比を担当する表現と各構成要素の見た目を表現する表現を分離
– 物体同士の相互関係を表現するため自己回帰モデルで潜在表現を計算
• 実験によりシーンが構成要素ごとに分解されることを確認
– 全体的に, 実験結果が提案手法の良さをそこまで示す結果ではないのが残念
• 感想
– シーンを教師なしで構成要素に分解するという動機は正しそう
– 同じ色の領域をまとめているだけでは?という疑問はある
– ただ, 構成要素の概念を教示なしで獲得したという事実は大きい
• シーンの構成要素をどのように・どの程度分解するかは人間にも難しいので
21
参考文献
• M. Engelcke et al. “GENESIS: Generative Scene Inference and Sampling with Object-Centric
Latent Representations”, 2019.
• C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019.
• K. Greff et al. “Multi-Object Representation Learning with Iterative Variational Inference”,
ICML, 2019.
• P. Arbelaez et al. “Contour Detection and Hierarchical Image Segmentation”, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2010.
22

More Related Content

Similar to GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
harmonylab
 
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステムn-yuki
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
Deep Learning JP
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR package
Satoshi Kato
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
 
【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points
Shoki Miyagawa
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
Atsushi Hashimoto
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
harmonylab
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
Daiki Tsuchiya
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
cvpaper. challenge
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
Media Kinect2014 day7
Media Kinect2014 day7Media Kinect2014 day7
Media Kinect2014 day7
Akihiko Shirai
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
DeNA
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Deep Learning JP
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
Toru Tamaki
 
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
逸人 米田
 

Similar to GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations (20)

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
 
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR package
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
Media Kinect2014 day7
Media Kinect2014 day7Media Kinect2014 day7
Media Kinect2014 day7
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
 

More from Kento Doi

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Kento Doi
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Kento Doi
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
Kento Doi
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
Kento Doi
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
Kento Doi
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
Kento Doi
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
Kento Doi
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
Kento Doi
 

More from Kento Doi (10)

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 

Recently uploaded

【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 

Recently uploaded (16)

【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations

  • 1. GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations 2019/12/06 Kento Doi 1
  • 2. 書誌情報 • 著者 – Oxford Universityの研究グループ • ICLR2020 under review – スコアが6-6-8なので多分通る?? • 選定理由 – シーン認識において、その構造を理解することは大切 – 特に、潜在表現をシーンを構成する物体ごとに分離したいというモチベーショ ンに共感した ※画像は特に記述のない場合は本論文からの引用 2
  • 3. 論文概要 • モチベーション – シーンの構造を明示的に捉えることのできる潜在変数モデルを作りたい – このとき、物体同士の相互関係も考慮したい • 本論文の貢献 – 物体同士の相互関係を捉えることで, シーンの分解と生成が可能な物体指向の 生成モデルを初めて提案 • シーンの潜在表現を構成要素ごとに分解 • 自己回帰モデルで潜在表現を計算 (物体同士の相互関係をモデリング) • 各潜在表現をdecodeして得られるspatial GMMで画像を表現 – 3D環境をレンダリングした画像データセットで実験 • シーンを構成要素ごとに分解しつつ, 一貫性のあるシーンを生成できた • 学習した潜在表現を用いて積み木が不安定化どうか分類することができた – PyTorch実装を公開 (ありがたい) 3
  • 4. 先行研究 • 確率的生成モデル – エビデンス 𝑝 𝜃 𝑥 を最適化 – 例) VAE … 潜在変数zを仮定しエビデンスの下限 (ELBO) を最大化して学習 • シーンの構成を考慮した確率的生成モデル • 潜在変数を構成要素ごとに分解することで, 𝑝 𝜃(𝑥)にシーンの構成的な性質を捉 えさせたい • MONET [Curgess+ 2019], IODINE [Greff+ 2019]が同じモチベーション • これらの手法には以下の課題が × 潜在表現が独立しているため, 物体の相互関係をモデリングできない × CNNによる演算を繰り返すので複雑なシーンにスケールしない GENESISはこれらの問題を解決 物体間の相互関係を自己回帰モデルにより考慮 潜在空間は低次元 (CNNの重い計算を繰り返さないので計算効率が良い) 4
  • 5. 先行研究: MONet • マスクの生成→VAEでマスク領 域を再構成 という処理を再帰的 に繰り返し行う • マスクの生成の際にCNNの計算 をマスク数分だけ行うため計算 効率が悪い (GENESIS比) • GENESISとモデル自体はそこま で変わらない 5 C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019.
  • 6. 先行研究: IODINE • 複数物体があるシーンについて, 物体の領域と その見え方をモデリングする – 領域ごとに潜在変数を分離する考え方はGENESISと 同じ • iterative refinementという手法を用いて潜在 変数を段階的にアップデート – 計算コスト高 • 物体ごとの相互関係をモデリングできない 6 K. Greff et al. “Multi-Object Representation Learning with Iterative Variational Inference”, ICML, 2019.
  • 7. 提案手法: 生成モデル • Spatial Gaussian mixture model (GMM) – 画像生成を画像と同じ次元のGMMで定式化 – 画像 : – 構成要素: – 混合比 : – 混合比は対応する構成要素の存在を表す”マスク”のような扱い – 混合比の各ピクセル位置での和は1 7
  • 8. 提案手法: 生成モデル • 混合比𝜋 𝑘は対応する潜在変数𝑧 𝑘 𝑚 により定まる – 添字のmはマスクの意味 • K個のマスクの潜在変数𝑧1:𝐾 𝑚 は, 物体同士の相互関係を考慮するために 自己回帰モデルで計算する – 𝑢 𝑘はRNNの隠れ状態 – 自己回帰モデルの出力は前の時刻の出力に依存するので, 潜在変数の依存関係 をモデルかできる 8
  • 9. 提案手法: 生成モデル • シーンの構成要素𝑥 𝑘はその位置𝑧 𝑘 𝑚 が与えられたもとで条件付き独立 • 各構成要素𝑥 𝑘に対応する潜在表現𝑧 𝑘 𝑐 は以下のように与えられる • 画像の尤度は𝑧1:𝐾 𝑚 , 𝑧1:𝐾 𝑐 から次のように計算される – ただし, 混合比 (マスク) 𝜋 𝑘は以下のようにstick-breaking process [Burgess+ 2019] で𝑧 𝑘 𝑚 から デコードされる 9
  • 10. 提案手法: 生成モデル • GENESISの生成モデルは結局以下の式で書ける – 確率分布は全てガウシアン – マスクと各構成要素の潜在表現を分けているところがポイント – 実験では潜在表現を分けない確率モデル (GENESIS-S) と比較 10
  • 11. 提案手法: Approximate posterior • ここまではpriorから画像を生成する話 • 画像が与えられた時のposteriorはamortise inferenceで推論する – Amortized Inference…潜在変数を1つ1つ最適化するのではなく関数で推論するhouhou 11
  • 12. 提案手法: Learning • VAEなどど同様, ELBOの最大化で学習 • ここで, 推定した潜在変数𝑞 𝜃 = 𝔼 𝑝 𝑑𝑎𝑡𝑎(𝑥)[𝑞∅ 𝑧 𝑥 ]がpriorのガウス分布から乖離す ることで, priorから潜在変数をサンプルして生成した画像の質が大きく低下する ことがある  代わりにGeneralised ELBO with Constrained Optimisation (GECO)を最適化 • 次のように問題を緩和 (KL項がちゃんと小さくなるように学習) 12
  • 14. 提案手法: 既存手法と比較 • GENESISのポイント – 自己回帰モデル (実験ではLSTM) などで潜在変数を計算 – GMMの混合比 (物体領域のマスク) と各構成要素の潜在変数を分ける 14
  • 15. 実験: Dataset • coloured Multi-dSprites dataset • GQN “rooms-ring-camera” datast • ShapeStacks dataset – 積み木のデータセット. 安定・不安定のラベルが付いている (後で使う) 15 https://github.com/deepmind/ dsprites-dataset https://shapestacks.robots.ox.ac.uk/https://github.com/musyoku/gqn-dataset-renderer
  • 16. 実験: Baseline • GENESIS-S • MONET • VAE (BD-VAE, DC-VAE) – 普通のVAE, decoder部分のアーキテクチャの違い 16
  • 17. 実験: シーン生成 • GQN datasetで学習したモデルを用い てpriorからシーンを生成 • GENESISはシーンの構造を捉えた画 像生成ができている • priorからの生成なのでGECOで学習し ているGENESISが有利なのでは?  – GECOで学習しているので, KL項の制約が 大きく, priorからの生成がうまくいきや すいはず – MONETはELBOで学習… 17
  • 18. 実験: シーン再構成 18 • 定性的な傾向は同じ – 背景, 物体がそれぞれ分解されている – 定量評価ではGENESISが勝っていた • segmentation covering (SC) [Arbelaez+ 2010]: • Shape Stack (積み木) のデータセットで GENESIS (SC: 0.64 ± 0.08, mSC: 0.60 ± 0.09) に対してMONet (SC: 0.52 ± 0.09, mSC: 0.49 ± 0.09) • mSCはSCを物体ごとの領域の大きさで正規化したスコア
  • 19. 実験: シーン表現の有用性 • シーン表現が他のタスクに使えるか検証 • 3つの分類タスクで評価 – 積み木の安定性 (stable or unstable) – 積み木の高さ (ブロックの数) – カメラ位置の推定 (16通り) • ベースラインの手法 – GENESIS-S – MONET – VAE (+BD-VAE and DC-VAE) • ベースラインにそこまで勝ってない – Heightのタスクは実質ブロックの数を数えるタスクなので, 提案手法のようにシーンを構成要 素に分解する手法は有効そう 19
  • 20. 実験: 生成画像の質 • priorから生成した画像の質を評価 • FIDスコアにより評価 – 正解データセットとの”分布の差”を調べる評価指標 – 前述のように, MONetは生成のタスクが得意でないのでunfairな比較では?? – “It is not surprising that the FIDs for MONet are relatively large given that it was not designed for generating scenes.” – VAEに勝っているのでシーン表現を分解する手法は有効であることがわかる 20
  • 21. まとめ • シーンを構成要素ごとに分解するGENESISというモデルを提案 – 出力する画像をspatial GMMでモデリング – GMMの混合比を担当する表現と各構成要素の見た目を表現する表現を分離 – 物体同士の相互関係を表現するため自己回帰モデルで潜在表現を計算 • 実験によりシーンが構成要素ごとに分解されることを確認 – 全体的に, 実験結果が提案手法の良さをそこまで示す結果ではないのが残念 • 感想 – シーンを教師なしで構成要素に分解するという動機は正しそう – 同じ色の領域をまとめているだけでは?という疑問はある – ただ, 構成要素の概念を教示なしで獲得したという事実は大きい • シーンの構成要素をどのように・どの程度分解するかは人間にも難しいので 21
  • 22. 参考文献 • M. Engelcke et al. “GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations”, 2019. • C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019. • K. Greff et al. “Multi-Object Representation Learning with Iterative Variational Inference”, ICML, 2019. • P. Arbelaez et al. “Contour Detection and Hierarchical Image Segmentation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010. 22