12. Consistency
12
目的ドメインへの変換ができたとしても,
入力画像と全く関係ない画像では意味がないため
画像の文脈の保持は必須。
CycleGAN は Cycle-Consistency Loss を導入することでこの問題に対処したが,
Cycle-Consistency はあまりに強すぎるため,形状変化を伴う変換が上手くできない。
そこで Cycle-Consistency に依存せずに画像の文脈を保つ手法
が提案されている。
・Breaking the cycle -- Colleagues are all you need
・Unpaired Image-to-Image Translation using Adversarial Consistency Loss
・Contrastive Learning for Unpaired Image-to-Image Translation
・Dual Contrastive Learning for Unsupervised Image-to-Image Translation
CycleGAN での変換失敗例
18. Breaking the cycle -- Colleagues are all you need
18
会議 : CVPR2020
著者 : Ori Nizan, Ayellet Tal
● Cycle-Consistency Loss によらない入力画像の文脈保持
● 独立した複数の Generator を持ち,どの Generator から生成された画像かを判別するための
Discriminator を使う
● 各 Generator は他の Generator に近い画像を作ろうとする
19. Unpaired Image-to-Image Translation using Adversarial Consistency Loss
19
会議 : ECCV2020
著者 : Yihao Zhao, Ruihai Wu, Hao Dong
● Cycle-Consistency Loss によらない入力画像の文脈保持
● Cycle-Consistency Loss の代わりに敵対的損失を用いる
20. Contrastive Learning for Unpaired Image-to-Image Translation
20
会議 : ECCV2020
著者 : Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu
● Cycle-Consistency Loss によらない入力画像の文脈保持
● 変換前後の画像間でパッチを取って同一の領域かどうかを判別する Contrastive Loss を導入すること
で入力画像の文脈を保つ
● CycleGAN のような往復構造は持たない
21. Dual Contrastive Learning for Unsupervised Image-to-Image Translation
21
会議 : CVPRW2021
著者 : Junlin Han, Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin
● CycleGAN の Cycle-Consistency Loss を除き Contrastive Loss に置き換えた形式
● モード崩壊に対応するために Similarity Loss の導入も行い,有無で結果を比較
22. Attention-GAN for Object Transfiguration in Wild Images
22
会議 : ECCV2018
著者 : Xinyuan Chen, Chang Xu, Xiaokang Yang, Dacheng Tao
● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する
● マスクの大きさを損失に加えることで全域をマスクとして推定されることを防いでいる
23. Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
23
会議 : IJCNN 2019
著者 : Hao Tang, Dan Xu, Nicu Sebe, Yan Yan
● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する
● Discriminator は画像と推定マスクの対を入力とする (Attention-guided discriminator)
24. Unsupervised Attention-guided Image-to-Image Translation
24
会議 : NeurIPS2018
著者 : Youssef Alami Mejjati, Christian Richardt, James Tompkin, Darren Cosker, Kwang In Kim
● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する
● 入力画像に対して推定された Attention を Discriminator も用いる
25. U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization
for Image-to-Image Translation
25
会議 : ICLR2020
著者 : Junho Kim, Minjae Kim, Hyeonwoo Kang, Kwanghee Lee
● I2I 用の Attention Module と Normalization Layer (AdaLIN) を提案
● 大きな形状変化を伴う変換も可能
Input Output
Input Output CycleGAN
Output
74. 重要論文リスト (画像) Scene Mixture Models
74
● MONet C. P. Burgess et al.. MONet: Unsupervised Scene Decomposition and Representation. arXiv preprint 2019. https://arxiv.org/abs/1901.11390
○ 領域の大きいところからRNN形式のVAEで順次オブジェクトごとのマスクを生成.
● IODINE K. Greff et al. Multi-Object Representation Learning with Iterative Variational Inference. ICML2019. https://arxiv.org/abs/1903.00450
○ MONet 同様に領域ごとのマスクを生成しつつ,繰り返し VAE の変分推論を行うことで高品質なマスク生成.
○ しかし, 繰り返し変分推論を行うことで計算時間は増加
MONet
IODINE
75. 重要論文リスト (画像) Scene Mixture Models
75
● GENESIS M. Engelcke et al., GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR2020. https://arxiv.org/abs/1907.13052
○ MONet の潜在変数同士を RNN で繋いで相互関係を考慮 (MONet はマスクのみ RNN 形式).
● Slot Attention F. Locatello et al., Object-Centric Learning with Slot Attention. NeurIPS2020. https://arxiv.org/abs/2006.15055
○ 画像のグリッドごとの Attention を計算し, CNN などの出力と集合構造を持つ特徴量を結びつけるモジュール.
○ Slot Attention 自体はネットワークではなく, 様々なネットワークに取り込むことができる.
● GENESIS-V2 M. Engelcke et al., GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. arXiv preprint2020.
https://arxiv.org/abs/2104.09958
○ Scene Mixture Models のクラスタ数をハイパーパラメータでなくした (画像ごとのクラスタ数に分解可能)
GENESIS
GENESIS-V2
Slot Attention
76. 重要論文リスト (画像) Spatial Attention Models
76
● AIR S. M. A. Eslami et al.. Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS2016. https://arxiv.org/abs/1603.08575
○ OORLの起源となる論文.オブジェクト数だけ潜在変数を用意し,RNN形式のVAEで順次推論再構成を行う.
● SPAIR E. Crawford and J. Pineau. Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019.
http://e2crawfo.github.io/pdfs/spair_aaai_2019.pdf
○ YOLO (You Only Look Once) をベースとした教師なし物体検出により物体ごとのマスクを生成.
○ ただし,SPAIRは背景が既知 (前景に被覆されている裏側がわかっている前提) でのみ学習可能.
● SPACE Z. Lin et al... SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://arxiv.org/abs/2001.02407
○ 背景のマスク生成にGENESISを使うことで, SPAIRの背景が扱えない問題を解決した.
SPACE
SPAIR
AIR
77. 動画の OORL のモデリングの考え方
77
Slot の組み合わせで動画の生成過程をモデリング
● 各フレームを slot に分解. 1つの slot と 1 つの物体を対応させたい.
● 各時刻では, 各 slot から decode した画像・マスクを組み合わせて画像を再構成.
● 前フレームからの各 slot の予測と現フレームの各 slot を紐付ける.
● 教師なし学習. 画像の予測・再構成を行い, ピクセル空間での loss をとることが多い.
出典: Marissa A. Weis, Kashyap. Chitta, Yash Sharma, Wieland. Brendel, Matthias. Bethge, Andreas. Geiger, Alexander S. Ecker.
Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020. https://arxiv.org/abs/2006.07034
78. 動画の OORL のモデルの分類
78
モデルの分類 (生成的アプローチ)*
● Spatial attention with factored latents
○ 物体ごとの潜在変数を空間的な attention でモデル化.
さらに, 潜在変数を物体の位置・外観・存在などに分解.
○ 物体の bounding box を推定.
○ 再構成時に, Spatial-Transformer Network を用いることが多い.
○ 例: SQAIR, DDPAE, TBA, SILOT, SCALOR, STOVE, G-SWM, GATSBI
● Spatial attention with unconstrained latents
○ 物体ごとの潜在変数を空間的な attention でモデル化.
○ 物体のマスクを推定.
○ 例: COBRA, ViMON, RELATE
● Spatial mixture models
○ 画像ピクセルのクラスタリングを学習.
○ 物体のマスクを推定.
○ 例: RTagger, N-EM, R-NEM, OP3, VIODINE(仮称)
* M. A. Weis, K. Chitta, Y. Sharma, W. Brendel, M. Bethge, A. Geiger, A. S. Ecker. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020.
https://arxiv.org/abs/2006.07034 を参考にした.
94. 3D-aware な画像のシーン分解・生成
94
3D の構造の帰納バイアス + OORL
● 概要
○ 3D 構造の帰納バイアスをモデルに入れる.
3D 表現を推論しレンダリングすることで画像を合成.
○ 3D 構造としてここの前景の物体・背景の組み合わせであることを仮定して, OORL の枠組
みと組み合わせる.
■ OORL の自然な発展とみなすこともできる.
○ 近年の NN を用いた volume rendering の発展ととも関連.
● 3D 表現
○ Mesh, Voxel, Point Cloud,
SDF (Signed Distance Function), NeRF (Neural Radiance Field), …
○ 特に, NeRF は近年のホットトピック!
95. 3D-aware な画像のシーン分解・生成
95
● ROOTS C. Chen et al. Object-Centric Representation and Rendering of 3D Scenes. preprint 2020. https://arxiv.org/abs/2006.06130
○ GQN のようにカメラ姿勢を与えて, 複数視点の個々の物体のレンダリングを組み合わせて, シーン全体をレンダリング. 各物体は 3D bbox で表現.
● OOWM E. Crawford and J. Pineau. Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML2020 Workshop. oolworkshop.github.io/OOL_19.pdf at master · oolworkshop/oolworkshop.github.io
○ Video において, 3D の帰納バイアスを入れた, 確率的なモデル. 静的シーンの表現獲得には SRN (Scene Representation Networks) を用い, 動的
シーンの表現獲得には, SQAIR の 3D 版と言えるモデルを用いる.
● O3V P. Henderson et al. Unsupervised object-centric video generation and decomposition in 3D. NeurIPS2020. https://arxiv.org/abs/2007.06705
○ Video において, セグメンテーションマスクを予測し物体追跡を行うことで物体と背景を切り分ける.
3D 構造を決めるために物体の深度と 3D bbox を予測する.
● POD-Net Y. Du et al. Unsupervised Discovery of 3D Physical Objects from Video. ICLR 2021. https://arxiv.org/abs/2007.12348
○ Video において, 3D の幾何と動きをモデル化することで, 教師なしで物体中心のシーン表現を獲得. 構成要素に分解しマスクと潜在変数を作る推
論モデルと, 各構成要素の 3D 構造を取り出し, 3D の動きを予測し, 画像を作る生成モデルを持つ.
ROOTS
O3V
OOWM
POD-Net
96. 3D-aware な画像のシーン分解・生成
96
● [NoName] Y. Liao et al. Towards unsupervised learning of generative models for 3d controllable image synthesis. CVPR2020.
https://arxiv.org/abs/1912.05237
○ 画像のみを用いて 3D の操作が可能な画像を合成する 3D controllable image synthesis のタスクを定義.
物体・背景ごとに 3D の表現を生成し, 2D へレンダリング・2D で生成をすることで, 画像を合成する GAN.
● BlockGAN T. Nguyen-Phuoc et al. BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images. NeurIPS2020.
https://arxiv.org/abs/2002.08988
○ 前景の各物体・背景を分けて 3D 特徴空間でモデリングし, 射影することで画像を生成.
3D の表現は, 3D grid の特徴量と物体の姿勢を用いて行われる. 学習は 2D の画像のみから行う.
● GIRAFFE M. Niemeyer et al. GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields. CVPR2021. https://arxiv.org/abs/2011.12100v1
○ 各物体の NeRF による3D 表現を GAN に組み込み, 制御可能で写実的な画像を合成.
カメラ姿勢もノイズからサンプリングし, 学習は 2D の画像のみから行う.
● ObSuRF K. Stelzner et al. Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation. preprint 2021. https://arxiv.org/abs/2104.01148
○ 画像を slot ベースの encoder で物体ごとの潜在変数を獲得し, この潜在変数で条件づけられた NeRF で画像をレンダリング.
NeRF の ray marching をポアソン過程とみなし, 深度を教師とすることで, 新しい loss を提案.
これにより, RGB-D 画像に対する NeRF の訓練を計算効率よく行う.
BlockGAN
GIRAFFE
ObSuRF [NoName]