画像生成・生成モデルメタサーベイ

画像生成・生成モデル
メタサーベイ
Unpaired Image-to-Image Translation: 清田浩史
Neural Radiance Field: 相澤宏旭
Object-oriented Representation Learning: 綱島秀樹, 古川遼
Domain Adaptation: 大川武彦
1
http://xpaperchallenge.org/cv

グループ紹介
cvpaper.challenge研究グループ「Generations」
画像生成・生成モデルに関連する研究を行うグループ
＜業績一覧＞
- Hiroaki Aizawa, Hirokatsu Kataoka, Yutaka Satoh, Kunihito Kato, "Viewpoint-agnostic Image
Rendering," Winter Conference on Applications of Computer Vision (WACV), 2021.
- Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue, “Augmented Cyclic
Consistency Regularization for Unpaired Image-to-Image Translation”, International Conference
on Pattern Recognition (ICPR), 2020.
- Hideki Tsunashima, Hirokatsu Kaotaka, Junji Yamato, Qiu Chen, Shigeo Morishima,
“Adversarial Knowledge Distillation for a Compact Generator”, International Conference on
Pattern Recognition (ICPR), 2020.
- Hiroaki Aizawa, Hirokatsu Kataoka, Yutaka Satoh, Kunihito Kato, "Disentangle, Assemble, and
Synthesize: Unsupervised Learning to Disentangle Appearance and Location," International
Conference on Pattern Recognition (ICPR), 2020.

グループ紹介
画像生成・生成モデルに関連する研究を行うグループ
＜業績一覧＞
- 綱島秀樹, 大川武彦, 相澤宏旭, 片岡雄裕, 森島繁生. “Object-aware表現学習の安定化のためのKL
ダイバージェンスの周期性アニーリング”, 第23回画像の認識・理解シンポジウム (MIRU2020).
- 綱島秀樹, 邱玥, 片岡裕雄, 森島繁生. “Object-oriented Representation Learningの実世界データ
適用に向けた最新手法の性能分析”, Visual Computing 2020 - Poster.
＜過去の資料＞
- Generative Models https://www.slideshare.net/cvpaperchallenge/generative-models-233089430

グループ紹介
Generationsは絶賛メンバー募集中です！
画像生成，生成モデルに関するテーマで我々と研究をやりませんか？
ご興味がある方はhttp://xpaperchallenge.org/cv/recruit/から！

Contents
1. Unpaired Image-to-Image Translation
2. Neural Radiance Fields
3. Object-oriented Representation Learning
4. Domain Adaptation

Unpaired Image-to-Image Translation 
清田浩史 
6

Image-to-Image Translation (I2I) 
7
異なるドメインに属する画像について，ドメイン間の変換方法を獲得するタスク。
 
学習データとしてドメインが異なる対となる画像が与えられるケース (Paired) と
 
与えられないケース (Unpaired) に分けられる。
 
Paired の例：Semantic Labels⇔Photo, Colorization など  
Unpairedの例：Photo⇔Illustrate  
Unpaired Data 
Paired Data

Unpaired I2I 
8
学習データとして画像の対を使わない I2I
 
写真のスタイル変換や写真⇔絵画など，対になる画像が入手できないケースに有用
 
対になる画像を利用できないため，
画像が持つ文脈をいかに残したまま変換するかが重要

Unsupervised Image-to-Image Translation Networks (UNIT) 
9
会議 : NIPS2017 
著者 : Ming-Yu Liu, Thomas Breuel, Jan Kautz
 
 
● Encoder により画像の持つ文脈をドメイン共通の Latent Space に移す
 
● Generator は Latent Space から目的ドメインの画像を生成する

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN)
 
10
会議 : ICCV2017 
著者 : Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
 
 
● 入力画像と再構成画像との間の距離損失 (Cycle-Consistency Loss) を提案
 
● Cycle-Consistency による画像文脈を保持した変換

UNIT・CycleGAN 以降の展開 
11
以下のような方向性の拡張を考慮した研究が多い。 
 
● Consistency 
● Object Aware 
● Multi-Modal / Multi-Class / Unsupervised 
● Few-Shot / Out-of-Distributions

Consistency 
12
目的ドメインへの変換ができたとしても，
 
入力画像と全く関係ない画像では意味がないため
画像の文脈の保持は必須。 
CycleGAN は Cycle-Consistency Loss を導入することでこの問題に対処したが，
 
Cycle-Consistency はあまりに強すぎるため，形状変化を伴う変換が上手くできない。
 
そこで Cycle-Consistency に依存せずに画像の文脈を保つ手法
が提案されている。 
 
・Breaking the cycle -- Colleagues are all you need
 
・Unpaired Image-to-Image Translation using Adversarial Consistency Loss
 
・Contrastive Learning for Unpaired Image-to-Image Translation
 
・Dual Contrastive Learning for Unsupervised Image-to-Image Translation
 
 
CycleGAN での変換失敗例

Object Aware 
13
horse⇔zebra など，画像全体ではなく画像中の特定のオブジェクトについての変換を行いたいケース
では背景や変換対象以外のオブジェクトは入力画像から変わらない方が望ましい。そのため，
変換対
象となるオブジェクトを認識した上で変換を行う手法
が提案されている。 
 
・Attention-GAN for Object Transfiguration in Wild Images
 
・Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
 
・Unsupervised Attention-guided Image-to-Image Translation
 
・U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance
Normalization for Image-to-Image Translation
 
 
 
CycleGAN の変換失敗例

Multi-Modal / Multi-Class / Unsupervised 
14
ドメイン間の 1 対 1 関係のみの変換ではなく 1 対多の変換を可能とするような研究
 
 
Multi-Modal 
各ドメインに複数のモードがあるケース
。例えば cat→dog においては与えられた cat 画像をどの犬
種に変換してもよいので 1 対多関係がある。
 
 
・Multimodal Unsupervised Image-to-Image Translation
 
・Few-Shot Unsupervised Image-to-Image Translation
 
・Semi-supervised Learning for Few-shot Image-to-Image Translation
 
 
Multimodal Unsupervised Image-to-Image Translation

Multi-Modal / Multi-Class / Unsupervised 
15
Multi-Class 
3 つ以上の各ドメイン間に対応関係があるケース
。 
顔の喜怒哀楽についての相互変換など。
 
 
・StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
 
・StarGAN v2: Diverse Image Synthesis for Multiple Domains
 
 
Unsupervised 
ドメインラベルなしでの学習を行うケース
。 
 
・High-Resolution Daytime Translation Without Domain Labels
 
・Rethinking the Truly Unsupervised Image-to-Image Translation

Few-Shot / Out-of-Distributions 
16
目的ドメインについて少数の画像しか用意できないあるいは全く用意できないケースについて適用可
能な手法の研究 
 
・Few-Shot Unsupervised Image-to-Image Translation
 
・Semi-supervised Learning for Few-shot Image-to-Image Translation
 
・Domain Adaptive Image-to-image Translation

Breaking the cycle -- Colleagues are all you need 
18
会議 : CVPR2020 
著者 : Ori Nizan, Ayellet Tal 
 
● Cycle-Consistency Loss によらない入力画像の文脈保持
 
● 独立した複数の Generator を持ち，どの Generator から生成された画像かを判別するための
Discriminator を使う 
● 各 Generator は他の Generator に近い画像を作ろうとする

Unpaired Image-to-Image Translation using Adversarial Consistency Loss
 
19
会議 : ECCV2020 
著者 : Yihao Zhao, Ruihai Wu, Hao Dong
 
 
● Cycle-Consistency Loss の代わりに敵対的損失を用いる

Contrastive Learning for Unpaired Image-to-Image Translation 
20
著者 : Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu
 
 
 
● 変換前後の画像間でパッチを取って同一の領域かどうかを判別する Contrastive Loss を導入すること
で入力画像の文脈を保つ 
● CycleGAN のような往復構造は持たない

Dual Contrastive Learning for Unsupervised Image-to-Image Translation
 
21
会議 : CVPRW2021 
著者 : Junlin Han, Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin
 
 
● CycleGAN の Cycle-Consistency Loss を除き Contrastive Loss に置き換えた形式
 
● モード崩壊に対応するために Similarity Loss の導入も行い，有無で結果を比較

Attention-GAN for Object Transfiguration in Wild Images 
22
著者 : Xinyuan Chen, Chang Xu, Xiaokang Yang, Dacheng Tao
 
 
● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する
 
● マスクの大きさを損失に加えることで全域をマスクとして推定されることを防いでいる

Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
 
23
会議 : IJCNN 2019 
著者 : Hao Tang, Dan Xu, Nicu Sebe, Yan Yan
 
 
 
● Discriminator は画像と推定マスクの対を入力とする (Attention-guided discriminator)

Unsupervised Attention-guided Image-to-Image Translation 
24
会議 : NeurIPS2018 
著者 : Youssef Alami Mejjati, Christian Richardt, James Tompkin, Darren Cosker, Kwang In Kim
 
 
 
● 入力画像に対して推定された Attention を Discriminator も用いる

U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization
for Image-to-Image Translation 
25
会議 : ICLR2020 
著者 : Junho Kim, Minjae Kim, Hyeonwoo Kang, Kwanghee Lee 
 
● I2I 用の Attention Module と Normalization Layer (AdaLIN) を提案
 
● 大きな形状変化を伴う変換も可能
 
 
 
Input  Output 
Input  Output  CycleGAN 
Output

Multimodal Unsupervised Image-to-Image Translation (MUNIT) 
26
著者 : Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz
 
 
● 入力画像をドメイン特異的な Style とドメイン不変な Content にエンコードする
 
● Content と Style を組み合わせて画像を生成
 
● 適用する Style を変えることでマルチモーダルな画像生成が可能

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
 
27
著者 : Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo
 
 
● 多ドメインの相互変換を 1 つの Generator で行えるようにした
 
● Discriminator は補助タスクとして与えられた画像のドメインについても判別を行う

StarGAN v2: Diverse Image Synthesis for Multiple Domains 
28
著者 : Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha
 
 
● StarGAN を基にして，変換結果に多様性が生まれるように改良した手法

High-Resolution Daytime Translation Without Domain Labels 
29
著者 : Ivan Anokhin, Pavel Solovev, Denis Korzhenkov, Alexey Kharlamov, Taras Khakhulin, Alexey
Silvestrov, Sergey Nikolenko, Victor Lempitsky, Gleb Sterkin
 
 
● 昼・夕・夜などのドメインラベルなしで I2I を学習 
● 変換は低解像度で行い，変換後にマージすることで高解像度化

Rethinking the Truly Unsupervised Image-to-Image Translation 
30
会議 : Preprint 
著者 : Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim
 
 
● ドメインラベルなしでの I2I 
● Discriminator は補助タスクとして Encoder が出力する疑似ラベルを推測する

Few-Shot Unsupervised Image-to-Image Translation (FUNIT) 
31
会議 : ICCV2019 
著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz
 
 
● 学習に用いていないドメインへの変換が可能な I2I
 
● Discriminator に補助タスクとしてクラス分類問題も解かせる。

Semi-supervised Learning for Few-shot Image-to-Image Translation (SEMIT)
 
32
著者 : Yaxing Wang, Salman Khan, Abel Gonzalez-Garcia, Joost van de Weijer, Fahad Shahbaz KhanFirst,
Last Name 
 
● FUNIT の設定に追加して学習時に利用できるドメインラベル付き画像も少ないケースを想定
 
● ラベルなし画像に擬似ラベルを付けて I2I の学習に用いる
 
 
 
 
CycleGAN 
MUNIT 
FUNIT  提案手法

COCO-FUNIT: Few-Shot Unsupervised Image Translation
 
with a Content Conditioned Style Encoder
 
33
著者 : Kuniaki Saito, Kate Saenko, Ming-Yu Liu
 
 
● FUNIT では未知のドメインにおいて変換後の画像が文脈を上手く保持しないことがある
 
● Content に依存する Style Encoder を提案し，上記問題を解決

Domain Adaptive Image-to-image Translation 
34
著者 : Ying-Cong Chen, Xiaogang Xu, Jiaya Jia
 
 
● ドメイン（人の顔，猫の顔，写真，線画など）の中にサブドメイン（表情）があり，一部のドメインにおいて
特定のサブドメインが欠落しているようなケースを想定
 
● 学習に用いたドメインのバイアスに引きずられない I2I

TSIT: A Simple and Versatile Framework forImage-to-Image Translation
 
35
著者 : Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping Shi, Chen Change LoyFirst,
Last Name 
 
● I2I のための汎用的フレームワーク TSIT を提案。
 
● Generator は解像度ごとに Content を受け取る FADE モジュールと Style を受け取る FAdaIN からな
る

データセット (1/5) 
36
Large-scale CelebFaces Attributes (CelebA) 
● 20 万枚の顔画像データセット 
● 眼鏡の有無，髪色など 40 の属性

37
Animal Faces-HQ dataset (AFHQ) 
● StarGAN v2 の著者が公開 
● cat, dog, wild (その他のイヌ科ネコ科) の 3 属性 
● 人の顔⇔動物の顔という大きな形状変化を伴う変換の実験に使われる

38
horse2zebra, apple2orange,
summer2winter_yosemite 
● CycleGAN の著者が公開 
● horse, zebra, apple, orange は ImageNet 由来 
● summer2winter のデータは Flickr 上のヨセミテ自然公園の写真 
● 既存研究との比較のためによく使われる

39
Selfie2Anime 
● U-GAT-IT の著者が公開 
● それぞれ 3400 枚の自撮り画像とアニメ顔画像からなる 
● 現実の人間の顔とアニメの顔では目の大きさなどが異なるため，柔軟に文
脈を維持できるかどうかの実験によく使われる

40
Cityscapes 
● The Cityscapes Dataset for Semantic Urban Scene Understanding で作成・
公開 
● ドイツの 50 都市の昼間市街の写真 
● 人，自動車，道路，木など 30 のクラスについてマスクのアノテーションが付
けられている

まとめ・展望 
41
● 入力画像の文脈を残しつつ自然な変換結果
を求めて発展してきた。 
● 既存研究の問題設定に新たな制約を課した上で解く研究が多い。
 
● selfie2anime といった，大きな形状変化を伴う変換はまだ発展の余地がありそう。 
● ドメインラベルなしでの変換も増えてきそう。 
● 実用性はあまり意識されていないが，絵画⇔写真の変換やアニメ⇔実写の変換などが精力的
に試みられており，コンテンツ産業への応用等が可能かもしれない。 
● 高解像度化や高速化に関する研究も進められているため，リアルタイムでの変換を志向した研
究も今後増えると思われる。 
●  
●

著者紹介 
42
清田　浩史（株式会社カブク） 
● 業務では DL を用いた物体検出や文字認識などの技術開発などを行っている
 
● 画像の生成・変換に興味あり。最近は強化学習にも興味あり
 
● 大学院時代の専門は生物学 
● 趣味はビデオゲーム・ボードゲーム
 
●  
●

Neural Radiance Fields 
 
 
相澤宏旭 
44

はじめに
Neural Radiance Fields (NeRF) に関するサーベイを実施（4/30までの調査）
- NeRFに関する簡単な日本語まとめとしてご利用ください
- 調査漏れ，間違い等ありましたらご指摘頂けるとありがたいです
NeRFについて，計算効率化・高速化，非剛体対象への適用，動画像への拡張，
Lightingの制御，ポーズ推定への適用，Compositional表現，汎化の観点から
サーベイしています
研究のカテゴリ分けは以下の資料を参考にしています
https://github.com/yenchenlin/awesome-NeRF
https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf
日本語のNeRF派生研究まとめは @doiken23 さんの資料もおすすめです！
45

Neural Radiance Fields (NeRF)
● MLPでパラメータ化された３次元表現の一種
● ある視点から観測した情報を使って別視点から観測したシーンを生成する
Novel View Synthesisができる
46 
NeRFの詳細は以下の資料がわかりやすいです  
公開と作成ありがとうございます  
https://www.slideshare.net/KentoDoi/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis-230911610  
https://blog.albert2005.co.jp/2020/05/08/nerf/

pixelNeRF 
CVPR’21 (2020/12/3)  
NeRFの変遷
NeRF 
ECCV’20 (2020/3/19) 
2020/3  2021/4 
2021/3 
2021/2 
2021/1 
2020/12 
2020/11 
2020/10 
47
NeRFの計算効率化・高速化  
非剛体対象を扱うNeRF  
動画像を扱うNeRF  
NeRFによるLightningの制御  
CompositionalなNeRF  
NeRFの汎化  
NeRF-VAE 
2021/4/1  
ShaRF 
NeurIPS’20(2021/2/17)
Learnit 
CVPR’21 (2020/12/3)  
NSVF
NeurIPS’20 (2020/7/23)  
GRF 
2020/10/9  
GIRAFFE 
2020/11/24
GRAF
NeurIPS’20(2020/7/5)
pi-GAN 
CVPR’20(2020/12/2)
CAMPARI 
2021/3/31
OSF
2020/12/15
iNeRF 
2020/12/10
NeRF--
2021/2/14
iMAP 
2020/12/10
A-NeRF 
2021/2/11
Neural Scene Graph
 
2020/11/20
STaR 
2020/12/22
D-NeRF (Park et al.)
2020/11/25
D-NeRF (Pumarola et al.)
2020/11/27
NerFACE 
2020/12/5
NR-NeRF 
2020/12/22
PVA 
2021/1/7
NARF
2021/4/7
Video-NeRF 
2020/11/25
Neural Scene Flow Field
CVPR’21(2020/11/26)
Neural Radiance Flow
CVPR’21(2020/12/17)
Neural Body 
CVPR’21(2020/12/31)
Neural 3D Video Synthesis
 
2021/3/3
NeRD 
2020/12/7
NeRV 
CVPR’21(2020/12/7)
NeX 
CVPR’21(2021/3/9)
Neural Reflectance Fields
2020/8/16
AutoInt
CVPR’21(2020/12/3)
DeRF 
2020/11/25)
DONeRF 
2021/3/4
FastNeRF 
2021/3/18
KiloNeRF 
2021/3/25
PlenOctrees 
2021/3/25
ObSuRF 
2021/4/2
SNeRG 
2021/3/26
NeRFによるポーズ推定  
DietNeRF 
2021/4/1  
PortraitNeRF 
2020/12/10  
一部の研究は分類とスペースの都合上，上図から除いてあります  
日付はarxivへの初版投稿日時です

NeRFの計算効率化・高速化
1. NSVF https://arxiv.org/abs/2007.11571
○ Sparse Voxel Octree表現を導入し，NeRFを10倍高速化
2. AutoInt https://arxiv.org/abs/2012.01714
○ volume renderingの積分をimplicitなNNで学習
○ NeRFから10倍以上高速化
3. DeRF https://arxiv.org/abs/2011.12490
○ Voronoi空間分割によってシーンを分解した個々のパーツごとに
NNを割り当て　　　　レンダリン
グ
○ NeRFの品質を保ちつつ，3倍の計算効率化を実現
4. DONeRF https://arxiv.org/abs/2103.03231
○ Rayに沿ったDepthを推定するNNの出力に基づいてサンプル点を決定することで　　　
NeRFか
ら最大48倍の推論コストを削減
48

NeRFの計算効率化・高速化
5. KiloNeRF https://arxiv.org/abs/2103.13744
○ 単一のDeep MLPの代わりに，何千もの小さなMLPでNeural Radiance Fieldを表現することで
NeRFのレンダリングを高速化
6. FastNeRF https://arxiv.org/abs/2103.10380
○ 位置と視点方向に依存したそれぞれ
2つのMLPを用意し，　　　　　　　　　　　　　これらの出力の
内積をキャッシュすることでリアルタイムにレンダリングする
○ NeRFから3000倍高速化
7. PlenOctrees https://arxiv.org/abs/2103.14024
○ Octreeベースの3D表現をNeRFで利用することでリアルタイムレンダリングを実現
○ 視点依存の効果を実現するために，色を球面調和関数で表現する
8. SNeRG https://arxiv.org/abs/2103.14645
○ 提案するSparse Neural Radiance Gridとして視点非依存特徴を事前に計算して保存
○ 生成時は視点依存の色をこの特徴を集積することから決定する
49

非剛体対象を扱うNeRF
9. D-NeRF (Park et al.) https://arxiv.org/abs/2011.12948
○ 非剛体のDeformableなシーンをNeRFで表現されるTemplate volumeと観測単位の
Deformation fieldに分解する
10. D-NeRF (Pumarola et al.) https://arxiv.org/abs/2011.13961
○ シーンを static / dynamic なNeRFに分解し，更に，時間の変数も追加
11. NerFACE https://arxiv.org/abs/2012.03065
○ SRNベースの頭部のimplicit表現とmorphable modelからポーズや表情を操作
12. NR-NeRF https://arxiv.org/abs/2012.12247
○ 動的なシーンをcanonical volumeとdeformationに分離
13. PVA https://arxiv.org/abs/2101.02697
○ pixel-aligned featureを使って人の頭部に関するNVSを少量データから実現
14. NARF https://arxiv.org/abs/2104.03110
○ 関連するパーツの変形のみを考慮することでパーツ単位の操作可能な
NeRFを学習
50

動画像を扱うNeRF
15. Space-time Neural Irradiance Fields https://arxiv.org/abs/2011.12950
○ 時間変数を追加し，推定されたシーンの
Depthを利用した制約を導入
16. D-NeRF (Pumarola et al.) https://arxiv.org/abs/2011.13961
○ シーンを static / dynamic なNeRFに分解し，更に，時間の変数も追加
17. Neural Scene Flow Field https://arxiv.org/abs/2011.13084
○ 色とDensityに加えて，前後の時刻間の位置の移動量と遮蔽に関する重みを出力
18. Neural Radiance Flow https://arxiv.org/abs/2012.09790
○ ジオメトリと外観のRadiance Fieldとダイナミクスの4D Flow Fieldを導入
19. Neural Body https://arxiv.org/abs/2012.15838
○ deformable meshに関連づけられた潜在変数から異なるフレームの
3D表現を獲得
20. Neural 3D Video Synthesis https://arxiv.org/abs/2103.02597
○ 動的なmulti-view動画から提案するhierarchical trainingとimportance samplingで
time-conditioned NeRFを効果的に学習
51

NeRFによるLightingの制御
21. Neural Reflectance Field https://arxiv.org/abs/2008.03824
○ Local reflection modelをNeRFに組み込み，単一照明下でのRelightingを達成
22. NeRD https://arxiv.org/abs/2012.03918
○ 照明条件をspatially-varying BRDFと混合ガウス分布としてモデル化
23. NeRV https://arxiv.org/abs/2012.03927
○ NeRFのMLPをvolume densityを出力するMLPとBRDFを出力するMLPに分解
24. NeX https://arxiv.org/abs/2103.05606
○ 色を視野角の関数として表現し，この関数を
NNで学習された基底関数の線形結合で　　近似す
るMPIを提案
○ CD面の虹の反射などの視点依存の視覚効果を実現
52

NeRFの汎化に向けて
25. GRF https://arxiv.org/abs/2010.04595
○ canonical space内で各rayに対するpose-awareな特徴を計算することで汎化を達成
26. GRAF https://arxiv.org/abs/2007.02442
○ ポーズなしの2D画像集合からGenerative Radiance Fieldを学習
○ appearance / shape codeの分離やmultiscale patch discriminatorを導入
27. pi-GAN https://arxiv.org/abs/2012.00926
○ SIRENで表現されるimplicit radiance fieldをStyleGAN-likeな方法（FiLM）で潜在変数を条件付
ける
○ progressive growingも導入
28. Learnit https://arxiv.org/abs/2012.02189
○ NeRFのMLPの重みをメタ学習し，未知の対象の最適化を高速化する
○ メタ学習された重みは3D priorとしても働く
29. Portrait NeRF https://arxiv.org/abs/2012.05903
○ Light stage portrait datasetでメタ学習することで1枚のPortraitからNeRFを学習 53

NeRFの汎化に向けて
30. pixelNeRF https://arxiv.org/abs/2012.02190
○ 各画素がアライメントされた空間的な画像特徴を入力として受け取ることで，　　　　１枚もしくは少
量の視点からNVSするためのシーンのpriorを学習する
31. ShaRF https://arxiv.org/abs/2102.08860
○ 潜在変数からボクセル表現の形状（
scaffold）を生成し，これを手がかりにRadiance Fieldを学
習しレンダリングする
32. NeRF-VAE https://arxiv.org/abs/2104.00587
○ NeRFとVAEを組み合わせ，シーン間で共有される構造を学習する
○ 未知の3D環境であっても少量のデータから
NVS可能
33. CAMPARI https://arxiv.org/abs/2103.17269
○ カメラの分布をポーズなしの画像集合から学習する
Camera Generatorを導入
34. DietNeRF https://arxiv.org/abs/2104.00677
○ CLIP Encoderから得られた特徴を使って異なる視点間の
Semantic consistency lossを　取る
ことで，少量の視点からのNVSを実現
54

NeRFによるポーズ推定
35. iNeRF https://arxiv.org/abs/2012.05877
○ analysis-by-synthesisの枠組みからNeRFによる6DoFポーズ推定を行う
○ poseを洗練化するためのRayのサンプリング方法を提案
36. STaR https://arxiv.org/abs/2101.01602
○ 単一物体に限定されるが，static / dynamic NeRFに分解することで　　　　　　　　ポーズアノテー
ションなしに学習可能
37. NeRF-- https://arxiv.org/abs/2102.07064
○ NeRFのMLPパラメータと同時に，内部/外部カメラパラメータを最適化する
○ 学習後に，NeRFを再初期化して学習したカメラパラメータで再学習すると性能改善
38. iMAP https://arxiv.org/abs/2103.12352
○ カメラポーズの同時最適化も可能な
implicit表現を使ったSLAM
39. A-NeRF https://arxiv.org/abs/2102.06199
○ 一般的なpose estimatorから推定された3D skeletonの初期ポーズから，　　　　　　　人の体の
モデルと同時に姿勢を最適化する
55

CompositionalなNeRF
40. GIRAFFE https://arxiv.org/abs/2011.12100
○ ポーズのない画像集合からシーンを構成可能な物体単位の　　　　　　　　　　
Generative Neural
Feature Fieldsを学習
41. OSF https://arxiv.org/abs/2012.08503
○ 物体単位のNeural Scattering Functionを学習，レンダリングする方法を提案
○ 物体ごとに位置を編集したり，照明を操作できる
42. Neural Scene Graph https://arxiv.org/abs/2011.10379
○ 動的なシーンをシーングラフへ変換する
Neural Rendering方法を提案
○ 個々の物体，背景を分離でき，物体の位置や角度を編集できる
43. ObSuRF https://arxiv.org/abs/2104.01148
○ 入力画像から物体単位の表現を符号化し，この表現で
NeRF Decoderを条件付けることで教師
なしでセグメンテーションができる
56

その他
44. NeRF++ https://arxiv.org/abs/2010.07492
○ 大規模でunboundな360°シーンへNeRFを適用
45. NeRF-w https://arxiv.org/abs/2008.02268
○ 観光地におけるスナップ写真など
unstructuredな画像集合からNeRFを学習する
○ 天候や照明などの外観の変動や一時的に写り込んだ対象を対処
46. Semantic-NeRF https://arxiv.org/abs/2103.15875
○ Densityと色に加えて，その位置のセマンティックラベルを出力する
NeRF
47. AD-NeRF https://arxiv.org/abs/2103.11078
○ 音声信号を追加入力としてNeRFに与えることで話者の映像をレンダリング
48. UNISURF https://arxiv.org/abs/2104.10078
○ Implicit surface modelとradiance fieldを統合することで，　　　　　　　　　　　　　同一のモデルで
surface, volume renderingができる
57

その他
49. FiG-NeRF https://arxiv.org/abs/2104.08418v1
○ シーンを背景とDeformableな前景へ分離する2-component NeRFを使って　　　　　　前景の3D
modelを学習
○ Amodal Segmentationも実行可能
50. GANcraft https://arxiv.org/abs/2104.07659v1
○ Minecraftのようなブロックワールドをvoxel-boundedなNeRFとして表現
51. GSN https://arxiv.org/abs/2104.00670v1
○ 局所的なRadiance Fieldの集合を学習することで屋内シーンを自由に動き回ることが　できる生
成モデル
52. BARF https://arxiv.org/abs/2104.06405v1
○ 不完全もしくは未知のカメラ姿勢から
NeRFを学習する
○ 古典的な位置合わせ手法との理論的関連も示した
58

その他
53. NeMI https://arxiv.org/abs/2103.14910v2
○ 入力画像から抽出された特徴から，任意の深度の色と
Densityを予測可能な　　　　NeRFとMPI
を統合したモデルを提案
54. Opacity Radiance Field https://arxiv.org/abs/2104.01772v1
○ Fuzzy objectに対するCNN Rendererを用いたRadiance Fieldを提案
55. MVSNeRF https://arxiv.org/abs/2103.15595v1
○ Multi-view stereoで使われているplane-swept cost volumeを使うことで　　　　　　　　3つの入
力視点のみからNeRFを学習する
56. SRF https://arxiv.org/abs/2104.06935v1
○ ステレオビジョンによる視点間の類似性から新規シーンに汎化した
NeRFを学習
59

まとめ
Neural Radiance Fieldのサーベイ所感
○ Voxel, Mesh, Point Cloudに代わる新たな3D表現として急速に受け入れられた
■ Implicit Functionの研究の土台があってこそ
○ 高速化がかなり進んでおりNeRFによるtelepresenceなど実応用化も目前？
○ 生成モデルとの融和も早い段階から取り組まれている
○ 間違いなくGANやTransformerと並ぶブレイクスルーだと感じる
60 
https://twitter.com/Hassanhaija/status/1385987555628363787

61
著者紹介 
● 相澤宏旭（広島大学栗田研助教）
 
○ HP：https://aizawan.github.io/ 
○ 専門：画像生成，異常検知，セマンティックセグメンテーション
 
○ 興味：表現学習，少量データからの認識と生成

Object-oriented Representation Learning 
 
古川遼，綱島秀樹 
 
63

64
Contents 
1. 導入 
2. 手法・論文紹介 
3. データセット・評価指標 
4. 下流タスクへの応用・他分野との融合 
5. 今後の展望 
6. 有力研究機関・研究者 
7. 著者紹介

Object-oriented Representation Learning (OORL)* 
65
直訳は物体指向の表現学習 
● 表現学習 
○ 入力データから出力データを得る過程で, 特徴空間で意味があるベクトルを獲得する学習
方法. 
○ NN は必ず特徴空間が生じるため, NN の学習は全て表現学習であるが, 深層学習分野で
は下流タスクに活用するための上流タスクの学習
を表現学習と呼称する. 
 
● 物体指向の 
● 物体ごと個別の表現を獲得すること (物体の分離, 物体ごとの操作, etc...)
 
● 物体に普遍的な定義がある訳ではないことにも注意.** 
* “Object-oriented” の代わりに “object-centric” が用いられることもある.  
** この辺りの話は以下も参照のこと.  
・K. Greff. What are objects A talk in ICML 2020 Workshop. Object-Oriented Learning (OOL): Perception, Representation and Reasoning. https://slideslive.com/38930701/what-are-objects  
・K. Greff, S. van Steenkiste, J. Schmidhuber. On the Binding Problem in Artificial Neural Networks. arXiv preprint 2020. https://arxiv.org/abs/2012.05208

66
モチベーション 
● 物体や物体の相互関係は, 人間の世界の理解の基盤. 
 
● 人間は, 世界を再利用可能な構成要素に分けて抽象化することで, 複雑なタスクや未
知のシーンにも対応できると考えられる. 
 
● 人工知能でも, 物体を中心とした認知や表現獲得を行うことができれば, 複雑なタスク
や未知のシーンにも汎化するモデルを作れるのではないか. 
 
 
 
 
 
 
なぜ object-oriented か？ 
参考: 
・ICML 2020 Workshop. Object-Oriented Learning (OOL): Perception, Representation and Reasoning. https://oolworkshop.github.io/  
・K. Greff, S. van Steenkiste, J. Schmidhuber. On the Binding Problem in Artificial Neural Networks. arXiv preprint 2020. https://arxiv.org/abs/2012.05208

67
● 目的 
○ 下流タスクに有効なオブジェクトごと個別の表現を獲得すること.
 
 
● 具体的に適用できそうな下流タスク例 
○ ロボットアームでの把持タスク (物体のピッキング)
 
把持タスクにおいて, 物体検出や把持位置推定, 深度推定などを行うが, Amazon Picking
Challenge では本番で訓練データにない物体が登場.
 
OORL は教師なしでの物体検出の手法があるため, 把持タスクにおけるアドバンテージ獲得
の可能性がある. 
○ 強化学習 
OORL には前景背景を分離できる手法があり, ゲームにおいては前景となるエージェント同
士のインタラクションを獲得しやすくなる可能性がある.
 
 
● 本サーベイのスコープは, 動画像を用いた教師なしの OORL の手法. 
 
OORL の目的

OORL の例 
68
教師なしで画像の前景を物体検出, 背景を分離してから再構成 
背景分離
前景検出

69
Contents 
1. 導入 
7. 著者紹介

OORL のモデルの考え方 
70
● アプローチ 
○ 個々の前景 (と背景) の組み合わせでできていると考え,
 
個々の前景 (と背景) に対応した表現を
教師なしで獲得する. 
○ 生成過程※を, 様々な帰納バイアスを入れてモデル化する.
 
 
● 画像と動画の主な違い 
○ 画像 
■ 前景に被覆されて見えない背景を考慮して個々の物体の分離を行う．
 
■ 動画と比較して背景が見えない不良設定問題のため学習が難しい. 
○ 動画 
■ 前景が動くことで背景が見えるため, 画像と比較して学習は容易.
 
■ 1つの動画内で, 前景の時系列的な一貫性が求められ, 物体の数が可変
 
 
今回は, 主流と考えられる生成過程のモデル化を中心にサーベイ.
 
 
※ 生成過程を直接モデル化しない手法も存在

2016, 2017 2018 　　　2019 2020 2021
71
OORL一望マップ 
動
画
画
像
AIR  
(Mar 2016) 
オブジェクトごとに 
潜在変数を用意 
SQAIR (June 2018) 
AIR を時系列モデルに拡張 
SPAIR (Jan 2019) 
YOLOを利用した 
物体検出ベース 
MONet (Jan 2019) 
セグメンテーション 
マスク生成ベース 
SPACE (Jan 2020) 
SPAIRとGENESISが合体 
GENESIS-V2 (Apr 2021) 
マスクの数がハイパラではなくなる 
R-NEM (Feb. 2018) 
N-EM (RNN-EM) + 相互関係  
DDPAE (June 2018) 
物体に分けて将来予測 
N-EM(Aug. 2017) 
NN で EM アルゴリズム  
G-SWM  
(Oct. 2020) 
統一モデルへ 
TBA (Sept. 2018) 
Tracking by animation 
RTagger (July 2017) 
Recurrent Ladder Networks 
VIODINE (仮称) (June
2020) 
IODINE を動画へ拡張 
ViMON (June 2020) 
MONet の動画版 
GATSBI  
(Apr. 2021) 
Agent も分離する RL 
RELATE (July 2020) 
GAN + 相互作用 
OP3 (Oct. 2019) 
IODINE を動画へ拡張 + RL 
COBRA (May 2019) 
MONet を用いて動画 + RL 
IODINE (Mar 2019) 
繰り返し変分推論の 
マスク生成ベース 
SILOT (Nov. 2019) 
SQAIR の物体数増  
STOVE (Sept. 2019) 
状態空間モデル + GNN 
SCALOR (Oct. 2019) 
SQAIR の物体数増 + 背景. 
C-SWM (Sept. 2019) 
Contrastive loss の利用.
structured world models 
SCN (July 2020) 
Contrastive loss の利用 
SetCon (Sept. 2020) 
集合同士の contrastive loss 
GENESIS (July 2019) 
潜在変数間の関係性考慮 
Slot Attention (Feb
2020) 
集合特徴のAttention

画像の OORL のモデリングの考え方 
72
ピクセル空間のクラスタリングで画像の生成過程をモデリング 
● 教師なしで画像をピクセル空間でクラスタリング (セグメンテーション) されるように潜在変数を分割
して画像の再構成を行い, 負の対数尤度の loss をとることが多い.
 
● 物体検出をしてから bounding box の中でマスクを作ることで，明示的に前景を
 
モデリングする手法も存在． 
出典: Zhixuan Lin, Yi-Fu Wu, Skand Vishwanath Peri, Weihao Sun, Gautam Singh, Fei Deng, Jindong Jiang, and Sungjin Ahn.  
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://openreview.net/forum?id=rkl03ySYDH

画像の OORL のモデルの分類 
● Scene Mixture (ピクセル空間のクラスタリング)
 
○ 画像をピクセル空間中でクラスタリングできるように複数の潜在変数にエンコードし，  
各潜在変数から画像を再構成できるようにセグメンテーションマスクを学習． 
○ 内部の構造は基本的に VAE になっており，ELBO と KLD で学習  
○ 例：MONet，IODINE，GENESIS，Slot Attention  
 
● Spatial Attention (物体検出) 
○ YOLO (You Only Look Once) に似た機構を用いて前景を物体検出 
○ Scene Mixture モデル同様，ELBO と KLD で学習  
○ 例：AIR, SPAIR，SPACE  
 
 
Scene Mixture モデルの例 (MONet)  
Spatial Attention モデルの例  
(SPAIR)  73

重要論文リスト (画像) Scene Mixture Models 
74
● MONet C. P. Burgess et al.. MONet: Unsupervised Scene Decomposition and Representation. arXiv preprint 2019. https://arxiv.org/abs/1901.11390  
○ 領域の大きいところからRNN形式のVAEで順次オブジェクトごとのマスクを生成． 
● IODINE K. Greff et al. Multi-Object Representation Learning with Iterative Variational Inference. ICML2019. https://arxiv.org/abs/1903.00450 
○ MONet 同様に領域ごとのマスクを生成しつつ，繰り返し VAE の変分推論を行うことで高品質なマスク生成. 
○ しかし, 繰り返し変分推論を行うことで計算時間は増加 
 
MONet 
IODINE

重要論文リスト (画像) Scene Mixture Models 
75
● GENESIS M. Engelcke et al., GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR2020. https://arxiv.org/abs/1907.13052 
○ MONet の潜在変数同士を RNN で繋いで相互関係を考慮 (MONet はマスクのみ RNN 形式). 
● Slot Attention F. Locatello et al., Object-Centric Learning with Slot Attention. NeurIPS2020. https://arxiv.org/abs/2006.15055 
○ 画像のグリッドごとの Attention を計算し, CNN などの出力と集合構造を持つ特徴量を結びつけるモジュール. 
○ Slot Attention 自体はネットワークではなく, 様々なネットワークに取り込むことができる. 
● GENESIS-V2 M. Engelcke et al., GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. arXiv preprint2020.
https://arxiv.org/abs/2104.09958 
○ Scene Mixture Models のクラスタ数をハイパーパラメータでなくした (画像ごとのクラスタ数に分解可能) 
 
GENESIS 
GENESIS-V2 
Slot Attention

重要論文リスト (画像) Spatial Attention Models 
76
● AIR S. M. A. Eslami et al.. Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS2016. https://arxiv.org/abs/1603.08575  
○ OORLの起源となる論文．オブジェクト数だけ潜在変数を用意し，RNN形式のVAEで順次推論再構成を行う． 
● SPAIR E. Crawford and J. Pineau. Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019.
http://e2crawfo.github.io/pdfs/spair_aaai_2019.pdf  
○ YOLO (You Only Look Once) をベースとした教師なし物体検出により物体ごとのマスクを生成. 
○ ただし，SPAIRは背景が既知 (前景に被覆されている裏側がわかっている前提) でのみ学習可能. 
● SPACE Z. Lin et al... SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://arxiv.org/abs/2001.02407  
○ 背景のマスク生成にGENESISを使うことで, SPAIRの背景が扱えない問題を解決した. 
 
SPACE 
SPAIR 
AIR

動画の OORL のモデリングの考え方 
77
Slot の組み合わせで動画の生成過程をモデリング 
● 各フレームを slot に分解. 1つの slot と 1 つの物体を対応させたい.
 
● 各時刻では, 各 slot から decode した画像・マスクを組み合わせて画像を再構成.
 
● 前フレームからの各 slot の予測と現フレームの各 slot を紐付ける.
 
● 教師なし学習. 画像の予測・再構成を行い, ピクセル空間での loss をとることが多い.
 
 
 
 
 
 
出典: Marissa A. Weis, Kashyap. Chitta, Yash Sharma, Wieland. Brendel, Matthias. Bethge, Andreas. Geiger, Alexander S. Ecker.  
Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020. https://arxiv.org/abs/2006.07034

動画の OORL のモデルの分類 
78
モデルの分類 (生成的アプローチ)* 
● Spatial attention with factored latents
 
○ 物体ごとの潜在変数を空間的な attention でモデル化.  
さらに, 潜在変数を物体の位置・外観・存在などに分解.  
○ 物体の bounding box を推定.  
○ 再構成時に, Spatial-Transformer Network を用いることが多い.  
○ 例: SQAIR, DDPAE, TBA, SILOT, SCALOR, STOVE, G-SWM, GATSBI  
 
● Spatial attention with unconstrained latents
 
○ 物体ごとの潜在変数を空間的な attention でモデル化.  
○ 物体のマスクを推定.  
○ 例: COBRA, ViMON, RELATE  
 
● Spatial mixture models 
○ 画像ピクセルのクラスタリングを学習.  
○ 物体のマスクを推定.  
○ 例: RTagger, N-EM, R-NEM, OP3, VIODINE(仮称)  
  * M. A. Weis, K. Chitta, Y. Sharma, W. Brendel, M. Bethge, A. Geiger, A. S. Ecker. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020.
https://arxiv.org/abs/2006.07034 を参考にした.

動画の OORL のモデルの分類 
79
モデルの分類 (識別的アプローチ) 
● Application of contrastive learning
 
○ フレームの再構成をせずに, 特徴量の時系列的な一貫性を用いて表現を獲得.  
○ Loss として slot の特徴量間の contrastive loss を用いる識別的なアプローチ.  
○ 下流タスクを見据えた考え方で, 強化学習や relationa reasoning へ応用される.  
○ 例: C-SWM, SCN, SetCon  
 
 
 
 
識別的アプローチ例
 
(C-SWM) 
生成的アプローチ例
 
(SCALOR) 
元動画 + 追跡bbox  
再構成動画

Spatial attention with factored latents の発展 
80
主要モジュールの追加・改良によって発展 
● 主要なモジュール 
○ Discovery: 各時刻のフレームで物体を検出する.
 
○ Propagation: 次の時刻へ物体を引き継ぐ.
 
○ Selection (Rejection): 追跡された物体が再検出されないようにする.
 
○ Interaction: 物体間の相互作用を捉える.
 
○ Rendering: 潜在変数から画像をレンダリング.
 
● 画像モデルの AIR の動画に拡張した SQAIR から派生したものが多い. 
 
 
 
 
G-SWM の論文より G-SWM は全てに ✔がつく.

重要論文リスト (動画) Spatial attention with factored latents 
81
● SQAIR A. R. Kosiorek et al. Sequential attend, infer, repeat: Generative modelling of moving objects. NeurIPS2018. https://arxiv.org/abs/1806.01794  
○ AIR を動画に拡張. Discovery・Propagation モジュールを導入 
● SILOT E. Crawford and J. Pineau. Exploiting Spatial Invariance for Scalable Unsupervised Object Tracking. AAAI2020. https://arxiv.org/abs/1911.09033  
○ 画像モデルの SPAIR と同様の物体検出器を導入し, SQAIR より扱える物体数を増やした. 
Selection の仕組みも導入. 
● SCALOR J. Jiang et al. SCALOR: Generative World Models with Scalable Object Representations. ICLR2020. https://arxiv.org/abs/1910.02384 
○ 画像モデルの SPAIR と同様の物体検出器と Propagetion-rejection 導入し, SQAIR より扱える物体数を増やした. 背景も
モデリング. 実動画で人の追跡も検証. 
左: AIR, 右: SQAIR / 上: Generation, 下: Inference   SILOT 
SCALOR

重要論文リスト (動画) Spatial attention with factored latents 
82
● DDPAE J-T Hsieh et al. Learning to Decompose and Disentangle Representations for Video Prediction. NeurIPS2018. https://arxiv.org/abs/1806.04166  
○ 将来フレーム予測のために, 動画を構成要素に分解し, 各構成要素を容易に予測できるような低次元の時系列的な
dynamics に disentangle するモデルを提案. SQAIR と同時期. 
● TBA Z. He et al. Tracking by Animation: Unsupervised Learning of Multi-Object Attentive Trackers. CVPR2019. https://arxiv.org/abs/1809.03137  
○ 複数物体追跡 (MOT) を教師なし・end-to-end で行う手法を提案. 物体を追跡し, animation を再構成.  
データ紐付けのロバスト性を上げるために attentin を利用したモジュールを導入. 
実動画 (DukeMTMC) で教師なしの人の追跡を検証.  
DDPAE 
TBA 
TBA の DukeMTMC での検証結果

83
● STOVE J. Kossen et al. Structured Object-Aware Physics Prediction for Video Modeling and Planning. ICLR2020. https://arxiv.org/abs/1910.02425 
○ 物体の位置・速度・相互作用をモデル化する状態空間モデルを提案. 相互作用は Graph NN でモデリング. Model-based
の強化学習へも応用可能.  
● G-SWM Z. Lin et al. Improving Generative Imagination in Object-Centric World Models. ICML2020. https://arxiv.org/abs/2010.02054  
○ 既存モデルの主要モジュールを統合. Occlusion や物体・環境の相互作用もモデリング. 
不確実性も導入. 
● GATSBI C-H. Min et al. GATSBI: Generative Agent-centric Spatio-temporal Object Interaction. CVPR2021. https://arxiv.org/abs/2104.04275  
○ 動画を active なエージェント, static な背景, passive な物体を分離. エージェントと物体の物理的な相互作用やエージェ
ントの長期の trajectory を予測. Spatio-temporal な GMM からなる Mixture モジュール, Keypoint モジュール, G-SWM の
改良版を用いた Object モジュール, Interaction モジュールからなる. 
 
 
STOVE  G-SWM 
GATSBI 
重要論文リスト (動画) Spatial attention with unconstrained latents

重要論文リスト (動画) Spatial attention with unconstrained latents 
84
● COBRA N. Watters et al. COBRA: Data-Efficient Model-Based RL through Unsupervised Object Discovery and Curiosity-Driven Exploration. preprint2019. https://arxiv.org/abs/1905.09275
○ 世界の表現を object の言葉で学習し, 好奇心ベースで探索する model-based RL のモデルを提案.
学習は探索フェーズとタスクフェーズがあり, 前者の vision モデルには画像のモデルである MONet を用いる.
● ViMON M. A. Weis et al. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint2020.
https://arxiv.org/abs/2006.07034
 
○ 動画の OORL の評価のベンチマークとして, 視覚的複雑さが異なる 3 種類の合成データセットと, 複数物体追跡 (MOT)
を元にした評価指標を導入. 画像のモデルの MONet を動画に拡張した ViMON を提案し, OP3・TBA と比較実験*. 
● RELATE S. Ehrhardt et al. RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces. NeurIPS2020.
 
○ 個々の物体の相互作用を明示的にモデル化する OORL を取り入れた GAN. 動画に適用可能. 実動画でも検証. 
* 別の投稿 version の preprint では SCALOR との比較実験も追加. 
COBRA 
ViMON・TBA・OP3の比較  
RELATE

重要論文リスト (動画) Spatial mixture models 
85
● RTagger I. Prémont-Schwarz et al. Recurrent Ladder Networks. NeurIPS2017. https://arxiv.org/abs/1707.09219
○ 階層的な潜在変数モデルのための Ladder Network を再帰的に拡張. 動画にも適用可能.  
● N-EM K. Gref et al. Neural Expectation Maximization. NeurIPS2017. https://arxiv.org/abs/1708.03498
○ EM (Expectation Maximization) フレームワークを元に, NN を用いた微分可能なクラスタリング手法 N-EM を提案. 一般化
した RNN-EM も提案. 
● R-NEM S. van Steenkiste et al. Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions. ICLR2018. https://arxiv.org/abs/1802.10353 
○ N-EM (RNN-EM) に, 物体の相互作用を捉えるモジュールを導入. 
Recurrent Ladder Networks   N-EM  R-NEM

重要論文リスト (動画) Spatial mixture models 
86
● OP3 R. Veerapaneni et al. Entity Abstraction in Visual Model-Based Reinforcement Learning. CoRL2019. https://arxiv.org/abs/1910.12827  
○ Model-based 強化学習に, エンティティ中心かつ dynamic な潜在変数を持つモデルを利用.  
エンティティ表現と実際の物体に紐づける binding problem を推論問題として捉え, インタラクティブな推論アルゴリズムを
開発. IODINE を動画に拡張. 実動画を用いた検証も行う. 
● VIODINE (仮称) P. Zablotskaia et al. Unsupervised Video Decomposition using Spatio-temporal Iterative Inference. https://arxiv.org/abs/2006.14727  
○ 2D-LSTM を用いて, 時系列で条件づけられた推論・生成を spatio-temporal な iterative amotized inference の枠組みで
行う. 画像モデルの IODINE の構造の一般化とも考えらえる. 
OP3 
VIODINE (仮称)  
Representation Learning from Real World Videos
(OP3 vs IODINE)

重要論文リスト (動画) Application of contrastive learning 
87
● C-SWM T. Kipf et al. Contrastive Learning of Structured World Models. ICLR2020.
https://arxiv.org/abs/1911.12247 
○ 特徴量間の contrastive loss を用いることで, 画像の再構成を用いたピクセル空間での loss を用いない object centric
な強化学習モデルを提案. Slot の特徴量の類似度を用いた指標で評価. 
● SCN E. Racah et al. Slot Contrastive Networks: A Contrastive Approach for Representing Objects. ICML2020 Workshop.
 
○ Slot 表現の空間において, 識別的で time-contrastive な 2 種類の loss を利用することで, 物体の動きを利用し, 各
slot が他の slot と異なる動く物体を捉えられるようにする. 自己教師あり学習・disentanglement の分野で用いられる指
標を元にして linear probe を使った評価指標を提案. 
● SetCon Sindy. Löwe et al. Learning Object-Centric Video Models by Contrasting Sets. NeurIPS2020 Workshop. https://arxiv.org/abs/2011.10287  
○ 集合同士を比べる global な set contrastive loss を導入. Slot-wise な contrastive loss が, 異なる object が各 slot に
別れる場合と, 同一の object が全ての slot に(再)表現される場合を区別できない欠点を解消. 
 
 
 
C-SWM  SCN  SetCon

88
Contents 
1. 導入 
7. 著者紹介

画像の OORL の評価指標 
89
使用される評価指標例 
● 以下の例がある. 
○ 負の対数尤度 (NLL : Negative Log Likelihood)  
(VAEのELBOとKLDの値にマイナスを掛けたもの。VAEはNLLが高いほど正しくモデル化できている) 
○ 再構成誤差 (MSE : Mean Squared Error) 
○ ARI (Adjusted Rand Index) (クラスタリングの指標) 
○ IoU (Intersection over Union) (セグメンテーション，物体検出の指標) 
○ AP (Average Precision) (物体検出の指標) 
○ 線形分類器による分解したオブジェクトのAccuracy (形状が正しく分解されているか) 
○ FID (Fréchet Inception Distance) (生成品質の評価指標) 
 
● VAE が基本構造となっているため，負の対数尤度による評価が多い  
Scene Mixture モデルはマスクを生成しており，ARI や IoU を用いた評価が多い (ARI が優勢)  
Spatial Attention モデルは物体検出をしているため，IoUやAPでの評価が多い  
GENESIS のように潜在変数からの生成が可能なモデルは FID を使用  
 
●  
●

画像の OORL のデータセット 
90
合成データが用いられることが多い 
● 大きく分けると合成データ・実データがある.  
自作している場合もある.  
○ 合成データ (Scene Mixture) 
■ GQN dataset 
■ Multi-dSprites 
■ ShapeStacks 
■ CLEVR 
■ 物理シミュレータ系 (自作) 
■ Atari 
○ 合成データ (Spatial Attention) 
■ Moving MNIST 
■ 物理シミュレータ系 (自作) 
■ Atari 
○ 実データ (Scene Mixture) 
■ Sketchy 
■ APC (Amazon Picking Challenge dataset)  
■ ImageNet (Failure caseとしての紹介) 
 
● 基本的に合成データでの実験実験  
● 実世界データの実験もあるが，あまりうまく行かず，まだまだ発展途上  
Atari Space Invaders (SPAIRから引用)  
GQN dataset (MONetから引用)   APC (GENESIS-V2から引用)

動画の OORL の評価指標 
91
使用される評価指標例 
● 以下の例がある. 
○ MOT (Multi Object Tracking) の指標 
○ AMI (Adjusted Mutual Information), ARI (Adjusted Rand Index) 
○ 再構成誤差 
○ FVD (Fréchet Video Distance) 
○ … 
 
● 物体ごとに検出・追跡する学習の検証のために, MOT の指標が用いられることがある.  
物体のマスクの精度の検証に, AMI や ARI といったクラスタリングの指標が用いられることがある.  
生成重視のモデルでは, 動画生成の精度を図る FVD を用いているものもある.  
 
● フレームの再構成を行わず OORL を試みる手法もある (e.g. C-SWM, SCN, SetCon).  
その場合は, slot の特徴量での類似度を使った指標や, 自己教師あり学習 disentanglement での評価を
元して, linear probe を使った評価指標などが提案されている.  
 
● 汎化性を確かめるために, 訓練時にはない設定の実験 (e.g. 物体数を増やす) も行う.

動画の OORL のデータセット 
92
合成データが用いられることが多い 
● 大きく分けると合成データ・実データがある.  
自作している場合もある.  
○ 合成データ 
■ Bouncing Balls 
■ MNIST 系 (Moving MNIST など) 
■ Sprite 系 (Sprites-MOT など) 
■ CLEVR, CLEVERER 
■ 物理シミュレータ系 
■ Atari 
■ ... 
○ 実データ 
■ DukeMTMC などの人物追跡 
■ BAIR Robot Pushing Dataset 
■ ... 
● 現状は, コンセプト確認のためか, 合成データによる実験の方が多い.  
● 実データでは, 人物や車などの追跡のデータセットが見られる.  
ただし, 背景が大きく動かないことが多い.  
●  
 
 
Bouncing Balls  
(DDPAE. S. van. Steenkiste. ICLR2018 で導入.)  
Sprites MOT  
(TBA. Z. He et al. CVPR2019 で導入.)  
* J. Johnson et al. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning. Presented at CVPR2017. 
** N. Srivastava et al. Unsupervised Learning of Video Representations using LSTMs. ICML2015. 
CLEVR* 
Moving MNIST**

下流タスクへの応用・他分野との融合 
93
● GENESIS の論文中で潜在変数からクラス分類する下流タスクを実施
 
○ 積んだ物体の「安定かどうか」，「高さ」，「視点位置」をクラス分類
 
○ しかし，OORL が有効だという有意な結果は得られなかった
 
○ OORLの潜在表現をどう使うかが今後の課題か
 
 
 
 
● Visual Question Answering (VQA) と OORL の融合
 
LORL Wang et al., Language-Mediated, Object-Centric Representation Learning, arXiv preprint, 2020. https://arxiv.org/abs/2012.15814 
○ OORLでうまくセグメンテーションできればVQAの正答率が向上

3D-aware な画像のシーン分解・生成  
94
3D の構造の帰納バイアス + OORL 
● 概要 
○ 3D 構造の帰納バイアスをモデルに入れる.
 
3D 表現を推論しレンダリングすることで画像を合成.
 
○ 3D 構造としてここの前景の物体・背景の組み合わせであることを仮定して, OORL の枠組
みと組み合わせる. 
■ OORL の自然な発展とみなすこともできる.
 
○ 近年の NN を用いた volume rendering の発展ととも関連.
 
 
● 3D 表現 
○ Mesh, Voxel, Point Cloud, 
SDF (Signed Distance Function), NeRF (Neural Radiance Field), …
 
○ 特に, NeRF は近年のホットトピック！

3D-aware な画像のシーン分解・生成 
95
● ROOTS C. Chen et al. Object-Centric Representation and Rendering of 3D Scenes. preprint 2020. https://arxiv.org/abs/2006.06130 
○ GQN のようにカメラ姿勢を与えて, 複数視点の個々の物体のレンダリングを組み合わせて, シーン全体をレンダリング. 各物体は 3D bbox で表現.
 
● OOWM E. Crawford and J. Pineau. Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML2020 Workshop. oolworkshop.github.io/OOL_19.pdf at master · oolworkshop/oolworkshop.github.io  
○ Video において, 3D の帰納バイアスを入れた, 確率的なモデル. 静的シーンの表現獲得には SRN (Scene Representation Networks) を用い, 動的
シーンの表現獲得には, SQAIR の 3D 版と言えるモデルを用いる.
 
● O3V P. Henderson et al. Unsupervised object-centric video generation and decomposition in 3D. NeurIPS2020. https://arxiv.org/abs/2007.06705 
○ Video において, セグメンテーションマスクを予測し物体追跡を行うことで物体と背景を切り分ける.
 
3D 構造を決めるために物体の深度と 3D bbox を予測する.
 
● POD-Net Y. Du et al. Unsupervised Discovery of 3D Physical Objects from Video. ICLR 2021. https://arxiv.org/abs/2007.12348  
○ Video において, 3D の幾何と動きをモデル化することで, 教師なしで物体中心のシーン表現を獲得. 構成要素に分解しマスクと潜在変数を作る推
論モデルと, 各構成要素の 3D 構造を取り出し, 3D の動きを予測し, 画像を作る生成モデルを持つ.
 
 
 ROOTS 
O3V 
OOWM 
POD-Net

3D-aware な画像のシーン分解・生成 
96
● [NoName] Y. Liao et al. Towards unsupervised learning of generative models for 3d controllable image synthesis. CVPR2020.
 
○ 画像のみを用いて 3D の操作が可能な画像を合成する 3D controllable image synthesis のタスクを定義.
 
物体・背景ごとに 3D の表現を生成し, 2D へレンダリング・2D で生成をすることで, 画像を合成する GAN.
 
● BlockGAN T. Nguyen-Phuoc et al. BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images. NeurIPS2020.
 
○ 前景の各物体・背景を分けて 3D 特徴空間でモデリングし, 射影することで画像を生成.
 
3D の表現は, 3D grid の特徴量と物体の姿勢を用いて行われる. 学習は 2D の画像のみから行う.
 
● GIRAFFE M. Niemeyer et al. GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields. CVPR2021. https://arxiv.org/abs/2011.12100v1  
○ 各物体の NeRF による3D 表現を GAN に組み込み, 制御可能で写実的な画像を合成.
 
カメラ姿勢もノイズからサンプリングし, 学習は 2D の画像のみから行う.
 
● ObSuRF K. Stelzner et al. Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation. preprint 2021. https://arxiv.org/abs/2104.01148 
○ 画像を slot ベースの encoder で物体ごとの潜在変数を獲得し, この潜在変数で条件づけられた NeRF で画像をレンダリング.
 
NeRF の ray marching をポアソン過程とみなし, 深度を教師とすることで, 新しい loss を提案.
 
これにより, RGB-D 画像に対する NeRF の訓練を計算効率よく行う.
 
 
 BlockGAN 
GIRAFFE 
ObSuRF  [NoName]

97
Contents 
1. 導入 
7. 著者紹介

画像の OORL の今後の展望 
98
実世界への応用と下流タスクへの応用 
● 実世界への応用 
○ 現状，合成データがほとんどであり，実世界データには適用できていない  
■ Sketchy や APC はあるが，まだ学習成功というには怪しい結果  
○ 本スライド著者の綱島の研究で，実世界データ適用へ向けて MSCOCO を含んだ14個のデータセッ
トで500以上の実験を行ったが，実世界物体は前景背景の区別が曖昧で根本的にかなり 
制約が強い不良設定問題であるため，補助情報無しにはおそらく解けない (OORL を行う前の事前
表現学習が必要の可能性)  
綱島秀樹, 邱玥, 片岡裕雄, 森島繁生. “Object-oriented Representation Learningの実世界データ適用に向けた最新手法の性能分析”, Visual
Computing 2020, P20, オンライン, 2020年12月.
 
 
● 下流タスクへの応用  
○ 強化学習，ロボットの把持タスク，VQA などの物体それぞれの表現が有効である分野への適用が
考えられる 
○ しかし，OORL 自体が発展途上のため，OORL 自体の手法が発展することも必要不可欠

画像の OORL の今後の展望 
99
OORL 自体の発展と OORL の学習安定性 
● OORL 自体の発展 
○ OORL は全てのコンポーネントに分解する Scene Mixture モデルよりも前景背景で取り扱うSPACE
(前景は Spatial Attention，背景は Scene Mixture) の系統の発展が有力か  
○ Scene MixtureはGENESIS-V2のように分解数が固定でない手法の発展が期待される  
○ Spatial AttentionはYOLO-likeな仕組みで現在は動いているが，最新の物体検出の仕組みが 
取り入れられれば，さらに性能改善が期待されるか (Anchor-freeベースなど)  
 
● OORLの学習安定性  
○ OORLは教師無し学習のため，非常に学習が不安定  
○ 本スライド著者の綱島の研究では，オリジナルのSPACEは6/10でしか学習に成功しないが，潜在変
数が事後分布崩壊を起こしていることを明らかにし，VAEの学習の際のKLDに周期性アニーリング
を取り入れることで学習を安定化させた  
綱島秀樹, 大川武彦, 相澤宏旭, 片岡裕雄, 森島繁生. “Object-aware表現学習の安定化のためのKLダイバージェンスの周期性アニーリング”,
MIRU2020, IS3-2-33, オンライン, 2020年8月.
 
○ OORLは手法自体の発展も必要だが，安定性も非常に重要な課題

動画の OORL の今後の展望 
100
実動画への応用・手法の改良 
● 実動画への応用 
○ 現状, 合成されたデータセットで実験されることが多い.  
実動画で実験された手法もあるが (e.g. TBA, OP3, SCALOR, RELATE, GATSBI etc)背景の動きが比較的少ないも
のに限られている印象がある.  
○ あらゆる実動画に対応するのは難しいと考えらえるが, 限られた条件の下では, より実用に近い動
画への応用がされ始めるのではないか.  
 
● 手法の改良 
○ SQAIR でモデルが複雑であることが指摘されている.  
モデルの複雑さや計算量の問題は改良・改善されているものの, モジュール数も増加.  
実動画への応用のためにも, さらに整理され改良される必要があるだろう.  
○ 現在の手法は, フレームごとの再構成や生成モデルを用いるものが主流.  
動画像の自己教師ありの表現学習手法が注目される中で, ピクセルレベルの再構成に頼らない表
現獲得の手法 (e.g. C-SWM, SCN, SetCon) もより発展していくと考えられる.  
●

動画の OORL の今後の展望 
101
評価指標と他のタスク・手法との関連 
● 評価指標について 
○ 再構成された動画・画像のピクセルを元にした評価が中心だった.  
再構成しない手法に合わせた表現自体の評価や, 下流タスクでの評価もより求められてくる.  
○ 共通のベンチマークデータセット・評価プロトコルがない問題も指摘されている.  
例えば, ViMON の preprint では異なる性質を持つデータセットと MOT の評価指標を提案している
が, 広く認知されているとは言えない.  
今後, 共通のベンチマークデータセット・評価指標を確立する試みが期待される.  
 
● 期待される応用タスク・他の手法との融合  
○ 強化学習・因果推論への応用. 既に応用はみられるが, 今後も増加するだろう.  
○ 動画の自己教師あり学習の手法の適用・自己教師あり手法への応用.  
○ 3D 表現との融合. 近年の NN を用いた volume rendering の技術との更なる融合に期待.

102
有力研究機関 
● Rutgers University / Rutgers Machine Learning Group
 
○ Sungjin Ahn がリーダーのグループ. J. Jiang や Z. Linなども所属. 
既存のモデルを組み合わせて改良し, OORL の SOTA モデルを次々作成. 
○ 代表論文 
■ SPACE (SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR 2020.) 
■ SCALOR (SCALOR: Generative World Models with Scalable Object Representations. ICLR 2020.) 
■ G-SWM (Improving Generative Imagination in Object-Centric World Models. ICML 2020.) 
■ GNM (Generative Neurosymbolic Machines. NeurIPS 2020.) 
■ ROOTS (Object-Centric Representation and Rendering of 3D Scenes. preprint 2020.) 
 
 
 
● University of Oxford / Applied Artificial Intelligence Lab
 
○ PI の Ingmar Posner の下で, A. R. Kosiorek や M. Engelcke らが研究. 
OORL の分野で, 重要な研究を継続的に出している. 
○ 代表論文 
■ SQAIR (Sequential attend, infer, repeat: Generative modelling of moving objects. NeurIPS 2018.) 
■ GENESIS (GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR 2020.) 
■ RELATE (RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces. NeurIPS 2020.) 
■ GENESISV2 (GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. preprint 2021.)

103
有力研究機関 / 有力研究者 
● DeepMind 
○ Unsupervised learening and generative models がテーマの 1 つで重点的に研究.  
共著者が多く, 協力して研究いる印象. A. R. Kosiorek も加わった. 
○ 代表論文 
■ AIR (Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS 2016.) 
■ MONet (MONet: Unsupervised Scene Decomposition and Representation. preprint 2019.) 
■ COBRA (COBRA: Data-efficient model-based rl through unsupervised object discovery and curiosity-driven. preprint 2019.) 
 
 
 
● Eric Crawford 氏 & Joelle Pineau 氏
 
(McGill University / Reasoning and Learning Lab.)
 
○ SPAIR での detector の導入で OORL の発展に寄与. 最近は 3D 構造を利用した OORL へも取り組む. 
○ 代表論文 
■ SPAIR (Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019.) 
■ SILOT (Exploiting Spatial Invariance for Scalable Unsupervised Object Tracking. AAAI 2020.) 
■ OOWM (Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML 2020 Workshop.)

104
有力研究者 
● Klaus Greff 氏 (Swiss AI Lab IDSIA)
 
○ S. van Steenkiste と共に J. Schmidhuber (World Models の著者でもある大御所) の下で研究.  
○ 最近 Greff, Steenkiste, Schmidhuber で NN の表現を実際の物体に紐づける 
binding problem のサーベイ論文も発表. 
○ 代表論文 
■ N-EM (Neural expectation maximization. NeurIPS 2017.) 
■ R-NEM (Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions. ICLR 2018.) 
■ IODINE (Multi-Object Representation Learning with Iterative Variational Inference. ICML 2019.) 
 
 
 
● Thomas Kipf 氏 (Google Brain) 
○ Graph NN を用いた表現学習の第一人者. 
○ VAE など多くの貢献がある Max Welling の弟子. 
Max Welling との GCNs の論文 (Semi-Supervised Classification with Graph Convolutional Networks. ICLR 2017.) も有名. 
○ 代表論文 
■ Slot Attention (Object-Centric Learning with Slot Attention. NeurIPS 2020.) 
■ C-SWM (Contrastive Learning of Structured World Models. ICLR 2020.)

105
著者紹介 
● 古川遼 (株式会社 ALBERT*) 
○ 近年は, 深層学習を用いた動画像の分析案件や研究開発の業務に従事.
 
○ 興味のある分野は, 動画像の深層生成モデル. 最近は 3D 関連も. 
○ 大学院時代は数学 (トポロジー) が専門. 幾何学や図形が好き.
 
○ 食べること・テニス (の動画を見てイメトレ) などが好き.
 
* 本資料は, あくまで個人の見解によるものです. 
 
● 綱島秀樹 (早稲田大学物理学及応用物理学専攻森島繁生研究室博士2年)
 
○ 専門分野は深層生成モデル 
○ 興味：動画の表現学習，コモンセンスの獲得，パーシステントホモロジー
 
○ 趣味：筋トレ，音楽ゲーム，FPS (CoD)，アメフト，大食いyoutuber視聴
 
○ 一言：汎用人工知能に憧れがあり，実現に近づけるよう巨人を作っていきたいです
 
○ 好きな筋肉：上腕三頭筋，大腿四頭筋

Domain Adaptation
大川武彦
107

ドメインシフト問題
108
大規模データ資源を活用し適用先へ知識転移をする
大規模データ (ソース) を活用した機械学習が成功を収めているが，実用上の適用先 (ター
ゲット) に対しても教師ラベルをつけるのはコストがかかる
→ ソースの知識を活用して，効率的にターゲット上での性能を上げたい
ここでは，ソースとターゲット間でドメインシフト (i.e., データセット分布の不整合 ) が障壁と
なる
コンピュータビジョンにおいては，解像度，照明条件，視点，背景などの相違によって起こる．

Domain Adaptation
109
教師なし転移学習(厳密には，Transductive Transfer Learning) の一種
教師あり転移学習 (fine-tuning) と異なり，Domain Adaptationではターゲットドメインに教師
ラベルを仮定しない
タスクは，クラス分類，物体検出，セグメンテーションなど
[L. Zhang, arXiv’19.]

ターゲットラベルなしで知識転移できる!?
→ そんなうまい話はないので，重要な前提条件がある
Domain Adaptationの前提
110
ソース
ターゲット
1. 特徴量分布の乖離の解消 2. 分類器の適応など考えずに
そのまま使う

Domain Adaptationの流派
特徴量分布の乖離　　　を解消すれば良い
1. 特徴量ベース手法
特徴量分布をドメイン間でマッチングして，特徴抽出器 𝐺がドメイン不変特徴量を出力するように設計する．素直
なアプローチで，最も利用される．
2. 生成ベース手法
ソースとターゲット間で画像変換モデルを学習し，ソースラベルを持ちターゲットの見えを持つ擬似ターゲット画
像を生成する．これをもとにターゲットドメインの学習器を構築する．入力空間でもギャップを埋める方針である．
深層生成モデルの研究から派生したものが多い．
3. 自己学習ベース手法
モデルの予測からターゲットデータに擬似的な正解ラベルを生成し，学習に使用する (擬似ラベリング)．その他
に，半教師あり学習や自己教師あり学習から派生したものなど．

特徴量ベース手法
112
1. 分布間距離の最小化
MMD等の分布間の統計量をもとに誤差を算出する
ドメイン間でCNNの深い層の特徴量平均を整合させ，
周辺分布のマッチングをする
2. 敵対的学習による整合
ドメイン識別器はどちらのドメインの特徴量か
見分け，特徴抽出器はドメイン不変の特徴を
生成するように学習する
3. 正規化層を利用
ドメイン毎でバッチ正規化することで，特徴量
を整合させる
[E. Tzeng+, arXiv’14]
分離した特徴抽出器から敵対的学習
[E. Tzeng+, CVPR’17]
共通の特徴抽出器から敵対的学習
[Y. Ganin+, ICML’15]
[Y. Li+, ICLRW’17]
ドメイン識別器 (赤点線)

生成ベース手法
113
1. CycleGANを使用 [J. Hoffman+, ICLR’18]
2. Style Transferを使用 [M. Kim+, CVPR’20]
ターゲット→ソースへ画
像変換
ソース→ターゲットへ画
像変換
擬似ターゲットデータを
真のターゲット分布へ近づける
(ピクセルレベル)
擬似ターゲットデータを
真のターゲット分布へ近づける
(特徴量レベル)

自己学習ベース手法
114
擬似ラベリング [D.H Lee, ICMLW’13]
クラス情報も含めて特徴空間を学習できる
2体の分類器による合議による擬似ラベルの決定 [K. Saito+, ICML’17]
その他: クラス毎の確信度に応じて擬似ラベルの学習を調整
[Y. Zou+, ECCV’18]
クラスタリングによる擬似ラベリングとそのカリキュラム学習
[C, Chen+, CVPR’19]
自己教師タスクも追加で学習 [Y. Sun+, arXiv’19]
その他: エントロピー最小化を導入する [Y. Zou+, NeurIPS’16,
T.H. Vu+, CVPR’19]
データ拡張をもとに拡張前後の一貫性を導入 [Y. Sun+, NeurIPS’20]
擬似ラベルをもとにクラス条件付き分布を計算し，MMDでマッチ
ング [M. Long+, ICCV’13]

Domain Adaptationの限界
データ・アルゴリズム上の制約と実世界制約とのギャップ
1. べらぼうに大きなドメインシフト　　　　　　　には対処できない
→ Negative Transfer (i.e., 適応の失敗) が生じ，その発生が事前に見積もれない
アルゴリズムの良し悪し，データの品質，ドメインシフトの大きさに依存 [Z. Wang+, CVPR’19, W. Zhang+, TKDE’20]
2. ラベル空間と分布に関する仮定は強くないか！？
(再掲: 共通のラベル空間かつラベリングは共通 :
→ ラベル分布の相違を考慮したDomain Adaptation
(e.g., Target shift [K. Zhang+, ICML’13, R. Takahashi+, ECCV’20])
→ ラベル空間の相違を考慮したDomain Adaptation
(e.g., Partial DA [Z. Cao+, CVPR’18, J. Zhan+, CVPR’18], Open-set DA [Busto+, ICCV‘17, K. Saito+, ECCV’18],
Universal DA [Y. You+, CVPR’19, Q. Yu+, CVPR’21])

Domain Adaptationの派生形と周辺分野との融合
116
▪ ターゲットに少数の教師ラベルを仮定 (半教師あり [Saito+, ICCV’19], Few shot [S. Motiian+, NeurIPS’17])
▪ マルチドメインへ拡張 (Multi source [H. Zhao+, NeurIPS’18], Multi target [O. Rudovic+, TIP’20], Federated learning
[X. Peng+, ICLR’20])
▪ ドメインが動的に変化する (Incremental DA [Hoffman+, CVPR’14, M. Wulfmeier+, ICRA’18], Open compound
[Ziwei Liu+, CVPR’20])
▪ 映像間の適応へ拡張 [M.H Chen+, ICCV’19]
▪ ソースデータのプライバシーを考慮 (Source free [J. Liang+, ICML’20, J. N. Kundu+, CVPR’20, R. Li+, CVPR’20],
Test-time adaptation [D. Wang+, ICLR’21])
▪ Active Learningとの統合 [P. Rai+, NAACL-HLTW’10, J.C. Su+, CVPR’19]
▪ 応用タスクの拡張 (e.g., Person ReID, Sim2Real, Depth/Gaze estimation, Medical tasks)

Domain Adaptationサーベイまとめ
ターゲットに教師ラベルを仮定しない効率的な転移学習
▪ 基本3流派: 特徴量ベース手法，生成ベース手法，自己学習ベース手法
▪ 特徴空間におけるアライメント
▪ 入力空間におけるドメインシフトの部分的解消
▪ ターゲットドメインを直接的に学習
▪ データ・アルゴリズム上の制約と実世界制約とのギャップが今後の課題に
▪ Negative Transferの問題
▪ ラベル空間と分布の仮定を緩めた一般的な設定へ
▪ さらなる応用への展開
▪ ターゲットドメインに少数の教師ラベルを仮定
▪ ドメインを複数に，動的に，そして，映像も扱えるように
▪ 人間の介入やプライバシー問題
▪ タスクの拡張

118
著者紹介 
● 大川武彦（東京大学佐藤洋一研修士学生）
 
○ 専門：ドメイン適応，生成モデリング，一人称ビジョン，視覚言語統合
 
○ 興味：適応的な視覚情報処理，人物行動理解とそのモデリング

画像生成・生成モデルメタサーベイ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 画像生成・生成モデルメタサーベイ

Similar to 画像生成・生成モデルメタサーベイ (20)

Recently uploaded

Recently uploaded (20)