SlideShare a Scribd company logo
1 of 118
Download to read offline
画像生成・生成モデル
メタサーベイ
Unpaired Image-to-Image Translation: 清田浩史
Neural Radiance Field: 相澤宏旭
Object-oriented Representation Learning: 綱島秀樹, 古川遼
Domain Adaptation: 大川武彦
1
http://xpaperchallenge.org/cv 

グループ紹介
cvpaper.challenge研究グループ「Generations」
画像生成・生成モデルに関連する研究を行うグループ
<業績一覧>
- Hiroaki Aizawa, Hirokatsu Kataoka, Yutaka Satoh, Kunihito Kato, "Viewpoint-agnostic Image
Rendering," Winter Conference on Applications of Computer Vision (WACV), 2021.
- Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue, “Augmented Cyclic
Consistency Regularization for Unpaired Image-to-Image Translation”, International Conference
on Pattern Recognition (ICPR), 2020.
- Hideki Tsunashima, Hirokatsu Kaotaka, Junji Yamato, Qiu Chen, Shigeo Morishima,
“Adversarial Knowledge Distillation for a Compact Generator”, International Conference on
Pattern Recognition (ICPR), 2020.
- Hiroaki Aizawa, Hirokatsu Kataoka, Yutaka Satoh, Kunihito Kato, "Disentangle, Assemble, and
Synthesize: Unsupervised Learning to Disentangle Appearance and Location," International
Conference on Pattern Recognition (ICPR), 2020.
グループ紹介
cvpaper.challenge研究グループ「Generations」
画像生成・生成モデルに関連する研究を行うグループ
<業績一覧>
- 綱島秀樹, 大川武彦, 相澤宏旭, 片岡雄裕, 森島繁生. “Object-aware表現学習の安定化のためのKL
ダイバージェンスの周期性アニーリング”, 第23回 画像の認識・理解シンポジウム (MIRU2020).
- 綱島 秀樹, 邱 玥, 片岡 裕雄, 森島 繁生. “Object-oriented Representation Learningの実世界データ
適用に向けた最新手法の性能分析”, Visual Computing 2020 - Poster.
<過去の資料>
- Generative Models https://www.slideshare.net/cvpaperchallenge/generative-models-233089430
グループ紹介
cvpaper.challenge研究グループ「Generations」
Generationsは絶賛メンバー募集中です!
画像生成,生成モデルに関するテーマで我々と研究をやりませんか?
ご興味がある方はhttp://xpaperchallenge.org/cv/recruit/から!
Contents
1. Unpaired Image-to-Image Translation
2. Neural Radiance Fields
3. Object-oriented Representation Learning
4. Domain Adaptation
Unpaired Image-to-Image Translation

清田浩史

6
http://xpaperchallenge.org/cv 

Image-to-Image Translation (I2I)

7
異なるドメインに属する画像について,ドメイン間の変換方法を獲得するタスク。


学習データとしてドメインが異なる対となる画像が与えられるケース (Paired) と


与えられないケース (Unpaired) に分けられる。


Paired の例:Semantic Labels⇔Photo, Colorization など 

Unpairedの例:Photo⇔Illustrate 

Unpaired Data

Paired Data

Unpaired I2I

8
学習データとして画像の対を使わない I2I


写真のスタイル変換や写真⇔絵画など,対になる画像が入手できないケースに有用


対になる画像を利用できないため,
画像が持つ文脈をいかに残したまま変換するかが重要




Unsupervised Image-to-Image Translation Networks (UNIT)

9
会議 : NIPS2017

著者 : Ming-Yu Liu, Thomas Breuel, Jan Kautz




● Encoder により画像の持つ文脈をドメイン共通の Latent Space に移す


● Generator は Latent Space から目的ドメインの画像を生成する




Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN)


10
会議 : ICCV2017

著者 : Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros




● 入力画像と再構成画像との間の距離損失 (Cycle-Consistency Loss) を提案


● Cycle-Consistency による画像文脈を保持した変換








UNIT・CycleGAN 以降の展開

11
以下のような方向性の拡張を考慮した研究が多い。



● Consistency

● Object Aware

● Multi-Modal / Multi-Class / Unsupervised

● Few-Shot / Out-of-Distributions













Consistency

12
目的ドメインへの変換ができたとしても,


入力画像と全く関係ない画像では意味がないため
画像の文脈の保持は必須。

CycleGAN は Cycle-Consistency Loss を導入することでこの問題に対処したが,


Cycle-Consistency はあまりに強すぎるため,形状変化を伴う変換が上手くできない。


そこで Cycle-Consistency に依存せずに画像の文脈を保つ手法
が提案されている。



・Breaking the cycle -- Colleagues are all you need


・Unpaired Image-to-Image Translation using Adversarial Consistency Loss


・Contrastive Learning for Unpaired Image-to-Image Translation


・Dual Contrastive Learning for Unsupervised Image-to-Image Translation




CycleGAN での変換失敗例

Object Aware

13
horse⇔zebra など,画像全体ではなく画像中の特定のオブジェクトについての変換を行いたいケース
では背景や変換対象以外のオブジェクトは入力画像から変わらない方が望ましい。そのため,
変換対
象となるオブジェクトを認識した上で変換を行う手法
が提案されている。



・Attention-GAN for Object Transfiguration in Wild Images


・Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation


・Unsupervised Attention-guided Image-to-Image Translation


・U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance
Normalization for Image-to-Image Translation






CycleGAN の変換失敗例

Multi-Modal / Multi-Class / Unsupervised

14
ドメイン間の 1 対 1 関係のみの変換ではなく 1 対多の変換を可能とするような研究




Multi-Modal

各ドメインに複数のモードがあるケース
。例えば cat→dog においては与えられた cat 画像をどの犬
種に変換してもよいので 1 対多関係がある。




・Multimodal Unsupervised Image-to-Image Translation


・Few-Shot Unsupervised Image-to-Image Translation


・Semi-supervised Learning for Few-shot Image-to-Image Translation




Multimodal Unsupervised Image-to-Image Translation

Multi-Modal / Multi-Class / Unsupervised

15
Multi-Class

3 つ以上の各ドメイン間に対応関係があるケース
。

顔の喜怒哀楽についての相互変換など。




・StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation


・StarGAN v2: Diverse Image Synthesis for Multiple Domains




Unsupervised

ドメインラベルなしでの学習を行うケース
。



・High-Resolution Daytime Translation Without Domain Labels


・Rethinking the Truly Unsupervised Image-to-Image Translation


Few-Shot / Out-of-Distributions

16
目的ドメインについて少数の画像しか用意できないあるいは全く用意できないケースについて適用可
能な手法の研究



・Few-Shot Unsupervised Image-to-Image Translation


・Semi-supervised Learning for Few-shot Image-to-Image Translation


・Domain Adaptive Image-to-image Translation




論文紹介

Breaking the cycle -- Colleagues are all you need

18
会議 : CVPR2020

著者 : Ori Nizan, Ayellet Tal



● Cycle-Consistency Loss によらない入力画像の文脈保持


● 独立した複数の Generator を持ち,どの Generator から生成された画像かを判別するための
Discriminator を使う

● 各 Generator は他の Generator に近い画像を作ろうとする








Unpaired Image-to-Image Translation using Adversarial Consistency Loss


19
会議 : ECCV2020

著者 : Yihao Zhao, Ruihai Wu, Hao Dong




● Cycle-Consistency Loss によらない入力画像の文脈保持
● Cycle-Consistency Loss の代わりに敵対的損失を用いる






Contrastive Learning for Unpaired Image-to-Image Translation

20
会議 : ECCV2020

著者 : Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu




● Cycle-Consistency Loss によらない入力画像の文脈保持


● 変換前後の画像間でパッチを取って同一の領域かどうかを判別する Contrastive Loss を導入すること
で入力画像の文脈を保つ

● CycleGAN のような往復構造は持たない






Dual Contrastive Learning for Unsupervised Image-to-Image Translation


21
会議 : CVPRW2021

著者 : Junlin Han, Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin




● CycleGAN の Cycle-Consistency Loss を除き Contrastive Loss に置き換えた形式


● モード崩壊に対応するために Similarity Loss の導入も行い,有無で結果を比較








Attention-GAN for Object Transfiguration in Wild Images

22
会議 : ECCV2018

著者 : Xinyuan Chen, Chang Xu, Xiaokang Yang, Dacheng Tao




● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する


● マスクの大きさを損失に加えることで全域をマスクとして推定されることを防いでいる






Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation


23
会議 : IJCNN 2019

著者 : Hao Tang, Dan Xu, Nicu Sebe, Yan Yan




● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する


● Discriminator は画像と推定マスクの対を入力とする (Attention-guided discriminator)








Unsupervised Attention-guided Image-to-Image Translation

24
会議 : NeurIPS2018

著者 : Youssef Alami Mejjati, Christian Richardt, James Tompkin, Darren Cosker, Kwang In Kim




● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する


● 入力画像に対して推定された Attention を Discriminator も用いる








U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization
for Image-to-Image Translation

25
会議 : ICLR2020

著者 : Junho Kim, Minjae Kim, Hyeonwoo Kang, Kwanghee Lee



● I2I 用の Attention Module と Normalization Layer (AdaLIN) を提案


● 大きな形状変化を伴う変換も可能






Input
 Output

Input
 Output
 CycleGAN

Output

Multimodal Unsupervised Image-to-Image Translation (MUNIT)

26
会議 : CVPR2018

著者 : Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz




● 入力画像をドメイン特異的な Style とドメイン不変な Content にエンコードする


● Content と Style を組み合わせて画像を生成


● 適用する Style を変えることでマルチモーダルな画像生成が可能








StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation


27
会議 : CVPR2018

著者 : Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo




● 多ドメインの相互変換を 1 つの Generator で行えるようにした


● Discriminator は補助タスクとして与えられた画像のドメインについても判別を行う








StarGAN v2: Diverse Image Synthesis for Multiple Domains

28
会議 : CVPR2020

著者 : Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha




● StarGAN を基にして,変換結果に多様性が生まれるように改良した手法






High-Resolution Daytime Translation Without Domain Labels

29
会議 : CVPR2020

著者 : Ivan Anokhin, Pavel Solovev, Denis Korzhenkov, Alexey Kharlamov, Taras Khakhulin, Alexey
Silvestrov, Sergey Nikolenko, Victor Lempitsky, Gleb Sterkin




● 昼・夕・夜などのドメインラベルなしで I2I を学習

● 変換は低解像度で行い,変換後にマージすることで高解像度化




Rethinking the Truly Unsupervised Image-to-Image Translation

30
会議 : Preprint

著者 : Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim




● ドメインラベルなしでの I2I

● Discriminator は補助タスクとして Encoder が出力する疑似ラベルを推測する




Few-Shot Unsupervised Image-to-Image Translation (FUNIT)

31
会議 : ICCV2019

著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz




● 学習に用いていないドメインへの変換が可能な I2I


● Discriminator に補助タスクとしてクラス分類問題も解かせる。








Semi-supervised Learning for Few-shot Image-to-Image Translation (SEMIT)


32
会議 : CVPR2020

著者 : Yaxing Wang, Salman Khan, Abel Gonzalez-Garcia, Joost van de Weijer, Fahad Shahbaz KhanFirst,
Last Name



● FUNIT の設定に追加して学習時に利用できるドメインラベル付き画像も少ないケースを想定


● ラベルなし画像に擬似ラベルを付けて I2I の学習に用いる








CycleGAN

MUNIT

FUNIT
 提案手法

COCO-FUNIT: Few-Shot Unsupervised Image Translation


with a Content Conditioned Style Encoder


33
会議 : ECCV2020

著者 : Kuniaki Saito, Kate Saenko, Ming-Yu Liu




● FUNIT では未知のドメインにおいて変換後の画像が文脈を上手く保持しないことがある


● Content に依存する Style Encoder を提案し,上記問題を解決








Domain Adaptive Image-to-image Translation

34
会議 : CVPR2020

著者 : Ying-Cong Chen, Xiaogang Xu, Jiaya Jia




● ドメイン(人の顔,猫の顔,写真,線画など)の中にサブドメイン(表情)があり,一部のドメインにおいて
特定のサブドメインが欠落しているようなケースを想定


● 学習に用いたドメインのバイアスに引きずられない I2I








TSIT: A Simple and Versatile Framework forImage-to-Image Translation


35
会議 : ECCV2020

著者 : Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping Shi, Chen Change LoyFirst,
Last Name



● I2I のための汎用的フレームワーク TSIT を提案。


● Generator は解像度ごとに Content を受け取る FADE モジュールと Style を受け取る FAdaIN からな
る

データセット (1/5)

36
Large-scale CelebFaces Attributes (CelebA)

● 20 万枚の顔画像データセット

● 眼鏡の有無,髪色など 40 の属性

データセット (2/5)

37
Animal Faces-HQ dataset (AFHQ)

● StarGAN v2 の著者が公開

● cat, dog, wild (その他のイヌ科ネコ科) の 3 属性

● 人の顔⇔動物の顔という大きな形状変化を伴う変換の実験に使われる

データセット (3/5)

38
horse2zebra, apple2orange,
summer2winter_yosemite

● CycleGAN の著者が公開

● horse, zebra, apple, orange は ImageNet 由来

● summer2winter のデータは Flickr 上のヨセミテ自然公園の写真

● 既存研究との比較のためによく使われる

データセット (4/5)

39
Selfie2Anime

● U-GAT-IT の著者が公開

● それぞれ 3400 枚の自撮り画像とアニメ顔画像からなる

● 現実の人間の顔とアニメの顔では目の大きさなどが異なるため,柔軟に文
脈を維持できるかどうかの実験によく使われる

データセット (5/5)

40
Cityscapes

● The Cityscapes Dataset for Semantic Urban Scene Understanding で作成・
公開

● ドイツの 50 都市の昼間市街の写真

● 人,自動車,道路,木など 30 のクラスについてマスクのアノテーションが付
けられている

まとめ・展望

41
● 入力画像の文脈を残しつつ自然な変換結果
を求めて発展してきた。

● 既存研究の問題設定に新たな制約を課した上で解く研究が多い。


● selfie2anime といった,大きな形状変化を伴う変換はまだ発展の余地がありそう。

● ドメインラベルなしでの変換も増えてきそう。

● 実用性はあまり意識されていないが,絵画⇔写真の変換やアニメ⇔実写の変換などが精力的
に試みられており,コンテンツ産業への応用等が可能かもしれない。

● 高解像度化や高速化に関する研究も進められているため,リアルタイムでの変換を志向した研
究も今後増えると思われる。

● 

● 













著者紹介

42
清田 浩史(株式会社カブク)

● 業務では DL を用いた物体検出や文字認識などの技術開発などを行っている


● 画像の生成・変換に興味あり。最近は強化学習にも興味あり


● 大学院時代の専門は生物学

● 趣味はビデオゲーム・ボードゲーム


● 

● 



















Contents
1. Unpaired Image-to-Image Translation
2. Neural Radiance Fields
3. Object-oriented Representation Learning
4. Domain Adaptation
Neural Radiance Fields





相澤宏旭

44
http://xpaperchallenge.org/cv 

はじめに
Neural Radiance Fields (NeRF) に関するサーベイを実施(4/30までの調査)
- NeRFに関する簡単な日本語まとめとしてご利用ください
- 調査漏れ,間違い等ありましたらご指摘頂けるとありがたいです
NeRFについて,計算効率化・高速化,非剛体対象への適用,動画像への拡張,
Lightingの制御,ポーズ推定への適用,Compositional表現,汎化の観点から
サーベイしています
研究のカテゴリ分けは以下の資料を参考にしています
https://github.com/yenchenlin/awesome-NeRF
https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf
日本語のNeRF派生研究まとめは @doiken23 さんの資料もおすすめです!
45

Neural Radiance Fields (NeRF)
● MLPでパラメータ化された3次元表現の一種
● ある視点から観測した情報を使って別視点から観測したシーンを生成する
Novel View Synthesisができる
46

NeRFの詳細は以下の資料がわかりやすいです 

公開と作成ありがとうございます 

https://www.slideshare.net/KentoDoi/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis-230911610 

https://blog.albert2005.co.jp/2020/05/08/nerf/ 





pixelNeRF

CVPR’21 (2020/12/3) 

NeRFの変遷
NeRF

ECCV’20 (2020/3/19)

2020/3
 2021/4

2021/3

2021/2

2021/1

2020/12

2020/11

2020/10

47
NeRFの計算効率化・高速化 

非剛体対象を扱うNeRF 

動画像を扱うNeRF 

NeRFによるLightningの制御 

CompositionalなNeRF 

NeRFの汎化 

NeRF-VAE

2021/4/1 

ShaRF

NeurIPS’20(2021/2/17)
Learnit

CVPR’21 (2020/12/3) 

NSVF
NeurIPS’20 (2020/7/23) 

GRF

2020/10/9 

GIRAFFE

2020/11/24
GRAF
NeurIPS’20(2020/7/5)
pi-GAN

CVPR’20(2020/12/2)
CAMPARI

2021/3/31
OSF
2020/12/15
iNeRF

2020/12/10
NeRF--
2021/2/14
iMAP

2020/12/10
A-NeRF

2021/2/11
Neural Scene Graph


2020/11/20
STaR

2020/12/22
D-NeRF (Park et al.)
2020/11/25
D-NeRF (Pumarola et al.)
2020/11/27
NerFACE

2020/12/5
NR-NeRF

2020/12/22
PVA

2021/1/7
NARF
2021/4/7
Video-NeRF

2020/11/25
Neural Scene Flow Field
CVPR’21(2020/11/26)
Neural Radiance Flow
CVPR’21(2020/12/17)
Neural Body

CVPR’21(2020/12/31)
Neural 3D Video Synthesis


2021/3/3
NeRD

2020/12/7
NeRV

CVPR’21(2020/12/7)
NeX

CVPR’21(2021/3/9)
Neural Reflectance Fields
2020/8/16
AutoInt
CVPR’21(2020/12/3)
DeRF

2020/11/25)
DONeRF

2021/3/4
FastNeRF

2021/3/18
KiloNeRF

2021/3/25
PlenOctrees

2021/3/25
ObSuRF

2021/4/2
SNeRG

2021/3/26
NeRFによるポーズ推定 

DietNeRF

2021/4/1 

PortraitNeRF

2020/12/10 

一部の研究は分類とスペースの都合上,上図から除いてあります 

日付はarxivへの初版投稿日時です 

NeRFの計算効率化・高速化
1. NSVF https://arxiv.org/abs/2007.11571
○ Sparse Voxel Octree表現を導入し,NeRFを10倍高速化
2. AutoInt https://arxiv.org/abs/2012.01714
○ volume renderingの積分をimplicitなNNで学習
○ NeRFから10倍以上高速化
3. DeRF https://arxiv.org/abs/2011.12490
○ Voronoi空間分割によってシーンを分解した個々のパーツごとに
NNを割り当て    レンダリン
グ
○ NeRFの品質を保ちつつ,3倍の計算効率化を実現
4. DONeRF https://arxiv.org/abs/2103.03231
○ Rayに沿ったDepthを推定するNNの出力に基づいてサンプル点を決定することで   
NeRFか
ら最大48倍の推論コストを削減
48

NeRFの計算効率化・高速化
5. KiloNeRF https://arxiv.org/abs/2103.13744
○ 単一のDeep MLPの代わりに,何千もの小さなMLPでNeural Radiance Fieldを表現することで
NeRFのレンダリングを高速化
6. FastNeRF https://arxiv.org/abs/2103.10380
○ 位置と視点方向に依存したそれぞれ
2つのMLPを用意し,             これらの出力の
内積をキャッシュすることでリアルタイムにレンダリングする
○ NeRFから3000倍高速化
7. PlenOctrees https://arxiv.org/abs/2103.14024
○ Octreeベースの3D表現をNeRFで利用することでリアルタイムレンダリングを実現
○ 視点依存の効果を実現するために,色を球面調和関数で表現する
8. SNeRG https://arxiv.org/abs/2103.14645
○ 提案するSparse Neural Radiance Gridとして視点非依存特徴を事前に計算して保存
○ 生成時は視点依存の色をこの特徴を集積することから決定する
49

非剛体対象を扱うNeRF
9. D-NeRF (Park et al.) https://arxiv.org/abs/2011.12948
○ 非剛体のDeformableなシーンをNeRFで表現されるTemplate volumeと観測単位の
Deformation fieldに分解する
10. D-NeRF (Pumarola et al.) https://arxiv.org/abs/2011.13961
○ シーンを static / dynamic なNeRFに分解し,更に,時間の変数も追加
11. NerFACE https://arxiv.org/abs/2012.03065
○ SRNベースの頭部のimplicit表現とmorphable modelからポーズや表情を操作
12. NR-NeRF https://arxiv.org/abs/2012.12247
○ 動的なシーンをcanonical volumeとdeformationに分離
13. PVA https://arxiv.org/abs/2101.02697
○ pixel-aligned featureを使って人の頭部に関するNVSを少量データから実現
14. NARF https://arxiv.org/abs/2104.03110
○ 関連するパーツの変形のみを考慮することでパーツ単位の操作可能な
NeRFを学習
50

動画像を扱うNeRF
15. Space-time Neural Irradiance Fields https://arxiv.org/abs/2011.12950
○ 時間変数を追加し,推定されたシーンの
Depthを利用した制約を導入
16. D-NeRF (Pumarola et al.) https://arxiv.org/abs/2011.13961
○ シーンを static / dynamic なNeRFに分解し,更に,時間の変数も追加
17. Neural Scene Flow Field https://arxiv.org/abs/2011.13084
○ 色とDensityに加えて,前後の時刻間の位置の移動量と遮蔽に関する重みを出力
18. Neural Radiance Flow https://arxiv.org/abs/2012.09790
○ ジオメトリと外観のRadiance Fieldとダイナミクスの4D Flow Fieldを導入
19. Neural Body https://arxiv.org/abs/2012.15838
○ deformable meshに関連づけられた潜在変数から異なるフレームの
3D表現を獲得
20. Neural 3D Video Synthesis https://arxiv.org/abs/2103.02597
○ 動的なmulti-view動画から提案するhierarchical trainingとimportance samplingで
time-conditioned NeRFを効果的に学習
51

NeRFによるLightingの制御
21. Neural Reflectance Field https://arxiv.org/abs/2008.03824
○ Local reflection modelをNeRFに組み込み,単一照明下でのRelightingを達成
22. NeRD https://arxiv.org/abs/2012.03918
○ 照明条件をspatially-varying BRDFと混合ガウス分布としてモデル化
23. NeRV https://arxiv.org/abs/2012.03927
○ NeRFのMLPをvolume densityを出力するMLPとBRDFを出力するMLPに分解
24. NeX https://arxiv.org/abs/2103.05606
○ 色を視野角の関数として表現し,この関数を
NNで学習された基底関数の線形結合で  近似す
るMPIを提案
○ CD面の虹の反射などの視点依存の視覚効果を実現
52

NeRFの汎化に向けて
25. GRF https://arxiv.org/abs/2010.04595
○ canonical space内で各rayに対するpose-awareな特徴を計算することで汎化を達成
26. GRAF https://arxiv.org/abs/2007.02442
○ ポーズなしの2D画像集合からGenerative Radiance Fieldを学習
○ appearance / shape codeの分離やmultiscale patch discriminatorを導入
27. pi-GAN https://arxiv.org/abs/2012.00926
○ SIRENで表現されるimplicit radiance fieldをStyleGAN-likeな方法(FiLM)で潜在変数を条件付
ける
○ progressive growingも導入
28. Learnit https://arxiv.org/abs/2012.02189
○ NeRFのMLPの重みをメタ学習し,未知の対象の最適化を高速化する
○ メタ学習された重みは3D priorとしても働く
29. Portrait NeRF https://arxiv.org/abs/2012.05903
○ Light stage portrait datasetでメタ学習することで1枚のPortraitからNeRFを学習 53

NeRFの汎化に向けて
30. pixelNeRF https://arxiv.org/abs/2012.02190
○ 各画素がアライメントされた空間的な画像特徴を入力として受け取ることで,    1枚もしくは少
量の視点からNVSするためのシーンのpriorを学習する
31. ShaRF https://arxiv.org/abs/2102.08860
○ 潜在変数からボクセル表現の形状(
scaffold)を生成し,これを手がかりにRadiance Fieldを学
習しレンダリングする
32. NeRF-VAE https://arxiv.org/abs/2104.00587
○ NeRFとVAEを組み合わせ,シーン間で共有される構造を学習する
○ 未知の3D環境であっても少量のデータから
NVS可能
33. CAMPARI https://arxiv.org/abs/2103.17269
○ カメラの分布をポーズなしの画像集合から学習する
Camera Generatorを導入
34. DietNeRF https://arxiv.org/abs/2104.00677
○ CLIP Encoderから得られた特徴を使って異なる視点間の
Semantic consistency lossを 取る
ことで,少量の視点からのNVSを実現
54

NeRFによるポーズ推定
35. iNeRF https://arxiv.org/abs/2012.05877
○ analysis-by-synthesisの枠組みからNeRFによる6DoFポーズ推定を行う
○ poseを洗練化するためのRayのサンプリング方法を提案
36. STaR https://arxiv.org/abs/2101.01602
○ 単一物体に限定されるが,static / dynamic NeRFに分解することで        ポーズアノテー
ションなしに学習可能
37. NeRF-- https://arxiv.org/abs/2102.07064
○ NeRFのMLPパラメータと同時に,内部/外部カメラパラメータを最適化する
○ 学習後に,NeRFを再初期化して学習したカメラパラメータで再学習すると性能改善
38. iMAP https://arxiv.org/abs/2103.12352
○ カメラポーズの同時最適化も可能な
implicit表現を使ったSLAM
39. A-NeRF https://arxiv.org/abs/2102.06199
○ 一般的なpose estimatorから推定された3D skeletonの初期ポーズから,       人の体の
モデルと同時に姿勢を最適化する
55

CompositionalなNeRF
40. GIRAFFE https://arxiv.org/abs/2011.12100
○ ポーズのない画像集合からシーンを構成可能な物体単位の          
Generative Neural
Feature Fieldsを学習
41. OSF https://arxiv.org/abs/2012.08503
○ 物体単位のNeural Scattering Functionを学習,レンダリングする方法を提案
○ 物体ごとに位置を編集したり,照明を操作できる
42. Neural Scene Graph https://arxiv.org/abs/2011.10379
○ 動的なシーンをシーングラフへ変換する
Neural Rendering方法を提案
○ 個々の物体,背景を分離でき,物体の位置や角度を編集できる
43. ObSuRF https://arxiv.org/abs/2104.01148
○ 入力画像から物体単位の表現を符号化し,この表現で
NeRF Decoderを条件付けることで教師
なしでセグメンテーションができる
56

その他
44. NeRF++ https://arxiv.org/abs/2010.07492
○ 大規模でunboundな360°シーンへNeRFを適用
45. NeRF-w https://arxiv.org/abs/2008.02268
○ 観光地におけるスナップ写真など
unstructuredな画像集合からNeRFを学習する
○ 天候や照明などの外観の変動や一時的に写り込んだ対象を対処
46. Semantic-NeRF https://arxiv.org/abs/2103.15875
○ Densityと色に加えて,その位置のセマンティックラベルを出力する
NeRF
47. AD-NeRF https://arxiv.org/abs/2103.11078
○ 音声信号を追加入力としてNeRFに与えることで話者の映像をレンダリング
48. UNISURF https://arxiv.org/abs/2104.10078
○ Implicit surface modelとradiance fieldを統合することで,             同一のモデルで
surface, volume renderingができる
57

その他
49. FiG-NeRF https://arxiv.org/abs/2104.08418v1
○ シーンを背景とDeformableな前景へ分離する2-component NeRFを使って      前景の3D
modelを学習
○ Amodal Segmentationも実行可能
50. GANcraft https://arxiv.org/abs/2104.07659v1
○ Minecraftのようなブロックワールドをvoxel-boundedなNeRFとして表現
51. GSN https://arxiv.org/abs/2104.00670v1
○ 局所的なRadiance Fieldの集合を学習することで屋内シーンを自由に動き回ることが できる生
成モデル
52. BARF https://arxiv.org/abs/2104.06405v1
○ 不完全もしくは未知のカメラ姿勢から
NeRFを学習する
○ 古典的な位置合わせ手法との理論的関連も示した
58

その他
53. NeMI https://arxiv.org/abs/2103.14910v2
○ 入力画像から抽出された特徴から,任意の深度の色と
Densityを予測可能な    NeRFとMPI
を統合したモデルを提案
54. Opacity Radiance Field https://arxiv.org/abs/2104.01772v1
○ Fuzzy objectに対するCNN Rendererを用いたRadiance Fieldを提案
55. MVSNeRF https://arxiv.org/abs/2103.15595v1
○ Multi-view stereoで使われているplane-swept cost volumeを使うことで        3つの入
力視点のみからNeRFを学習する
56. SRF https://arxiv.org/abs/2104.06935v1
○ ステレオビジョンによる視点間の類似性から新規シーンに汎化した
NeRFを学習
59

まとめ
Neural Radiance Fieldのサーベイ所感
○ Voxel, Mesh, Point Cloudに代わる新たな3D表現として急速に受け入れられた
■ Implicit Functionの研究の土台があってこそ
○ 高速化がかなり進んでおりNeRFによるtelepresenceなど実応用化も目前?
○ 生成モデルとの融和も早い段階から取り組まれている
○ 間違いなくGANやTransformerと並ぶブレイクスルーだと感じる
60

https://twitter.com/Hassanhaija/status/1385987555628363787
61
著者紹介

● 相澤 宏旭 (広島大学 栗田研 助教)


○ HP:https://aizawan.github.io/

○ 専門:画像生成,異常検知,セマンティックセグメンテーション


○ 興味:表現学習,少量データからの認識と生成


Contents
1. Unpaired Image-to-Image Translation
2. Neural Radiance Fields
3. Object-oriented Representation Learning
4. Domain Adaptation
Object-oriented Representation Learning



古川遼,綱島秀樹



63
http://xpaperchallenge.org/cv 

64
Contents

1. 導入

2. 手法・論文紹介

3. データセット・評価指標

4. 下流タスクへの応用・他分野との融合

5. 今後の展望

6. 有力研究機関・研究者

7. 著者紹介

Object-oriented Representation Learning (OORL)*

65
直訳は物体指向の表現学習

● 表現学習

○ 入力データから出力データを得る過程で, 特徴空間で意味があるベクトルを獲得する学習
方法.

○ NN は必ず特徴空間が生じるため, NN の学習は全て表現学習であるが, 深層学習分野で
は下流タスクに活用するための上流タスクの学習
を表現学習と呼称する.



● 物体指向の

● 物体ごと個別の表現を獲得すること (物体の分離, 物体ごとの操作, etc...)


● 物体に普遍的な定義がある訳ではないことにも注意.**

* “Object-oriented” の代わりに “object-centric” が用いられることもある. 

** この辺りの話は以下も参照のこと. 

・K. Greff. What are objects A talk in ICML 2020 Workshop. Object-Oriented Learning (OOL): Perception, Representation and Reasoning. https://slideslive.com/38930701/what-are-objects 

・K. Greff, S. van Steenkiste, J. Schmidhuber. On the Binding Problem in Artificial Neural Networks. arXiv preprint 2020. https://arxiv.org/abs/2012.05208 

66
モチベーション

● 物体や物体の相互関係は, 人間の世界の理解の基盤.



● 人間は, 世界を再利用可能な構成要素に分けて抽象化することで, 複雑なタスクや未
知のシーンにも対応できると考えられる.



● 人工知能でも, 物体を中心とした認知や表現獲得を行うことができれば, 複雑なタスク
や未知のシーンにも汎化するモデルを作れるのではないか.













なぜ object-oriented か?

参考:

・ICML 2020 Workshop. Object-Oriented Learning (OOL): Perception, Representation and Reasoning. https://oolworkshop.github.io/ 

・K. Greff, S. van Steenkiste, J. Schmidhuber. On the Binding Problem in Artificial Neural Networks. arXiv preprint 2020. https://arxiv.org/abs/2012.05208 

67
● 目的

○ 下流タスクに有効なオブジェクトごと個別の表現を獲得すること.




● 具体的に適用できそうな下流タスク例

○ ロボットアームでの把持タスク (物体のピッキング)


把持タスクにおいて, 物体検出や把持位置推定, 深度推定などを行うが, Amazon Picking
Challenge では本番で訓練データにない物体が登場.


OORL は教師なしでの物体検出の手法があるため, 把持タスクにおけるアドバンテージ獲得
の可能性がある.

○ 強化学習

OORL には前景背景を分離できる手法があり, ゲームにおいては前景となるエージェント同
士のインタラクションを獲得しやすくなる可能性がある.




● 本サーベイのスコープは, 動画像を用いた教師なしの OORL の手法.



OORL の目的

OORL の例

68
教師なしで画像の前景を物体検出, 背景を分離してから再構成

背景分離
前景検出
69
Contents

1. 導入

2. 手法・論文紹介

3. データセット・評価指標

4. 下流タスクへの応用・他分野との融合

5. 今後の展望

6. 有力研究機関・研究者

7. 著者紹介

OORL のモデルの考え方

70
● アプローチ

○ 個々の前景 (と背景) の組み合わせでできていると考え,


個々の前景 (と背景) に対応した表現を
教師なしで獲得する.

○ 生成過程※を, 様々な帰納バイアスを入れてモデル化する.




● 画像と動画の主な違い

○ 画像

■ 前景に被覆されて見えない背景を考慮して個々の物体の分離を行う.


■ 動画と比較して背景が見えない不良設定問題のため学習が難しい.

○ 動画

■ 前景が動くことで背景が見えるため, 画像と比較して学習は容易.


■ 1つの動画内で, 前景の時系列的な一貫性が求められ, 物体の数が可変




今回は, 主流と考えられる生成過程のモデル化を中心にサーベイ.




※ 生成過程を直接モデル化しない手法も存在 

2016, 2017 2018    2019 2020 2021
71
OORL一望マップ

動
画
画
像
AIR 

(Mar 2016)

オブジェクトごとに

潜在変数を用意

SQAIR (June 2018)

AIR を時系列モデルに拡張

SPAIR (Jan 2019)

YOLOを利用した

物体検出ベース

MONet (Jan 2019)

セグメンテーション

マスク生成ベース

SPACE (Jan 2020)

SPAIRとGENESISが合体

GENESIS-V2 (Apr 2021)

マスクの数がハイパラではなくなる

R-NEM (Feb. 2018)

N-EM (RNN-EM) + 相互関係 

DDPAE (June 2018)

物体に分けて将来予測

N-EM(Aug. 2017)

NN で EM アルゴリズム 

G-SWM 

(Oct. 2020)

統一モデルへ

TBA (Sept. 2018)

Tracking by animation

RTagger (July 2017)

Recurrent Ladder Networks

VIODINE (仮称) (June
2020)

IODINE を動画へ拡張

ViMON (June 2020)

MONet の動画版

GATSBI 

(Apr. 2021)

Agent も分離する RL

RELATE (July 2020)

GAN + 相互作用

OP3 (Oct. 2019)

IODINE を動画へ拡張 + RL

COBRA (May 2019)

MONet を用いて動画 + RL

IODINE (Mar 2019)

繰り返し変分推論の

マスク生成ベース

SILOT (Nov. 2019)

SQAIR の物体数増 

STOVE (Sept. 2019)

状態空間モデル + GNN

SCALOR (Oct. 2019)

SQAIR の物体数増 + 背景.

C-SWM (Sept. 2019)

Contrastive loss の利用.
structured world models

SCN (July 2020)

Contrastive loss の利用

SetCon (Sept. 2020)

集合同士の contrastive loss

GENESIS (July 2019)

潜在変数間の関係性考慮

Slot Attention (Feb
2020)

集合特徴のAttention

画像の OORL のモデリングの考え方

72
ピクセル空間のクラスタリングで画像の生成過程をモデリング

● 教師なしで画像をピクセル空間でクラスタリング (セグメンテーション) されるように潜在変数を分割
して画像の再構成を行い, 負の対数尤度の loss をとることが多い.


● 物体検出をしてから bounding box の中でマスクを作ることで,明示的に前景を


モデリングする手法も存在.

出典: Zhixuan Lin, Yi-Fu Wu, Skand Vishwanath Peri, Weihao Sun, Gautam Singh, Fei Deng, Jindong Jiang, and Sungjin Ahn. 

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://openreview.net/forum?id=rkl03ySYDH 

画像の OORL のモデルの分類

● Scene Mixture (ピクセル空間のクラスタリング)


○ 画像をピクセル空間中でクラスタリングできるように複数の潜在変数にエンコードし, 

各潜在変数から画像を再構成できるように セグメンテーションマスクを学習 .

○ 内部の構造は基本的に VAE になっており,ELBO と KLD で学習 

○ 例:MONet,IODINE,GENESIS,Slot Attention 



● Spatial Attention (物体検出)

○ YOLO (You Only Look Once) に似た機構を用いて 前景を物体検出

○ Scene Mixture モデル同様,ELBO と KLD で学習 

○ 例:AIR, SPAIR,SPACE 





Scene Mixture モデルの例 (MONet) 

Spatial Attention モデルの例 

(SPAIR)
 73
重要論文リスト (画像) Scene Mixture Models

74
● MONet C. P. Burgess et al.. MONet: Unsupervised Scene Decomposition and Representation. arXiv preprint 2019. https://arxiv.org/abs/1901.11390 

○ 領域の大きいところからRNN形式のVAEで順次オブジェクトごとのマスクを生成.

● IODINE K. Greff et al. Multi-Object Representation Learning with Iterative Variational Inference. ICML2019. https://arxiv.org/abs/1903.00450

○ MONet 同様に領域ごとのマスクを生成しつつ,繰り返し VAE の変分推論を行うことで高品質なマスク生成.

○ しかし, 繰り返し変分推論を行うことで計算時間は増加



MONet

IODINE

重要論文リスト (画像) Scene Mixture Models

75
● GENESIS M. Engelcke et al., GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR2020. https://arxiv.org/abs/1907.13052

○ MONet の潜在変数同士を RNN で繋いで相互関係を考慮 (MONet はマスクのみ RNN 形式).

● Slot Attention F. Locatello et al., Object-Centric Learning with Slot Attention. NeurIPS2020. https://arxiv.org/abs/2006.15055

○ 画像のグリッドごとの Attention を計算し, CNN などの出力と集合構造を持つ特徴量を結びつけるモジュール.

○ Slot Attention 自体はネットワークではなく, 様々なネットワークに取り込むことができる.

● GENESIS-V2 M. Engelcke et al., GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. arXiv preprint2020.
https://arxiv.org/abs/2104.09958

○ Scene Mixture Models のクラスタ数をハイパーパラメータでなくした (画像ごとのクラスタ数に分解可能)



GENESIS

GENESIS-V2

Slot Attention

重要論文リスト (画像) Spatial Attention Models

76
● AIR S. M. A. Eslami et al.. Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS2016. https://arxiv.org/abs/1603.08575 

○ OORLの起源となる論文.オブジェクト数だけ潜在変数を用意し,RNN形式のVAEで順次推論再構成を行う.

● SPAIR E. Crawford and J. Pineau. Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019.
http://e2crawfo.github.io/pdfs/spair_aaai_2019.pdf 

○ YOLO (You Only Look Once) をベースとした教師なし物体検出により物体ごとのマスクを生成.

○ ただし,SPAIRは背景が既知 (前景に被覆されている裏側がわかっている前提) でのみ学習可能.

● SPACE Z. Lin et al... SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://arxiv.org/abs/2001.02407 

○ 背景のマスク生成にGENESISを使うことで, SPAIRの背景が扱えない問題を解決した.



SPACE

SPAIR

AIR

動画の OORL のモデリングの考え方

77
Slot の組み合わせで動画の生成過程をモデリング

● 各フレームを slot に分解. 1つの slot と 1 つの物体を対応させたい.


● 各時刻では, 各 slot から decode した画像・マスクを組み合わせて画像を再構成.


● 前フレームからの各 slot の予測と現フレームの各 slot を紐付ける.


● 教師なし学習. 画像の予測・再構成を行い, ピクセル空間での loss をとることが多い.












出典: Marissa A. Weis, Kashyap. Chitta, Yash Sharma, Wieland. Brendel, Matthias. Bethge, Andreas. Geiger, Alexander S. Ecker. 

Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020. https://arxiv.org/abs/2006.07034 

動画の OORL のモデルの分類

78
モデルの分類 (生成的アプローチ)*

● Spatial attention with factored latents


○ 物体ごとの潜在変数を空間的な attention でモデル化. 

さらに, 潜在変数を物体の位置・外観・存在などに分解. 

○ 物体の bounding box を推定. 

○ 再構成時に, Spatial-Transformer Network を用いることが多い. 

○ 例: SQAIR, DDPAE, TBA, SILOT, SCALOR, STOVE, G-SWM, GATSBI 



● Spatial attention with unconstrained latents


○ 物体ごとの潜在変数を空間的な attention でモデル化. 

○ 物体のマスクを推定. 

○ 例: COBRA, ViMON, RELATE 



● Spatial mixture models

○ 画像ピクセルのクラスタリングを学習. 

○ 物体のマスクを推定. 

○ 例: RTagger, N-EM, R-NEM, OP3, VIODINE(仮称) 


 * M. A. Weis, K. Chitta, Y. Sharma, W. Brendel, M. Bethge, A. Geiger, A. S. Ecker. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020.
https://arxiv.org/abs/2006.07034 を参考にした. 

動画の OORL のモデルの分類

79
モデルの分類 (識別的アプローチ)

● Application of contrastive learning


○ フレームの再構成をせずに, 特徴量の時系列的な一貫性を用いて表現を獲得. 

○ Loss として slot の特徴量間の contrastive loss を用いる識別的なアプローチ. 

○ 下流タスクを見据えた考え方で, 強化学習や relationa reasoning へ応用される. 

○ 例: C-SWM, SCN, SetCon 









識別的アプローチ例


(C-SWM)

生成的アプローチ例


(SCALOR)

元動画 + 追跡bbox 

再構成動画 

Spatial attention with factored latents の発展

80
主要モジュールの追加・改良によって発展

● 主要なモジュール

○ Discovery: 各時刻のフレームで物体を検出する.


○ Propagation: 次の時刻へ物体を引き継ぐ.


○ Selection (Rejection): 追跡された物体が再検出されないようにする.


○ Interaction: 物体間の相互作用を捉える.


○ Rendering: 潜在変数から画像をレンダリング.


● 画像モデルの AIR の動画に拡張した SQAIR から派生したものが多い.









G-SWM の論文より G-SWM は全てに ✔がつく. 

重要論文リスト (動画) Spatial attention with factored latents

81
● SQAIR A. R. Kosiorek et al. Sequential attend, infer, repeat: Generative modelling of moving objects. NeurIPS2018. https://arxiv.org/abs/1806.01794 

○ AIR を動画に拡張. Discovery・Propagation モジュールを導入

● SILOT E. Crawford and J. Pineau. Exploiting Spatial Invariance for Scalable Unsupervised Object Tracking. AAAI2020. https://arxiv.org/abs/1911.09033 

○ 画像モデルの SPAIR と同様の物体検出器を導入し, SQAIR より扱える物体数を増やした.

Selection の仕組みも導入.

● SCALOR J. Jiang et al. SCALOR: Generative World Models with Scalable Object Representations. ICLR2020. https://arxiv.org/abs/1910.02384

○ 画像モデルの SPAIR と同様の物体検出器と Propagetion-rejection 導入し, SQAIR より扱える物体数を増やした. 背景も
モデリング. 実動画で人の追跡も検証.

左: AIR, 右: SQAIR / 上: Generation, 下: Inference 
 SILOT

SCALOR

重要論文リスト (動画) Spatial attention with factored latents

82
● DDPAE J-T Hsieh et al. Learning to Decompose and Disentangle Representations for Video Prediction. NeurIPS2018. https://arxiv.org/abs/1806.04166 

○ 将来フレーム予測のために, 動画を構成要素に分解し, 各構成要素を容易に予測できるような低次元の時系列的な
dynamics に disentangle するモデルを提案. SQAIR と同時期.

● TBA Z. He et al. Tracking by Animation: Unsupervised Learning of Multi-Object Attentive Trackers. CVPR2019. https://arxiv.org/abs/1809.03137 

○ 複数物体追跡 (MOT) を教師なし・end-to-end で行う手法を提案. 物体を追跡し, animation を再構成. 

データ紐付けのロバスト性を上げるために attentin を利用したモジュールを導入.

実動画 (DukeMTMC) で教師なしの人の追跡を検証. 

DDPAE

TBA

TBA の DukeMTMC での検証結果 

83
● STOVE J. Kossen et al. Structured Object-Aware Physics Prediction for Video Modeling and Planning. ICLR2020. https://arxiv.org/abs/1910.02425

○ 物体の位置・速度・相互作用をモデル化する状態空間モデルを提案. 相互作用は Graph NN でモデリング. Model-based
の強化学習へも応用可能. 

● G-SWM Z. Lin et al. Improving Generative Imagination in Object-Centric World Models. ICML2020. https://arxiv.org/abs/2010.02054 

○ 既存モデルの主要モジュールを統合. Occlusion や物体・環境の相互作用もモデリング.

不確実性も導入.

● GATSBI C-H. Min et al. GATSBI: Generative Agent-centric Spatio-temporal Object Interaction. CVPR2021. https://arxiv.org/abs/2104.04275 

○ 動画 を active なエージェント, static な背景, passive な物体を分離. エージェントと物体の物理的な相互作用やエージェ
ントの長期の trajectory を予測. Spatio-temporal な GMM からなる Mixture モジュール, Keypoint モジュール, G-SWM の
改良版を用いた Object モジュール, Interaction モジュールからなる.





STOVE
 G-SWM

GATSBI

重要論文リスト (動画) Spatial attention with unconstrained latents

重要論文リスト (動画) Spatial attention with unconstrained latents

84
● COBRA N. Watters et al. COBRA: Data-Efficient Model-Based RL through Unsupervised Object Discovery and Curiosity-Driven Exploration. preprint2019. https://arxiv.org/abs/1905.09275
○ 世界の表現を object の言葉で学習し, 好奇心ベースで探索する model-based RL のモデルを提案.
学習は探索フェーズとタスクフェーズがあり, 前者の vision モデルには画像のモデルである MONet を用いる.
● ViMON M. A. Weis et al. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint2020.
https://arxiv.org/abs/2006.07034


○ 動画の OORL の評価のベンチマークとして, 視覚的複雑さが異なる 3 種類の合成データセットと, 複数物体追跡 (MOT)
を元にした評価指標を導入. 画像のモデルの MONet を動画に拡張した ViMON を提案し, OP3・TBA と比較実験*.

● RELATE S. Ehrhardt et al. RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces. NeurIPS2020.
https://arxiv.org/abs/2007.01272


○ 個々の物体の相互作用を明示的にモデル化する OORL を取り入れた GAN. 動画に適用可能. 実動画でも検証.

* 別の投稿 version の preprint では SCALOR との比較実験も追加.

COBRA

ViMON・TBA・OP3の比較 

RELATE

重要論文リスト (動画) Spatial mixture models

85
● RTagger I. Prémont-Schwarz et al. Recurrent Ladder Networks. NeurIPS2017. https://arxiv.org/abs/1707.09219
○ 階層的な潜在変数モデルのための Ladder Network を再帰的に拡張. 動画にも適用可能. 

● N-EM K. Gref et al. Neural Expectation Maximization. NeurIPS2017. https://arxiv.org/abs/1708.03498
○ EM (Expectation Maximization) フレームワークを元に, NN を用いた微分可能なクラスタリング手法 N-EM を提案. 一般化
した RNN-EM も提案.

● R-NEM S. van Steenkiste et al. Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions. ICLR2018. https://arxiv.org/abs/1802.10353

○ N-EM (RNN-EM) に, 物体の相互作用を捉えるモジュールを導入.

Recurrent Ladder Networks 
 N-EM
 R-NEM

重要論文リスト (動画) Spatial mixture models

86
● OP3 R. Veerapaneni et al. Entity Abstraction in Visual Model-Based Reinforcement Learning. CoRL2019. https://arxiv.org/abs/1910.12827 

○ Model-based 強化学習に, エンティティ中心かつ dynamic な潜在変数を持つモデルを利用. 

エンティティ表現と実際の物体に紐づける binding problem を推論問題として捉え, インタラクティブな推論アルゴリズムを
開発. IODINE を動画に拡張. 実動画を用いた検証も行う.

● VIODINE (仮称) P. Zablotskaia et al. Unsupervised Video Decomposition using Spatio-temporal Iterative Inference. https://arxiv.org/abs/2006.14727 

○ 2D-LSTM を用いて, 時系列で条件づけられた推論・生成を spatio-temporal な iterative amotized inference の枠組みで
行う. 画像モデルの IODINE の構造の一般化とも考えらえる.

OP3

VIODINE (仮称) 

Representation Learning from Real World Videos
(OP3 vs IODINE)
重要論文リスト (動画) Application of contrastive learning

87
● C-SWM T. Kipf et al. Contrastive Learning of Structured World Models. ICLR2020.
https://arxiv.org/abs/1911.12247

○ 特徴量間の contrastive loss を用いることで, 画像の再構成を用いたピクセル空間での loss を用いない object centric
な強化学習モデルを提案. Slot の特徴量の類似度を用いた指標で評価.

● SCN E. Racah et al. Slot Contrastive Networks: A Contrastive Approach for Representing Objects. ICML2020 Workshop.
https://arxiv.org/abs/2007.09294


○ Slot 表現の空間において, 識別的で time-contrastive な 2 種類の loss を利用することで, 物体の動きを利用し, 各
slot が他の slot と異なる動く物体を捉えられるようにする. 自己教師あり学習・disentanglement の分野で用いられる指
標を元にして linear probe を使った評価指標を提案.

● SetCon Sindy. Löwe et al. Learning Object-Centric Video Models by Contrasting Sets. NeurIPS2020 Workshop. https://arxiv.org/abs/2011.10287 

○ 集合同士を比べる global な set contrastive loss を導入. Slot-wise な contrastive loss が, 異なる object が各 slot に
別れる場合と, 同一の object が全ての slot に(再)表現 される場合を区別できない欠点を解消.







C-SWM
 SCN
 SetCon

88
Contents

1. 導入

2. 手法・論文紹介

3. データセット・評価指標

4. 下流タスクへの応用・他分野との融合

5. 今後の展望

6. 有力研究機関・研究者

7. 著者紹介

画像の OORL の評価指標

89
使用される評価指標例

● 以下の例がある.

○ 負の対数尤度 (NLL : Negative Log Likelihood) 

(VAEのELBOとKLDの値にマイナスを掛けたもの。VAEはNLLが高いほど正しくモデル化できている)

○ 再構成誤差 (MSE : Mean Squared Error)

○ ARI (Adjusted Rand Index) (クラスタリングの指標)

○ IoU (Intersection over Union) (セグメンテーション,物体検出の指標)

○ AP (Average Precision) (物体検出の指標)

○ 線形分類器による分解したオブジェクトのAccuracy (形状が正しく分解されているか)

○ FID (Fréchet Inception Distance) (生成品質の評価指標)



● VAE が基本構造となっているため,負の対数尤度による評価が多い 

Scene Mixture モデルはマスクを生成しており,ARI や IoU を用いた評価が多い (ARI が優勢) 

Spatial Attention モデルは物体検出をしているため,IoUやAPでの評価が多い 

GENESIS のように潜在変数からの生成が可能なモデルは FID を使用 



● 

● 



画像の OORL のデータセット

90
合成データが用いられることが多い

● 大きく分けると合成データ・実データがある. 

自作している場合もある. 

○ 合成データ (Scene Mixture)

■ GQN dataset

■ Multi-dSprites

■ ShapeStacks

■ CLEVR

■ 物理シミュレータ系 (自作)

■ Atari

○ 合成データ (Spatial Attention)

■ Moving MNIST

■ 物理シミュレータ系 (自作)

■ Atari

○ 実データ (Scene Mixture)

■ Sketchy

■ APC (Amazon Picking Challenge dataset) 

■ ImageNet (Failure caseとしての紹介)



● 基本的に合成データでの実験実験 

● 実世界データの実験もあるが,あまりうまく行かず,まだまだ発展途上 

Atari Space Invaders (SPAIRから引用) 

GQN dataset (MONetから引用) 
 APC (GENESIS-V2から引用) 

動画の OORL の評価指標

91
使用される評価指標例

● 以下の例がある.

○ MOT (Multi Object Tracking) の指標

○ AMI (Adjusted Mutual Information), ARI (Adjusted Rand Index)

○ 再構成誤差

○ FVD (Fréchet Video Distance)

○ …



● 物体ごとに検出・追跡する学習の検証のために, MOT の指標が用いられることがある. 

物体のマスクの精度の検証に, AMI や ARI といったクラスタリングの指標が用いられることがある. 

生成重視のモデルでは, 動画生成の精度を図る FVD を用いているものもある. 



● フレームの再構成を行わず OORL を試みる手法もある (e.g. C-SWM, SCN, SetCon). 

その場合は, slot の特徴量での類似度を使った指標や, 自己教師あり学習 disentanglement での評価を
元して, linear probe を使った評価指標などが提案されている. 



● 汎化性を確かめるために, 訓練時にはない設定の実験 (e.g. 物体数を増やす) も行う. 



動画の OORL のデータセット

92
合成データが用いられることが多い

● 大きく分けると合成データ・実データがある. 

自作している場合もある. 

○ 合成データ

■ Bouncing Balls

■ MNIST 系 (Moving MNIST など)

■ Sprite 系 (Sprites-MOT など)

■ CLEVR, CLEVERER

■ 物理シミュレータ系

■ Atari

■ ...

○ 実データ

■ DukeMTMC などの人物追跡

■ BAIR Robot Pushing Dataset

■ ...

● 現状は, コンセプト確認のためか, 合成データによる実験の方が多い. 

● 実データでは, 人物や車などの追跡のデータセットが見られる. 

ただし, 背景が大きく動かないことが多い. 

● 





Bouncing Balls 

(DDPAE. S. van. Steenkiste. ICLR2018 で導入.) 

Sprites MOT 

(TBA. Z. He et al. CVPR2019 で導入.) 

* J. Johnson et al. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning. Presented at CVPR2017.

** N. Srivastava et al. Unsupervised Learning of Video Representations using LSTMs. ICML2015.

CLEVR*

Moving MNIST** 

下流タスクへの応用・他分野との融合

93
● GENESIS の論文中で潜在変数からクラス分類する下流タスクを実施


○ 積んだ物体の「安定かどうか」,「高さ」,「視点位置」をクラス分類


○ しかし,OORL が有効だという有意な結果は得られなかった


○ OORLの潜在表現をどう使うかが今後の課題か








● Visual Question Answering (VQA) と OORL の融合


LORL Wang et al., Language-Mediated, Object-Centric Representation Learning, arXiv preprint, 2020. https://arxiv.org/abs/2012.15814

○ OORLでうまくセグメンテーションできればVQAの正答率が向上








3D-aware な画像のシーン分解・生成 

94
3D の構造の帰納バイアス + OORL

● 概要

○ 3D 構造の帰納バイアスをモデルに入れる.


3D 表現を推論しレンダリングすることで画像を合成.


○ 3D 構造としてここの前景の物体・背景の組み合わせであることを仮定して, OORL の枠組
みと組み合わせる.

■ OORL の自然な発展とみなすこともできる.


○ 近年の NN を用いた volume rendering の発展ととも関連.




● 3D 表現

○ Mesh, Voxel, Point Cloud,

SDF (Signed Distance Function), NeRF (Neural Radiance Field), …


○ 特に, NeRF は近年のホットトピック!








3D-aware な画像のシーン分解・生成

95
● ROOTS C. Chen et al. Object-Centric Representation and Rendering of 3D Scenes. preprint 2020. https://arxiv.org/abs/2006.06130

○ GQN のようにカメラ姿勢を与えて, 複数視点の個々の物体のレンダリングを組み合わせて, シーン全体をレンダリング. 各物体は 3D bbox で表現.


● OOWM E. Crawford and J. Pineau. Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML2020 Workshop. oolworkshop.github.io/OOL_19.pdf at master · oolworkshop/oolworkshop.github.io 

○ Video において, 3D の帰納バイアスを入れた, 確率的なモデル. 静的シーンの表現獲得には SRN (Scene Representation Networks) を用い, 動的
シーンの表現獲得には, SQAIR の 3D 版と言えるモデルを用いる.


● O3V P. Henderson et al. Unsupervised object-centric video generation and decomposition in 3D. NeurIPS2020. https://arxiv.org/abs/2007.06705

○ Video において, セグメンテーションマスクを予測し物体追跡を行うことで物体と背景を切り分ける.


3D 構造を決めるために物体の深度と 3D bbox を予測する.


● POD-Net Y. Du et al. Unsupervised Discovery of 3D Physical Objects from Video. ICLR 2021. https://arxiv.org/abs/2007.12348 

○ Video において, 3D の幾何と動きをモデル化することで, 教師なしで物体中心のシーン表現を獲得. 構成要素に分解しマスクと潜在変数を作る推
論モデルと, 各構成要素の 3D 構造を取り出し, 3D の動きを予測し, 画像を作る生成モデルを持つ.





ROOTS

O3V

OOWM

POD-Net

3D-aware な画像のシーン分解・生成

96
● [NoName] Y. Liao et al. Towards unsupervised learning of generative models for 3d controllable image synthesis. CVPR2020.
https://arxiv.org/abs/1912.05237


○ 画像のみを用いて 3D の操作が可能な画像を合成する 3D controllable image synthesis のタスクを定義.


物体・背景ごとに 3D の表現を生成し, 2D へレンダリング・2D で生成をすることで, 画像を合成する GAN.


● BlockGAN T. Nguyen-Phuoc et al. BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images. NeurIPS2020.
https://arxiv.org/abs/2002.08988


○ 前景の各物体・背景を分けて 3D 特徴空間でモデリングし, 射影することで画像を生成.


3D の表現は, 3D grid の特徴量と物体の姿勢を用いて行われる. 学習は 2D の画像のみから行う.


● GIRAFFE M. Niemeyer et al. GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields. CVPR2021. https://arxiv.org/abs/2011.12100v1 

○ 各物体の NeRF による3D 表現を GAN に組み込み, 制御可能で写実的な画像を合成.


カメラ姿勢もノイズからサンプリングし, 学習は 2D の画像のみから行う.


● ObSuRF K. Stelzner et al. Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation. preprint 2021. https://arxiv.org/abs/2104.01148

○ 画像を slot ベースの encoder で物体ごとの潜在変数を獲得し, この潜在変数で条件づけられた NeRF で画像をレンダリング.


NeRF の ray marching をポアソン過程とみなし, 深度を教師とすることで, 新しい loss を提案.


これにより, RGB-D 画像に対する NeRF の訓練を計算効率よく行う.





BlockGAN

GIRAFFE

ObSuRF
 [NoName]

97
Contents

1. 導入

2. 手法・論文紹介

3. データセット・評価指標

4. 下流タスクへの応用・他分野との融合

5. 今後の展望

6. 有力研究機関・研究者

7. 著者紹介

画像の OORL の今後の展望

98
実世界への応用と下流タスクへの応用

● 実世界への応用

○ 現状,合成データがほとんどであり,実世界データには適用できていない 

■ Sketchy や APC はあるが,まだ学習成功というには怪しい結果 

○ 本スライド著者の綱島の研究で,実世界データ適用へ向けて MSCOCO を含んだ14個のデータセッ
トで500以 上の実 験を行ったが, 実 世 界 物 体は前 景 背 景の区 別が曖 昧 で根 本 的にかなり

制約が強い不良設定問題であるため, 補助情報無しにはおそらく解けない (OORL を行う前の事前
表現学習が必要の可能性) 

綱島秀樹, 邱玥, 片岡裕雄, 森島繁生. “Object-oriented Representation Learningの実世界データ適用に向けた最新手法の性能分析”, Visual
Computing 2020, P20, オンライン, 2020年12月.




● 下流タスクへの応用 

○ 強化学習,ロボットの把持タスク,VQA などの物体それぞれの表現が有効である分野への適用が
考えられる

○ しかし,OORL 自体が発展途上のため,OORL 自体の手法が発展することも必要不可欠 





画像の OORL の今後の展望

99
OORL 自体の発展と OORL の学習安定性

● OORL 自体の発展

○ OORL は全てのコンポーネントに分解する Scene Mixture モデルよりも前景背景で取り扱うSPACE
(前景は Spatial Attention,背景は Scene Mixture) の系統の発展が有力か 

○ Scene MixtureはGENESIS-V2のように 分解数が固定でない手法 の発展が期待される 

○ Spatial AttentionはYOLO-likeな仕組みで現在は動いているが, 最新の物体検出の仕組み が

取り入れられれば,さらに性能改善が期待されるか (Anchor-freeベースなど) 



● OORLの学習安定性 

○ OORLは教師無し学習のため, 非常に学習が不安定 

○ 本スライド著者の綱島の研究では, オリジナルのSPACEは6/10でしか学習に成功しない が,潜在変
数が事後分布崩壊を起こしていることを明らかにし,VAEの学習の際のKLDに周期性アニーリング
を取り入れることで学習を安定化させた 

綱島秀樹, 大川武彦, 相澤宏旭, 片岡裕雄, 森島繁生. “Object-aware表現学習の安定化のためのKLダイバージェンスの周期性アニーリング”,
MIRU2020, IS3-2-33, オンライン, 2020年8月.


○ OORLは手法自体の発展も必要だが,安定性も非常に重要な課題 





動画の OORL の今後の展望

100
実動画への応用・手法の改良

● 実動画への応用

○ 現状, 合成されたデータセットで実験されることが多い. 

実動画で実験された手法もあるが (e.g. TBA, OP3, SCALOR, RELATE, GATSBI etc)背景の動きが比較的少ないも
のに限られている印象がある. 

○ あらゆる実動画に対応するのは難しいと考えらえるが, 限られた条件の下では, より実用に近い動
画への応用がされ始めるのではないか. 



● 手法の改良

○ SQAIR でモデルが複雑であることが指摘されている. 

モデルの複雑さや計算量の問題は改良・改善されているものの, モジュール数も増加. 

実動画への応用のためにも, さらに整理され改良される必要があるだろう. 

○ 現在の手法は, フレームごとの再構成や生成モデルを用いるものが主流. 

動画像の自己教師ありの表現学習手法が注目される中で, ピクセルレベルの再構成に頼らない表
現獲得の手法 (e.g. C-SWM, SCN, SetCon) もより発展していくと考えられる. 

● 





動画の OORL の今後の展望

101
評価指標と他のタスク・手法との関連

● 評価指標について

○ 再構成された動画・画像のピクセルを元にした評価が中心だった. 

再構成しない手法に合わせた表現自体の評価や, 下流タスクでの評価もより求められてくる. 

○ 共通のベンチマークデータセット・評価プロトコルがない問題も指摘されている. 

例えば, ViMON の preprint では異なる性質を持つデータセットと MOT の評価指標を提案している
が, 広く認知されているとは言えない. 

今後, 共通のベンチマークデータセット・評価指標を確立する試みが期待される. 



● 期待される応用タスク・他の手法との融合 

○ 強化学習・因果推論への応用. 既に応用はみられるが, 今後も増加するだろう. 

○ 動画の自己教師あり学習の手法の適用・自己教師あり手法への応用. 

○ 3D 表現との融合. 近年の NN を用いた volume rendering の技術との更なる融合に期待. 





102
有力研究機関

● Rutgers University / Rutgers Machine Learning Group


○ Sungjin Ahn がリーダーのグループ. J. Jiang や Z. Linなども所属.

既存のモデルを組み合わせて改良し, OORL の SOTA モデルを次々作成.

○ 代表論文

■ SPACE (SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR 2020.)

■ SCALOR (SCALOR: Generative World Models with Scalable Object Representations. ICLR 2020.)

■ G-SWM (Improving Generative Imagination in Object-Centric World Models. ICML 2020.)

■ GNM (Generative Neurosymbolic Machines. NeurIPS 2020.)

■ ROOTS (Object-Centric Representation and Rendering of 3D Scenes. preprint 2020.)







● University of Oxford / Applied Artificial Intelligence Lab


○ PI の Ingmar Posner の下で, A. R. Kosiorek や M. Engelcke らが研究.

OORL の分野で, 重要な研究を継続的に出している.

○ 代表論文

■ SQAIR (Sequential attend, infer, repeat: Generative modelling of moving objects. NeurIPS 2018.)

■ GENESIS (GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR 2020.)

■ RELATE (RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces. NeurIPS 2020.)

■ GENESISV2 (GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. preprint 2021.)



103
有力研究機関 / 有力研究者

● DeepMind

○ Unsupervised learening and generative models がテーマの 1 つで重点的に研究. 

共著者が多く, 協力して研究いる印象. A. R. Kosiorek も加わった.

○ 代表論文

■ AIR (Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS 2016.)

■ MONet (MONet: Unsupervised Scene Decomposition and Representation. preprint 2019.)

■ COBRA (COBRA: Data-efficient model-based rl through unsupervised object discovery and curiosity-driven. preprint 2019.)







● Eric Crawford 氏 & Joelle Pineau 氏


(McGill University / Reasoning and Learning Lab.)


○ SPAIR での detector の導入で OORL の発展に寄与. 最近は 3D 構造を利用した OORL へも取り組む.

○ 代表論文

■ SPAIR (Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019.)

■ SILOT (Exploiting Spatial Invariance for Scalable Unsupervised Object Tracking. AAAI 2020.)

■ OOWM (Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML 2020 Workshop.)





104
有力研究者

● Klaus Greff 氏 (Swiss AI Lab IDSIA)


○ S. van Steenkiste と共に J. Schmidhuber (World Models の著者でもある大御所) の下で研究. 

○ 最近 Greff, Steenkiste, Schmidhuber で NN の表現を実際の物体に紐づける

binding problem のサーベイ論文も発表.

○ 代表論文

■ N-EM (Neural expectation maximization. NeurIPS 2017.)

■ R-NEM (Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions. ICLR 2018.)

■ IODINE (Multi-Object Representation Learning with Iterative Variational Inference. ICML 2019.)







● Thomas Kipf 氏 (Google Brain)

○ Graph NN を用いた表現学習の第一人者.

○ VAE など多くの貢献がある Max Welling の弟子.

Max Welling との GCNs の論文 (Semi-Supervised Classification with Graph Convolutional Networks. ICLR 2017.) も有名.

○ 代表論文

■ Slot Attention (Object-Centric Learning with Slot Attention. NeurIPS 2020.)

■ C-SWM (Contrastive Learning of Structured World Models. ICLR 2020.)

105
著者紹介

● 古川 遼 (株式会社 ALBERT*)

○ 近年は, 深層学習を用いた動画像の分析案件や研究開発の業務に従事.


○ 興味のある分野は, 動画像の深層生成モデル. 最近は 3D 関連も.

○ 大学院時代は数学 (トポロジー) が専門. 幾何学や図形が好き.


○ 食べること・テニス (の動画を見てイメトレ) などが好き.


* 本資料は, あくまで個人の見解によるものです.



● 綱島 秀樹 (早稲田大学 物理学及応用物理学専攻 森島繁生研究室 博士2年)


○ 専門分野は深層生成モデル

○ 興味:動画の表現学習,コモンセンスの獲得,パーシステントホモロジー


○ 趣味:筋トレ,音楽ゲーム,FPS (CoD),アメフト,大食いyoutuber視聴


○ 一言:汎用人工知能に憧れがあり,実現に近づけるよう巨人を作っていきたいです


○ 好きな筋肉:上腕三頭筋,大腿四頭筋


Contents
1. Unpaired Image-to-Image Translation
2. Neural Radiance Fields
3. Object-oriented Representation Learning
4. Domain Adaptation
Domain Adaptation
大川武彦
107
http://xpaperchallenge.org/cv 

ドメインシフト問題
108
大規模データ資源を活用し適用先へ知識転移をする
大規模データ (ソース) を活用した機械学習が成功を収めているが,実用上の適用先 (ター
ゲット) に対しても教師ラベルをつけるのはコストがかかる
→ ソースの知識を活用して,効率的にターゲット上での性能を上げたい
ここでは,ソースとターゲット間でドメインシフト (i.e., データセット分布の不整合 ) が障壁と
なる
コンピュータビジョンにおいては,解像度,照明条件,視点,背景などの相違によって起こる.
Domain Adaptation
109
教師なし転移学習(厳密には,Transductive Transfer Learning) の一種
教師あり転移学習 (fine-tuning) と異なり,Domain Adaptationではターゲットドメインに教師
ラベルを仮定しない
タスクは,クラス分類,物体検出,セグメンテーションなど
[L. Zhang, arXiv’19.]
ターゲットラベルなしで知識転移できる!?
→ そんなうまい話はないので,重要な前提条件がある
Domain Adaptationの前提
110
ソース
ターゲット
1. 特徴量分布の乖離の解消 2. 分類器の適応など考えずに
そのまま使う
Domain Adaptationの流派
特徴量分布の乖離    を解消すれば良い
1. 特徴量ベース手法
特徴量分布をドメイン間でマッチングして,特徴抽出器 𝐺がドメイン不変特徴量を出力するように設計する.素直
なアプローチで,最も利用される.
2. 生成ベース手法
ソースとターゲット間で画像変換モデルを学習し,ソースラベルを持ちターゲットの見えを持つ擬似ターゲット画
像を生成する.これをもとにターゲットドメインの学習器を構築する.入力空間でもギャップを埋める方針である.
深層生成モデルの研究から派生したものが多い.
3. 自己学習ベース手法
モデルの予測からターゲットデータに擬似的な正解ラベルを生成し,学習に使用する (擬似ラベリング).その他
に,半教師あり学習や自己教師あり学習から派生したものなど.
特徴量ベース手法
112
1. 分布間距離の最小化
MMD等の分布間の統計量をもとに誤差を算出する
ドメイン間でCNNの深い層の特徴量平均を整合させ,
周辺分布のマッチングをする
2. 敵対的学習による整合
ドメイン識別器はどちらのドメインの特徴量か
見分け,特徴抽出器はドメイン不変の特徴を
生成するように学習する
3. 正規化層を利用
ドメイン毎でバッチ正規化することで,特徴量
を整合させる
[E. Tzeng+, arXiv’14]
分離した特徴抽出器から敵対的学習
[E. Tzeng+, CVPR’17]
共通の特徴抽出器から敵対的学習
[Y. Ganin+, ICML’15]
[Y. Li+, ICLRW’17]
ドメイン識別器 (赤点線)
生成ベース手法
113
1. CycleGANを使用 [J. Hoffman+, ICLR’18]
2. Style Transferを使用 [M. Kim+, CVPR’20]
ターゲット→ソースへ画
像変換
ソース→ターゲットへ画
像変換
擬似ターゲットデータを
真のターゲット分布へ近づける
(ピクセルレベル)
擬似ターゲットデータを
真のターゲット分布へ近づける
(特徴量レベル)
自己学習ベース手法
114
擬似ラベリング [D.H Lee, ICMLW’13]
クラス情報も含めて特徴空間を学習できる
2体の分類器による合議による擬似ラベルの決定 [K. Saito+, ICML’17]
その他: クラス毎の確信度に応じて擬似ラベルの学習を調整
[Y. Zou+, ECCV’18]
クラスタリングによる擬似ラベリングとそのカリキュラム学習
[C, Chen+, CVPR’19]
自己教師タスクも追加で学習 [Y. Sun+, arXiv’19]
その他: エントロピー最小化を導入する [Y. Zou+, NeurIPS’16,
T.H. Vu+, CVPR’19]
データ拡張をもとに拡張前後の一貫性を導入 [Y. Sun+, NeurIPS’20]
擬似ラベルをもとにクラス条件付き分布を計算し,MMDでマッチ
ング [M. Long+, ICCV’13]
Domain Adaptationの限界
データ・アルゴリズム上の制約と実世界制約とのギャップ
1. べらぼうに大きなドメインシフト        には対処できない
→ Negative Transfer (i.e., 適応の失敗) が生じ,その発生が事前に見積もれない
アルゴリズムの良し悪し,データの品質,ドメインシフトの大きさに依存 [Z. Wang+, CVPR’19, W. Zhang+, TKDE’20]
2. ラベル空間と分布に関する仮定は強くないか!?
(再掲: 共通のラベル空間かつラベリングは共通 :
→ ラベル分布の相違を考慮したDomain Adaptation
(e.g., Target shift [K. Zhang+, ICML’13, R. Takahashi+, ECCV’20])
→ ラベル空間の相違を考慮したDomain Adaptation
(e.g., Partial DA [Z. Cao+, CVPR’18, J. Zhan+, CVPR’18], Open-set DA [Busto+, ICCV‘17, K. Saito+, ECCV’18],
Universal DA [Y. You+, CVPR’19, Q. Yu+, CVPR’21])
Domain Adaptationの派生形と周辺分野との融合
116
▪ ターゲットに少数の教師ラベルを仮定 (半教師あり [Saito+, ICCV’19], Few shot [S. Motiian+, NeurIPS’17])
▪ マルチドメインへ拡張 (Multi source [H. Zhao+, NeurIPS’18], Multi target [O. Rudovic+, TIP’20], Federated learning
[X. Peng+, ICLR’20])
▪ ドメインが動的に変化する (Incremental DA [Hoffman+, CVPR’14, M. Wulfmeier+, ICRA’18], Open compound
[Ziwei Liu+, CVPR’20])
▪ 映像間の適応へ拡張 [M.H Chen+, ICCV’19]
▪ ソースデータのプライバシーを考慮 (Source free [J. Liang+, ICML’20, J. N. Kundu+, CVPR’20, R. Li+, CVPR’20],
Test-time adaptation [D. Wang+, ICLR’21])
▪ Active Learningとの統合 [P. Rai+, NAACL-HLTW’10, J.C. Su+, CVPR’19]
▪ 応用タスクの拡張 (e.g., Person ReID, Sim2Real, Depth/Gaze estimation, Medical tasks)
Domain Adaptationサーベイまとめ
ターゲットに教師ラベルを仮定しない効率的な転移学習
▪ 基本3流派: 特徴量ベース手法,生成ベース手法,自己学習ベース手法
▪ 特徴空間におけるアライメント
▪ 入力空間におけるドメインシフトの部分的解消
▪ ターゲットドメインを直接的に学習
▪ データ・アルゴリズム上の制約と実世界制約とのギャップが今後の課題に
▪ Negative Transferの問題
▪ ラベル空間と分布の仮定を緩めた一般的な設定へ
▪ さらなる応用への展開
▪ ターゲットドメインに少数の教師ラベルを仮定
▪ ドメインを複数に,動的に,そして,映像も扱えるように
▪ 人間の介入やプライバシー問題
▪ タスクの拡張
118
著者紹介

● 大川武彦 (東京大学 佐藤洋一研 修士学生)


○ 専門:ドメイン適応,生成モデリング,一人称ビジョン,視覚言語統合


○ 興味:適応的な視覚情報処理,人物行動理解とそのモデリング



More Related Content

What's hot

What's hot (20)

動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 

Similar to 画像生成・生成モデル メタサーベイ

Pratik ibm-open power-ppt
Pratik ibm-open power-pptPratik ibm-open power-ppt
Pratik ibm-open power-ppt
Vaibhav R
 

Similar to 画像生成・生成モデル メタサーベイ (20)

보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?
 
aip basic open cv example
aip basic open cv exampleaip basic open cv example
aip basic open cv example
 
Photo Editing And Sharing Web Application With AI- Assisted Features
Photo Editing And Sharing Web Application With AI- Assisted FeaturesPhoto Editing And Sharing Web Application With AI- Assisted Features
Photo Editing And Sharing Web Application With AI- Assisted Features
 
Video to Video Translation CGAN
Video to Video Translation CGANVideo to Video Translation CGAN
Video to Video Translation CGAN
 
Unpaired Image Translations Using GANs: A Review
Unpaired Image Translations Using GANs: A ReviewUnpaired Image Translations Using GANs: A Review
Unpaired Image Translations Using GANs: A Review
 
Pratik ibm-open power-ppt
Pratik ibm-open power-pptPratik ibm-open power-ppt
Pratik ibm-open power-ppt
 
Google | Infinite Nature Zero Whitepaper
Google | Infinite Nature Zero WhitepaperGoogle | Infinite Nature Zero Whitepaper
Google | Infinite Nature Zero Whitepaper
 
CG OpneGL 2D viewing & simple animation-course 6
CG OpneGL 2D viewing & simple animation-course 6CG OpneGL 2D viewing & simple animation-course 6
CG OpneGL 2D viewing & simple animation-course 6
 
IRJET- Transformation of Realistic Images and Videos into Cartoon Images and ...
IRJET- Transformation of Realistic Images and Videos into Cartoon Images and ...IRJET- Transformation of Realistic Images and Videos into Cartoon Images and ...
IRJET- Transformation of Realistic Images and Videos into Cartoon Images and ...
 
Computer Vision.pptx
Computer Vision.pptxComputer Vision.pptx
Computer Vision.pptx
 
IRJET - Applications of Image and Video Deduplication: A Survey
IRJET -  	  Applications of Image and Video Deduplication: A SurveyIRJET -  	  Applications of Image and Video Deduplication: A Survey
IRJET - Applications of Image and Video Deduplication: A Survey
 
Cartoonization of images using machine Learning
Cartoonization of images using machine LearningCartoonization of images using machine Learning
Cartoonization of images using machine Learning
 
IRJET - Face Recognition based Attendance System
IRJET -  	  Face Recognition based Attendance SystemIRJET -  	  Face Recognition based Attendance System
IRJET - Face Recognition based Attendance System
 
IRJET- Saliency based Image Co-Segmentation
IRJET- Saliency based Image Co-SegmentationIRJET- Saliency based Image Co-Segmentation
IRJET- Saliency based Image Co-Segmentation
 
A unified feature disentangler for multi domain image translation and manipul...
A unified feature disentangler for multi domain image translation and manipul...A unified feature disentangler for multi domain image translation and manipul...
A unified feature disentangler for multi domain image translation and manipul...
 
Image Magic for PowerBuilder
Image Magic for PowerBuilderImage Magic for PowerBuilder
Image Magic for PowerBuilder
 
Unsupervised Methods for Image Super-Resolution
Unsupervised Methods for Image Super-ResolutionUnsupervised Methods for Image Super-Resolution
Unsupervised Methods for Image Super-Resolution
 
Decomposing image generation into layout priction and conditional synthesis
Decomposing image generation into layout priction and conditional synthesisDecomposing image generation into layout priction and conditional synthesis
Decomposing image generation into layout priction and conditional synthesis
 
Domain transfer サーベイ
Domain transfer サーベイDomain transfer サーベイ
Domain transfer サーベイ
 
PR-376: Softmax Splatting for Video Frame Interpolation
PR-376: Softmax Splatting for Video Frame InterpolationPR-376: Softmax Splatting for Video Frame Interpolation
PR-376: Softmax Splatting for Video Frame Interpolation
 

Recently uploaded

Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptxHarnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
FIDO Alliance
 
“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf
“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf
“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf
Muhammad Subhan
 
CORS (Kitworks Team Study 양다윗 발표자료 240510)
CORS (Kitworks Team Study 양다윗 발표자료 240510)CORS (Kitworks Team Study 양다윗 발표자료 240510)
CORS (Kitworks Team Study 양다윗 발표자료 240510)
Wonjun Hwang
 

Recently uploaded (20)

Portal Kombat : extension du réseau de propagande russe
Portal Kombat : extension du réseau de propagande russePortal Kombat : extension du réseau de propagande russe
Portal Kombat : extension du réseau de propagande russe
 
AI mind or machine power point presentation
AI mind or machine power point presentationAI mind or machine power point presentation
AI mind or machine power point presentation
 
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptxHarnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
Harnessing Passkeys in the Battle Against AI-Powered Cyber Threats.pptx
 
Design and Development of a Provenance Capture Platform for Data Science
Design and Development of a Provenance Capture Platform for Data ScienceDesign and Development of a Provenance Capture Platform for Data Science
Design and Development of a Provenance Capture Platform for Data Science
 
State of the Smart Building Startup Landscape 2024!
State of the Smart Building Startup Landscape 2024!State of the Smart Building Startup Landscape 2024!
State of the Smart Building Startup Landscape 2024!
 
Introduction to use of FHIR Documents in ABDM
Introduction to use of FHIR Documents in ABDMIntroduction to use of FHIR Documents in ABDM
Introduction to use of FHIR Documents in ABDM
 
Design Guidelines for Passkeys 2024.pptx
Design Guidelines for Passkeys 2024.pptxDesign Guidelines for Passkeys 2024.pptx
Design Guidelines for Passkeys 2024.pptx
 
ADP Passwordless Journey Case Study.pptx
ADP Passwordless Journey Case Study.pptxADP Passwordless Journey Case Study.pptx
ADP Passwordless Journey Case Study.pptx
 
Event-Driven Architecture Masterclass: Challenges in Stream Processing
Event-Driven Architecture Masterclass: Challenges in Stream ProcessingEvent-Driven Architecture Masterclass: Challenges in Stream Processing
Event-Driven Architecture Masterclass: Challenges in Stream Processing
 
(Explainable) Data-Centric AI: what are you explaininhg, and to whom?
(Explainable) Data-Centric AI: what are you explaininhg, and to whom?(Explainable) Data-Centric AI: what are you explaininhg, and to whom?
(Explainable) Data-Centric AI: what are you explaininhg, and to whom?
 
Working together SRE & Platform Engineering
Working together SRE & Platform EngineeringWorking together SRE & Platform Engineering
Working together SRE & Platform Engineering
 
Introduction to FIDO Authentication and Passkeys.pptx
Introduction to FIDO Authentication and Passkeys.pptxIntroduction to FIDO Authentication and Passkeys.pptx
Introduction to FIDO Authentication and Passkeys.pptx
 
“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf
“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf
“Iamnobody89757” Understanding the Mysterious of Digital Identity.pdf
 
Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...
Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...
Event-Driven Architecture Masterclass: Engineering a Robust, High-performance...
 
JohnPollard-hybrid-app-RailsConf2024.pptx
JohnPollard-hybrid-app-RailsConf2024.pptxJohnPollard-hybrid-app-RailsConf2024.pptx
JohnPollard-hybrid-app-RailsConf2024.pptx
 
CORS (Kitworks Team Study 양다윗 발표자료 240510)
CORS (Kitworks Team Study 양다윗 발표자료 240510)CORS (Kitworks Team Study 양다윗 발표자료 240510)
CORS (Kitworks Team Study 양다윗 발표자료 240510)
 
ChatGPT and Beyond - Elevating DevOps Productivity
ChatGPT and Beyond - Elevating DevOps ProductivityChatGPT and Beyond - Elevating DevOps Productivity
ChatGPT and Beyond - Elevating DevOps Productivity
 
Cyber Insurance - RalphGilot - Embry-Riddle Aeronautical University.pptx
Cyber Insurance - RalphGilot - Embry-Riddle Aeronautical University.pptxCyber Insurance - RalphGilot - Embry-Riddle Aeronautical University.pptx
Cyber Insurance - RalphGilot - Embry-Riddle Aeronautical University.pptx
 
Vector Search @ sw2con for slideshare.pptx
Vector Search @ sw2con for slideshare.pptxVector Search @ sw2con for slideshare.pptx
Vector Search @ sw2con for slideshare.pptx
 
The Zero-ETL Approach: Enhancing Data Agility and Insight
The Zero-ETL Approach: Enhancing Data Agility and InsightThe Zero-ETL Approach: Enhancing Data Agility and Insight
The Zero-ETL Approach: Enhancing Data Agility and Insight
 

画像生成・生成モデル メタサーベイ

  • 1. 画像生成・生成モデル メタサーベイ Unpaired Image-to-Image Translation: 清田浩史 Neural Radiance Field: 相澤宏旭 Object-oriented Representation Learning: 綱島秀樹, 古川遼 Domain Adaptation: 大川武彦 1 http://xpaperchallenge.org/cv 

  • 2. グループ紹介 cvpaper.challenge研究グループ「Generations」 画像生成・生成モデルに関連する研究を行うグループ <業績一覧> - Hiroaki Aizawa, Hirokatsu Kataoka, Yutaka Satoh, Kunihito Kato, "Viewpoint-agnostic Image Rendering," Winter Conference on Applications of Computer Vision (WACV), 2021. - Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue, “Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image Translation”, International Conference on Pattern Recognition (ICPR), 2020. - Hideki Tsunashima, Hirokatsu Kaotaka, Junji Yamato, Qiu Chen, Shigeo Morishima, “Adversarial Knowledge Distillation for a Compact Generator”, International Conference on Pattern Recognition (ICPR), 2020. - Hiroaki Aizawa, Hirokatsu Kataoka, Yutaka Satoh, Kunihito Kato, "Disentangle, Assemble, and Synthesize: Unsupervised Learning to Disentangle Appearance and Location," International Conference on Pattern Recognition (ICPR), 2020.
  • 3. グループ紹介 cvpaper.challenge研究グループ「Generations」 画像生成・生成モデルに関連する研究を行うグループ <業績一覧> - 綱島秀樹, 大川武彦, 相澤宏旭, 片岡雄裕, 森島繁生. “Object-aware表現学習の安定化のためのKL ダイバージェンスの周期性アニーリング”, 第23回 画像の認識・理解シンポジウム (MIRU2020). - 綱島 秀樹, 邱 玥, 片岡 裕雄, 森島 繁生. “Object-oriented Representation Learningの実世界データ 適用に向けた最新手法の性能分析”, Visual Computing 2020 - Poster. <過去の資料> - Generative Models https://www.slideshare.net/cvpaperchallenge/generative-models-233089430
  • 5. Contents 1. Unpaired Image-to-Image Translation 2. Neural Radiance Fields 3. Object-oriented Representation Learning 4. Domain Adaptation
  • 7. Image-to-Image Translation (I2I)
 7 異なるドメインに属する画像について,ドメイン間の変換方法を獲得するタスク。 
 学習データとしてドメインが異なる対となる画像が与えられるケース (Paired) と 
 与えられないケース (Unpaired) に分けられる。 
 Paired の例:Semantic Labels⇔Photo, Colorization など 
 Unpairedの例:Photo⇔Illustrate 
 Unpaired Data
 Paired Data

  • 9. Unsupervised Image-to-Image Translation Networks (UNIT)
 9 会議 : NIPS2017
 著者 : Ming-Yu Liu, Thomas Breuel, Jan Kautz 
 
 ● Encoder により画像の持つ文脈をドメイン共通の Latent Space に移す 
 ● Generator は Latent Space から目的ドメインの画像を生成する 
 

  • 10. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN) 
 10 会議 : ICCV2017
 著者 : Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros 
 
 ● 入力画像と再構成画像との間の距離損失 (Cycle-Consistency Loss) を提案 
 ● Cycle-Consistency による画像文脈を保持した変換 
 
 
 

  • 11. UNIT・CycleGAN 以降の展開
 11 以下のような方向性の拡張を考慮した研究が多い。
 
 ● Consistency
 ● Object Aware
 ● Multi-Modal / Multi-Class / Unsupervised
 ● Few-Shot / Out-of-Distributions
 
 
 
 
 
 

  • 12. Consistency
 12 目的ドメインへの変換ができたとしても, 
 入力画像と全く関係ない画像では意味がないため 画像の文脈の保持は必須。
 CycleGAN は Cycle-Consistency Loss を導入することでこの問題に対処したが, 
 Cycle-Consistency はあまりに強すぎるため,形状変化を伴う変換が上手くできない。 
 そこで Cycle-Consistency に依存せずに画像の文脈を保つ手法 が提案されている。
 
 ・Breaking the cycle -- Colleagues are all you need 
 ・Unpaired Image-to-Image Translation using Adversarial Consistency Loss 
 ・Contrastive Learning for Unpaired Image-to-Image Translation 
 ・Dual Contrastive Learning for Unsupervised Image-to-Image Translation 
 
 CycleGAN での変換失敗例

  • 13. Object Aware
 13 horse⇔zebra など,画像全体ではなく画像中の特定のオブジェクトについての変換を行いたいケース では背景や変換対象以外のオブジェクトは入力画像から変わらない方が望ましい。そのため, 変換対 象となるオブジェクトを認識した上で変換を行う手法 が提案されている。
 
 ・Attention-GAN for Object Transfiguration in Wild Images 
 ・Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation 
 ・Unsupervised Attention-guided Image-to-Image Translation 
 ・U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation 
 
 
 CycleGAN の変換失敗例

  • 14. Multi-Modal / Multi-Class / Unsupervised
 14 ドメイン間の 1 対 1 関係のみの変換ではなく 1 対多の変換を可能とするような研究 
 
 Multi-Modal
 各ドメインに複数のモードがあるケース 。例えば cat→dog においては与えられた cat 画像をどの犬 種に変換してもよいので 1 対多関係がある。 
 
 ・Multimodal Unsupervised Image-to-Image Translation 
 ・Few-Shot Unsupervised Image-to-Image Translation 
 ・Semi-supervised Learning for Few-shot Image-to-Image Translation 
 
 Multimodal Unsupervised Image-to-Image Translation

  • 15. Multi-Modal / Multi-Class / Unsupervised
 15 Multi-Class
 3 つ以上の各ドメイン間に対応関係があるケース 。
 顔の喜怒哀楽についての相互変換など。 
 
 ・StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation 
 ・StarGAN v2: Diverse Image Synthesis for Multiple Domains 
 
 Unsupervised
 ドメインラベルなしでの学習を行うケース 。
 
 ・High-Resolution Daytime Translation Without Domain Labels 
 ・Rethinking the Truly Unsupervised Image-to-Image Translation 

  • 16. Few-Shot / Out-of-Distributions
 16 目的ドメインについて少数の画像しか用意できないあるいは全く用意できないケースについて適用可 能な手法の研究
 
 ・Few-Shot Unsupervised Image-to-Image Translation 
 ・Semi-supervised Learning for Few-shot Image-to-Image Translation 
 ・Domain Adaptive Image-to-image Translation 
 

  • 18. Breaking the cycle -- Colleagues are all you need
 18 会議 : CVPR2020
 著者 : Ori Nizan, Ayellet Tal
 
 ● Cycle-Consistency Loss によらない入力画像の文脈保持 
 ● 独立した複数の Generator を持ち,どの Generator から生成された画像かを判別するための Discriminator を使う
 ● 各 Generator は他の Generator に近い画像を作ろうとする 
 
 
 

  • 19. Unpaired Image-to-Image Translation using Adversarial Consistency Loss 
 19 会議 : ECCV2020
 著者 : Yihao Zhao, Ruihai Wu, Hao Dong 
 
 ● Cycle-Consistency Loss によらない入力画像の文脈保持 ● Cycle-Consistency Loss の代わりに敵対的損失を用いる 
 
 

  • 20. Contrastive Learning for Unpaired Image-to-Image Translation
 20 会議 : ECCV2020
 著者 : Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu 
 
 ● Cycle-Consistency Loss によらない入力画像の文脈保持 
 ● 変換前後の画像間でパッチを取って同一の領域かどうかを判別する Contrastive Loss を導入すること で入力画像の文脈を保つ
 ● CycleGAN のような往復構造は持たない 
 
 

  • 21. Dual Contrastive Learning for Unsupervised Image-to-Image Translation 
 21 会議 : CVPRW2021
 著者 : Junlin Han, Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin 
 
 ● CycleGAN の Cycle-Consistency Loss を除き Contrastive Loss に置き換えた形式 
 ● モード崩壊に対応するために Similarity Loss の導入も行い,有無で結果を比較 
 
 
 

  • 22. Attention-GAN for Object Transfiguration in Wild Images
 22 会議 : ECCV2018
 著者 : Xinyuan Chen, Chang Xu, Xiaokang Yang, Dacheng Tao 
 
 ● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する 
 ● マスクの大きさを損失に加えることで全域をマスクとして推定されることを防いでいる 
 
 

  • 23. Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation 
 23 会議 : IJCNN 2019
 著者 : Hao Tang, Dan Xu, Nicu Sebe, Yan Yan 
 
 ● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する 
 ● Discriminator は画像と推定マスクの対を入力とする (Attention-guided discriminator) 
 
 
 

  • 24. Unsupervised Attention-guided Image-to-Image Translation
 24 会議 : NeurIPS2018
 著者 : Youssef Alami Mejjati, Christian Richardt, James Tompkin, Darren Cosker, Kwang In Kim 
 
 ● Attention Network を用いて変換を行いたいオブジェクトのマスクを推定する 
 ● 入力画像に対して推定された Attention を Discriminator も用いる 
 
 
 

  • 25. U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation
 25 会議 : ICLR2020
 著者 : Junho Kim, Minjae Kim, Hyeonwoo Kang, Kwanghee Lee
 
 ● I2I 用の Attention Module と Normalization Layer (AdaLIN) を提案 
 ● 大きな形状変化を伴う変換も可能 
 
 
 Input
 Output
 Input
 Output
 CycleGAN
 Output

  • 26. Multimodal Unsupervised Image-to-Image Translation (MUNIT)
 26 会議 : CVPR2018
 著者 : Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz 
 
 ● 入力画像をドメイン特異的な Style とドメイン不変な Content にエンコードする 
 ● Content と Style を組み合わせて画像を生成 
 ● 適用する Style を変えることでマルチモーダルな画像生成が可能 
 
 
 

  • 27. StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation 
 27 会議 : CVPR2018
 著者 : Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo 
 
 ● 多ドメインの相互変換を 1 つの Generator で行えるようにした 
 ● Discriminator は補助タスクとして与えられた画像のドメインについても判別を行う 
 
 
 

  • 28. StarGAN v2: Diverse Image Synthesis for Multiple Domains
 28 会議 : CVPR2020
 著者 : Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha 
 
 ● StarGAN を基にして,変換結果に多様性が生まれるように改良した手法 
 
 

  • 29. High-Resolution Daytime Translation Without Domain Labels
 29 会議 : CVPR2020
 著者 : Ivan Anokhin, Pavel Solovev, Denis Korzhenkov, Alexey Kharlamov, Taras Khakhulin, Alexey Silvestrov, Sergey Nikolenko, Victor Lempitsky, Gleb Sterkin 
 
 ● 昼・夕・夜などのドメインラベルなしで I2I を学習
 ● 変換は低解像度で行い,変換後にマージすることで高解像度化 
 

  • 30. Rethinking the Truly Unsupervised Image-to-Image Translation
 30 会議 : Preprint
 著者 : Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim 
 
 ● ドメインラベルなしでの I2I
 ● Discriminator は補助タスクとして Encoder が出力する疑似ラベルを推測する 
 

  • 31. Few-Shot Unsupervised Image-to-Image Translation (FUNIT)
 31 会議 : ICCV2019
 著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz 
 
 ● 学習に用いていないドメインへの変換が可能な I2I 
 ● Discriminator に補助タスクとしてクラス分類問題も解かせる。 
 
 
 

  • 32. Semi-supervised Learning for Few-shot Image-to-Image Translation (SEMIT) 
 32 会議 : CVPR2020
 著者 : Yaxing Wang, Salman Khan, Abel Gonzalez-Garcia, Joost van de Weijer, Fahad Shahbaz KhanFirst, Last Name
 
 ● FUNIT の設定に追加して学習時に利用できるドメインラベル付き画像も少ないケースを想定 
 ● ラベルなし画像に擬似ラベルを付けて I2I の学習に用いる 
 
 
 
 CycleGAN
 MUNIT
 FUNIT
 提案手法

  • 33. COCO-FUNIT: Few-Shot Unsupervised Image Translation 
 with a Content Conditioned Style Encoder 
 33 会議 : ECCV2020
 著者 : Kuniaki Saito, Kate Saenko, Ming-Yu Liu 
 
 ● FUNIT では未知のドメインにおいて変換後の画像が文脈を上手く保持しないことがある 
 ● Content に依存する Style Encoder を提案し,上記問題を解決 
 
 
 

  • 34. Domain Adaptive Image-to-image Translation
 34 会議 : CVPR2020
 著者 : Ying-Cong Chen, Xiaogang Xu, Jiaya Jia 
 
 ● ドメイン(人の顔,猫の顔,写真,線画など)の中にサブドメイン(表情)があり,一部のドメインにおいて 特定のサブドメインが欠落しているようなケースを想定 
 ● 学習に用いたドメインのバイアスに引きずられない I2I 
 
 
 

  • 35. TSIT: A Simple and Versatile Framework forImage-to-Image Translation 
 35 会議 : ECCV2020
 著者 : Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping Shi, Chen Change LoyFirst, Last Name
 
 ● I2I のための汎用的フレームワーク TSIT を提案。 
 ● Generator は解像度ごとに Content を受け取る FADE モジュールと Style を受け取る FAdaIN からな る

  • 36. データセット (1/5)
 36 Large-scale CelebFaces Attributes (CelebA)
 ● 20 万枚の顔画像データセット
 ● 眼鏡の有無,髪色など 40 の属性

  • 37. データセット (2/5)
 37 Animal Faces-HQ dataset (AFHQ)
 ● StarGAN v2 の著者が公開
 ● cat, dog, wild (その他のイヌ科ネコ科) の 3 属性
 ● 人の顔⇔動物の顔という大きな形状変化を伴う変換の実験に使われる

  • 38. データセット (3/5)
 38 horse2zebra, apple2orange, summer2winter_yosemite
 ● CycleGAN の著者が公開
 ● horse, zebra, apple, orange は ImageNet 由来
 ● summer2winter のデータは Flickr 上のヨセミテ自然公園の写真
 ● 既存研究との比較のためによく使われる

  • 39. データセット (4/5)
 39 Selfie2Anime
 ● U-GAT-IT の著者が公開
 ● それぞれ 3400 枚の自撮り画像とアニメ顔画像からなる
 ● 現実の人間の顔とアニメの顔では目の大きさなどが異なるため,柔軟に文 脈を維持できるかどうかの実験によく使われる

  • 40. データセット (5/5)
 40 Cityscapes
 ● The Cityscapes Dataset for Semantic Urban Scene Understanding で作成・ 公開
 ● ドイツの 50 都市の昼間市街の写真
 ● 人,自動車,道路,木など 30 のクラスについてマスクのアノテーションが付 けられている

  • 41. まとめ・展望
 41 ● 入力画像の文脈を残しつつ自然な変換結果 を求めて発展してきた。
 ● 既存研究の問題設定に新たな制約を課した上で解く研究が多い。 
 ● selfie2anime といった,大きな形状変化を伴う変換はまだ発展の余地がありそう。
 ● ドメインラベルなしでの変換も増えてきそう。
 ● 実用性はあまり意識されていないが,絵画⇔写真の変換やアニメ⇔実写の変換などが精力的 に試みられており,コンテンツ産業への応用等が可能かもしれない。
 ● 高解像度化や高速化に関する研究も進められているため,リアルタイムでの変換を志向した研 究も今後増えると思われる。
 ● 
 ● 
 
 
 
 
 
 

  • 42. 著者紹介
 42 清田 浩史(株式会社カブク)
 ● 業務では DL を用いた物体検出や文字認識などの技術開発などを行っている 
 ● 画像の生成・変換に興味あり。最近は強化学習にも興味あり 
 ● 大学院時代の専門は生物学
 ● 趣味はビデオゲーム・ボードゲーム 
 ● 
 ● 
 
 
 
 
 
 
 
 
 

  • 43. Contents 1. Unpaired Image-to-Image Translation 2. Neural Radiance Fields 3. Object-oriented Representation Learning 4. Domain Adaptation
  • 45. はじめに Neural Radiance Fields (NeRF) に関するサーベイを実施(4/30までの調査) - NeRFに関する簡単な日本語まとめとしてご利用ください - 調査漏れ,間違い等ありましたらご指摘頂けるとありがたいです NeRFについて,計算効率化・高速化,非剛体対象への適用,動画像への拡張, Lightingの制御,ポーズ推定への適用,Compositional表現,汎化の観点から サーベイしています 研究のカテゴリ分けは以下の資料を参考にしています https://github.com/yenchenlin/awesome-NeRF https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf 日本語のNeRF派生研究まとめは @doiken23 さんの資料もおすすめです! 45

  • 46. Neural Radiance Fields (NeRF) ● MLPでパラメータ化された3次元表現の一種 ● ある視点から観測した情報を使って別視点から観測したシーンを生成する Novel View Synthesisができる 46
 NeRFの詳細は以下の資料がわかりやすいです 
 公開と作成ありがとうございます 
 https://www.slideshare.net/KentoDoi/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis-230911610 
 https://blog.albert2005.co.jp/2020/05/08/nerf/ 
 
 

  • 47. pixelNeRF
 CVPR’21 (2020/12/3) 
 NeRFの変遷 NeRF
 ECCV’20 (2020/3/19)
 2020/3
 2021/4
 2021/3
 2021/2
 2021/1
 2020/12
 2020/11
 2020/10
 47 NeRFの計算効率化・高速化 
 非剛体対象を扱うNeRF 
 動画像を扱うNeRF 
 NeRFによるLightningの制御 
 CompositionalなNeRF 
 NeRFの汎化 
 NeRF-VAE
 2021/4/1 
 ShaRF
 NeurIPS’20(2021/2/17) Learnit
 CVPR’21 (2020/12/3) 
 NSVF NeurIPS’20 (2020/7/23) 
 GRF
 2020/10/9 
 GIRAFFE
 2020/11/24 GRAF NeurIPS’20(2020/7/5) pi-GAN
 CVPR’20(2020/12/2) CAMPARI
 2021/3/31 OSF 2020/12/15 iNeRF
 2020/12/10 NeRF-- 2021/2/14 iMAP
 2020/12/10 A-NeRF
 2021/2/11 Neural Scene Graph 
 2020/11/20 STaR
 2020/12/22 D-NeRF (Park et al.) 2020/11/25 D-NeRF (Pumarola et al.) 2020/11/27 NerFACE
 2020/12/5 NR-NeRF
 2020/12/22 PVA
 2021/1/7 NARF 2021/4/7 Video-NeRF
 2020/11/25 Neural Scene Flow Field CVPR’21(2020/11/26) Neural Radiance Flow CVPR’21(2020/12/17) Neural Body
 CVPR’21(2020/12/31) Neural 3D Video Synthesis 
 2021/3/3 NeRD
 2020/12/7 NeRV
 CVPR’21(2020/12/7) NeX
 CVPR’21(2021/3/9) Neural Reflectance Fields 2020/8/16 AutoInt CVPR’21(2020/12/3) DeRF
 2020/11/25) DONeRF
 2021/3/4 FastNeRF
 2021/3/18 KiloNeRF
 2021/3/25 PlenOctrees
 2021/3/25 ObSuRF
 2021/4/2 SNeRG
 2021/3/26 NeRFによるポーズ推定 
 DietNeRF
 2021/4/1 
 PortraitNeRF
 2020/12/10 
 一部の研究は分類とスペースの都合上,上図から除いてあります 
 日付はarxivへの初版投稿日時です 

  • 48. NeRFの計算効率化・高速化 1. NSVF https://arxiv.org/abs/2007.11571 ○ Sparse Voxel Octree表現を導入し,NeRFを10倍高速化 2. AutoInt https://arxiv.org/abs/2012.01714 ○ volume renderingの積分をimplicitなNNで学習 ○ NeRFから10倍以上高速化 3. DeRF https://arxiv.org/abs/2011.12490 ○ Voronoi空間分割によってシーンを分解した個々のパーツごとに NNを割り当て    レンダリン グ ○ NeRFの品質を保ちつつ,3倍の計算効率化を実現 4. DONeRF https://arxiv.org/abs/2103.03231 ○ Rayに沿ったDepthを推定するNNの出力に基づいてサンプル点を決定することで    NeRFか ら最大48倍の推論コストを削減 48

  • 49. NeRFの計算効率化・高速化 5. KiloNeRF https://arxiv.org/abs/2103.13744 ○ 単一のDeep MLPの代わりに,何千もの小さなMLPでNeural Radiance Fieldを表現することで NeRFのレンダリングを高速化 6. FastNeRF https://arxiv.org/abs/2103.10380 ○ 位置と視点方向に依存したそれぞれ 2つのMLPを用意し,             これらの出力の 内積をキャッシュすることでリアルタイムにレンダリングする ○ NeRFから3000倍高速化 7. PlenOctrees https://arxiv.org/abs/2103.14024 ○ Octreeベースの3D表現をNeRFで利用することでリアルタイムレンダリングを実現 ○ 視点依存の効果を実現するために,色を球面調和関数で表現する 8. SNeRG https://arxiv.org/abs/2103.14645 ○ 提案するSparse Neural Radiance Gridとして視点非依存特徴を事前に計算して保存 ○ 生成時は視点依存の色をこの特徴を集積することから決定する 49

  • 50. 非剛体対象を扱うNeRF 9. D-NeRF (Park et al.) https://arxiv.org/abs/2011.12948 ○ 非剛体のDeformableなシーンをNeRFで表現されるTemplate volumeと観測単位の Deformation fieldに分解する 10. D-NeRF (Pumarola et al.) https://arxiv.org/abs/2011.13961 ○ シーンを static / dynamic なNeRFに分解し,更に,時間の変数も追加 11. NerFACE https://arxiv.org/abs/2012.03065 ○ SRNベースの頭部のimplicit表現とmorphable modelからポーズや表情を操作 12. NR-NeRF https://arxiv.org/abs/2012.12247 ○ 動的なシーンをcanonical volumeとdeformationに分離 13. PVA https://arxiv.org/abs/2101.02697 ○ pixel-aligned featureを使って人の頭部に関するNVSを少量データから実現 14. NARF https://arxiv.org/abs/2104.03110 ○ 関連するパーツの変形のみを考慮することでパーツ単位の操作可能な NeRFを学習 50

  • 51. 動画像を扱うNeRF 15. Space-time Neural Irradiance Fields https://arxiv.org/abs/2011.12950 ○ 時間変数を追加し,推定されたシーンの Depthを利用した制約を導入 16. D-NeRF (Pumarola et al.) https://arxiv.org/abs/2011.13961 ○ シーンを static / dynamic なNeRFに分解し,更に,時間の変数も追加 17. Neural Scene Flow Field https://arxiv.org/abs/2011.13084 ○ 色とDensityに加えて,前後の時刻間の位置の移動量と遮蔽に関する重みを出力 18. Neural Radiance Flow https://arxiv.org/abs/2012.09790 ○ ジオメトリと外観のRadiance Fieldとダイナミクスの4D Flow Fieldを導入 19. Neural Body https://arxiv.org/abs/2012.15838 ○ deformable meshに関連づけられた潜在変数から異なるフレームの 3D表現を獲得 20. Neural 3D Video Synthesis https://arxiv.org/abs/2103.02597 ○ 動的なmulti-view動画から提案するhierarchical trainingとimportance samplingで time-conditioned NeRFを効果的に学習 51

  • 52. NeRFによるLightingの制御 21. Neural Reflectance Field https://arxiv.org/abs/2008.03824 ○ Local reflection modelをNeRFに組み込み,単一照明下でのRelightingを達成 22. NeRD https://arxiv.org/abs/2012.03918 ○ 照明条件をspatially-varying BRDFと混合ガウス分布としてモデル化 23. NeRV https://arxiv.org/abs/2012.03927 ○ NeRFのMLPをvolume densityを出力するMLPとBRDFを出力するMLPに分解 24. NeX https://arxiv.org/abs/2103.05606 ○ 色を視野角の関数として表現し,この関数を NNで学習された基底関数の線形結合で  近似す るMPIを提案 ○ CD面の虹の反射などの視点依存の視覚効果を実現 52

  • 53. NeRFの汎化に向けて 25. GRF https://arxiv.org/abs/2010.04595 ○ canonical space内で各rayに対するpose-awareな特徴を計算することで汎化を達成 26. GRAF https://arxiv.org/abs/2007.02442 ○ ポーズなしの2D画像集合からGenerative Radiance Fieldを学習 ○ appearance / shape codeの分離やmultiscale patch discriminatorを導入 27. pi-GAN https://arxiv.org/abs/2012.00926 ○ SIRENで表現されるimplicit radiance fieldをStyleGAN-likeな方法(FiLM)で潜在変数を条件付 ける ○ progressive growingも導入 28. Learnit https://arxiv.org/abs/2012.02189 ○ NeRFのMLPの重みをメタ学習し,未知の対象の最適化を高速化する ○ メタ学習された重みは3D priorとしても働く 29. Portrait NeRF https://arxiv.org/abs/2012.05903 ○ Light stage portrait datasetでメタ学習することで1枚のPortraitからNeRFを学習 53

  • 54. NeRFの汎化に向けて 30. pixelNeRF https://arxiv.org/abs/2012.02190 ○ 各画素がアライメントされた空間的な画像特徴を入力として受け取ることで,    1枚もしくは少 量の視点からNVSするためのシーンのpriorを学習する 31. ShaRF https://arxiv.org/abs/2102.08860 ○ 潜在変数からボクセル表現の形状( scaffold)を生成し,これを手がかりにRadiance Fieldを学 習しレンダリングする 32. NeRF-VAE https://arxiv.org/abs/2104.00587 ○ NeRFとVAEを組み合わせ,シーン間で共有される構造を学習する ○ 未知の3D環境であっても少量のデータから NVS可能 33. CAMPARI https://arxiv.org/abs/2103.17269 ○ カメラの分布をポーズなしの画像集合から学習する Camera Generatorを導入 34. DietNeRF https://arxiv.org/abs/2104.00677 ○ CLIP Encoderから得られた特徴を使って異なる視点間の Semantic consistency lossを 取る ことで,少量の視点からのNVSを実現 54

  • 55. NeRFによるポーズ推定 35. iNeRF https://arxiv.org/abs/2012.05877 ○ analysis-by-synthesisの枠組みからNeRFによる6DoFポーズ推定を行う ○ poseを洗練化するためのRayのサンプリング方法を提案 36. STaR https://arxiv.org/abs/2101.01602 ○ 単一物体に限定されるが,static / dynamic NeRFに分解することで        ポーズアノテー ションなしに学習可能 37. NeRF-- https://arxiv.org/abs/2102.07064 ○ NeRFのMLPパラメータと同時に,内部/外部カメラパラメータを最適化する ○ 学習後に,NeRFを再初期化して学習したカメラパラメータで再学習すると性能改善 38. iMAP https://arxiv.org/abs/2103.12352 ○ カメラポーズの同時最適化も可能な implicit表現を使ったSLAM 39. A-NeRF https://arxiv.org/abs/2102.06199 ○ 一般的なpose estimatorから推定された3D skeletonの初期ポーズから,       人の体の モデルと同時に姿勢を最適化する 55

  • 56. CompositionalなNeRF 40. GIRAFFE https://arxiv.org/abs/2011.12100 ○ ポーズのない画像集合からシーンを構成可能な物体単位の           Generative Neural Feature Fieldsを学習 41. OSF https://arxiv.org/abs/2012.08503 ○ 物体単位のNeural Scattering Functionを学習,レンダリングする方法を提案 ○ 物体ごとに位置を編集したり,照明を操作できる 42. Neural Scene Graph https://arxiv.org/abs/2011.10379 ○ 動的なシーンをシーングラフへ変換する Neural Rendering方法を提案 ○ 個々の物体,背景を分離でき,物体の位置や角度を編集できる 43. ObSuRF https://arxiv.org/abs/2104.01148 ○ 入力画像から物体単位の表現を符号化し,この表現で NeRF Decoderを条件付けることで教師 なしでセグメンテーションができる 56

  • 57. その他 44. NeRF++ https://arxiv.org/abs/2010.07492 ○ 大規模でunboundな360°シーンへNeRFを適用 45. NeRF-w https://arxiv.org/abs/2008.02268 ○ 観光地におけるスナップ写真など unstructuredな画像集合からNeRFを学習する ○ 天候や照明などの外観の変動や一時的に写り込んだ対象を対処 46. Semantic-NeRF https://arxiv.org/abs/2103.15875 ○ Densityと色に加えて,その位置のセマンティックラベルを出力する NeRF 47. AD-NeRF https://arxiv.org/abs/2103.11078 ○ 音声信号を追加入力としてNeRFに与えることで話者の映像をレンダリング 48. UNISURF https://arxiv.org/abs/2104.10078 ○ Implicit surface modelとradiance fieldを統合することで,             同一のモデルで surface, volume renderingができる 57

  • 58. その他 49. FiG-NeRF https://arxiv.org/abs/2104.08418v1 ○ シーンを背景とDeformableな前景へ分離する2-component NeRFを使って      前景の3D modelを学習 ○ Amodal Segmentationも実行可能 50. GANcraft https://arxiv.org/abs/2104.07659v1 ○ Minecraftのようなブロックワールドをvoxel-boundedなNeRFとして表現 51. GSN https://arxiv.org/abs/2104.00670v1 ○ 局所的なRadiance Fieldの集合を学習することで屋内シーンを自由に動き回ることが できる生 成モデル 52. BARF https://arxiv.org/abs/2104.06405v1 ○ 不完全もしくは未知のカメラ姿勢から NeRFを学習する ○ 古典的な位置合わせ手法との理論的関連も示した 58

  • 59. その他 53. NeMI https://arxiv.org/abs/2103.14910v2 ○ 入力画像から抽出された特徴から,任意の深度の色と Densityを予測可能な    NeRFとMPI を統合したモデルを提案 54. Opacity Radiance Field https://arxiv.org/abs/2104.01772v1 ○ Fuzzy objectに対するCNN Rendererを用いたRadiance Fieldを提案 55. MVSNeRF https://arxiv.org/abs/2103.15595v1 ○ Multi-view stereoで使われているplane-swept cost volumeを使うことで        3つの入 力視点のみからNeRFを学習する 56. SRF https://arxiv.org/abs/2104.06935v1 ○ ステレオビジョンによる視点間の類似性から新規シーンに汎化した NeRFを学習 59

  • 60. まとめ Neural Radiance Fieldのサーベイ所感 ○ Voxel, Mesh, Point Cloudに代わる新たな3D表現として急速に受け入れられた ■ Implicit Functionの研究の土台があってこそ ○ 高速化がかなり進んでおりNeRFによるtelepresenceなど実応用化も目前? ○ 生成モデルとの融和も早い段階から取り組まれている ○ 間違いなくGANやTransformerと並ぶブレイクスルーだと感じる 60
 https://twitter.com/Hassanhaija/status/1385987555628363787
  • 61. 61 著者紹介
 ● 相澤 宏旭 (広島大学 栗田研 助教) 
 ○ HP:https://aizawan.github.io/
 ○ 専門:画像生成,異常検知,セマンティックセグメンテーション 
 ○ 興味:表現学習,少量データからの認識と生成 

  • 62. Contents 1. Unpaired Image-to-Image Translation 2. Neural Radiance Fields 3. Object-oriented Representation Learning 4. Domain Adaptation
  • 64. 64 Contents
 1. 導入
 2. 手法・論文紹介
 3. データセット・評価指標
 4. 下流タスクへの応用・他分野との融合
 5. 今後の展望
 6. 有力研究機関・研究者
 7. 著者紹介

  • 65. Object-oriented Representation Learning (OORL)*
 65 直訳は物体指向の表現学習
 ● 表現学習
 ○ 入力データから出力データを得る過程で, 特徴空間で意味があるベクトルを獲得する学習 方法.
 ○ NN は必ず特徴空間が生じるため, NN の学習は全て表現学習であるが, 深層学習分野で は下流タスクに活用するための上流タスクの学習 を表現学習と呼称する.
 
 ● 物体指向の
 ● 物体ごと個別の表現を獲得すること (物体の分離, 物体ごとの操作, etc...) 
 ● 物体に普遍的な定義がある訳ではないことにも注意.**
 * “Object-oriented” の代わりに “object-centric” が用いられることもある. 
 ** この辺りの話は以下も参照のこと. 
 ・K. Greff. What are objects A talk in ICML 2020 Workshop. Object-Oriented Learning (OOL): Perception, Representation and Reasoning. https://slideslive.com/38930701/what-are-objects 
 ・K. Greff, S. van Steenkiste, J. Schmidhuber. On the Binding Problem in Artificial Neural Networks. arXiv preprint 2020. https://arxiv.org/abs/2012.05208 

  • 66. 66 モチベーション
 ● 物体や物体の相互関係は, 人間の世界の理解の基盤.
 
 ● 人間は, 世界を再利用可能な構成要素に分けて抽象化することで, 複雑なタスクや未 知のシーンにも対応できると考えられる.
 
 ● 人工知能でも, 物体を中心とした認知や表現獲得を行うことができれば, 複雑なタスク や未知のシーンにも汎化するモデルを作れるのではないか.
 
 
 
 
 
 
 なぜ object-oriented か?
 参考:
 ・ICML 2020 Workshop. Object-Oriented Learning (OOL): Perception, Representation and Reasoning. https://oolworkshop.github.io/ 
 ・K. Greff, S. van Steenkiste, J. Schmidhuber. On the Binding Problem in Artificial Neural Networks. arXiv preprint 2020. https://arxiv.org/abs/2012.05208 

  • 67. 67 ● 目的
 ○ 下流タスクに有効なオブジェクトごと個別の表現を獲得すること. 
 
 ● 具体的に適用できそうな下流タスク例
 ○ ロボットアームでの把持タスク (物体のピッキング) 
 把持タスクにおいて, 物体検出や把持位置推定, 深度推定などを行うが, Amazon Picking Challenge では本番で訓練データにない物体が登場. 
 OORL は教師なしでの物体検出の手法があるため, 把持タスクにおけるアドバンテージ獲得 の可能性がある.
 ○ 強化学習
 OORL には前景背景を分離できる手法があり, ゲームにおいては前景となるエージェント同 士のインタラクションを獲得しやすくなる可能性がある. 
 
 ● 本サーベイのスコープは, 動画像を用いた教師なしの OORL の手法.
 
 OORL の目的

  • 69. 69 Contents
 1. 導入
 2. 手法・論文紹介
 3. データセット・評価指標
 4. 下流タスクへの応用・他分野との融合
 5. 今後の展望
 6. 有力研究機関・研究者
 7. 著者紹介

  • 70. OORL のモデルの考え方
 70 ● アプローチ
 ○ 個々の前景 (と背景) の組み合わせでできていると考え, 
 個々の前景 (と背景) に対応した表現を 教師なしで獲得する.
 ○ 生成過程※を, 様々な帰納バイアスを入れてモデル化する. 
 
 ● 画像と動画の主な違い
 ○ 画像
 ■ 前景に被覆されて見えない背景を考慮して個々の物体の分離を行う. 
 ■ 動画と比較して背景が見えない不良設定問題のため学習が難しい.
 ○ 動画
 ■ 前景が動くことで背景が見えるため, 画像と比較して学習は容易. 
 ■ 1つの動画内で, 前景の時系列的な一貫性が求められ, 物体の数が可変 
 
 今回は, 主流と考えられる生成過程のモデル化を中心にサーベイ. 
 
 ※ 生成過程を直接モデル化しない手法も存在 

  • 71. 2016, 2017 2018    2019 2020 2021 71 OORL一望マップ
 動 画 画 像 AIR 
 (Mar 2016)
 オブジェクトごとに
 潜在変数を用意
 SQAIR (June 2018)
 AIR を時系列モデルに拡張
 SPAIR (Jan 2019)
 YOLOを利用した
 物体検出ベース
 MONet (Jan 2019)
 セグメンテーション
 マスク生成ベース
 SPACE (Jan 2020)
 SPAIRとGENESISが合体
 GENESIS-V2 (Apr 2021)
 マスクの数がハイパラではなくなる
 R-NEM (Feb. 2018)
 N-EM (RNN-EM) + 相互関係 
 DDPAE (June 2018)
 物体に分けて将来予測
 N-EM(Aug. 2017)
 NN で EM アルゴリズム 
 G-SWM 
 (Oct. 2020)
 統一モデルへ
 TBA (Sept. 2018)
 Tracking by animation
 RTagger (July 2017)
 Recurrent Ladder Networks
 VIODINE (仮称) (June 2020)
 IODINE を動画へ拡張
 ViMON (June 2020)
 MONet の動画版
 GATSBI 
 (Apr. 2021)
 Agent も分離する RL
 RELATE (July 2020)
 GAN + 相互作用
 OP3 (Oct. 2019)
 IODINE を動画へ拡張 + RL
 COBRA (May 2019)
 MONet を用いて動画 + RL
 IODINE (Mar 2019)
 繰り返し変分推論の
 マスク生成ベース
 SILOT (Nov. 2019)
 SQAIR の物体数増 
 STOVE (Sept. 2019)
 状態空間モデル + GNN
 SCALOR (Oct. 2019)
 SQAIR の物体数増 + 背景.
 C-SWM (Sept. 2019)
 Contrastive loss の利用. structured world models
 SCN (July 2020)
 Contrastive loss の利用
 SetCon (Sept. 2020)
 集合同士の contrastive loss
 GENESIS (July 2019)
 潜在変数間の関係性考慮
 Slot Attention (Feb 2020)
 集合特徴のAttention

  • 72. 画像の OORL のモデリングの考え方
 72 ピクセル空間のクラスタリングで画像の生成過程をモデリング
 ● 教師なしで画像をピクセル空間でクラスタリング (セグメンテーション) されるように潜在変数を分割 して画像の再構成を行い, 負の対数尤度の loss をとることが多い. 
 ● 物体検出をしてから bounding box の中でマスクを作ることで,明示的に前景を 
 モデリングする手法も存在.
 出典: Zhixuan Lin, Yi-Fu Wu, Skand Vishwanath Peri, Weihao Sun, Gautam Singh, Fei Deng, Jindong Jiang, and Sungjin Ahn. 
 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://openreview.net/forum?id=rkl03ySYDH 

  • 73. 画像の OORL のモデルの分類
 ● Scene Mixture (ピクセル空間のクラスタリング) 
 ○ 画像をピクセル空間中でクラスタリングできるように複数の潜在変数にエンコードし, 
 各潜在変数から画像を再構成できるように セグメンテーションマスクを学習 .
 ○ 内部の構造は基本的に VAE になっており,ELBO と KLD で学習 
 ○ 例:MONet,IODINE,GENESIS,Slot Attention 
 
 ● Spatial Attention (物体検出)
 ○ YOLO (You Only Look Once) に似た機構を用いて 前景を物体検出
 ○ Scene Mixture モデル同様,ELBO と KLD で学習 
 ○ 例:AIR, SPAIR,SPACE 
 
 
 Scene Mixture モデルの例 (MONet) 
 Spatial Attention モデルの例 
 (SPAIR)
 73
  • 74. 重要論文リスト (画像) Scene Mixture Models
 74 ● MONet C. P. Burgess et al.. MONet: Unsupervised Scene Decomposition and Representation. arXiv preprint 2019. https://arxiv.org/abs/1901.11390 
 ○ 領域の大きいところからRNN形式のVAEで順次オブジェクトごとのマスクを生成.
 ● IODINE K. Greff et al. Multi-Object Representation Learning with Iterative Variational Inference. ICML2019. https://arxiv.org/abs/1903.00450
 ○ MONet 同様に領域ごとのマスクを生成しつつ,繰り返し VAE の変分推論を行うことで高品質なマスク生成.
 ○ しかし, 繰り返し変分推論を行うことで計算時間は増加
 
 MONet
 IODINE

  • 75. 重要論文リスト (画像) Scene Mixture Models
 75 ● GENESIS M. Engelcke et al., GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR2020. https://arxiv.org/abs/1907.13052
 ○ MONet の潜在変数同士を RNN で繋いで相互関係を考慮 (MONet はマスクのみ RNN 形式).
 ● Slot Attention F. Locatello et al., Object-Centric Learning with Slot Attention. NeurIPS2020. https://arxiv.org/abs/2006.15055
 ○ 画像のグリッドごとの Attention を計算し, CNN などの出力と集合構造を持つ特徴量を結びつけるモジュール.
 ○ Slot Attention 自体はネットワークではなく, 様々なネットワークに取り込むことができる.
 ● GENESIS-V2 M. Engelcke et al., GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. arXiv preprint2020. https://arxiv.org/abs/2104.09958
 ○ Scene Mixture Models のクラスタ数をハイパーパラメータでなくした (画像ごとのクラスタ数に分解可能)
 
 GENESIS
 GENESIS-V2
 Slot Attention

  • 76. 重要論文リスト (画像) Spatial Attention Models
 76 ● AIR S. M. A. Eslami et al.. Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS2016. https://arxiv.org/abs/1603.08575 
 ○ OORLの起源となる論文.オブジェクト数だけ潜在変数を用意し,RNN形式のVAEで順次推論再構成を行う.
 ● SPAIR E. Crawford and J. Pineau. Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019. http://e2crawfo.github.io/pdfs/spair_aaai_2019.pdf 
 ○ YOLO (You Only Look Once) をベースとした教師なし物体検出により物体ごとのマスクを生成.
 ○ ただし,SPAIRは背景が既知 (前景に被覆されている裏側がわかっている前提) でのみ学習可能.
 ● SPACE Z. Lin et al... SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR2020. https://arxiv.org/abs/2001.02407 
 ○ 背景のマスク生成にGENESISを使うことで, SPAIRの背景が扱えない問題を解決した.
 
 SPACE
 SPAIR
 AIR

  • 77. 動画の OORL のモデリングの考え方
 77 Slot の組み合わせで動画の生成過程をモデリング
 ● 各フレームを slot に分解. 1つの slot と 1 つの物体を対応させたい. 
 ● 各時刻では, 各 slot から decode した画像・マスクを組み合わせて画像を再構成. 
 ● 前フレームからの各 slot の予測と現フレームの各 slot を紐付ける. 
 ● 教師なし学習. 画像の予測・再構成を行い, ピクセル空間での loss をとることが多い. 
 
 
 
 
 
 出典: Marissa A. Weis, Kashyap. Chitta, Yash Sharma, Wieland. Brendel, Matthias. Bethge, Andreas. Geiger, Alexander S. Ecker. 
 Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020. https://arxiv.org/abs/2006.07034 

  • 78. 動画の OORL のモデルの分類
 78 モデルの分類 (生成的アプローチ)*
 ● Spatial attention with factored latents 
 ○ 物体ごとの潜在変数を空間的な attention でモデル化. 
 さらに, 潜在変数を物体の位置・外観・存在などに分解. 
 ○ 物体の bounding box を推定. 
 ○ 再構成時に, Spatial-Transformer Network を用いることが多い. 
 ○ 例: SQAIR, DDPAE, TBA, SILOT, SCALOR, STOVE, G-SWM, GATSBI 
 
 ● Spatial attention with unconstrained latents 
 ○ 物体ごとの潜在変数を空間的な attention でモデル化. 
 ○ 物体のマスクを推定. 
 ○ 例: COBRA, ViMON, RELATE 
 
 ● Spatial mixture models
 ○ 画像ピクセルのクラスタリングを学習. 
 ○ 物体のマスクを推定. 
 ○ 例: RTagger, N-EM, R-NEM, OP3, VIODINE(仮称) 
 
 * M. A. Weis, K. Chitta, Y. Sharma, W. Brendel, M. Bethge, A. Geiger, A. S. Ecker. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint 2020. https://arxiv.org/abs/2006.07034 を参考にした. 

  • 79. 動画の OORL のモデルの分類
 79 モデルの分類 (識別的アプローチ)
 ● Application of contrastive learning 
 ○ フレームの再構成をせずに, 特徴量の時系列的な一貫性を用いて表現を獲得. 
 ○ Loss として slot の特徴量間の contrastive loss を用いる識別的なアプローチ. 
 ○ 下流タスクを見据えた考え方で, 強化学習や relationa reasoning へ応用される. 
 ○ 例: C-SWM, SCN, SetCon 
 
 
 
 
 識別的アプローチ例 
 (C-SWM)
 生成的アプローチ例 
 (SCALOR)
 元動画 + 追跡bbox 
 再構成動画 

  • 80. Spatial attention with factored latents の発展
 80 主要モジュールの追加・改良によって発展
 ● 主要なモジュール
 ○ Discovery: 各時刻のフレームで物体を検出する. 
 ○ Propagation: 次の時刻へ物体を引き継ぐ. 
 ○ Selection (Rejection): 追跡された物体が再検出されないようにする. 
 ○ Interaction: 物体間の相互作用を捉える. 
 ○ Rendering: 潜在変数から画像をレンダリング. 
 ● 画像モデルの AIR の動画に拡張した SQAIR から派生したものが多い.
 
 
 
 
 G-SWM の論文より G-SWM は全てに ✔がつく. 

  • 81. 重要論文リスト (動画) Spatial attention with factored latents
 81 ● SQAIR A. R. Kosiorek et al. Sequential attend, infer, repeat: Generative modelling of moving objects. NeurIPS2018. https://arxiv.org/abs/1806.01794 
 ○ AIR を動画に拡張. Discovery・Propagation モジュールを導入
 ● SILOT E. Crawford and J. Pineau. Exploiting Spatial Invariance for Scalable Unsupervised Object Tracking. AAAI2020. https://arxiv.org/abs/1911.09033 
 ○ 画像モデルの SPAIR と同様の物体検出器を導入し, SQAIR より扱える物体数を増やした.
 Selection の仕組みも導入.
 ● SCALOR J. Jiang et al. SCALOR: Generative World Models with Scalable Object Representations. ICLR2020. https://arxiv.org/abs/1910.02384
 ○ 画像モデルの SPAIR と同様の物体検出器と Propagetion-rejection 導入し, SQAIR より扱える物体数を増やした. 背景も モデリング. 実動画で人の追跡も検証.
 左: AIR, 右: SQAIR / 上: Generation, 下: Inference 
 SILOT
 SCALOR

  • 82. 重要論文リスト (動画) Spatial attention with factored latents
 82 ● DDPAE J-T Hsieh et al. Learning to Decompose and Disentangle Representations for Video Prediction. NeurIPS2018. https://arxiv.org/abs/1806.04166 
 ○ 将来フレーム予測のために, 動画を構成要素に分解し, 各構成要素を容易に予測できるような低次元の時系列的な dynamics に disentangle するモデルを提案. SQAIR と同時期.
 ● TBA Z. He et al. Tracking by Animation: Unsupervised Learning of Multi-Object Attentive Trackers. CVPR2019. https://arxiv.org/abs/1809.03137 
 ○ 複数物体追跡 (MOT) を教師なし・end-to-end で行う手法を提案. 物体を追跡し, animation を再構成. 
 データ紐付けのロバスト性を上げるために attentin を利用したモジュールを導入.
 実動画 (DukeMTMC) で教師なしの人の追跡を検証. 
 DDPAE
 TBA
 TBA の DukeMTMC での検証結果 

  • 83. 83 ● STOVE J. Kossen et al. Structured Object-Aware Physics Prediction for Video Modeling and Planning. ICLR2020. https://arxiv.org/abs/1910.02425
 ○ 物体の位置・速度・相互作用をモデル化する状態空間モデルを提案. 相互作用は Graph NN でモデリング. Model-based の強化学習へも応用可能. 
 ● G-SWM Z. Lin et al. Improving Generative Imagination in Object-Centric World Models. ICML2020. https://arxiv.org/abs/2010.02054 
 ○ 既存モデルの主要モジュールを統合. Occlusion や物体・環境の相互作用もモデリング.
 不確実性も導入.
 ● GATSBI C-H. Min et al. GATSBI: Generative Agent-centric Spatio-temporal Object Interaction. CVPR2021. https://arxiv.org/abs/2104.04275 
 ○ 動画 を active なエージェント, static な背景, passive な物体を分離. エージェントと物体の物理的な相互作用やエージェ ントの長期の trajectory を予測. Spatio-temporal な GMM からなる Mixture モジュール, Keypoint モジュール, G-SWM の 改良版を用いた Object モジュール, Interaction モジュールからなる.
 
 
 STOVE
 G-SWM
 GATSBI
 重要論文リスト (動画) Spatial attention with unconstrained latents

  • 84. 重要論文リスト (動画) Spatial attention with unconstrained latents
 84 ● COBRA N. Watters et al. COBRA: Data-Efficient Model-Based RL through Unsupervised Object Discovery and Curiosity-Driven Exploration. preprint2019. https://arxiv.org/abs/1905.09275 ○ 世界の表現を object の言葉で学習し, 好奇心ベースで探索する model-based RL のモデルを提案. 学習は探索フェーズとタスクフェーズがあり, 前者の vision モデルには画像のモデルである MONet を用いる. ● ViMON M. A. Weis et al. Unmasking the Inductive Biases of Unsupervised Object Representations for Video Sequences. preprint2020. https://arxiv.org/abs/2006.07034 
 ○ 動画の OORL の評価のベンチマークとして, 視覚的複雑さが異なる 3 種類の合成データセットと, 複数物体追跡 (MOT) を元にした評価指標を導入. 画像のモデルの MONet を動画に拡張した ViMON を提案し, OP3・TBA と比較実験*.
 ● RELATE S. Ehrhardt et al. RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces. NeurIPS2020. https://arxiv.org/abs/2007.01272 
 ○ 個々の物体の相互作用を明示的にモデル化する OORL を取り入れた GAN. 動画に適用可能. 実動画でも検証.
 * 別の投稿 version の preprint では SCALOR との比較実験も追加.
 COBRA
 ViMON・TBA・OP3の比較 
 RELATE

  • 85. 重要論文リスト (動画) Spatial mixture models
 85 ● RTagger I. Prémont-Schwarz et al. Recurrent Ladder Networks. NeurIPS2017. https://arxiv.org/abs/1707.09219 ○ 階層的な潜在変数モデルのための Ladder Network を再帰的に拡張. 動画にも適用可能. 
 ● N-EM K. Gref et al. Neural Expectation Maximization. NeurIPS2017. https://arxiv.org/abs/1708.03498 ○ EM (Expectation Maximization) フレームワークを元に, NN を用いた微分可能なクラスタリング手法 N-EM を提案. 一般化 した RNN-EM も提案.
 ● R-NEM S. van Steenkiste et al. Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions. ICLR2018. https://arxiv.org/abs/1802.10353
 ○ N-EM (RNN-EM) に, 物体の相互作用を捉えるモジュールを導入.
 Recurrent Ladder Networks 
 N-EM
 R-NEM

  • 86. 重要論文リスト (動画) Spatial mixture models
 86 ● OP3 R. Veerapaneni et al. Entity Abstraction in Visual Model-Based Reinforcement Learning. CoRL2019. https://arxiv.org/abs/1910.12827 
 ○ Model-based 強化学習に, エンティティ中心かつ dynamic な潜在変数を持つモデルを利用. 
 エンティティ表現と実際の物体に紐づける binding problem を推論問題として捉え, インタラクティブな推論アルゴリズムを 開発. IODINE を動画に拡張. 実動画を用いた検証も行う.
 ● VIODINE (仮称) P. Zablotskaia et al. Unsupervised Video Decomposition using Spatio-temporal Iterative Inference. https://arxiv.org/abs/2006.14727 
 ○ 2D-LSTM を用いて, 時系列で条件づけられた推論・生成を spatio-temporal な iterative amotized inference の枠組みで 行う. 画像モデルの IODINE の構造の一般化とも考えらえる.
 OP3
 VIODINE (仮称) 
 Representation Learning from Real World Videos (OP3 vs IODINE)
  • 87. 重要論文リスト (動画) Application of contrastive learning
 87 ● C-SWM T. Kipf et al. Contrastive Learning of Structured World Models. ICLR2020. https://arxiv.org/abs/1911.12247
 ○ 特徴量間の contrastive loss を用いることで, 画像の再構成を用いたピクセル空間での loss を用いない object centric な強化学習モデルを提案. Slot の特徴量の類似度を用いた指標で評価.
 ● SCN E. Racah et al. Slot Contrastive Networks: A Contrastive Approach for Representing Objects. ICML2020 Workshop. https://arxiv.org/abs/2007.09294 
 ○ Slot 表現の空間において, 識別的で time-contrastive な 2 種類の loss を利用することで, 物体の動きを利用し, 各 slot が他の slot と異なる動く物体を捉えられるようにする. 自己教師あり学習・disentanglement の分野で用いられる指 標を元にして linear probe を使った評価指標を提案.
 ● SetCon Sindy. Löwe et al. Learning Object-Centric Video Models by Contrasting Sets. NeurIPS2020 Workshop. https://arxiv.org/abs/2011.10287 
 ○ 集合同士を比べる global な set contrastive loss を導入. Slot-wise な contrastive loss が, 異なる object が各 slot に 別れる場合と, 同一の object が全ての slot に(再)表現 される場合を区別できない欠点を解消.
 
 
 
 C-SWM
 SCN
 SetCon

  • 88. 88 Contents
 1. 導入
 2. 手法・論文紹介
 3. データセット・評価指標
 4. 下流タスクへの応用・他分野との融合
 5. 今後の展望
 6. 有力研究機関・研究者
 7. 著者紹介

  • 89. 画像の OORL の評価指標
 89 使用される評価指標例
 ● 以下の例がある.
 ○ 負の対数尤度 (NLL : Negative Log Likelihood) 
 (VAEのELBOとKLDの値にマイナスを掛けたもの。VAEはNLLが高いほど正しくモデル化できている)
 ○ 再構成誤差 (MSE : Mean Squared Error)
 ○ ARI (Adjusted Rand Index) (クラスタリングの指標)
 ○ IoU (Intersection over Union) (セグメンテーション,物体検出の指標)
 ○ AP (Average Precision) (物体検出の指標)
 ○ 線形分類器による分解したオブジェクトのAccuracy (形状が正しく分解されているか)
 ○ FID (Fréchet Inception Distance) (生成品質の評価指標)
 
 ● VAE が基本構造となっているため,負の対数尤度による評価が多い 
 Scene Mixture モデルはマスクを生成しており,ARI や IoU を用いた評価が多い (ARI が優勢) 
 Spatial Attention モデルは物体検出をしているため,IoUやAPでの評価が多い 
 GENESIS のように潜在変数からの生成が可能なモデルは FID を使用 
 
 ● 
 ● 
 

  • 90. 画像の OORL のデータセット
 90 合成データが用いられることが多い
 ● 大きく分けると合成データ・実データがある. 
 自作している場合もある. 
 ○ 合成データ (Scene Mixture)
 ■ GQN dataset
 ■ Multi-dSprites
 ■ ShapeStacks
 ■ CLEVR
 ■ 物理シミュレータ系 (自作)
 ■ Atari
 ○ 合成データ (Spatial Attention)
 ■ Moving MNIST
 ■ 物理シミュレータ系 (自作)
 ■ Atari
 ○ 実データ (Scene Mixture)
 ■ Sketchy
 ■ APC (Amazon Picking Challenge dataset) 
 ■ ImageNet (Failure caseとしての紹介)
 
 ● 基本的に合成データでの実験実験 
 ● 実世界データの実験もあるが,あまりうまく行かず,まだまだ発展途上 
 Atari Space Invaders (SPAIRから引用) 
 GQN dataset (MONetから引用) 
 APC (GENESIS-V2から引用) 

  • 91. 動画の OORL の評価指標
 91 使用される評価指標例
 ● 以下の例がある.
 ○ MOT (Multi Object Tracking) の指標
 ○ AMI (Adjusted Mutual Information), ARI (Adjusted Rand Index)
 ○ 再構成誤差
 ○ FVD (Fréchet Video Distance)
 ○ …
 
 ● 物体ごとに検出・追跡する学習の検証のために, MOT の指標が用いられることがある. 
 物体のマスクの精度の検証に, AMI や ARI といったクラスタリングの指標が用いられることがある. 
 生成重視のモデルでは, 動画生成の精度を図る FVD を用いているものもある. 
 
 ● フレームの再構成を行わず OORL を試みる手法もある (e.g. C-SWM, SCN, SetCon). 
 その場合は, slot の特徴量での類似度を使った指標や, 自己教師あり学習 disentanglement での評価を 元して, linear probe を使った評価指標などが提案されている. 
 
 ● 汎化性を確かめるために, 訓練時にはない設定の実験 (e.g. 物体数を増やす) も行う. 
 

  • 92. 動画の OORL のデータセット
 92 合成データが用いられることが多い
 ● 大きく分けると合成データ・実データがある. 
 自作している場合もある. 
 ○ 合成データ
 ■ Bouncing Balls
 ■ MNIST 系 (Moving MNIST など)
 ■ Sprite 系 (Sprites-MOT など)
 ■ CLEVR, CLEVERER
 ■ 物理シミュレータ系
 ■ Atari
 ■ ...
 ○ 実データ
 ■ DukeMTMC などの人物追跡
 ■ BAIR Robot Pushing Dataset
 ■ ...
 ● 現状は, コンセプト確認のためか, 合成データによる実験の方が多い. 
 ● 実データでは, 人物や車などの追跡のデータセットが見られる. 
 ただし, 背景が大きく動かないことが多い. 
 ● 
 
 
 Bouncing Balls 
 (DDPAE. S. van. Steenkiste. ICLR2018 で導入.) 
 Sprites MOT 
 (TBA. Z. He et al. CVPR2019 で導入.) 
 * J. Johnson et al. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning. Presented at CVPR2017.
 ** N. Srivastava et al. Unsupervised Learning of Video Representations using LSTMs. ICML2015.
 CLEVR*
 Moving MNIST** 

  • 93. 下流タスクへの応用・他分野との融合
 93 ● GENESIS の論文中で潜在変数からクラス分類する下流タスクを実施 
 ○ 積んだ物体の「安定かどうか」,「高さ」,「視点位置」をクラス分類 
 ○ しかし,OORL が有効だという有意な結果は得られなかった 
 ○ OORLの潜在表現をどう使うかが今後の課題か 
 
 
 
 ● Visual Question Answering (VQA) と OORL の融合 
 LORL Wang et al., Language-Mediated, Object-Centric Representation Learning, arXiv preprint, 2020. https://arxiv.org/abs/2012.15814
 ○ OORLでうまくセグメンテーションできればVQAの正答率が向上 
 
 
 

  • 94. 3D-aware な画像のシーン分解・生成 
 94 3D の構造の帰納バイアス + OORL
 ● 概要
 ○ 3D 構造の帰納バイアスをモデルに入れる. 
 3D 表現を推論しレンダリングすることで画像を合成. 
 ○ 3D 構造としてここの前景の物体・背景の組み合わせであることを仮定して, OORL の枠組 みと組み合わせる.
 ■ OORL の自然な発展とみなすこともできる. 
 ○ 近年の NN を用いた volume rendering の発展ととも関連. 
 
 ● 3D 表現
 ○ Mesh, Voxel, Point Cloud,
 SDF (Signed Distance Function), NeRF (Neural Radiance Field), … 
 ○ 特に, NeRF は近年のホットトピック! 
 
 
 

  • 95. 3D-aware な画像のシーン分解・生成
 95 ● ROOTS C. Chen et al. Object-Centric Representation and Rendering of 3D Scenes. preprint 2020. https://arxiv.org/abs/2006.06130
 ○ GQN のようにカメラ姿勢を与えて, 複数視点の個々の物体のレンダリングを組み合わせて, シーン全体をレンダリング. 各物体は 3D bbox で表現. 
 ● OOWM E. Crawford and J. Pineau. Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML2020 Workshop. oolworkshop.github.io/OOL_19.pdf at master · oolworkshop/oolworkshop.github.io 
 ○ Video において, 3D の帰納バイアスを入れた, 確率的なモデル. 静的シーンの表現獲得には SRN (Scene Representation Networks) を用い, 動的 シーンの表現獲得には, SQAIR の 3D 版と言えるモデルを用いる. 
 ● O3V P. Henderson et al. Unsupervised object-centric video generation and decomposition in 3D. NeurIPS2020. https://arxiv.org/abs/2007.06705
 ○ Video において, セグメンテーションマスクを予測し物体追跡を行うことで物体と背景を切り分ける. 
 3D 構造を決めるために物体の深度と 3D bbox を予測する. 
 ● POD-Net Y. Du et al. Unsupervised Discovery of 3D Physical Objects from Video. ICLR 2021. https://arxiv.org/abs/2007.12348 
 ○ Video において, 3D の幾何と動きをモデル化することで, 教師なしで物体中心のシーン表現を獲得. 構成要素に分解しマスクと潜在変数を作る推 論モデルと, 各構成要素の 3D 構造を取り出し, 3D の動きを予測し, 画像を作る生成モデルを持つ. 
 
 
ROOTS
 O3V
 OOWM
 POD-Net

  • 96. 3D-aware な画像のシーン分解・生成
 96 ● [NoName] Y. Liao et al. Towards unsupervised learning of generative models for 3d controllable image synthesis. CVPR2020. https://arxiv.org/abs/1912.05237 
 ○ 画像のみを用いて 3D の操作が可能な画像を合成する 3D controllable image synthesis のタスクを定義. 
 物体・背景ごとに 3D の表現を生成し, 2D へレンダリング・2D で生成をすることで, 画像を合成する GAN. 
 ● BlockGAN T. Nguyen-Phuoc et al. BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images. NeurIPS2020. https://arxiv.org/abs/2002.08988 
 ○ 前景の各物体・背景を分けて 3D 特徴空間でモデリングし, 射影することで画像を生成. 
 3D の表現は, 3D grid の特徴量と物体の姿勢を用いて行われる. 学習は 2D の画像のみから行う. 
 ● GIRAFFE M. Niemeyer et al. GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields. CVPR2021. https://arxiv.org/abs/2011.12100v1 
 ○ 各物体の NeRF による3D 表現を GAN に組み込み, 制御可能で写実的な画像を合成. 
 カメラ姿勢もノイズからサンプリングし, 学習は 2D の画像のみから行う. 
 ● ObSuRF K. Stelzner et al. Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation. preprint 2021. https://arxiv.org/abs/2104.01148
 ○ 画像を slot ベースの encoder で物体ごとの潜在変数を獲得し, この潜在変数で条件づけられた NeRF で画像をレンダリング. 
 NeRF の ray marching をポアソン過程とみなし, 深度を教師とすることで, 新しい loss を提案. 
 これにより, RGB-D 画像に対する NeRF の訓練を計算効率よく行う. 
 
 
BlockGAN
 GIRAFFE
 ObSuRF
 [NoName]

  • 97. 97 Contents
 1. 導入
 2. 手法・論文紹介
 3. データセット・評価指標
 4. 下流タスクへの応用・他分野との融合
 5. 今後の展望
 6. 有力研究機関・研究者
 7. 著者紹介

  • 98. 画像の OORL の今後の展望
 98 実世界への応用と下流タスクへの応用
 ● 実世界への応用
 ○ 現状,合成データがほとんどであり,実世界データには適用できていない 
 ■ Sketchy や APC はあるが,まだ学習成功というには怪しい結果 
 ○ 本スライド著者の綱島の研究で,実世界データ適用へ向けて MSCOCO を含んだ14個のデータセッ トで500以 上の実 験を行ったが, 実 世 界 物 体は前 景 背 景の区 別が曖 昧 で根 本 的にかなり
 制約が強い不良設定問題であるため, 補助情報無しにはおそらく解けない (OORL を行う前の事前 表現学習が必要の可能性) 
 綱島秀樹, 邱玥, 片岡裕雄, 森島繁生. “Object-oriented Representation Learningの実世界データ適用に向けた最新手法の性能分析”, Visual Computing 2020, P20, オンライン, 2020年12月. 
 
 ● 下流タスクへの応用 
 ○ 強化学習,ロボットの把持タスク,VQA などの物体それぞれの表現が有効である分野への適用が 考えられる
 ○ しかし,OORL 自体が発展途上のため,OORL 自体の手法が発展することも必要不可欠 
 
 

  • 99. 画像の OORL の今後の展望
 99 OORL 自体の発展と OORL の学習安定性
 ● OORL 自体の発展
 ○ OORL は全てのコンポーネントに分解する Scene Mixture モデルよりも前景背景で取り扱うSPACE (前景は Spatial Attention,背景は Scene Mixture) の系統の発展が有力か 
 ○ Scene MixtureはGENESIS-V2のように 分解数が固定でない手法 の発展が期待される 
 ○ Spatial AttentionはYOLO-likeな仕組みで現在は動いているが, 最新の物体検出の仕組み が
 取り入れられれば,さらに性能改善が期待されるか (Anchor-freeベースなど) 
 
 ● OORLの学習安定性 
 ○ OORLは教師無し学習のため, 非常に学習が不安定 
 ○ 本スライド著者の綱島の研究では, オリジナルのSPACEは6/10でしか学習に成功しない が,潜在変 数が事後分布崩壊を起こしていることを明らかにし,VAEの学習の際のKLDに周期性アニーリング を取り入れることで学習を安定化させた 
 綱島秀樹, 大川武彦, 相澤宏旭, 片岡裕雄, 森島繁生. “Object-aware表現学習の安定化のためのKLダイバージェンスの周期性アニーリング”, MIRU2020, IS3-2-33, オンライン, 2020年8月. 
 ○ OORLは手法自体の発展も必要だが,安定性も非常に重要な課題 
 
 

  • 100. 動画の OORL の今後の展望
 100 実動画への応用・手法の改良
 ● 実動画への応用
 ○ 現状, 合成されたデータセットで実験されることが多い. 
 実動画で実験された手法もあるが (e.g. TBA, OP3, SCALOR, RELATE, GATSBI etc)背景の動きが比較的少ないも のに限られている印象がある. 
 ○ あらゆる実動画に対応するのは難しいと考えらえるが, 限られた条件の下では, より実用に近い動 画への応用がされ始めるのではないか. 
 
 ● 手法の改良
 ○ SQAIR でモデルが複雑であることが指摘されている. 
 モデルの複雑さや計算量の問題は改良・改善されているものの, モジュール数も増加. 
 実動画への応用のためにも, さらに整理され改良される必要があるだろう. 
 ○ 現在の手法は, フレームごとの再構成や生成モデルを用いるものが主流. 
 動画像の自己教師ありの表現学習手法が注目される中で, ピクセルレベルの再構成に頼らない表 現獲得の手法 (e.g. C-SWM, SCN, SetCon) もより発展していくと考えられる. 
 ● 
 
 

  • 101. 動画の OORL の今後の展望
 101 評価指標と他のタスク・手法との関連
 ● 評価指標について
 ○ 再構成された動画・画像のピクセルを元にした評価が中心だった. 
 再構成しない手法に合わせた表現自体の評価や, 下流タスクでの評価もより求められてくる. 
 ○ 共通のベンチマークデータセット・評価プロトコルがない問題も指摘されている. 
 例えば, ViMON の preprint では異なる性質を持つデータセットと MOT の評価指標を提案している が, 広く認知されているとは言えない. 
 今後, 共通のベンチマークデータセット・評価指標を確立する試みが期待される. 
 
 ● 期待される応用タスク・他の手法との融合 
 ○ 強化学習・因果推論への応用. 既に応用はみられるが, 今後も増加するだろう. 
 ○ 動画の自己教師あり学習の手法の適用・自己教師あり手法への応用. 
 ○ 3D 表現との融合. 近年の NN を用いた volume rendering の技術との更なる融合に期待. 
 
 

  • 102. 102 有力研究機関
 ● Rutgers University / Rutgers Machine Learning Group 
 ○ Sungjin Ahn がリーダーのグループ. J. Jiang や Z. Linなども所属.
 既存のモデルを組み合わせて改良し, OORL の SOTA モデルを次々作成.
 ○ 代表論文
 ■ SPACE (SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition. ICLR 2020.)
 ■ SCALOR (SCALOR: Generative World Models with Scalable Object Representations. ICLR 2020.)
 ■ G-SWM (Improving Generative Imagination in Object-Centric World Models. ICML 2020.)
 ■ GNM (Generative Neurosymbolic Machines. NeurIPS 2020.)
 ■ ROOTS (Object-Centric Representation and Rendering of 3D Scenes. preprint 2020.)
 
 
 
 ● University of Oxford / Applied Artificial Intelligence Lab 
 ○ PI の Ingmar Posner の下で, A. R. Kosiorek や M. Engelcke らが研究.
 OORL の分野で, 重要な研究を継続的に出している.
 ○ 代表論文
 ■ SQAIR (Sequential attend, infer, repeat: Generative modelling of moving objects. NeurIPS 2018.)
 ■ GENESIS (GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations. ICLR 2020.)
 ■ RELATE (RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces. NeurIPS 2020.)
 ■ GENESISV2 (GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement. preprint 2021.)
 

  • 103. 103 有力研究機関 / 有力研究者
 ● DeepMind
 ○ Unsupervised learening and generative models がテーマの 1 つで重点的に研究. 
 共著者が多く, 協力して研究いる印象. A. R. Kosiorek も加わった.
 ○ 代表論文
 ■ AIR (Attend, Infer, Repeat: Fast Scene Understanding with Generative Models. NIPS 2016.)
 ■ MONet (MONet: Unsupervised Scene Decomposition and Representation. preprint 2019.)
 ■ COBRA (COBRA: Data-efficient model-based rl through unsupervised object discovery and curiosity-driven. preprint 2019.)
 
 
 
 ● Eric Crawford 氏 & Joelle Pineau 氏 
 (McGill University / Reasoning and Learning Lab.) 
 ○ SPAIR での detector の導入で OORL の発展に寄与. 最近は 3D 構造を利用した OORL へも取り組む.
 ○ 代表論文
 ■ SPAIR (Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks. AAAI 2019.)
 ■ SILOT (Exploiting Spatial Invariance for Scalable Unsupervised Object Tracking. AAAI 2020.)
 ■ OOWM (Learning 3D Object-Oriented World Models from Unlabeled Videos. ICML 2020 Workshop.)
 
 

  • 104. 104 有力研究者
 ● Klaus Greff 氏 (Swiss AI Lab IDSIA) 
 ○ S. van Steenkiste と共に J. Schmidhuber (World Models の著者でもある大御所) の下で研究. 
 ○ 最近 Greff, Steenkiste, Schmidhuber で NN の表現を実際の物体に紐づける
 binding problem のサーベイ論文も発表.
 ○ 代表論文
 ■ N-EM (Neural expectation maximization. NeurIPS 2017.)
 ■ R-NEM (Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions. ICLR 2018.)
 ■ IODINE (Multi-Object Representation Learning with Iterative Variational Inference. ICML 2019.)
 
 
 
 ● Thomas Kipf 氏 (Google Brain)
 ○ Graph NN を用いた表現学習の第一人者.
 ○ VAE など多くの貢献がある Max Welling の弟子.
 Max Welling との GCNs の論文 (Semi-Supervised Classification with Graph Convolutional Networks. ICLR 2017.) も有名.
 ○ 代表論文
 ■ Slot Attention (Object-Centric Learning with Slot Attention. NeurIPS 2020.)
 ■ C-SWM (Contrastive Learning of Structured World Models. ICLR 2020.)

  • 105. 105 著者紹介
 ● 古川 遼 (株式会社 ALBERT*)
 ○ 近年は, 深層学習を用いた動画像の分析案件や研究開発の業務に従事. 
 ○ 興味のある分野は, 動画像の深層生成モデル. 最近は 3D 関連も.
 ○ 大学院時代は数学 (トポロジー) が専門. 幾何学や図形が好き. 
 ○ 食べること・テニス (の動画を見てイメトレ) などが好き. 
 * 本資料は, あくまで個人の見解によるものです.
 
 ● 綱島 秀樹 (早稲田大学 物理学及応用物理学専攻 森島繁生研究室 博士2年) 
 ○ 専門分野は深層生成モデル
 ○ 興味:動画の表現学習,コモンセンスの獲得,パーシステントホモロジー 
 ○ 趣味:筋トレ,音楽ゲーム,FPS (CoD),アメフト,大食いyoutuber視聴 
 ○ 一言:汎用人工知能に憧れがあり,実現に近づけるよう巨人を作っていきたいです 
 ○ 好きな筋肉:上腕三頭筋,大腿四頭筋 

  • 106. Contents 1. Unpaired Image-to-Image Translation 2. Neural Radiance Fields 3. Object-oriented Representation Learning 4. Domain Adaptation
  • 108. ドメインシフト問題 108 大規模データ資源を活用し適用先へ知識転移をする 大規模データ (ソース) を活用した機械学習が成功を収めているが,実用上の適用先 (ター ゲット) に対しても教師ラベルをつけるのはコストがかかる → ソースの知識を活用して,効率的にターゲット上での性能を上げたい ここでは,ソースとターゲット間でドメインシフト (i.e., データセット分布の不整合 ) が障壁と なる コンピュータビジョンにおいては,解像度,照明条件,視点,背景などの相違によって起こる.
  • 109. Domain Adaptation 109 教師なし転移学習(厳密には,Transductive Transfer Learning) の一種 教師あり転移学習 (fine-tuning) と異なり,Domain Adaptationではターゲットドメインに教師 ラベルを仮定しない タスクは,クラス分類,物体検出,セグメンテーションなど [L. Zhang, arXiv’19.]
  • 111. Domain Adaptationの流派 特徴量分布の乖離    を解消すれば良い 1. 特徴量ベース手法 特徴量分布をドメイン間でマッチングして,特徴抽出器 𝐺がドメイン不変特徴量を出力するように設計する.素直 なアプローチで,最も利用される. 2. 生成ベース手法 ソースとターゲット間で画像変換モデルを学習し,ソースラベルを持ちターゲットの見えを持つ擬似ターゲット画 像を生成する.これをもとにターゲットドメインの学習器を構築する.入力空間でもギャップを埋める方針である. 深層生成モデルの研究から派生したものが多い. 3. 自己学習ベース手法 モデルの予測からターゲットデータに擬似的な正解ラベルを生成し,学習に使用する (擬似ラベリング).その他 に,半教師あり学習や自己教師あり学習から派生したものなど.
  • 112. 特徴量ベース手法 112 1. 分布間距離の最小化 MMD等の分布間の統計量をもとに誤差を算出する ドメイン間でCNNの深い層の特徴量平均を整合させ, 周辺分布のマッチングをする 2. 敵対的学習による整合 ドメイン識別器はどちらのドメインの特徴量か 見分け,特徴抽出器はドメイン不変の特徴を 生成するように学習する 3. 正規化層を利用 ドメイン毎でバッチ正規化することで,特徴量 を整合させる [E. Tzeng+, arXiv’14] 分離した特徴抽出器から敵対的学習 [E. Tzeng+, CVPR’17] 共通の特徴抽出器から敵対的学習 [Y. Ganin+, ICML’15] [Y. Li+, ICLRW’17] ドメイン識別器 (赤点線)
  • 113. 生成ベース手法 113 1. CycleGANを使用 [J. Hoffman+, ICLR’18] 2. Style Transferを使用 [M. Kim+, CVPR’20] ターゲット→ソースへ画 像変換 ソース→ターゲットへ画 像変換 擬似ターゲットデータを 真のターゲット分布へ近づける (ピクセルレベル) 擬似ターゲットデータを 真のターゲット分布へ近づける (特徴量レベル)
  • 114. 自己学習ベース手法 114 擬似ラベリング [D.H Lee, ICMLW’13] クラス情報も含めて特徴空間を学習できる 2体の分類器による合議による擬似ラベルの決定 [K. Saito+, ICML’17] その他: クラス毎の確信度に応じて擬似ラベルの学習を調整 [Y. Zou+, ECCV’18] クラスタリングによる擬似ラベリングとそのカリキュラム学習 [C, Chen+, CVPR’19] 自己教師タスクも追加で学習 [Y. Sun+, arXiv’19] その他: エントロピー最小化を導入する [Y. Zou+, NeurIPS’16, T.H. Vu+, CVPR’19] データ拡張をもとに拡張前後の一貫性を導入 [Y. Sun+, NeurIPS’20] 擬似ラベルをもとにクラス条件付き分布を計算し,MMDでマッチ ング [M. Long+, ICCV’13]
  • 115. Domain Adaptationの限界 データ・アルゴリズム上の制約と実世界制約とのギャップ 1. べらぼうに大きなドメインシフト        には対処できない → Negative Transfer (i.e., 適応の失敗) が生じ,その発生が事前に見積もれない アルゴリズムの良し悪し,データの品質,ドメインシフトの大きさに依存 [Z. Wang+, CVPR’19, W. Zhang+, TKDE’20] 2. ラベル空間と分布に関する仮定は強くないか!? (再掲: 共通のラベル空間かつラベリングは共通 : → ラベル分布の相違を考慮したDomain Adaptation (e.g., Target shift [K. Zhang+, ICML’13, R. Takahashi+, ECCV’20]) → ラベル空間の相違を考慮したDomain Adaptation (e.g., Partial DA [Z. Cao+, CVPR’18, J. Zhan+, CVPR’18], Open-set DA [Busto+, ICCV‘17, K. Saito+, ECCV’18], Universal DA [Y. You+, CVPR’19, Q. Yu+, CVPR’21])
  • 116. Domain Adaptationの派生形と周辺分野との融合 116 ▪ ターゲットに少数の教師ラベルを仮定 (半教師あり [Saito+, ICCV’19], Few shot [S. Motiian+, NeurIPS’17]) ▪ マルチドメインへ拡張 (Multi source [H. Zhao+, NeurIPS’18], Multi target [O. Rudovic+, TIP’20], Federated learning [X. Peng+, ICLR’20]) ▪ ドメインが動的に変化する (Incremental DA [Hoffman+, CVPR’14, M. Wulfmeier+, ICRA’18], Open compound [Ziwei Liu+, CVPR’20]) ▪ 映像間の適応へ拡張 [M.H Chen+, ICCV’19] ▪ ソースデータのプライバシーを考慮 (Source free [J. Liang+, ICML’20, J. N. Kundu+, CVPR’20, R. Li+, CVPR’20], Test-time adaptation [D. Wang+, ICLR’21]) ▪ Active Learningとの統合 [P. Rai+, NAACL-HLTW’10, J.C. Su+, CVPR’19] ▪ 応用タスクの拡張 (e.g., Person ReID, Sim2Real, Depth/Gaze estimation, Medical tasks)
  • 117. Domain Adaptationサーベイまとめ ターゲットに教師ラベルを仮定しない効率的な転移学習 ▪ 基本3流派: 特徴量ベース手法,生成ベース手法,自己学習ベース手法 ▪ 特徴空間におけるアライメント ▪ 入力空間におけるドメインシフトの部分的解消 ▪ ターゲットドメインを直接的に学習 ▪ データ・アルゴリズム上の制約と実世界制約とのギャップが今後の課題に ▪ Negative Transferの問題 ▪ ラベル空間と分布の仮定を緩めた一般的な設定へ ▪ さらなる応用への展開 ▪ ターゲットドメインに少数の教師ラベルを仮定 ▪ ドメインを複数に,動的に,そして,映像も扱えるように ▪ 人間の介入やプライバシー問題 ▪ タスクの拡張
  • 118. 118 著者紹介
 ● 大川武彦 (東京大学 佐藤洋一研 修士学生) 
 ○ 専門:ドメイン適応,生成モデリング,一人称ビジョン,視覚言語統合 
 ○ 興味:適応的な視覚情報処理,人物行動理解とそのモデリング