SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Few-Shot Unsupervised Image-to-ImageTranslation
Kento Doi, Iwasaki lab (the Department of Aeronautics and
Astronautics)
書誌情報
• 書誌情報
– 論文誌 : arXiv
– 日時 : 2019/05/05
– 著者 : NVIDIAの研究グループ
• 概要
– Few-shot画像変換
(変換先のクラスを数枚与える
だけでそのクラスに変換)
2
発表内容
• 本発表では, 同じ著者の論文を順に追っていきます
– Unsupervised Image-to-Image Translation Networks (UNIT)
– Multimodal Unsupervised Image-to-Image Translation (MUNIT)
– Few-Shot Unsupervised Image-to-Image Translation (FUNIT)
– 全て教師なし画像変換に関する論文
• Few-shot画像変換が実現するまで, どのようにアルゴリズムが発展してき
たかを確認
• その他関連する論文も適宜紹介
3
発表内容
1. 画像変換とは
2. Unsupervised Image-to-Image Translation Networks
3. Multimodal Unsupervised Image-to-Image Translation
4. Few-Shot Unsupervised Image-to-Image Translation
5. まとめ
4
画像変換とは
• 画像変換とは?
– 画像をあるドメインから異なるドメインへ変換する
• 教師なし画像変換とは?
– 学習データの画像がペアで与えられない
• e.g. ) Cycle GAN
5
P. Isola et al. “Image-to-ImageTranslation with ConditionalAdversarial Networks”,CVPR, 2017.
J. Zhu et al. “Unpaired Image-to-ImageTranslation using
Cycle-Consistent Adversarial Networks”, ICCV, 2017.
UNIT : お気持ち
• 教師なし画像変換の問題を以下のように定義
– 2つのドメインの画像集合の周辺分布 , から,
それらの同時確率分布 を推定
• しかし, このような問題では, 無数の同時確率分布が存在する
2つのデータ集合の潜在表現が共通であるという仮定 (制限) を与える
6M. Liu et al. “Unsupervised Image-to-ImageTranslation Networks”, NIPS, 2017.
UNIT : 提案手法
• ネットワーク構造
– VAE + GAN (VAE-GAN)
– ドメインごとにE, G, Dがある
– 一部の層で重みを共有 (右図点線 CoGAN)
– 潜在表現の分布が共通と仮定
• 損失関数
– VAE loss
– GAN loss
– Cycle consistency loss
7
UNIT : 実験 (画像変換)
8M. Liu et al. “Unsupervised Image-to-ImageTranslation Networks”, NIPS, 2017.
UNIT : 実験 (ドメイン適応)
• 以下のマルチタスク学習
1. ソースドメインとターゲットドメインで画像変換
2. ソースドメインの画像をdiscriminatorから得た特徴で分類
3. 変換前後の画像でdiscriminatorの出力が近くなるように
9
M. Liu et al. “Unsupervised Image-to-ImageTranslation Networks”, NIPS, 2017.
UNIT : まとめ
• 潜在空間が共通であるという仮定を基に, 教師なし画像変換のフレーム
ワークを提案
– VAE-GAN, Coupled GANベースのネットワーク構造
– VAE loss, GAN loss, Cycle consistency lossでモデルを学習
• 以下の実験で手法の有効性を確認
– 複数データセットにおける画像変換を定性的に確認
– ドメイン適応における分類スコアを他の手法と比較
10
MUNIT : お気持ち
• ターゲットドメインがマルチモーダルという問題設定
• 既存手法(pix2pixやcycle GAN)ではマルチモーダルな変換を扱うことができない
– 入力にノイズを入れて生成を確率的にしているが, あまり効いていない (pix2pix 参照)
• 本論文では潜在表現をcontentとstyleにdisentangle (分解) することにより実現
– Content … 空間的な構造に関する情報, ドメイン不変
– Style … rendering (外観)に関する情報,ドメイン固有
11
Big catから
house cat
への変換
House catには
色々な種類がいる
(マルチモーダル)
X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
MUNIT : 提案手法
• どのようにdisentangleするか
• それぞれの潜在表現に以下の仮定を適用
– Content codeは空間情報を含む高次元の特徴マップ
• 複雑な空間的構造を表現できるように
– Style codeは空間情報を含まない比較的次元が低い特徴ベクトル
• ガウシアンからサンプル
• Style codeの効果は大域的かつ比較的シンプルであるため
12X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
MUNIT : 提案手法
• 以下のLossで学習
– 再構成誤差
– 潜在表現の再構成誤差
– Adversarial Loss (生成画像の質)
13
X. Huang et al. “MultimodalUnsupervised Image-to-Image
Translation”, ECCV, 2018.
MUNIT : 実験結果
• Edge to Shoe
– スタイルは正規分布からサンプル
14X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
既存手法でマルチモー
ダルな変換は難しい
提案手法は多様な画像
を生成できた
教師ありの手法
MUNIT : 実験結果
• Animal to Animal
– かなり多様な画像に変換できている感じがある
– 顔の向きは保存されている (content と style をうまくdisentangleできている)
15X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
MUNIT : 実験結果
• Example-basedな画像変換
– 2枚の画像の content と style を入れ替える
16X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
MUNIT : まとめ
• 特徴空間をcontentとstyleにdisentangleすることにより, 教師なし学習による
マルチモーダルな画像変換を実現
• 実験では画像の質と多様性を評価
– 既存の教師なしの手法を大きく上回った
– 教師ありの手法に近い結果
17
FUNIT : 概要
• Few-shot 教師なし画像変換
– ソースクラスからターゲットクラスへの画像変換
– テスト時は, 未知のターゲットクラスの画像が数枚のみ与えられる
– 過去の経験を活用して未知のクラスも効率的に対処できることを目指す
– 例) 色々な犬を見た経験があれば未知の犬種でも特徴を捉えられる/整理できる
• いくつかのデータセットで検証
– 動物の顔
– 鳥
– 花
– 食べ物
18
FUNIT : お気持ち
• 特徴表現のdisentangleの活用
– クラス不変な特徴 … 空間的な構造に関する情報
– クラス固有の特徴 … 外観に関する構造
 Few-shotの画像変換では, クラス固有の特徴を少ないデータから, いかに
取り出し, 変換に反映させるかが課題となる
– ネットワークアーキテクチャの工夫
– 学習方法の工夫
19
FUNIT : ネットワーク構造
• Generatorは3つの部分からなる
– content encoder
– class encoder
– decoder
20
FUNIT : ネットワーク構造
• Generatorは3つの部分からなる
– content encoder
– class encoder
– decoder
21
Content image (変換元画像)を
Content Code (ドメイン不変の
特徴) に変換
FUNIT : ネットワーク構造
• Generatorは3つの部分からなる
– content encoder
– class encoder
– decoder
22
Class Image (変換先画像) から
Class Code (クラス固有の特徴)
を抽出
• 複数枚の結果を平均
FUNIT : ネットワーク構造
• Generatorは3つの部分からなる
– content encoder
– class encoder
– decoder
23
Content Code (ドメイン不変の特徴) とClass
Code (ドメイン固有の特徴)から画像を生成
• ResBlockの正規化はAdaIN (Adaptive
Instance Normalization)
• Class Codeは, AdaINの際のAffine変換のパ
ラメータとして入力される
Adaptive Instance Normalization (AdaIN)
• スタイル変換の論文(8で紹介された手法
– 特徴マップを平均, 分散で正規化したのちにスケールとバイアスを与える
– スケールとバイアスによりスタイルを制御
• 特徴マップのスケールはGANでも重要
– 最新のcGANでは, クラスを特徴マップのスケールにより制御(9, 10
 特徴マップのスケールを学習することで狙ったクラスの画像が生成できるようになる?
24
μ(x), σ(x)は特徴マップの平均・分散 X. Huang and S. Belongie. Arbitrary style transfer in realtime with
adaptive instance normalization. ICCV, 2017.
FUNIT : ネットワーク構造
• Discriminator
– 出力次元がクラス数と同じ
– クラス の真偽を判定
25
FUNIT : 学習方法
• : 入力画像, : 変換画像, : ターゲット画像 (全K枚)
• Adversarial loss
• 再構成誤差
• feature matching loss
• これらの和を目的関数とする
26
生成画像とターゲット
画像間のfeatureの誤差
は最終層を除いた
discriminator
FUNIT : 実験
• ハイパーパラメータ
–
– 学習率 : 0.0001
– 最適化 : RMSProp
– Adversarial loss : hinge loss
– K : 学習時 1, テスト時1, 5, 10, 15, 20
• データセット
– Animal Faces : ImageNetから肉食獣のクラスを抽出し構築
– Birds : 北米の555種類の鳥の種類を集めたデータセット, 全48527枚
– Flowers : 102種類の花の画像, 全8189枚
– Foods : 256種類の食べ物画像のデータセット, 全31395枚, 電通大
– いずれも学習時に用いるソースクラスと, テスト時に用いられるターゲットクラスに分割
27
T. Miyato and M. Koyama. “cGANs with projection discriminator”, ICLR, 2018.
FUNIT : 実験
• ベースライン
– Fair … FUNITと同じ条件 (ターゲットクラスは学習時に用いない)
• StarGAN-Fair-K : StarGAN(12の拡張
– Unfair … ターゲットクラス (K枚) も使用して学習
• StarGAN-Unfair-K
• CycleGAN-Unfair-K
• UNIT-Unfair-K
• MUNIT-Unfair-K
28
FUNIT : 実験
• 評価方法
– ソースクラスから25,000枚の画像をサンプル
– ターゲットクラスの画像を各クラスK枚ずつサンプル (K=1, 5, 10, 15, 20)
– 画像変換を行い結果を比較
• 評価指標
– 4つの観点から評価
1. Translation Accuracy … 分類器により, 生成された画像が正しいクラスに分類されるか
2. Content Preservation … domain invariant perceptual distance (Instance Normalization してから特徴マップ
の距離を計算する)
3. Photorealizm … Inception Scoreで計算
4. Distribution Matching … FID score (ターゲットクラスごとに計算し平均)
29
FUNIT : 実験結果
• Animal Faces と North
American Birds データ
セットにおける実験結果
• 全ての指標で提案手法
は高い性能を示した
– Unfairよりも良い
30
FUNIT : 実験結果
• StarGANとの比較
31
FUNIT : 実験結果
• 学習データのクラス数と画像生成の性能の関連
– 生成画像の質の外観に関する指標は上昇
– ドメイン不変の特徴に関する指標はそんなに変わらず
32
FUNIT : 実験結果
• Content CodeはそのままでClass codeをinterpolation
33
FUNIT : 実験結果
• (上) クラウドソーシングを利用し画像の質を評価して
もらった結果
– ほとんど勝っている
34
FUNIT : 実験結果
• ソース画像とターゲット画像が
大きく異なる場合
– うまく変換できない
– 色が変わるだけ
– 当たり前な気がする
35
FUNIT : 実験結果
• 生成画像の
例 (K=5)
36
FUNIT : 実験結果
37
• 生成画像の
例 (K=5)
FUNIT : まとめ
• Few-shot 教師なし画像変換手法を提案
– 特徴表現のdisentangleを活用
– クラス固有の表現の抽出をうまく汎化できた
• 以下の要因が生成画像の質を左右
– 学習データのクラス数
– テスト時のターゲットデータの数
• ソース画像とターゲット画像が大きく異なると変換不可能
38
参考文献
1. M. Liu et al. “Few-Shot Unsupervised Image-to-Image Translation”, arXiv, 2019.
2. M. Liu et al. “Unsupervised Image-to-Image Translation Networks”, NIPS, 2017.
3. X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018.
4. P. Isola et al. “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017.
5. J. Zhu et al. “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”,
ICCV, 2017.
6. A. B. L. Larsen, S. K. Sønderby, H. Larochelle, and O. Winther. “Autoencoding beyond pixels using a
learned similarity metric”, International Conference on Machine Learning, 2016.
7. M.-Y. Liu and O. Tuzel. “Coupled generative adversarial networks”, Advances in Neural Information
Processing Systems, 2016.
8. X. Huang and S. Belongie. Arbitrary style transfer in realtime with adaptive instance normalization. In
IEEE International Conference on Computer Vision (ICCV), 2017.
9. T. Miyato and M. Koyama. “cGANs with projection discriminator”, ICLR, 2018.
10. T. Park et al. “Semantic Image Synthesis with Spatially-Adaptive Normalization”, arXiv, 2019.
11. A. Noguchi et al. “Image Generation from Small Datasets via Batch Statistics Adaptation”, arXiv, 2019.
39
12. Y. Choi et al. “StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image
Translation”, CVPR, 2018.
40

More Related Content

What's hot

[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
Kota Nagasato
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
Deep Learning JP
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 

What's hot (20)

[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 

Similar to [DL輪読会]Few-Shot Unsupervised Image-to-Image Translation

Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
 
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
Hiroharu Kato
 
Attention-Guided GANについて
Attention-Guided GANについてAttention-Guided GANについて
Attention-Guided GANについて
yohei okawa
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
Deep Learning JP
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
cvpaper. challenge
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
Yuki Yamashita
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"
Yusuke Iwasawa
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
Takashi YAMAMURA
 

Similar to [DL輪読会]Few-Shot Unsupervised Image-to-Image Translation (20)

Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
 
Attention-Guided GANについて
Attention-Guided GANについてAttention-Guided GANについて
Attention-Guided GANについて
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
 

More from Deep Learning JP

【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Recently uploaded

This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 

Recently uploaded (14)

This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 

[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Few-Shot Unsupervised Image-to-ImageTranslation Kento Doi, Iwasaki lab (the Department of Aeronautics and Astronautics)
  • 2. 書誌情報 • 書誌情報 – 論文誌 : arXiv – 日時 : 2019/05/05 – 著者 : NVIDIAの研究グループ • 概要 – Few-shot画像変換 (変換先のクラスを数枚与える だけでそのクラスに変換) 2
  • 3. 発表内容 • 本発表では, 同じ著者の論文を順に追っていきます – Unsupervised Image-to-Image Translation Networks (UNIT) – Multimodal Unsupervised Image-to-Image Translation (MUNIT) – Few-Shot Unsupervised Image-to-Image Translation (FUNIT) – 全て教師なし画像変換に関する論文 • Few-shot画像変換が実現するまで, どのようにアルゴリズムが発展してき たかを確認 • その他関連する論文も適宜紹介 3
  • 4. 発表内容 1. 画像変換とは 2. Unsupervised Image-to-Image Translation Networks 3. Multimodal Unsupervised Image-to-Image Translation 4. Few-Shot Unsupervised Image-to-Image Translation 5. まとめ 4
  • 5. 画像変換とは • 画像変換とは? – 画像をあるドメインから異なるドメインへ変換する • 教師なし画像変換とは? – 学習データの画像がペアで与えられない • e.g. ) Cycle GAN 5 P. Isola et al. “Image-to-ImageTranslation with ConditionalAdversarial Networks”,CVPR, 2017. J. Zhu et al. “Unpaired Image-to-ImageTranslation using Cycle-Consistent Adversarial Networks”, ICCV, 2017.
  • 6. UNIT : お気持ち • 教師なし画像変換の問題を以下のように定義 – 2つのドメインの画像集合の周辺分布 , から, それらの同時確率分布 を推定 • しかし, このような問題では, 無数の同時確率分布が存在する 2つのデータ集合の潜在表現が共通であるという仮定 (制限) を与える 6M. Liu et al. “Unsupervised Image-to-ImageTranslation Networks”, NIPS, 2017.
  • 7. UNIT : 提案手法 • ネットワーク構造 – VAE + GAN (VAE-GAN) – ドメインごとにE, G, Dがある – 一部の層で重みを共有 (右図点線 CoGAN) – 潜在表現の分布が共通と仮定 • 損失関数 – VAE loss – GAN loss – Cycle consistency loss 7
  • 8. UNIT : 実験 (画像変換) 8M. Liu et al. “Unsupervised Image-to-ImageTranslation Networks”, NIPS, 2017.
  • 9. UNIT : 実験 (ドメイン適応) • 以下のマルチタスク学習 1. ソースドメインとターゲットドメインで画像変換 2. ソースドメインの画像をdiscriminatorから得た特徴で分類 3. 変換前後の画像でdiscriminatorの出力が近くなるように 9 M. Liu et al. “Unsupervised Image-to-ImageTranslation Networks”, NIPS, 2017.
  • 10. UNIT : まとめ • 潜在空間が共通であるという仮定を基に, 教師なし画像変換のフレーム ワークを提案 – VAE-GAN, Coupled GANベースのネットワーク構造 – VAE loss, GAN loss, Cycle consistency lossでモデルを学習 • 以下の実験で手法の有効性を確認 – 複数データセットにおける画像変換を定性的に確認 – ドメイン適応における分類スコアを他の手法と比較 10
  • 11. MUNIT : お気持ち • ターゲットドメインがマルチモーダルという問題設定 • 既存手法(pix2pixやcycle GAN)ではマルチモーダルな変換を扱うことができない – 入力にノイズを入れて生成を確率的にしているが, あまり効いていない (pix2pix 参照) • 本論文では潜在表現をcontentとstyleにdisentangle (分解) することにより実現 – Content … 空間的な構造に関する情報, ドメイン不変 – Style … rendering (外観)に関する情報,ドメイン固有 11 Big catから house cat への変換 House catには 色々な種類がいる (マルチモーダル) X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
  • 12. MUNIT : 提案手法 • どのようにdisentangleするか • それぞれの潜在表現に以下の仮定を適用 – Content codeは空間情報を含む高次元の特徴マップ • 複雑な空間的構造を表現できるように – Style codeは空間情報を含まない比較的次元が低い特徴ベクトル • ガウシアンからサンプル • Style codeの効果は大域的かつ比較的シンプルであるため 12X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
  • 13. MUNIT : 提案手法 • 以下のLossで学習 – 再構成誤差 – 潜在表現の再構成誤差 – Adversarial Loss (生成画像の質) 13 X. Huang et al. “MultimodalUnsupervised Image-to-Image Translation”, ECCV, 2018.
  • 14. MUNIT : 実験結果 • Edge to Shoe – スタイルは正規分布からサンプル 14X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018. 既存手法でマルチモー ダルな変換は難しい 提案手法は多様な画像 を生成できた 教師ありの手法
  • 15. MUNIT : 実験結果 • Animal to Animal – かなり多様な画像に変換できている感じがある – 顔の向きは保存されている (content と style をうまくdisentangleできている) 15X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
  • 16. MUNIT : 実験結果 • Example-basedな画像変換 – 2枚の画像の content と style を入れ替える 16X. Huang et al. “MultimodalUnsupervised Image-to-ImageTranslation”, ECCV, 2018.
  • 17. MUNIT : まとめ • 特徴空間をcontentとstyleにdisentangleすることにより, 教師なし学習による マルチモーダルな画像変換を実現 • 実験では画像の質と多様性を評価 – 既存の教師なしの手法を大きく上回った – 教師ありの手法に近い結果 17
  • 18. FUNIT : 概要 • Few-shot 教師なし画像変換 – ソースクラスからターゲットクラスへの画像変換 – テスト時は, 未知のターゲットクラスの画像が数枚のみ与えられる – 過去の経験を活用して未知のクラスも効率的に対処できることを目指す – 例) 色々な犬を見た経験があれば未知の犬種でも特徴を捉えられる/整理できる • いくつかのデータセットで検証 – 動物の顔 – 鳥 – 花 – 食べ物 18
  • 19. FUNIT : お気持ち • 特徴表現のdisentangleの活用 – クラス不変な特徴 … 空間的な構造に関する情報 – クラス固有の特徴 … 外観に関する構造  Few-shotの画像変換では, クラス固有の特徴を少ないデータから, いかに 取り出し, 変換に反映させるかが課題となる – ネットワークアーキテクチャの工夫 – 学習方法の工夫 19
  • 20. FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder 20
  • 21. FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder 21 Content image (変換元画像)を Content Code (ドメイン不変の 特徴) に変換
  • 22. FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder 22 Class Image (変換先画像) から Class Code (クラス固有の特徴) を抽出 • 複数枚の結果を平均
  • 23. FUNIT : ネットワーク構造 • Generatorは3つの部分からなる – content encoder – class encoder – decoder 23 Content Code (ドメイン不変の特徴) とClass Code (ドメイン固有の特徴)から画像を生成 • ResBlockの正規化はAdaIN (Adaptive Instance Normalization) • Class Codeは, AdaINの際のAffine変換のパ ラメータとして入力される
  • 24. Adaptive Instance Normalization (AdaIN) • スタイル変換の論文(8で紹介された手法 – 特徴マップを平均, 分散で正規化したのちにスケールとバイアスを与える – スケールとバイアスによりスタイルを制御 • 特徴マップのスケールはGANでも重要 – 最新のcGANでは, クラスを特徴マップのスケールにより制御(9, 10  特徴マップのスケールを学習することで狙ったクラスの画像が生成できるようになる? 24 μ(x), σ(x)は特徴マップの平均・分散 X. Huang and S. Belongie. Arbitrary style transfer in realtime with adaptive instance normalization. ICCV, 2017.
  • 25. FUNIT : ネットワーク構造 • Discriminator – 出力次元がクラス数と同じ – クラス の真偽を判定 25
  • 26. FUNIT : 学習方法 • : 入力画像, : 変換画像, : ターゲット画像 (全K枚) • Adversarial loss • 再構成誤差 • feature matching loss • これらの和を目的関数とする 26 生成画像とターゲット 画像間のfeatureの誤差 は最終層を除いた discriminator
  • 27. FUNIT : 実験 • ハイパーパラメータ – – 学習率 : 0.0001 – 最適化 : RMSProp – Adversarial loss : hinge loss – K : 学習時 1, テスト時1, 5, 10, 15, 20 • データセット – Animal Faces : ImageNetから肉食獣のクラスを抽出し構築 – Birds : 北米の555種類の鳥の種類を集めたデータセット, 全48527枚 – Flowers : 102種類の花の画像, 全8189枚 – Foods : 256種類の食べ物画像のデータセット, 全31395枚, 電通大 – いずれも学習時に用いるソースクラスと, テスト時に用いられるターゲットクラスに分割 27 T. Miyato and M. Koyama. “cGANs with projection discriminator”, ICLR, 2018.
  • 28. FUNIT : 実験 • ベースライン – Fair … FUNITと同じ条件 (ターゲットクラスは学習時に用いない) • StarGAN-Fair-K : StarGAN(12の拡張 – Unfair … ターゲットクラス (K枚) も使用して学習 • StarGAN-Unfair-K • CycleGAN-Unfair-K • UNIT-Unfair-K • MUNIT-Unfair-K 28
  • 29. FUNIT : 実験 • 評価方法 – ソースクラスから25,000枚の画像をサンプル – ターゲットクラスの画像を各クラスK枚ずつサンプル (K=1, 5, 10, 15, 20) – 画像変換を行い結果を比較 • 評価指標 – 4つの観点から評価 1. Translation Accuracy … 分類器により, 生成された画像が正しいクラスに分類されるか 2. Content Preservation … domain invariant perceptual distance (Instance Normalization してから特徴マップ の距離を計算する) 3. Photorealizm … Inception Scoreで計算 4. Distribution Matching … FID score (ターゲットクラスごとに計算し平均) 29
  • 30. FUNIT : 実験結果 • Animal Faces と North American Birds データ セットにおける実験結果 • 全ての指標で提案手法 は高い性能を示した – Unfairよりも良い 30
  • 31. FUNIT : 実験結果 • StarGANとの比較 31
  • 32. FUNIT : 実験結果 • 学習データのクラス数と画像生成の性能の関連 – 生成画像の質の外観に関する指標は上昇 – ドメイン不変の特徴に関する指標はそんなに変わらず 32
  • 33. FUNIT : 実験結果 • Content CodeはそのままでClass codeをinterpolation 33
  • 34. FUNIT : 実験結果 • (上) クラウドソーシングを利用し画像の質を評価して もらった結果 – ほとんど勝っている 34
  • 35. FUNIT : 実験結果 • ソース画像とターゲット画像が 大きく異なる場合 – うまく変換できない – 色が変わるだけ – 当たり前な気がする 35
  • 36. FUNIT : 実験結果 • 生成画像の 例 (K=5) 36
  • 37. FUNIT : 実験結果 37 • 生成画像の 例 (K=5)
  • 38. FUNIT : まとめ • Few-shot 教師なし画像変換手法を提案 – 特徴表現のdisentangleを活用 – クラス固有の表現の抽出をうまく汎化できた • 以下の要因が生成画像の質を左右 – 学習データのクラス数 – テスト時のターゲットデータの数 • ソース画像とターゲット画像が大きく異なると変換不可能 38
  • 39. 参考文献 1. M. Liu et al. “Few-Shot Unsupervised Image-to-Image Translation”, arXiv, 2019. 2. M. Liu et al. “Unsupervised Image-to-Image Translation Networks”, NIPS, 2017. 3. X. Huang et al. “Multimodal Unsupervised Image-to-Image Translation”, ECCV, 2018. 4. P. Isola et al. “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017. 5. J. Zhu et al. “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”, ICCV, 2017. 6. A. B. L. Larsen, S. K. Sønderby, H. Larochelle, and O. Winther. “Autoencoding beyond pixels using a learned similarity metric”, International Conference on Machine Learning, 2016. 7. M.-Y. Liu and O. Tuzel. “Coupled generative adversarial networks”, Advances in Neural Information Processing Systems, 2016. 8. X. Huang and S. Belongie. Arbitrary style transfer in realtime with adaptive instance normalization. In IEEE International Conference on Computer Vision (ICCV), 2017. 9. T. Miyato and M. Koyama. “cGANs with projection discriminator”, ICLR, 2018. 10. T. Park et al. “Semantic Image Synthesis with Spatially-Adaptive Normalization”, arXiv, 2019. 11. A. Noguchi et al. “Image Generation from Small Datasets via Batch Statistics Adaptation”, arXiv, 2019. 39
  • 40. 12. Y. Choi et al. “StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation”, CVPR, 2018. 40