SlideShare a Scribd company logo
1 of 27
Download to read offline
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Toward Fast and Stabilized GAN Training for
High-fidelity Few-shot Image Synthesis
Takumi Ohkuma, Nakayama Lab M2
自己紹介
• 大熊 拓海 (オオクマ タクミ)
• 東京大学 情報理工学系研究科 創造情報学専攻 中山研究室修士二年
• 専門分野:Few-shot Learning, マルチモーダル学習, etc
• 松尾研のDL系講座で、生成モデル系をメインに教えている
• という事で今回はGANの論文を選んでみました
書誌情報
• 題名:Toward Fast and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis
• 出典:ICLR2021 Under Review
• 著者:Anonymous
• URL:https://openreview.net/forum?id=1Fqg133qRaI
概要
• 一言で纏めると「GANの学習に必要な計算量の大幅削減に成功した」とい
う内容
• 「Light-weight GAN」と呼ばれるモデルを提案し、1024×1024サイズのモデ
ルの学習を1GPUで1日以内に完了できる
• 学習コストを減らす工夫として、GANのGeneratorに「skip-layer channel-
wise excitation module」、Discriminatorに「feature-encoder」を導入
• データ不足に対しても強く、100枚程度の訓練画像しか手に入らないような
状況でも学習できる
サンプル画像
FFHQ [1]
Size:1024×1024
学習時間:10時間 (RTX 2080-Ti×1枚)
Nature Photograph (unsplash.com)
Size:1024×1024
学習時間:20時間 (RTX 2080-Ti×1枚)
背景
• 近年GANの発展は目覚ましく、高クオリティかつ高画質の画像を生成できる
ようになりつつある(e.g., BigGAN[2], StyleGAN2[3])
• 一方で、従来のモデルは学習に際して、高い計算コスト及び大量の学習デー
タを必要とし、しばしばボトルネックとなっている
• 上記ボトルネック対策として転移学習[4]やデータ拡張等[5]の方法もあるが、
転移学習は適切な転移元データが無いと使えず、データ拡張を用いても計算
コストは減らせない等の弱点がある
• 根本的に学習コストの小さいモデルが求められる
GANの学習における問題点
代表的なGANの学習における問題点
1. 学習に時間がかかる
←パラメータの多さやモデルの構造や深さが原因
2. 少数サンプルでの学習が困難
←元を正すとパラメータの多さやモデルの深さが原因
3. バッチサイズを小さく出来ず、計算資源を多く必要とする
←バッチサイズを小さくすると、Discriminatorの学習が困難になる
「より小さく浅いモデル」、「小バッチサイズで学習可能なD」が必要となる
Light-weight GAN
• 前スライドで説明した問題点を緩和するために、
本論文では「Light-Weight GAN」と呼ばれる手法を提案する
• Light-Weight GANはGenerator及びDiscriminatorの両方に対して問題点を解
決するための工夫が盛り込まれている
• G (Generator) に「Skip-layer channel-wise excitation module」を導入
• 計算コスト、モデルの層数の削減に寄与
• 「Self-supervised Discriminator」を導入
• (特に小バッチサイズでの)学習に対する精度向上に貢献
Skip-layer Channel-wise excitation module の導入
• 大きい画像を生成するためには、多数のUp-Samplingとそれに伴う畳み込み層が必要
• 層数が増えてくると勾配消失などの問題が起きやすいので、ResBlock[6]等のSkip-
connection が頻繁に用いられるが、更なる計算コスト増加の原因となる
• このパラメータ数増加を極力抑える為、以下に示す「Skip-layer channel-wise
excitation module (SLE Module)」をGに導入する
SLE Module の特徴
SLE Module (右図)はResBlockと比較して以下の特徴がある
1. 二つの入力を合わせる際の演算がchannel-wiseの乗法
• ResBlockではelement-wiseの加法
• Channel-wiseの乗法を用いるので、Conv層の出力 (右図右
側)は、チャネル数だけ左側の特徴マップに揃えて、空間方
向の次元は縦横それぞれ1にできる
• Element-wiseの加法が縦横の次元も揃える必要があるのと
比較してConvの計算量を落とせる
2. Connectionの片方の入力(右図右上の入力)がより下
位の層から来ている(Skip-layer)
• 空間方向の次元数を揃える必要がなくなるので、別の層の
入力を使える
• 実質的に深さを増やさずにSkip-connectionを実現(後述)
より下層からの入力
Channel-wiseの乗法
Generator の構造
右図にGの全体構造を示す
• 青矢印はUpsample, Conv,
BatchNorm, GLU(活性化関数)である
• 1層のConv層を含むブロック
• 赤矢印はSLE Moduleの入出力であ
• 2つの入力は、128と8の様に直前の
層と4層下を用いる
• 直前の層の入力に対してはchannel-
wiseの乗法が行われるだけなので、
実質的な層数が増加しない
• 512, 1024の特徴マップ数を3と少な
くすることでパラメータ数を削減
GANの学習の安定性
• GANの学習における問題点の一つにMode-collapseが挙げられる
• 同じ様な画像しか生成されなくなること
• Discriminatorが不適切であることが主な原因
• WGAN等の手法はバッチサイズが小さい時に不安定
• バッチサイズを大きくするにはGPUの枚数が必要になる
• 自己教師有り学習もGANの学習の安定性に寄与することが知られており[7]、
本研究ではこれを応用する
• Self-supervised Discriminatorの導入
Self-supervised Discriminator
• DiscriminatorをEncoderとみなし、元の画像(を縮小したもの)を再構成す
るDecoderを導入する
• 全体を再構成するDecoderと局所部分を再構成するDecoderの二種類が用い
られ、全体及び局所特徴量の両方の獲得に貢献
Discriminatorの詳細
• 以下の図の Real imageが10242の入力であり、CNNを用いてReal/Fakeの出力を得る
• このモデルでは52
サイズのlogitの出力を用いている(1次元の値にはしていない)
• 加えて、162および82の特徴マップを入力とするDecoderを用いて入力画像(を加工したもの)を再構成
• 入力画像全体を1/8の1282
にDown Samplingしたもの 𝐼( 82
の特徴マップから再構成)
• 入力画像の1282
の局所部分をCropしたもの 𝐼 𝑝𝑎𝑟𝑡( 162
の特徴マップを82
にCropしてから再構成)
• Decoderは「Up sampling + Conv + BatchNorm + GLU」× 4 からなるシンプルな構造
• 学習では通常のReal/FakeのLoss、及び二つのDecoderの再構成誤差を最小化する
ロス関数
• 基本的にはAdversarial Loss, 加えてDには以下のReconstruction Lossを追加
• 様々なAdversarial Lossがこれまでに提案されてきたが、本モデルにおいては
Lossの種類によって精度に有意な差が見られないとして、Dに計算量の少な
いヒンジ損失、GにはDの出力をそのまま採用
実験
• 比較的小規模データセット (1000枚以下) に対する性能に関する、提案手法とBaseline,
StyleGAN2との比較がメイン
• Baselineは提案手法の有効性を示すために用いられ、DCGAN [8]に以下の要素を加えたモデルで
ある
• Spectral Normalization [9]
• Exponential-moving-average on Generator [10]
• Differentiable-augmentation [11]
• GLU (活性化関数の一種) [12]
• 提案手法はBaselineにSLE Module, 及び自己教師有り学習を追加したモデル
• 解像度が2562と10242のモデルを用い、バッチサイズは8
• パラメータ数を揃えるため、StyleGAN2はパラメータ数を削減した@0.5を用いる
• パラメータ数が同じくらいでも、提案手法のTraining time, vram (GPUのメモリ) が少ない
結果
• 以下の表に解像度2562のモデルの結果を示す (FID score, 低い方が精度が高い)
• StyleGAN2が20 GPU hours の学習時間であるのに対して提案手法は5 GPU hoursであるにもかか
わらず、提案手法の方がより高い精度を実現している
• StyleGAN2に関してはFFHQを元データとするFinetuningを用いた手法とも比較しているが、(ド
メインが近いObamaの顔データセットを除いて)性能が低下している
• 提案手法に関してはAblation Studyを行っており、SLR Module (Skip), 自己教師有り学習
(decoder) の両方が性能に寄与していることがわかる
• 特に自己教師有り学習の寄与が大きく、これが無いモデルではmode-collapseしたり、学習が不安定で
発散したりするらしい
結果2
• 解像度10242に対する結果を示す
• vram容量の問題でこちらではRTX TITANを用いているが、学習性能に差はない
• こちらの結果もやはり提案手法が最も精度が高い
• 「StyleGAN2の学習時間が不足していて、学習時間を十分に確保すれば提案手法が負けるの
では?」という疑問もあるが、StyleGAN2はデータ不足・小バッチサイズの為そもそも学習
が不安定で上手くいかないらしい
• Decoderが無いのが原因
生成画像例1
Real Data StyleGAN2 提案手法
生成画像例2
Real Data StyleGAN2 提案手法
データが多い時の性能
• 今度はデータが豊富に(数千~数万枚)手に入る状況での性能を比較
• Style GANはパラメータを減らさない従来のモデルを使用し、バッチサイズ16、10GPU Days
(5 day × 2枚) の学習を行った
• 提案手法とBaselineに関しては1 GPU Days バッチサイズ8のまま
• この条件だと流石にStyleGAN2の方が性能が高い(特にFFHQ)
• というかStyleGAN2がFFHQに特化しすぎている気が…
• 特定のベンチマークを使い続けている弊害?
• しかしながらデータが比較的少ないときはいい勝負するうえ、一貫してBaselineよりは優位
に性能が高い
Back-Tracking
• Back-Trackingとは、画像生成とは逆
に、既存の画像に対応する潜在変数
を求めること
• 要するにその潜在変数を用いれば既
存画像(に近いもの)を生成できる
• これを用いることで任意の画像に対
応する潜在変数が得られ、更に潜在
空間上での画像補間が可能となる
Style-mixing
• SLE Moduleは二つの入力を取るので、二つの画像の入力を片方ずつ用いる
ことでStyleGAN2の様なStyle-mixingを行うことが出来る
結論
• 計算コストを抑えつつ、かつ少ないデータしか手に入らない環境下で高い性
能を発揮するGANモデルの提案
• GeneratorにSLE Module, Discriminatorに自己教師有り学習を導入することで、
大幅な性能向上を実現
• これにより学習時間1 GPU Day、データ数100未満という条件でも学習が可
能となった
感想
• 個人レベルでも1024サイズの画像を高精度で生成できるようになったのは非常に画期的
• さらっと書いてるけど、アーキテクチャに関して凄い試行錯誤しているように感じる
• 一番凄いと感じたのは小データセットでも学習できる点
• 計算量問題だけならば計算コストをかければよいが、データが少ないと既存手法では対応不可能
• 論文中には「パラメータ数を減らす」とあるが、よく読んでみると「小パラメータでも精度が
出るモデルの提案」であり、何らかのモジュールで直接的に減らしているのでは無い気がする
• パラメータ数を減らすだけならStyleGAN2のチャネル数を減らせばいいだけ
• 計算リソース縛りをなくすとStyleGAN2に負けているが、今度はLightweight GANのパラメータ
を増やして計算リソースをつぎ込んだら勝てるのか気になる
• 小計算リソース用の手法に、敢えて計算リソースをつぎ込んでみるのはよくあると思う
• 本家のStyleGAN2は学習にV100×8個でトータル80 GPU Dayくらいの計算リソースを割いている
引用
1. Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative
adversarial networks. In Proc. of CVPR, 2019.
2. Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural
image synthesis. arXiv preprint arXiv:1809.11096, 2018.
3. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and
improving the image quality of stylegan. In Proc of CVPR, 2020.
4. Sangwoo Mo, Minsu Cho, and Jinwoo Shin. Freeze discriminator: A simple baseline for fine-tuning
gans. arXiv preprint arXiv:2002.10964, 2020.
5. Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Training
generative adversarial networks with limited data. arXiv preprint arXiv:2006.06676, 2020.
6. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.
In Proc. of CVPR 2016.
7. Ngoc-Trung Tran, Viet-Hung Tran, Bao-Ngoc Nguyen, Linxiao Yang, and Ngai-Man Man Cheung. Self-
supervised gan: Analysis and improvement with multi-class minimax game. Advances in NeurIPS, 2019.
8. Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep
convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
引用
9. Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for
generative adversarial networks. arXiv preprint arXiv:1802.05957, 2018.
10. Yasin Yazıcı, Chuan-Sheng Foo, Stefan Winkler, Kim-Hui Yap, Georgios Piliouras, and Vijay
Chandrasekhar. The unusual effectiveness of averaging in gan training. arXiv preprint
arXiv:1806.04498, 2018.
11. Shengyu Zhao, Zhijian Liu, Ji Lin, Jun-Yan Zhu, and Song Han. Differentiable augmentation for data-
efficient gan training. arXiv preprint arXiv:2006.10738, 2020.
12. Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated
convolutional networks. In Proc of. ICML, 2017.

More Related Content

What's hot

【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)cvpaper. challenge
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by FactorisingDeep Learning JP
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜諒介 荒木
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 

What's hot (20)

【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 

Similar to 「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

Practical Bug Reporting
Practical Bug ReportingPractical Bug Reporting
Practical Bug Reportingcharsbar
 
Fantasista Revised Open Bidding Process
Fantasista Revised Open Bidding ProcessFantasista Revised Open Bidding Process
Fantasista Revised Open Bidding ProcessfantasistaVppr
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会Yusuke Ando
 
日本語ドキドキ体験交流活動集
日本語ドキドキ体験交流活動集日本語ドキドキ体験交流活動集
日本語ドキドキ体験交流活動集kansaicenter
 
CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36Nobuya Sato
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 CandycaneYusuke Ando
 
僕らのかんばん方式 -Our Kanban Board-
僕らのかんばん方式 -Our Kanban Board-僕らのかんばん方式 -Our Kanban Board-
僕らのかんばん方式 -Our Kanban Board-Fumihiko Kinoshita
 
IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境handbook
 
FPGAによるホームサービスロボットのための組込脳型計算機システム
FPGAによるホームサービスロボットのための組込脳型計算機システムFPGAによるホームサービスロボットのための組込脳型計算機システム
FPGAによるホームサービスロボットのための組込脳型計算機システム直久 住川
 
ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)Takeshi Kakeda
 
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Yusuke Kawasaki
 
テーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組みテーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組みfantasistaVppr
 
すくすくスクラム
すくすくスクラムすくすくスクラム
すくすくスクラムAkihito Enomoto
 
Marriage 6 Line
Marriage 6 LineMarriage 6 Line
Marriage 6 LineLong Yi
 
QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略handbook
 
Assembly Definition あれやこれ
Assembly Definition あれやこれAssembly Definition あれやこれ
Assembly Definition あれやこれNakanoYosuke1
 
Sciencecafe Niigata(20090913)
Sciencecafe Niigata(20090913)Sciencecafe Niigata(20090913)
Sciencecafe Niigata(20090913)真 岡本
 

Similar to 「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis (20)

sigfpai73-kaji
sigfpai73-kajisigfpai73-kaji
sigfpai73-kaji
 
Practical Bug Reporting
Practical Bug ReportingPractical Bug Reporting
Practical Bug Reporting
 
Fantasista Revised Open Bidding Process
Fantasista Revised Open Bidding ProcessFantasista Revised Open Bidding Process
Fantasista Revised Open Bidding Process
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会
 
日本語ドキドキ体験交流活動集
日本語ドキドキ体験交流活動集日本語ドキドキ体験交流活動集
日本語ドキドキ体験交流活動集
 
CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36
 
説明会資料
説明会資料説明会資料
説明会資料
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 Candycane
 
僕らのかんばん方式 -Our Kanban Board-
僕らのかんばん方式 -Our Kanban Board-僕らのかんばん方式 -Our Kanban Board-
僕らのかんばん方式 -Our Kanban Board-
 
IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境IE-027 動作與時間研究建立精實生產環境
IE-027 動作與時間研究建立精實生產環境
 
Practices of an Agile Team
Practices of an Agile TeamPractices of an Agile Team
Practices of an Agile Team
 
FPGAによるホームサービスロボットのための組込脳型計算機システム
FPGAによるホームサービスロボットのための組込脳型計算機システムFPGAによるホームサービスロボットのための組込脳型計算機システム
FPGAによるホームサービスロボットのための組込脳型計算機システム
 
ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)
 
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
 
テーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組みテーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組み
 
すくすくスクラム
すくすくスクラムすくすくスクラム
すくすくスクラム
 
Marriage 6 Line
Marriage 6 LineMarriage 6 Line
Marriage 6 Line
 
QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略
 
Assembly Definition あれやこれ
Assembly Definition あれやこれAssembly Definition あれやこれ
Assembly Definition あれやこれ
 
Sciencecafe Niigata(20090913)
Sciencecafe Niigata(20090913)Sciencecafe Niigata(20090913)
Sciencecafe Niigata(20090913)
 

More from Takumi Ohkuma

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 
「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for VisionTakumi Ohkuma
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...Takumi Ohkuma
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video ClassificationTakumi Ohkuma
 
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...Takumi Ohkuma
 
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class HierarchyTakumi Ohkuma
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...Takumi Ohkuma
 

More from Takumi Ohkuma (10)

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision「解説資料」MetaFormer is Actually What You Need for Vision
「解説資料」MetaFormer is Actually What You Need for Vision
 
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...「解説資料」Pervasive Label Errors in Test Sets Destabilize  Machine Learning Bench...
「解説資料」Pervasive Label Errors in Test Sets Destabilize Machine Learning Bench...
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
 
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
「解説資料」Set Transformer: A Framework for Attention-based Permutation-Invariant ...
 
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
 

Recently uploaded

Vision and reflection on Mining Software Repositories research in 2024
Vision and reflection on Mining Software Repositories research in 2024Vision and reflection on Mining Software Repositories research in 2024
Vision and reflection on Mining Software Repositories research in 2024AyushiRastogi48
 
Is RISC-V ready for HPC workload? Maybe?
Is RISC-V ready for HPC workload? Maybe?Is RISC-V ready for HPC workload? Maybe?
Is RISC-V ready for HPC workload? Maybe?Patrick Diehl
 
Behavioral Disorder: Schizophrenia & it's Case Study.pdf
Behavioral Disorder: Schizophrenia & it's Case Study.pdfBehavioral Disorder: Schizophrenia & it's Case Study.pdf
Behavioral Disorder: Schizophrenia & it's Case Study.pdfSELF-EXPLANATORY
 
Evidences of Evolution General Biology 2
Evidences of Evolution General Biology 2Evidences of Evolution General Biology 2
Evidences of Evolution General Biology 2John Carlo Rollon
 
Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝soniya singh
 
Solution chemistry, Moral and Normal solutions
Solution chemistry, Moral and Normal solutionsSolution chemistry, Moral and Normal solutions
Solution chemistry, Moral and Normal solutionsHajira Mahmood
 
Artificial Intelligence In Microbiology by Dr. Prince C P
Artificial Intelligence In Microbiology by Dr. Prince C PArtificial Intelligence In Microbiology by Dr. Prince C P
Artificial Intelligence In Microbiology by Dr. Prince C PPRINCE C P
 
Environmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial BiosensorEnvironmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial Biosensorsonawaneprad
 
Speech, hearing, noise, intelligibility.pptx
Speech, hearing, noise, intelligibility.pptxSpeech, hearing, noise, intelligibility.pptx
Speech, hearing, noise, intelligibility.pptxpriyankatabhane
 
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptxSOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptxkessiyaTpeter
 
Harmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms PresentationHarmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms Presentationtahreemzahra82
 
Forest laws, Indian forest laws, why they are important
Forest laws, Indian forest laws, why they are importantForest laws, Indian forest laws, why they are important
Forest laws, Indian forest laws, why they are importantadityabhardwaj282
 
zoogeography of pakistan.pptx fauna of Pakistan
zoogeography of pakistan.pptx fauna of Pakistanzoogeography of pakistan.pptx fauna of Pakistan
zoogeography of pakistan.pptx fauna of Pakistanzohaibmir069
 
Pests of safflower_Binomics_Identification_Dr.UPR.pdf
Pests of safflower_Binomics_Identification_Dr.UPR.pdfPests of safflower_Binomics_Identification_Dr.UPR.pdf
Pests of safflower_Binomics_Identification_Dr.UPR.pdfPirithiRaju
 
Pests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdfPests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdfPirithiRaju
 
BREEDING FOR RESISTANCE TO BIOTIC STRESS.pptx
BREEDING FOR RESISTANCE TO BIOTIC STRESS.pptxBREEDING FOR RESISTANCE TO BIOTIC STRESS.pptx
BREEDING FOR RESISTANCE TO BIOTIC STRESS.pptxPABOLU TEJASREE
 
THE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptx
THE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptxTHE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptx
THE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptxNandakishor Bhaurao Deshmukh
 
Scheme-of-Work-Science-Stage-4 cambridge science.docx
Scheme-of-Work-Science-Stage-4 cambridge science.docxScheme-of-Work-Science-Stage-4 cambridge science.docx
Scheme-of-Work-Science-Stage-4 cambridge science.docxyaramohamed343013
 
Neurodevelopmental disorders according to the dsm 5 tr
Neurodevelopmental disorders according to the dsm 5 trNeurodevelopmental disorders according to the dsm 5 tr
Neurodevelopmental disorders according to the dsm 5 trssuser06f238
 

Recently uploaded (20)

Vision and reflection on Mining Software Repositories research in 2024
Vision and reflection on Mining Software Repositories research in 2024Vision and reflection on Mining Software Repositories research in 2024
Vision and reflection on Mining Software Repositories research in 2024
 
Is RISC-V ready for HPC workload? Maybe?
Is RISC-V ready for HPC workload? Maybe?Is RISC-V ready for HPC workload? Maybe?
Is RISC-V ready for HPC workload? Maybe?
 
Behavioral Disorder: Schizophrenia & it's Case Study.pdf
Behavioral Disorder: Schizophrenia & it's Case Study.pdfBehavioral Disorder: Schizophrenia & it's Case Study.pdf
Behavioral Disorder: Schizophrenia & it's Case Study.pdf
 
Evidences of Evolution General Biology 2
Evidences of Evolution General Biology 2Evidences of Evolution General Biology 2
Evidences of Evolution General Biology 2
 
Hot Sexy call girls in Moti Nagar,🔝 9953056974 🔝 escort Service
Hot Sexy call girls in  Moti Nagar,🔝 9953056974 🔝 escort ServiceHot Sexy call girls in  Moti Nagar,🔝 9953056974 🔝 escort Service
Hot Sexy call girls in Moti Nagar,🔝 9953056974 🔝 escort Service
 
Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝
Call Girls in Munirka Delhi 💯Call Us 🔝8264348440🔝
 
Solution chemistry, Moral and Normal solutions
Solution chemistry, Moral and Normal solutionsSolution chemistry, Moral and Normal solutions
Solution chemistry, Moral and Normal solutions
 
Artificial Intelligence In Microbiology by Dr. Prince C P
Artificial Intelligence In Microbiology by Dr. Prince C PArtificial Intelligence In Microbiology by Dr. Prince C P
Artificial Intelligence In Microbiology by Dr. Prince C P
 
Environmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial BiosensorEnvironmental Biotechnology Topic:- Microbial Biosensor
Environmental Biotechnology Topic:- Microbial Biosensor
 
Speech, hearing, noise, intelligibility.pptx
Speech, hearing, noise, intelligibility.pptxSpeech, hearing, noise, intelligibility.pptx
Speech, hearing, noise, intelligibility.pptx
 
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptxSOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
SOLUBLE PATTERN RECOGNITION RECEPTORS.pptx
 
Harmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms PresentationHarmful and Useful Microorganisms Presentation
Harmful and Useful Microorganisms Presentation
 
Forest laws, Indian forest laws, why they are important
Forest laws, Indian forest laws, why they are importantForest laws, Indian forest laws, why they are important
Forest laws, Indian forest laws, why they are important
 
zoogeography of pakistan.pptx fauna of Pakistan
zoogeography of pakistan.pptx fauna of Pakistanzoogeography of pakistan.pptx fauna of Pakistan
zoogeography of pakistan.pptx fauna of Pakistan
 
Pests of safflower_Binomics_Identification_Dr.UPR.pdf
Pests of safflower_Binomics_Identification_Dr.UPR.pdfPests of safflower_Binomics_Identification_Dr.UPR.pdf
Pests of safflower_Binomics_Identification_Dr.UPR.pdf
 
Pests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdfPests of castor_Binomics_Identification_Dr.UPR.pdf
Pests of castor_Binomics_Identification_Dr.UPR.pdf
 
BREEDING FOR RESISTANCE TO BIOTIC STRESS.pptx
BREEDING FOR RESISTANCE TO BIOTIC STRESS.pptxBREEDING FOR RESISTANCE TO BIOTIC STRESS.pptx
BREEDING FOR RESISTANCE TO BIOTIC STRESS.pptx
 
THE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptx
THE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptxTHE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptx
THE ROLE OF PHARMACOGNOSY IN TRADITIONAL AND MODERN SYSTEM OF MEDICINE.pptx
 
Scheme-of-Work-Science-Stage-4 cambridge science.docx
Scheme-of-Work-Science-Stage-4 cambridge science.docxScheme-of-Work-Science-Stage-4 cambridge science.docx
Scheme-of-Work-Science-Stage-4 cambridge science.docx
 
Neurodevelopmental disorders according to the dsm 5 tr
Neurodevelopmental disorders according to the dsm 5 trNeurodevelopmental disorders according to the dsm 5 tr
Neurodevelopmental disorders according to the dsm 5 tr
 

「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis Takumi Ohkuma, Nakayama Lab M2
  • 2. 自己紹介 • 大熊 拓海 (オオクマ タクミ) • 東京大学 情報理工学系研究科 創造情報学専攻 中山研究室修士二年 • 専門分野:Few-shot Learning, マルチモーダル学習, etc • 松尾研のDL系講座で、生成モデル系をメインに教えている • という事で今回はGANの論文を選んでみました
  • 3. 書誌情報 • 題名:Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis • 出典:ICLR2021 Under Review • 著者:Anonymous • URL:https://openreview.net/forum?id=1Fqg133qRaI
  • 4. 概要 • 一言で纏めると「GANの学習に必要な計算量の大幅削減に成功した」とい う内容 • 「Light-weight GAN」と呼ばれるモデルを提案し、1024×1024サイズのモデ ルの学習を1GPUで1日以内に完了できる • 学習コストを減らす工夫として、GANのGeneratorに「skip-layer channel- wise excitation module」、Discriminatorに「feature-encoder」を導入 • データ不足に対しても強く、100枚程度の訓練画像しか手に入らないような 状況でも学習できる
  • 5. サンプル画像 FFHQ [1] Size:1024×1024 学習時間:10時間 (RTX 2080-Ti×1枚) Nature Photograph (unsplash.com) Size:1024×1024 学習時間:20時間 (RTX 2080-Ti×1枚)
  • 6. 背景 • 近年GANの発展は目覚ましく、高クオリティかつ高画質の画像を生成できる ようになりつつある(e.g., BigGAN[2], StyleGAN2[3]) • 一方で、従来のモデルは学習に際して、高い計算コスト及び大量の学習デー タを必要とし、しばしばボトルネックとなっている • 上記ボトルネック対策として転移学習[4]やデータ拡張等[5]の方法もあるが、 転移学習は適切な転移元データが無いと使えず、データ拡張を用いても計算 コストは減らせない等の弱点がある • 根本的に学習コストの小さいモデルが求められる
  • 7. GANの学習における問題点 代表的なGANの学習における問題点 1. 学習に時間がかかる ←パラメータの多さやモデルの構造や深さが原因 2. 少数サンプルでの学習が困難 ←元を正すとパラメータの多さやモデルの深さが原因 3. バッチサイズを小さく出来ず、計算資源を多く必要とする ←バッチサイズを小さくすると、Discriminatorの学習が困難になる 「より小さく浅いモデル」、「小バッチサイズで学習可能なD」が必要となる
  • 8. Light-weight GAN • 前スライドで説明した問題点を緩和するために、 本論文では「Light-Weight GAN」と呼ばれる手法を提案する • Light-Weight GANはGenerator及びDiscriminatorの両方に対して問題点を解 決するための工夫が盛り込まれている • G (Generator) に「Skip-layer channel-wise excitation module」を導入 • 計算コスト、モデルの層数の削減に寄与 • 「Self-supervised Discriminator」を導入 • (特に小バッチサイズでの)学習に対する精度向上に貢献
  • 9. Skip-layer Channel-wise excitation module の導入 • 大きい画像を生成するためには、多数のUp-Samplingとそれに伴う畳み込み層が必要 • 層数が増えてくると勾配消失などの問題が起きやすいので、ResBlock[6]等のSkip- connection が頻繁に用いられるが、更なる計算コスト増加の原因となる • このパラメータ数増加を極力抑える為、以下に示す「Skip-layer channel-wise excitation module (SLE Module)」をGに導入する
  • 10. SLE Module の特徴 SLE Module (右図)はResBlockと比較して以下の特徴がある 1. 二つの入力を合わせる際の演算がchannel-wiseの乗法 • ResBlockではelement-wiseの加法 • Channel-wiseの乗法を用いるので、Conv層の出力 (右図右 側)は、チャネル数だけ左側の特徴マップに揃えて、空間方 向の次元は縦横それぞれ1にできる • Element-wiseの加法が縦横の次元も揃える必要があるのと 比較してConvの計算量を落とせる 2. Connectionの片方の入力(右図右上の入力)がより下 位の層から来ている(Skip-layer) • 空間方向の次元数を揃える必要がなくなるので、別の層の 入力を使える • 実質的に深さを増やさずにSkip-connectionを実現(後述) より下層からの入力 Channel-wiseの乗法
  • 11. Generator の構造 右図にGの全体構造を示す • 青矢印はUpsample, Conv, BatchNorm, GLU(活性化関数)である • 1層のConv層を含むブロック • 赤矢印はSLE Moduleの入出力であ • 2つの入力は、128と8の様に直前の 層と4層下を用いる • 直前の層の入力に対してはchannel- wiseの乗法が行われるだけなので、 実質的な層数が増加しない • 512, 1024の特徴マップ数を3と少な くすることでパラメータ数を削減
  • 12. GANの学習の安定性 • GANの学習における問題点の一つにMode-collapseが挙げられる • 同じ様な画像しか生成されなくなること • Discriminatorが不適切であることが主な原因 • WGAN等の手法はバッチサイズが小さい時に不安定 • バッチサイズを大きくするにはGPUの枚数が必要になる • 自己教師有り学習もGANの学習の安定性に寄与することが知られており[7]、 本研究ではこれを応用する • Self-supervised Discriminatorの導入
  • 13. Self-supervised Discriminator • DiscriminatorをEncoderとみなし、元の画像(を縮小したもの)を再構成す るDecoderを導入する • 全体を再構成するDecoderと局所部分を再構成するDecoderの二種類が用い られ、全体及び局所特徴量の両方の獲得に貢献
  • 14. Discriminatorの詳細 • 以下の図の Real imageが10242の入力であり、CNNを用いてReal/Fakeの出力を得る • このモデルでは52 サイズのlogitの出力を用いている(1次元の値にはしていない) • 加えて、162および82の特徴マップを入力とするDecoderを用いて入力画像(を加工したもの)を再構成 • 入力画像全体を1/8の1282 にDown Samplingしたもの 𝐼( 82 の特徴マップから再構成) • 入力画像の1282 の局所部分をCropしたもの 𝐼 𝑝𝑎𝑟𝑡( 162 の特徴マップを82 にCropしてから再構成) • Decoderは「Up sampling + Conv + BatchNorm + GLU」× 4 からなるシンプルな構造 • 学習では通常のReal/FakeのLoss、及び二つのDecoderの再構成誤差を最小化する
  • 15. ロス関数 • 基本的にはAdversarial Loss, 加えてDには以下のReconstruction Lossを追加 • 様々なAdversarial Lossがこれまでに提案されてきたが、本モデルにおいては Lossの種類によって精度に有意な差が見られないとして、Dに計算量の少な いヒンジ損失、GにはDの出力をそのまま採用
  • 16. 実験 • 比較的小規模データセット (1000枚以下) に対する性能に関する、提案手法とBaseline, StyleGAN2との比較がメイン • Baselineは提案手法の有効性を示すために用いられ、DCGAN [8]に以下の要素を加えたモデルで ある • Spectral Normalization [9] • Exponential-moving-average on Generator [10] • Differentiable-augmentation [11] • GLU (活性化関数の一種) [12] • 提案手法はBaselineにSLE Module, 及び自己教師有り学習を追加したモデル • 解像度が2562と10242のモデルを用い、バッチサイズは8 • パラメータ数を揃えるため、StyleGAN2はパラメータ数を削減した@0.5を用いる • パラメータ数が同じくらいでも、提案手法のTraining time, vram (GPUのメモリ) が少ない
  • 17. 結果 • 以下の表に解像度2562のモデルの結果を示す (FID score, 低い方が精度が高い) • StyleGAN2が20 GPU hours の学習時間であるのに対して提案手法は5 GPU hoursであるにもかか わらず、提案手法の方がより高い精度を実現している • StyleGAN2に関してはFFHQを元データとするFinetuningを用いた手法とも比較しているが、(ド メインが近いObamaの顔データセットを除いて)性能が低下している • 提案手法に関してはAblation Studyを行っており、SLR Module (Skip), 自己教師有り学習 (decoder) の両方が性能に寄与していることがわかる • 特に自己教師有り学習の寄与が大きく、これが無いモデルではmode-collapseしたり、学習が不安定で 発散したりするらしい
  • 18. 結果2 • 解像度10242に対する結果を示す • vram容量の問題でこちらではRTX TITANを用いているが、学習性能に差はない • こちらの結果もやはり提案手法が最も精度が高い • 「StyleGAN2の学習時間が不足していて、学習時間を十分に確保すれば提案手法が負けるの では?」という疑問もあるが、StyleGAN2はデータ不足・小バッチサイズの為そもそも学習 が不安定で上手くいかないらしい • Decoderが無いのが原因
  • 21. データが多い時の性能 • 今度はデータが豊富に(数千~数万枚)手に入る状況での性能を比較 • Style GANはパラメータを減らさない従来のモデルを使用し、バッチサイズ16、10GPU Days (5 day × 2枚) の学習を行った • 提案手法とBaselineに関しては1 GPU Days バッチサイズ8のまま • この条件だと流石にStyleGAN2の方が性能が高い(特にFFHQ) • というかStyleGAN2がFFHQに特化しすぎている気が… • 特定のベンチマークを使い続けている弊害? • しかしながらデータが比較的少ないときはいい勝負するうえ、一貫してBaselineよりは優位 に性能が高い
  • 24. 結論 • 計算コストを抑えつつ、かつ少ないデータしか手に入らない環境下で高い性 能を発揮するGANモデルの提案 • GeneratorにSLE Module, Discriminatorに自己教師有り学習を導入することで、 大幅な性能向上を実現 • これにより学習時間1 GPU Day、データ数100未満という条件でも学習が可 能となった
  • 25. 感想 • 個人レベルでも1024サイズの画像を高精度で生成できるようになったのは非常に画期的 • さらっと書いてるけど、アーキテクチャに関して凄い試行錯誤しているように感じる • 一番凄いと感じたのは小データセットでも学習できる点 • 計算量問題だけならば計算コストをかければよいが、データが少ないと既存手法では対応不可能 • 論文中には「パラメータ数を減らす」とあるが、よく読んでみると「小パラメータでも精度が 出るモデルの提案」であり、何らかのモジュールで直接的に減らしているのでは無い気がする • パラメータ数を減らすだけならStyleGAN2のチャネル数を減らせばいいだけ • 計算リソース縛りをなくすとStyleGAN2に負けているが、今度はLightweight GANのパラメータ を増やして計算リソースをつぎ込んだら勝てるのか気になる • 小計算リソース用の手法に、敢えて計算リソースをつぎ込んでみるのはよくあると思う • 本家のStyleGAN2は学習にV100×8個でトータル80 GPU Dayくらいの計算リソースを割いている
  • 26. 引用 1. Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proc. of CVPR, 2019. 2. Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096, 2018. 3. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In Proc of CVPR, 2020. 4. Sangwoo Mo, Minsu Cho, and Jinwoo Shin. Freeze discriminator: A simple baseline for fine-tuning gans. arXiv preprint arXiv:2002.10964, 2020. 5. Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Training generative adversarial networks with limited data. arXiv preprint arXiv:2006.06676, 2020. 6. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proc. of CVPR 2016. 7. Ngoc-Trung Tran, Viet-Hung Tran, Bao-Ngoc Nguyen, Linxiao Yang, and Ngai-Man Man Cheung. Self- supervised gan: Analysis and improvement with multi-class minimax game. Advances in NeurIPS, 2019. 8. Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
  • 27. 引用 9. Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. arXiv preprint arXiv:1802.05957, 2018. 10. Yasin Yazıcı, Chuan-Sheng Foo, Stefan Winkler, Kim-Hui Yap, Georgios Piliouras, and Vijay Chandrasekhar. The unusual effectiveness of averaging in gan training. arXiv preprint arXiv:1806.04498, 2018. 11. Shengyu Zhao, Zhijian Liu, Ji Lin, Jun-Yan Zhu, and Song Han. Differentiable augmentation for data- efficient gan training. arXiv preprint arXiv:2006.10738, 2020. 12. Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional networks. In Proc of. ICML, 2017.