Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【論文読み会】Self-Attention Generative Adversarial Networks

558 views

Published on

論文「Self-Attention Generative Adversarial Networks」について輪読した際の資料です。

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

【論文読み会】Self-Attention Generative Adversarial Networks

  1. 1. 1©2019 ARISE analytics Self-Attention Generative Adversarial Networks 2018/09/07 Yuya Kanemoto
  2. 2. 2©2019 ARISE analytics 概要 一言で言うと すごい点 Self-attentionを用いて画像の大域的な依存関係を抽出 画像生成の性能指標が大幅に向上  Inception Score (IS): 36.8 → 52.52  Fréchet Inception distance (FID): 27.62 → 18.65 モチベーション GANの精度向上
  3. 3. 3©2019 ARISE analytics Table of contents • Background • GAN • Framework • 1クラス画像生成の進展 • 多クラス画像生成の進展 • 評価基準 • Spectral normalization • Self-attention • 本論文
  4. 4. 4©2019 ARISE analytics GAN framework Goodfellow et al. 2014. Generative Adversarial Nets
  5. 5. 5©2019 ARISE analytics 3.5 Years of Progress on Faces Goodfellow CVPR Tutorial 2018
  6. 6. 6©2019 ARISE analytics SOTA on Faces: PG-GAN Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION
  7. 7. 7©2019 ARISE analytics <2 Years of Progress on ImageNet Goodfellow CVPR Tutorial 2018
  8. 8. 8©2019 ARISE analytics 多クラス画像生成の課題 • ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に 生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい • CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される 大局的な情報を得るためにCNNを多層にするのはコストがかかる • → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述) (FID) Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
  9. 9. 9©2019 ARISE analytics GANの評価基準 • Inception Score (IS) GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による 生成画像の分類予測p(y|x)のエントロピーは小さい GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい • Fréchet Inception distance (FID) Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ なして平均・共分散を計算 それらを用いてFréchet距離を計算 ISに比べmode collapseをより的確に捉えることができる Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
  10. 10. 10©2019 ARISE analytics Lipschitz連続 • GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている (e.g. Wasserstein GAN) • ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす • Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在 • Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight clippingを行った Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
  11. 11. 11©2019 ARISE analytics Spectral Normalization • 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の Lipschitz normの積で表せる • 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい • 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに 等しい • 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ トfのLipschitz normを1以下に制御 (1) (3) Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS (2)
  12. 12. 12©2019 ARISE analytics Attention • Source-target attention • 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを decoderに入力として与えるため、長文の場合精度が悪かった • Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処 理するかのAttention機構を取り入れることにより、長文に対しても精度が向上 • Self-attention • Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る • Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な 位置しか参照できない畳み込み層より優れた利点である Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation Vaswani et al. NIPS 2017. Attention Is All You Need
  13. 13. 13©2019 ARISE analytics 本論文
  14. 14. 14©2019 ARISE analytics Self-attention on image • Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な 依存関係を推測する • 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  15. 15. 15©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  16. 16. 16©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  17. 17. 17©2019 ARISE analytics Effect of spectral normalization • Spectral Normalizationにより学習が安定 • Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定 • Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす る手法により学習が高速化 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  18. 18. 18©2019 ARISE analytics Self-attention vs residual block • Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群 としてResidualブロックを加えたネットワークと比較 • SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  19. 19. 19©2019 ARISE analytics Self-attention visualization • Generator側のself-attentionを用いた最後の層のattention mapを可視化 • 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  20. 20. 20©2019 ARISE analytics SOTA on class-conditional GAN • 既存の多クラス画像生成手法と比較 • SOTAを達成、大幅に精度が向上 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  21. 21. 21©2019 ARISE analytics SAGAN-generated images Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  22. 22. 22©2019 ARISE analytics Summary • Self-attentionを用いて大局的な依存関係を抽出 • Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化 • TTURによりGAN学習を高速化 • 多クラス画像生成においてSOTAを達成、大幅に精度が向上
  23. 23. 23©2019 ARISE analytics

×