SlideShare a Scribd company logo
1 of 23
Download to read offline
1©2019 ARISE analytics
Self-Attention Generative
Adversarial Networks
2018/09/07
Yuya Kanemoto
2©2019 ARISE analytics
概要
一言で言うと
すごい点
Self-attentionを用いて画像の大域的な依存関係を抽出
画像生成の性能指標が大幅に向上
 Inception Score (IS): 36.8 → 52.52
 Fréchet Inception distance (FID): 27.62 → 18.65
モチベーション GANの精度向上
3©2019 ARISE analytics
Table of contents
• Background
• GAN
• Framework
• 1クラス画像生成の進展
• 多クラス画像生成の進展
• 評価基準
• Spectral normalization
• Self-attention
• 本論文
4©2019 ARISE analytics
GAN framework
Goodfellow et al. 2014. Generative Adversarial Nets
5©2019 ARISE analytics
3.5 Years of Progress on Faces
Goodfellow CVPR Tutorial 2018
6©2019 ARISE analytics
SOTA on Faces: PG-GAN
Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND
VARIATION
7©2019 ARISE analytics
<2 Years of Progress on ImageNet
Goodfellow CVPR Tutorial 2018
8©2019 ARISE analytics
多クラス画像生成の課題
• ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に
生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい
• CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される
大局的な情報を得るためにCNNを多層にするのはコストがかかる
• → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述)
(FID)
Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
9©2019 ARISE analytics
GANの評価基準
• Inception Score (IS)
GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による
生成画像の分類予測p(y|x)のエントロピーは小さい
GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい
• Fréchet Inception distance (FID)
Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ
なして平均・共分散を計算
それらを用いてFréchet距離を計算
ISに比べmode collapseをより的確に捉えることができる
Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
10©2019 ARISE analytics
Lipschitz連続
• GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている
(e.g. Wasserstein GAN)
• ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす
• Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在
• Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight
clippingを行った
Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
11©2019 ARISE analytics
Spectral Normalization
• 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の
Lipschitz normの積で表せる
• 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい
• 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに
等しい
• 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ
トfのLipschitz normを1以下に制御
(1)
(3)
Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS
(2)
12©2019 ARISE analytics
Attention
• Source-target attention
• 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを
decoderに入力として与えるため、長文の場合精度が悪かった
• Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処
理するかのAttention機構を取り入れることにより、長文に対しても精度が向上
• Self-attention
• Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る
• Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な
位置しか参照できない畳み込み層より優れた利点である
Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation
Vaswani et al. NIPS 2017. Attention Is All You Need
13©2019 ARISE analytics
本論文
14©2019 ARISE analytics
Self-attention on image
• Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な
依存関係を推測する
• 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
15©2019 ARISE analytics
Self-attention mechanism
( )
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
16©2019 ARISE analytics
Self-attention mechanism
( )
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
17©2019 ARISE analytics
Effect of spectral normalization
• Spectral Normalizationにより学習が安定
• Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定
• Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす
る手法により学習が高速化
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
18©2019 ARISE analytics
Self-attention vs residual block
• Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群
としてResidualブロックを加えたネットワークと比較
• SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
19©2019 ARISE analytics
Self-attention visualization
• Generator側のself-attentionを用いた最後の層のattention mapを可視化
• 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
20©2019 ARISE analytics
SOTA on class-conditional GAN
• 既存の多クラス画像生成手法と比較
• SOTAを達成、大幅に精度が向上
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
21©2019 ARISE analytics
SAGAN-generated images
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
22©2019 ARISE analytics
Summary
• Self-attentionを用いて大局的な依存関係を抽出
• Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化
• TTURによりGAN学習を高速化
• 多クラス画像生成においてSOTAを達成、大幅に精度が向上
23©2019 ARISE analytics

More Related Content

What's hot

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向Yamato OKAMOTO
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoderMasanari Kimura
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 

What's hot (20)

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 

Similar to 【論文読み会】Self-Attention Generative Adversarial Networks

Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANsKentaro Tachibana
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
クラウドがアプリケーションの価値を上げる
クラウドがアプリケーションの価値を上げるクラウドがアプリケーションの価値を上げる
クラウドがアプリケーションの価値を上げるNissho-Blocks
 
景観セミナー資料 (株)フジヤマ
景観セミナー資料 (株)フジヤマ景観セミナー資料 (株)フジヤマ
景観セミナー資料 (株)フジヤマNaoya Sugimoto
 
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
何がって"DevQA" アジャイル開発とQAの合体が改善を生む何がって"DevQA" アジャイル開発とQAの合体が改善を生む
何がって"DevQA" アジャイル開発とQAの合体が改善を生むatsushi nagata
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとはMakoto Shimizu
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Koichi Hamada
 
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptxJOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptxTomoeNOBUSADA
 
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査Hironori Washizaki
 
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査Hironori Washizaki
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japaneseYoichiro Takehora
 
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案Kamiya Toshihiro
 
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnnAnnotating object instances with a polygon rnn
Annotating object instances with a polygon rnnTakanori Ogata
 
成功と失敗に学ぶアジャイル受託開発の極意
成功と失敗に学ぶアジャイル受託開発の極意成功と失敗に学ぶアジャイル受託開発の極意
成功と失敗に学ぶアジャイル受託開発の極意Yukio Okajima
 
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225Hironori Washizaki
 
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上智治 長沢
 

Similar to 【論文読み会】Self-Attention Generative Adversarial Networks (20)

Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
クラウドがアプリケーションの価値を上げる
クラウドがアプリケーションの価値を上げるクラウドがアプリケーションの価値を上げる
クラウドがアプリケーションの価値を上げる
 
景観セミナー資料 (株)フジヤマ
景観セミナー資料 (株)フジヤマ景観セミナー資料 (株)フジヤマ
景観セミナー資料 (株)フジヤマ
 
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
何がって"DevQA" アジャイル開発とQAの合体が改善を生む何がって"DevQA" アジャイル開発とQAの合体が改善を生む
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptxJOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
 
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
 
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japanese
 
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
 
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnnAnnotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
 
成功と失敗に学ぶアジャイル受託開発の極意
成功と失敗に学ぶアジャイル受託開発の極意成功と失敗に学ぶアジャイル受託開発の極意
成功と失敗に学ぶアジャイル受託開発の極意
 
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
 
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
 

More from ARISE analytics

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptxARISE analytics
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptxARISE analytics
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方ARISE analytics
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...ARISE analytics
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptxARISE analytics
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptxARISE analytics
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical PrecipiceARISE analytics
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov RewardARISE analytics
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...ARISE analytics
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text ClassificationARISE analytics
 

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
 

【論文読み会】Self-Attention Generative Adversarial Networks

  • 1. 1©2019 ARISE analytics Self-Attention Generative Adversarial Networks 2018/09/07 Yuya Kanemoto
  • 2. 2©2019 ARISE analytics 概要 一言で言うと すごい点 Self-attentionを用いて画像の大域的な依存関係を抽出 画像生成の性能指標が大幅に向上  Inception Score (IS): 36.8 → 52.52  Fréchet Inception distance (FID): 27.62 → 18.65 モチベーション GANの精度向上
  • 3. 3©2019 ARISE analytics Table of contents • Background • GAN • Framework • 1クラス画像生成の進展 • 多クラス画像生成の進展 • 評価基準 • Spectral normalization • Self-attention • 本論文
  • 4. 4©2019 ARISE analytics GAN framework Goodfellow et al. 2014. Generative Adversarial Nets
  • 5. 5©2019 ARISE analytics 3.5 Years of Progress on Faces Goodfellow CVPR Tutorial 2018
  • 6. 6©2019 ARISE analytics SOTA on Faces: PG-GAN Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION
  • 7. 7©2019 ARISE analytics <2 Years of Progress on ImageNet Goodfellow CVPR Tutorial 2018
  • 8. 8©2019 ARISE analytics 多クラス画像生成の課題 • ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に 生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい • CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される 大局的な情報を得るためにCNNを多層にするのはコストがかかる • → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述) (FID) Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
  • 9. 9©2019 ARISE analytics GANの評価基準 • Inception Score (IS) GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による 生成画像の分類予測p(y|x)のエントロピーは小さい GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい • Fréchet Inception distance (FID) Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ なして平均・共分散を計算 それらを用いてFréchet距離を計算 ISに比べmode collapseをより的確に捉えることができる Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
  • 10. 10©2019 ARISE analytics Lipschitz連続 • GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている (e.g. Wasserstein GAN) • ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす • Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在 • Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight clippingを行った Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
  • 11. 11©2019 ARISE analytics Spectral Normalization • 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の Lipschitz normの積で表せる • 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい • 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに 等しい • 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ トfのLipschitz normを1以下に制御 (1) (3) Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS (2)
  • 12. 12©2019 ARISE analytics Attention • Source-target attention • 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを decoderに入力として与えるため、長文の場合精度が悪かった • Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処 理するかのAttention機構を取り入れることにより、長文に対しても精度が向上 • Self-attention • Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る • Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な 位置しか参照できない畳み込み層より優れた利点である Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation Vaswani et al. NIPS 2017. Attention Is All You Need
  • 14. 14©2019 ARISE analytics Self-attention on image • Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な 依存関係を推測する • 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 15. 15©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 16. 16©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 17. 17©2019 ARISE analytics Effect of spectral normalization • Spectral Normalizationにより学習が安定 • Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定 • Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす る手法により学習が高速化 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 18. 18©2019 ARISE analytics Self-attention vs residual block • Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群 としてResidualブロックを加えたネットワークと比較 • SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 19. 19©2019 ARISE analytics Self-attention visualization • Generator側のself-attentionを用いた最後の層のattention mapを可視化 • 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 20. 20©2019 ARISE analytics SOTA on class-conditional GAN • 既存の多クラス画像生成手法と比較 • SOTAを達成、大幅に精度が向上 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 21. 21©2019 ARISE analytics SAGAN-generated images Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 22. 22©2019 ARISE analytics Summary • Self-attentionを用いて大局的な依存関係を抽出 • Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化 • TTURによりGAN学習を高速化 • 多クラス画像生成においてSOTAを達成、大幅に精度が向上