Successfully reported this slideshow.
Your SlideShare is downloading. ×

【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 22 Ad
Advertisement

More Related Content

Recently uploaded (20)

Advertisement

【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)

  1. 1. [公開情報] Alias-Free Generative Adversarial Networks (StyleGAN 3) Customer Analytics Division 近藤 真暉 2022/03/10
  2. 2. [公開情報] ©2022 ARISE analytics 2 引用 特に注釈ない限り、動画像は以下の論文・PJページからの引用です。 【論文】 StyleGAN1: A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019) StyleGAN2:Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) StyleGAN3:Alias-Free Generative Adversarial Networks (NeurIPS 2021) 【PJページ】 PJページ:Alias-Free Generative Adversarial Networks (StyleGAN3)
  3. 3. [公開情報] ©2022 ARISE analytics 3 注意 論文が対象としているドメインの特性上、動画を用いての説明が中心です。 動画があるページは、スライド右上に と記載しています。 動画がうまく再生できない場合は、スライド下部に動画リンクを記載していますのでそ ちらをクリックしてご確認ください。 動画
  4. 4. [公開情報] ©2022 ARISE analytics 4 論文概要 平行移動・回転に対応したStyleGANの正統進化 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_0_ffhq_cinemagraphs.mp4 StyleGAN2 (ヒゲが浮いている) StyleGAN3 (ヒゲがくっついている) 動画
  5. 5. [公開情報] ©2022 ARISE analytics 5 StyleGANの歴史 StyleGAN 口が動かない+ノイズ StyleGAN2 連続的な変化のときに一部固定される StyleGAN3 平行移動や回転に対しても自然な連続変化 AdaIN(青色)でノイズが大きくなる Progressive Growingのせいで頻出特徴(正面顔)を生成 AdaINの除去でノイズ防止 Progressive Growingの除去で不自然なモードを防止 StyleGAN2では意図しない形で位置情報を使ってしまう Generatorの出力を連続信号として扱い、ローパスフィルタ を導入することで解決
  6. 6. [公開情報] ©2022 ARISE analytics 6 一般的なGAN GeneratorとDiscriminatorを同時に学習することで、高精度な学習を実現 画像引用:From GAN basic to StyleGAN2 ノイズを入力すると画像を生成するGeneratorと Generatorが生成した画像が本物かどうかを判断するDiscriminatorを 同時に学習 すなわち、GANの学習は以下のように行われる Discriminator:V(D,G)を最大にするように学習(本物の画像を入れたときは1を出力、偽物の画像を入れたときは0を出力) Generator:V(D,G)を最小にするように学習(GeneratorはDiscriminatorが1を出すような画像を出力 ) GANの損失関数はV(D,G)を用いて右式のように表現できる ここで、GANの学習は右式のような the two-player minimax game で表現できる
  7. 7. [公開情報] ©2022 ARISE analytics 7 StyleGAN スタイル変換を目的としたGANの一種 コンテンツ情報とスタイル情報を合成して新しい画像を生成 画像引用:Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017) StyleGANのベースとなったStyleTransferの構成 コンテンツ情報の形状 + スタイル情報の色情報 を生成する コンテンツ 情報 スタイル 情報 確率変数 ノイズ StyleGANではスタイル情報を確率変数、コンテンツ情報をノイズとして入力
  8. 8. [公開情報] ©2022 ARISE analytics 8 StyleGAN2 ノイズ対策や顔向き変化の追従ができるように改良 画像引用:Progressive Growing of GANs for Improved Quality(ICLR2018) MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks(CVPR2020) スタイル情報とコンテンツ情報を合成するためにAdaINを利用 入力にスパイク値が入ると正規化によりどんどん大きくなっていく ↓ AdaINを使わず、標準偏差で正規化するなどより単純な仕組みに改良 (ノイズ対策) Progressive growingは個々のGeneratorが独立しているため頻出特徴が生成されやすい そのため顔を動かしても歯は頻出(正面顔)のままになってしまう ↓ Progressive growing のかわりに、MSG-GANライクなネットワークに変更 (顔向き変化追従) Progressive Growing 徐々に高解像度化することで、きれいな画像を生成 Generator/Discriminatorは複数存在・独立 MSG-GAN Generator/Discriminatorはひとつずつ 途中段階を入出力
  9. 9. [公開情報] ©2022 ARISE analytics 9 StyleGAN3のモチベーション StyleGAN2では、画像の絶対座標にいくつかの特徴が貼りついたようになる問題が発生 動画像応用を考える場合、これは大きな課題になるため解決したい テクスチャ貼り付けの例 Generatorの出力をぼかすと、出力画像も一様にぼやけるはず しかし、StyleGAN2はテクスチャが貼りついてしまってるため 画像をぼかしても、不自然にくっきりした部分が出てしまう アニメーションの例 人物を右に移動させたときの絶対座標のセグメント窓を 水平方向に並べたもの 連続的な変化になっていれば、きれいな画像が取り出せるはず StyleGAN2 は水平方向に移動したときの変化が連続的でない StyleGAN3 は水平方向に移動したときの変化が連続的
  10. 10. [公開情報] ©2022 ARISE analytics 10 StyleGAN3のベースアイデア 生成器の入力値を連続信号として扱うことで、平行移動・回転に対しても変化が生じないように改良 (連続信号にすることで、周辺情報をリッチに扱うことができる) Z:離散表現(ピクセルごとに値を保持) z:連続表現(ピクセル間にも値を入れる) 離散→連続の変換は補完フィルタ(Φs)によって行われる 深層学習で用いられる非線形関数σ(例:ReLU)は高い周波数だけ残してしまう そうすると、せっかく連続表現にしたにもかかわらず低周波領域が 離散表現(すべて同じ)になってしまい効果が薄くなる ↓ ローパスフィルタ(高周波領域を減衰)を追加することで、低周波領域も しっかりとらえられるように工夫 (たぶん細かい調整していると思うが、細かい実装は不明)
  11. 11. [公開情報] ©2022 ARISE analytics 11 ローパスフィルタの効果 ローパスフィルタ Φ_s をかけることで滑らかな関数が得られる 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_7_figure_2_right_filtered_nonlinearity.mp4 元の信号 (連続表現) サンプリング (離散表現) 再構成 元の信号 ReLU ReLU +ローパスフィルタ 動画
  12. 12. [公開情報] ©2022 ARISE analytics 12 StyleGAN3の構成検証 StyleGAN2ベースにいくつか要素を加え、クリティカルな要素を探るべくunaligned FFHQデータセット で実験 Flexible LayerとRotation Equiv が効いた ↓ Flexible layer specifications (config T):解像度が低いレイヤと高いレイヤで異なるパラメタを使うようにし、レイヤごとに最適化 Rotation equivariance (config R) :畳み込み層のフィルタサイズを 3x3 → 1x1 に変更。回転してもうまく変化するように対応できる+パラメタ削減効果
  13. 13. [公開情報] ©2022 ARISE analytics 13 Flexible layerの効果 Config Gでは解消できなかった低レイヤのアーチファクトが解消 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_5_figure_3_left_equivariance_quality.mp4 動画
  14. 14. [公開情報] ©2022 ARISE analytics 14 Rotation equivarianceの効果 まだ少々アーチファクトはあるものの、回転しても自然に 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_6_figure_5_right_g-cnn_comparison.mp4 動画
  15. 15. [公開情報] ©2022 ARISE analytics 15 StyleGAN3の最終的な構成 最終的なアーキテクチャ
  16. 16. [公開情報] ©2022 ARISE analytics 16 実験結果 6種のデータセットで実験。-Tと-Rでばらつきあるものの、おおむねStyleGAN3が良い (-Rでばらつきあるのは、データセットが持つ回転のバリエーションが少ない可能性もありそう) FID:Frechet Inception Distance。本物の画像と生成画像の埋め込み表現間の距離。小さいほど良い EQ-T/R:デシベル(dB)で表した等分散性指標。生成画像のばらつき(バリエーション)を表す。大きいほど良い
  17. 17. [公開情報] ©2022 ARISE analytics 17 特徴マップ 特徴マップを可視化。StyleGAN2は特徴がへばりついているが、StyleGAN3は最低限必要な輪郭 部分のみ保持 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_8_internal_activations.mp4
  18. 18. [公開情報] ©2022 ARISE analytics 18 生成結果いろいろ https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_1_ffhq_cinemagraphs.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_2_metfaces_interpolations.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_3_afhq_interpolations.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_4_beaches_interpolations.mp4 動画
  19. 19. [公開情報] ©2022 ARISE analytics 19 StyleGAN3で遊んでみた 上から年齢、表情、顔方向、性別を変動させたときの結果 年齢 動画 表情 顔方向 性別
  20. 20. [公開情報] ©2022 ARISE analytics 20 StyleGAN3で遊んでみた テキスト情報を使ったマルチモーダル変換 "a face" "a smiling face"
  21. 21. [公開情報] ©2022 ARISE analytics 21 参考文献 【論文】 Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017) Progressive Growing of GANs for Improved Quality(ICLR2018) A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019) Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks (CVPR 2020) Alias-Free Generative Adversarial Networks (NeurIPS 2021) 【解説記事】 From GAN basic to StyleGAN2 【論文読解】Analyzing and improving the image quality of stylegan StyleGAN3による画像とビデオの編集 【公式ページ】 Alias-Free Generative Adversarial Networks (StyleGAN3)
  22. 22. [公開情報]

×