Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)

4,433 views

Published on

DL輪読会, Generative Adversarial Nets, Deep Learning, ICLR, NIPS

Published in: Technology
  • Be the first to comment

[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)

  1. 1. Adversarial Training (GAN) サーベイ D3 岩澤有祐
  2. 2. 概要 • Adversarial Training (GAN)系の最近の成果について まとめました – 主にICLR2016,NIPS2016 – 合計16本 • ちなみにGAN論文(2014, Jun)の引用は約200 – 初出2013年のVAEは約300なのでペース的には同じくらい • NIPS2016で発表に含められてないものもあり – “Coupled Generative Adversarial Networks” (面白そう) – “Disentangling factors of variation in deep representation using adversarial training”(まだ上がってない?)
  3. 3. まとめと感想 • Adversarial Trainingの肝は分布を近づけること – 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも できる – 近づけたい分布がランダムなノイズから生成した分布である必要もな い (ex. Censoring representation) • GANはちょっとずつ使いやすくなってる &色んな所で利用されている • 半教師ありでもSOTA • 研究はなんかVAEと似てるの多い – DRAW vs. VRAN – Censoring vs. Variational Fair Auto Encoder – Info-GANも似たのあったはず – 動画生成はあんまVAE見たことない
  4. 4. 目次 • GANの基本 • GANの問題点とその対策に関する研究 • GANに関する応用研究
  5. 5. Generative Adversarial Nets Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio 概要 MinMaxゲームで生成モデル 先行研究と比べてどこがすごい? 結果 生成された画像もきれいかつ訓練を覚えてる わけでもない(左図) 尤度で当時良かった?DBNや Generative stochastic networksを上回る (右表) 生成モデルの新しい形,VAEみたいに分布を 仮定しないので画像がきれい(上図参照) SGDで解ける イメージは貨幣偽造者vs.警察 NIPS2015
  6. 6. Conditional Generative Adversarial Nets Mehdi Mirza, Simon Osindero 概要 何らかの情報yで条件付けた画像を表示するた めの方法を提案 Gが生成する画像をyで条件付ける以外は基本 GANと同じ(左図) 結果 条件付けた画像が生成できる(右図) たぶん各行がラベルyを固定したもので 各列が潜在変数zを固定したもの ちゃんと条件付けたものが生成できてる (zでの条件付けは微妙な気がする) ちなみに尤度は論文中でGANに負けてる Arxiv
  7. 7. GANの問題点とその対策に関する研究
  8. 8. GANの問題点とその対策手法の個人的対応 1. 学習が難しい – GMMN (ICML2015), CGMMN (NIPS2016) – DCGAN (ICLR2016) – GRAN (Arxiv) – f-GAN (NIPS2016) – Improved Techniques for GAN (NIPS2016) 2. zが解釈できない – Adversarial Autoencoder (ICLR2016, Workshop) – Info-GAN (NIPS2016) 3. 評価が難しい – いろんな研究がいろんなことしてる
  9. 9. Generative Moment Matching Networks (GMMN) Yujia Li, Kevin Swersky, Richard Zemel 概要 - GANのDをMMD で代替 - MMD (Maximum Mean Discrepancy) は,カー ネルを使って積率の一致度を測る方法 - カーネルが微分可能なら微分可能 - MMDを使うと目的関数が単純になる - Con: MMDの正確さはカーネルや そのパラメタの選び方に依存 - AutoEncoderと組み合わせること(xじゃな くてzでマッチングする)でGANを上回る 結果 GMM+AEで尤度がGANを上回る(右2表) GMMだけだと画像が荒い印象(個人的見解) ICML2015 MMDは計算重いのでNNで使う場合普通は 近似する(と思う)cf. ”VFAE [Louizos, 2016]” この論文がやってるかは知らない 補足
  10. 10. Conditional Generative Moment-Matching Networks (CGMMN) Yong Ren, Jialian Li, Yucen Luo, Jun Zhu ※まだちゃんと読んでないのでざっくり 概要 GMMNを条件付けられるようにしたCGMMNを (Conditional Generative Moment Matching Networks) を提案 そのために,MMDを拡張したConditional MMD を提案 結果 クラス分類,画像生成,Bayesian Dark Knowledge (BDK) で評価 クラス分類タスクで普通のVAEとかより良い 精度(左表),純粋な教師ありには負ける 条件付けてちゃんと生成できてる(右図) BDKにも使える(論文中表3) NIPS2016
  11. 11. DCGAN Alec Radford, Luke Metz, Soumith Chintala 概要 GANが安定しない問題を解決するために種々 の経験則を入れたもの - プーリングの代わりに畳み込み - GにはReLUを,DにはLeakyReLU - BNをGとDどちらにも使う - 全結合は使わない 結果 LSUNデータセットを使い寝室画像を生成 (きれい!中央図) 意味の演算っぽい事もできる(右図) Dの特徴は教師あり学習にも使える ICLR2016
  12. 12. Generating Images with Recurrent Adversarial Networks (GRAN) Daniel Jiwoong Im, Chris Dongjoo Kim, Hui Jiang, Roland Memisevic Arxiv ※まだちゃんと読んでないのでざっくり 概要 GANの生成を系列的に行う(1度にすべて書 く代わり複数回分けて書く) LAP-GANが粗い画像から徐々に細かい部分を 生成するのに対してGRANはRNNが勝手に 生成する点が違う 結果 かなりきれいな画像が生成できる(中央図) 右図は徐々に生成されている様子
  13. 13. f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization Sebastian Nowozin, Botond Cseke, Ryota Tomioka 概要 GANの目的関数 (JS Divergence)を一般化した f-divergenceを利用するf-GANを提案 それぞれのdivergenceについてGANにどれが良 いか検証 結果 GAN: f-GAN: 尤度を調べると,JSよりKLのほうが高い その他諸々+理論的考察 “Note that the difference in the learned distribution Qθ arise only when the generator model is not rich enough.” <-この辺はよくわかってないです KL R-KL Hei JS NIPS2016
  14. 14. Improved Techniques for Training GANs Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen NIPS2016 概要 GANをうまく学習させるための経験則を5つ 提案 1. Feature matching 2. Minibatch discrimination 3. Historical averaging 4. One-side label smoothing 5. Virtual batch normalization 半教師あり学習でState-of-the-art 画像を評価する仕組みも提案 結果(一部) - MNISTでラベル20枚で誤差1%くらい - ラベル20枚ということはほぼOne-Shot - SVHNだとラベル1000枚でエラー率今まで の約半分(左表) - 生成事例もキレイ(中央図) - 左の経験則のどれが重要かをの検証(右 図)
  15. 15. Adversarial Autoencoders Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, Brendan Frey 概要 AutoEncoderが学習するzの分布q(z)が任意の分 布p(z)に近づくように訓練する 例えば,p(z)としてガウス分布を選べばガウス 分布に押し込むようにq(z)を制限することがで きる VAEよりもうまく押し込める(中央図) ICLR2016 Workshop 結果 MNISTを使った例でVAEよりガウス分布に一致 できることを確認(図中央) 尤度もGAN系の中では良い その他半教師あり学習,クラスタリング,次 元圧縮などで評価実験
  16. 16. InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel NIPS2016 概要 Disentangleな表現を学習するようにGANを 拡張 Disentangleな表現 =各次元が何らかの属性に対応するようなもの 手法の詳細 - ランダムなノイズの他に,構造を仮定したノ イズcを入力して画像を生成 (G(z) -> G(z, c) ) 構造を仮定:カテゴリを仮定するならCat,連 続値ならUniform 普通にやるとGANはcを無視して生成する可能 性があるので,cとG(z, c)の間の相互情報量を 最大化する制約を付け加える 結果 上図の通り,例えばMNISTなら数値,椅子な ら回転,顔なら感情に対応する表現を獲得
  17. 17. GANの評価について いろんな研究がいろんなことしてる 1. 尤度 2. 人間評価 3. Inception 4. 異なるDとの対戦 - カーネル密度推定とかで尤度を測る - Con: 正確な推定には大量のデータが必要 (特にデータが増えた場合) - Con: GANに不利(ぼやけた画像の方が尤度 は高くなる) URL See, “ImprovedTechniques forTraining GANs”, NIPS2016 - Inceptionモデルにサンプルxを入力して p(y|x)を得る - この時,exp(E[KL(p(y|x)||p(y)))と人間評価に は強い相関があるらしい - Again, see “ImprovedTechniques forTraining GANs”
  18. 18. GANに関する応用研究
  19. 19. まずまとめ - 今回含むものを大別すると - 1. 条件付けの工夫によるタスクに適した画像生成 – 文章から画像生成 (ICLR2016) – 別ドメインの画像から生成 (Arxiv) 2. 動画生成 – “Deep Multi-scale Video Prediction Beyond Mean Square Error” (ICLR2016) – VGAN (NIPS2016) 3. 入力XとG(z)以外を近づけるもの – Fair Representation (ICLR2016) – Imitation Learning (NIPS2016)
  20. 20. Generative Adversarial Text to Image Synthesis Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee ICLR2016 概要 文章で条件付けた画像を生成 GANとの違いは, 1. Gを文章で条件付け(左図) 2. 生成された画像のR/Fだけでなく,文章と 画像のペアが正しいかどうかも考慮 3. 補完によりデータ追加 結果 見たことない記述でも尤もらしく生成 (右2図) “Blue bird with black beak” -> “Red bird with black beak” など2つの文の間を保管すると妥当そうな結果
  21. 21. Pixel-Level Domain Transfer Donggeun Yoo, Namil Kim, Sunggyun Park, Anthony S. Paek, In So Kweon Arxiv 概要 異なるドメインの画像を生成するGANモデル 違いは 1. ランダムノイズからではなくソース画像 からターゲット画像を生成 2. ターゲット画像のR/Fだけでなく,ター ゲット画像とソース画像のペアの妥当性も 考慮
  22. 22. Deep Multi-scale Video Prediction Beyond Mean Square Error Michael Mathieu, Camille Couprie, Yann LeCun 概要 動画のフレーム予測にATを利用 Optical Flowとかと比べてかなりきれいに生成 できる(右図)+ http://cs.nyu.edu/~mathieu/iclr2016extra.html http://cs.nyu.edu/~mathieu/iclr2016.html モデルの詳細(左図) 動画を生成するネットワークGとG(z)と本物の 動画を区別するDを訓練 G部分が変わっただけであとは普通のGAN ※GAN以外にも工夫しているがここでは飛ば します 結果 既存手法よりきれいな画像が生成できる 定性評価+類似度+シャープさで比較 ICLR2016
  23. 23. Generating Videos with Scene Dynamics (VGAN) Carl Vondrick Hamed Pirsiavash Antonio Torralba 概要 動画のフレーム予測にATを利用 前頁と比べるとよりATに特化+モデル構造を 工夫 フレーム予測以外でも評価して良い精度 モデル詳細(左図) BackgroundとForegroundおよびにそのMask により生成 時間方向含む3次元の畳み込みで生成 ATのやり方は前頁と同じ 結果 - 動き方などは自然な動画を生成できる (ex. 波,左2図) - 画像として不自然,解像度が低い等課題も - 学習された表現は事前学習としても優秀 (右2表,行動認識結果) - Gを静止画で条件付けることで静止画を動 かすことも可能(右図) - 未来は不確定なので一致はしないが自然な 動きをする - http://web.mit.edu/vondrick/tinyvideo/ NIPS2016
  24. 24. Censoring Representation with Adversary Harrison Edwards, Amos Storkey ICLR2016 概要 利用する特徴量が何らかの情報を含んでほし くない場合がある 例1: Fairness 黒人か白人かで推薦結果を変えたくない 例2: Image Anonymization 画像中に氏名や住所を含みたくない 再構築誤差 Fairness/Privacy ク ラ ス分類誤差 結果 画像中から顔は再構築しながら氏名は消すよ うなことができる(右図) Fairnessについても既存手法を上回る 難しさ FairnessやAnonymizationとデータの価値がト レードオフになりうる
  25. 25. Generative Adversarial Imitation Learning Jonathan Ho, Stefano Ermon 概要 問題設定として,専門家の行動を真似する エージェントを作成することを考える (例:プロ棋士の手を打つエージェント) これを実現する方法としては逆強化学習が有 名だが,どう行動するか(ポリシー)ではな く行動の良さの評価関数をまず推定するので, 遅い 逆強化学習から出発して,評価関数の学習を 経ずに直接ポリシーを作ろうとしたらGANと 接続した的な話 NIPS2016 ※細かいことはよくわかってない 結果 複数のタスク(Open AI Gym)で比較手法を 上回る 学習したポリシーの事例 https://openai.com/assets/research/generative -models/gail-ant_ga_25_short- 1f31274a548f6fda15396d607f74c323e1de2eb 53ad9b3d9855d5f5c99600d25.gif
  26. 26. まとめと感想 • Adversarial Trainingの肝は分布を近づけること – 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも できる – 近づけたい分布がランダムなノイズから生成した分布である必要もな い (ex. Censoring representation) • GANはちょっとずつ使いやすくなってる &色んな所で利用されている • 半教師ありでもSOTA • 研究はなんかVAEと似てるの多い – DRAW vs. VRAN – Censoring vs. Variational Fair Auto Encoder – Info-GANも似たのあったはず – 動画生成はあんまVAE見たことない

×