第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
- 1. SeqGAN: Sequence Generative Adversarial Nets
with Policy Gradient
Lantao Yu† , Weinan Zhang† , Jun Wang‡ , Yong Yu†
†Shanghai Jiao Tong University, ‡University College London
{yulantao,wnzhang,yyu}@apex.sjtu.edu.cn, j.wang@cs.ucl.ac.ukd
第35回 強化学習勉強会 2016/10/05 関根 嵩之
- 2. 概要
• GAN(Generative Adversarial Nets)は生成モデルの学習にそれを支
援する識別モデルを用いたもの
• 画像などの現実のデータの生成において大きな成功を収めた
• しかしGANは離散トークンの系列に対しては上手く働かない
• SeqGANという系列の生成の枠組みを提案する
• データの生成器を強化学習における確率的な方策として扱うことでこの問題
を回避
• 合成データや現実のタスクといった幅広い実験で大きな性能向上が見られた
- 7. 関連研究
• [深層生成モデルの研究の系譜]
• DBN [Hinton.2006], DAE [Bengio:2013] ,VAE(Variational
Autoencoder)
• 最尤推定によりデータの生成を行う
• [Goodfellow: 2014]は尤度最大化は確率的推定計算の困難さを伴うことを指摘
• GAN
• 最尤推定による学習に伴う困難さを回避、自然画像生成においてめまぐるしい成
功[Denton:2015]
• 一方, GANを系列データ生成に用いてもほとんど進歩がない[Huszar:2015]
- 19. 実験1 [Synthetic Data] (1)
・正確に性能評価を行うためまずはモデルがわかっているLSTMをOracleとして使用。
・普通MLEといえば 本物の分布p,予測qとして の最小化だが、
生成モデルの評価ではTuringテストのように、人間の事前知識に基づいた分布
を用いると を最小化するのが適切
・ここではOracleが人間の観測者だとして
を評価基準とする
- 20. 実験1 [Synthetic Data] (2)
Training:10000系列 , Test:100000系列 (長さは10)
黄色の垂直線より左側がSeqGANのpre-trainingSeqGANが既存のモデルよりも良い評価値
- 21. 実験1 [Synthetic Data] (3)
(a) ~ (c):
g-steps, d-steps, kなどのメタパラメータが
Gの収束や精度に大きく影響することがわかる
d-stepsに対してg-stepsが多すぎると、Dが適切に
更新されきらない状態になってしまう
(d) :
(a)~(c)では k回のDの更新時に同じ同じデータセット
を使用
(d)では正解データは同じだが不正解データは毎回Gから
生成して異なるものを使用
→ 総じて安定性が向上する
- 22. 実験2 [Real-world Scenarios]
・系列トークンを扱う問題として
1) Chinese poem Generation
2) Obama speech Generation
3) Music Generation
を扱った。
・比較対象はGからのMLEとSeqGAN
・どのタスクにおいてもSeqGANがMLE
を上回る結果に
・(1)に対してはhuman scoreも実験した
Real dataのスコアと比較できるレベル