SlideShare a Scribd company logo
1 of 33
Download to read offline
Adversarial Feature Matching

for Text Generation
2017/7/7 DL輪読会
松尾研 曽根岡侑也
1
メタ情報
• 著者
- Yizhe Zhang, Zhe Gan, Kai Fan, Zhi Chen, Ricardo Henao,
Lawrence Carin
- NIPS2016 ✕ 3, ICML ✕ 2のデューク大学PhD
• Accepted by ICML2017(arXiv on 12 Jun 2017)
• NIPS2016 Workshopの進化版
2
概要
• 文書生成にGANを用いるTextGANを提案
- GeneratorはLSTM、DiscriminatorはCNN
- FeatureMatchingと再構成の項を目的関数に追加し、

ModeCollapse・勾配消失問題を軽減
- Soft-argmax近似、Pre-training、soft-labeling等の

学習テクニック
• SeqGANよりいい評価 & 現実的な文生成に成功
3
背景:自然言語生成
• 自然言語生成の系譜
- 文書から確率分布を評価し、その分布からサンプリング
- RNNを用いたAutoEncoder [Cho et al.(2014)]
- RNNベースのVAE [Bowman et al.(2016)]
• RNNベースではうまくいかない
- 潜在空間の一部しかカバーできていない
- Exposure Bias:文後半に向けてズレが蓄積
4
背景:GAN
• 本物らしく作るGenerator vs 偽物を見抜くDiscriminator
- Dは最大化、Gは最小化するように最適化
- DはJSDを近似し、Gは近似されたJSDを最小化する方向に
• GANの問題点
- ModeCollapsing:潜在変数から同じ結果を作る
- Dが局所解に近づいた場合、勾配消失が起きる

(EBGANのTVDも同様)
5
提案手法:TextGAN
• GはLSTM、DとEはCNNを使用
• Feature Machingを採用 [Salimans et al. (2016)]
6
TextGANの目的関数
7
(λr, λmはハイパーパラメータ)
→ GANと同じ
→ Gは最小化する
→ Dは最大化する
→ 潜在変数の再構成時の誤差
TextGANの目的関数
8
(λr, λmはハイパーパラメータ)
③
②
→ GANと同じ
→ Gは最小化する
→ Dは最大化する
→ 潜在変数の再構成時の誤差
③① ②
①
Maximum Mean Discrepancy(MMD)
• Gaussianカーネルで再生核ヒルベルト空間(RKHS)へ写像し、

平均の差を用いて一致度を測定 [Gretton et al (2012)]
9
→ 今回はGaussian
TextGANの目的関数
10
(λr, λmはハイパーパラメータ)
→ GANと同じ
→ Gは最小化する
→ Dは最大化する
→ 潜在変数の再構成時の誤差
③① ②
① 偽物を見抜く方向に
② 潜在変数を最大限保存する方向に
③ Generatorがあわせるのが難しい特徴量を見つける方向に
Discriminator/Encoder:CNN
• 文を学習済みの埋め込み行列でk ✕ Tの行列に変換
• Windowサイズが異なるConvolutionのフィルタをかけ、フィル
タ毎にMaxPooling(活性化関数はtanh)
• DはMLPの後にSoftmaxで真偽を判定、EはMLPでzを復元
11
[Kim et al.(2014)]
Generator:LSTM
• よくあるLSTM
• yは生成された単語を埋め込みベクトルにしたもの
• zは毎回渡す
12
データ効率①:Compressing Network
• 課題

GaussianカーネルMMDでは特徴ベクトルfの次元に応じて、

ミニバッチのサイズを大きくする必要がある
• Compressing Network
- 特徴ベクトルfを圧縮するための全結合レイヤーを追加
- 変換後の次元数はデータ効率と表現力のトレードオフ
13
データ効率②:Gaussian covariance matching
• カーネルトリックの代わりに下記を使う
14
: の共分散
: の平均
学習テクニック①:Soft-argmax approximation
• 離散変数を含むため、Gの学習での勾配評価は難しい
• 下記の式で近似(Gumbel-Softmaxに近い?)
15
Soft-argmax近似元の式
学習テクニック②:Pre-training
• D/E(CNN)
- Permutation training
- テキストの2単語を入れ替えて偽の文を作り学習
- 単語追加・消去より難しいタスク
• G(LSTM)
- CNN-LSTM autoencoderを利用 [Gan et al. (2016)]
16
学習テクニック③:Soft-labeling
• 1 or 0とするのが普通であるが、正解=0.7-1.2、偽=0-0.3か
らランダムにサンプルする[Salimans et al (2016)]
• 本論文では、最大0.99, 最低0.01としている
17
実験
• データ
- BookCorpus(70m) + Arxiv(5m)から各50万文ずつ
• 潜在変数zは900次元
• D/E(CNN)
- Windowサイズは3,4,5で、各300個ずつのfilter
- 活性化関数はSigmoid
- D:900-200-2のMLPで真偽を判定z、出力層はSoftmax
- E:900-900-900でzを再構成、出力層はtanh
• LSTM:隠れ層500
18
実験
• その他
- Gを5回更新したらDを1回更新
- Gaussianカーネルのσ:20前後
- Optimizer:Adam(学習率:5 ✕ 10^-5)
- ミニバッチ:256
- GのLossとBLEU (正解と生成の類似度)でValidation
- 50 epoch (3days)
19
実験結果①:特徴ベクトルの分布
• 本物と偽物の2000文ずつの特徴ベクトル(900次元)の

平均と共分散をプロット
20
実験結果②:定量的比較
21
※ SeqGANは金子さんの輪読参照(16/9/30)
MM:Mean Matching, CM:Covariance Matching
MMD-L:compressed to 200次元
実験結果③:生成文
• 文法に関してはDがうまく機能しており、約95%で偽物を識別
- 丸括弧やクォーテーションをあわせて生成している
- 文法的には正しいが20語以上になると意味がおかしくなる
22
実験結果④:潜在特徴空間の軌道
• 文Aから文Bまで潜在変数を連続的に変更した際の変化
• AEより意味的にも文法的にも正しいが、大きな変化が起きる
23
まとめ
• 文書生成にGANを用いるTextGANを提案
- GeneratorはLSTM、DiscriminatorはCNN
- FeatureMatchingと再構成の項を目的関数に追加し、

ModeCollapse・勾配消失問題を軽減
- Soft-argmax近似、Pre-training、soft-labeling等の

学習テクニック
• SeqGANよりいい評価 & 現実的な文生成に成功
24
感想
• 勉強になりました
• FeatureMatching, Soft-argmaxApproximation, KSDが
なんかすごそう(?)
• 日本語でやってみたい
• MMDの実装が不安
25
Appendix
26
【参考】Jensen-Shannonダイバージェンス(JSD)
• KLダイバージェンス:分布と分布の差異の大きさ

• JSダイバージェンス:KLに対称性を付加
27
【参考】 MMDのPytorch実装
28
【参考】TextCNN実装
• https://github.com/dennybritz/cnn-text-classification-tf
29
関連研究:Generative Moment Matching Networks(GMMNs)
• GANのDをMMDで代替するアイデアで同じ
• 自然言語で使えない(NNで使う場合近似する)
- 計算量が重く次元数が大きいケースでは厳しい
- 単語ベースの類似度のため、文構造を考慮しない

(boy is swimming と a boy is swimming)
30
関連研究:その他
• Kernelized Stein Discrepancy(KSD)
- MMDからKSDにするのはFuture Work
• WGAN
- JSDよりWassersteinのほうがよさそうだが、MMDを
使っているので勾配消失は軽減されている
31
【参考】BLEU
32
FutureWork
• KSDの導入
• DropOut
• 強化学習の戦略を用いてLSTMをアップデート
• Conditional GAN
• reverse-order LSTM
33

More Related Content

Similar to Adversarial Feature Matching for Text Generation

【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper. challenge
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and BeyondTakashi YAMAMURA
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法についてMasanoriSuganuma
 
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...浩気 西山
 

Similar to Adversarial Feature Matching for Text Generation (10)

【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
SoCC12報告
SoCC12報告SoCC12報告
SoCC12報告
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 

Adversarial Feature Matching for Text Generation