SlideShare a Scribd company logo
1 of 27
Sequence to Better Sequence:
Continuous Revision of
Combinatorial Structures.
J. Mueller, D. Gifford and T. Jaakkola
(ICML2017)
AI Lab論文読み会 2017/10/13
稲村 和樹
論文概要
• 系列 x にスコア y が付与されるデータ設定
• 文法・トピック等保ちつつ「高スコアの文」に変えたい
• 文生成(VAE+RNN)とスコア関数(FFNN)を結合学習
• 連続な文表現 z を勾配を基に移して文修正を実現
• 文修正に適した連続表現空間を獲得
• 文修正後の尤度・スコア変化のバウンドを導出
• 修正後ひどい結果にならない設定を保証
• トイデータ・評判付き文・著者付き文の文修正を
スコア変化・修正文尤度・編集距離で評価
結果の一部
入力文x0を
ポジティブな文に変換
入力文x0を
シェイクスピア風に変換
文生成の研究
• 文生成⊃ MT, 要約, スタイル変換; 分子生成 etc.
• 文生成・変換の難しさ
• 意味性の保持
• 文法性・流暢さ・スタイルの保持
• 生成の多様性・奇抜性
• 深層学習によるアプローチ
• 単語ごとに表現を生成:RNN, Enc-Dec
→ 文法やトピックなど文全体の特徴を捉えるのが苦手
• 文全体の表現を獲得:VAE/GAN
• AE+RNN Enc-Dec: [Dai & Le, NIPS2015]
• VAE+RNN Enc-Dec: [Bowman et al., CoNLL2016]
• 隠れ状態経由で文修正
• VAE+RNNで元文修正・文スコア有: [Mueller et al., ICML2017]
• VAE(単語編集ベクトル基に文を編集): [Guu et al., arXiv 2017]
先行研究: [Bowman et al.,2016]
• Variational Auto-Encoder + RNN Encoder-Decoder
• Sequence AE(AE+RNN Enc-Dec)の分布推定版
• 類似文の表現zを生成する正規分布として表現獲得
• 学習上の工夫が多く試されている
• Sigmoid scheduled annealingやword dropoutの有効性
[Bowman et al.,2016] 実験結果
二つの文表現を結ぶ線上の点が
表す文を並べて比較
SAE(点推定)では途中に
文法崩れた文が混じる
VAE(分布推定)は途中の文も
文法や文長, 品詞, トピック
などを保持できている
VAE+RNNで
似た文同士の表現を
近くに配置できてそう
→ 文の推移を制御!
データ・問題設定
• 文xにスコアyが付与
• シェア・閲覧数、スタイル傾向; 分子構造の有効性…
• 文x0からより高いスコアを与える文x*を得たい
• が高い x ほどよい(文のスコア)
• が高いほどよい(文の自然さ)
• 構文やトピックは大きく変えたくない
• 陽に考慮されてはいない (future work)
• [Bowman et al., 2016]では短文に対しては問題ないと主張
• x, yを生成する隠れ状態 z を仮定
• エンコーダー E: X → Z
• デコーダー D: Z → X
• スコア関数 F: Z → Y
• F: Feedforward NN
• E, D: VAE with Encoder-Decoder RNN
• [Bowman et al., 2016]とLSTM -> GRU以外同じ
文・スコア生成のモデリング
修正過程の連続空間モデリング
• 文x0からより高いスコアを与える文x*を得たい
x 探索する代わりに z を移す
F(z)最大にする方向にzを反復更新
損失関数
• 損失関数 = VAE損失(+正則化) + スコア損失+スコア不変性
• : スコアYの経験分散
• この損失を基にE, D, Fのパラメータを結合学習
• F: Feedforward NN
• E&D: VAE with Encoder-Decoder RNN(本手法ではGRU使用)
VAE (PFN得居さんのスライド*より引用)
*「論文紹介 Semi-supervised Learning with Deep Generative Models」
(https://www.slideshare.net/beam2d/semisupervised-learning-with-deep-generative-models)
本手法での
Decoder
本手法での
Encoder
VAE with RNN Enc-Dec: Encoder
学習時は
サンプリング
予測時は
決定的
文: 単語ベクトル
, は対角行列
GRU cells
VAE with RNN Enc-Dec: Decoder
予測時は
argmax近似
(ビーム探索)
t番目の単語生成確率の推定値
GRU cells
VAE損失(変分下界最大化)
変分事後分布と尤度の各パラメータはRNN Enc-Decで生成
log(凸関数)
に関する
Jenssenの
不等式
スコア損失, スコア不変性
• 次で近似:
• 最適化の際はF, Eのみ更新( 内はパラメタ固定で勾配計算)
• Eの別観点からの正則化として機能
• F, Eの一方だけにしか寄与しないzの無駄な次元を減らす狙い
スコア損失:
スコア不変性:
学習戦略
正則化の制御テクニックが有効
1. 先に正則化項( , )抜きで学習
2. を0→1と徐々に上げる
• Sigmoid annealing schedule
図は[Bowman et al., 2016]より引用
• KL項の早期のスパイクを抑制
3. を の減少に比例して上げる
• ミニバッチから均等な数サンプリングして学習
文の最適修正→制約付最大化問題
バリア関数法によるz*の獲得
バリア関数 : 制約境界で無限小の値
→ 制約領域 から出ないようにする
は更新ごとに
徐々に小さくする
⇔
修正文の評価指標
1. スコア向上:
2. 尤度:
• 全データ上で学習したRNNLMで推定
3. 編集距離:
• 構文やトピックが変わりすぎないことの代用?
スコア変化・尤度のバウンド
• 修正後尤度の下限は入力文尤度に比例(Thm.1)
(Thm.2 はある条件下でよりtightにバウンド)
• スコア変化の上限下限(Thm.3)
• と近似していた
• Fの改善が真の期待スコアの改善に繋がることを最悪最良ケースで保証
実験1: トイデータ
• 系列生成ルールとスコア関数を設定
• 語彙数 =10, 文長10~20, スコア:=文内の文字 ’A’ の数
• ルールは ’A’ が任意の位置に生成されないように調整
• から1000ステップ分修正しデコード
• ベースライン(SEARCH): E: RNNLM, D: ビーム探索
• 操作(sbst/ins/del/nop)をランダムに4回施して100修正文生成
• RNNLM尤度 の文は無視した上でx*を探索
実験結果1: 評価値とその挙動
Z変化に対し
X変化大きい文は
少ないらしい
Thm1. 尤度下限は入力文尤度に比例
α変化に対し
各指標は
滑らかに変化
制約緩い方が
高いスコア
制約厳しい方が
高い尤度
デフォルトは
実験2: 好評判な文に修正
• BeerAdvocate(ビールのレビュー)で学習・評価
• 英語のルールベース評判解析ツールVADERで採点
• polarityとintensityを総合評価、好評判なほど高スコア
• 1M以上の文のうち1000文で評価
実験1と似た結果
実験2: 修正結果
制約緩い: ポジティブ表現化、文の自然さ犠牲によりキャッチー(?)に
制約厳しい: ポジティブ表現化、文の自然さ優先しやや冗長に
ベースライン: ランダムに置き換わっただけ、文としては自然
実験3: 著者スタイル風に修正
• シェイクスピアの文ならy=0.9
• 現代の書き手の文ならy=0.1
zの更新回数
古い表現
thou(you)
art(be)
まとめ
• 系列 x にスコア y が付与されるデータ設定
• 文法・トピック等保ちつつ「高スコアの文」に変えたい
• 文生成(VAE+RNN)とスコア関数(FFNN)を結合学習
• 連続な文表現 z を勾配を基に移して文修正を実現
• 文修正に適した連続表現空間を獲得
• 文修正後の尤度・スコア変化のバウンドを導出
• 修正後ひどい結果にならない設定を保証
• トイデータ・評判付き文・著者付き文の文修正を
スコア変化・修正文尤度・編集距離で評価
所感
• 文編集経由の表現学習は非文回避に良さそう
• 編集ベクトル保持する手法[Guu et al., arXiv 2017]との比較
• 多峰モデル[Tomczak et al., arXiv 2017]に拡張
• 文修正教師データが与えられる設定?スコアにバイアス?
• 文の意味的類似性も損失に組込めないか
• z の近さが導く文の近さはどんな類似性か?
• 著者の先行研究的に次のステップとして解決してくれそう
• 条件付きモデルとの組合せ
• 生成を条件で管理
• スコア(多値)の推移軸を条件で管理
• 要約生成に応用
• 挑戦1. 要約スコア指標の選定・開発が必要
• 挑戦2. 文長変化に対処できるか
• 関連手法:Enc-Dec+RLで文要約 [Zhang et al., EMNLP2017]

More Related Content

Similar to 論文紹介: Sequence to Better Sequence: Continuous Revision of Combinatorial Structures.

Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and BeyondTakashi YAMAMURA
 
文献紹介:Length-Controllable Image Captioning
文献紹介:Length-Controllable Image Captioning文献紹介:Length-Controllable Image Captioning
文献紹介:Length-Controllable Image CaptioningToru Tamaki
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類Peinan ZHANG
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13sekizawayuuki
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
voldemortの技術 - Dynamoとの比較
voldemortの技術 - Dynamoとの比較voldemortの技術 - Dynamoとの比較
voldemortの技術 - Dynamoとの比較Joongjin Bae
 
CV勉強会@関東 3巻3章4節 画像表現
CV勉強会@関東 3巻3章4節 画像表現CV勉強会@関東 3巻3章4節 画像表現
CV勉強会@関東 3巻3章4節 画像表現Yusuke Uchida
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014Sho Takase
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...広樹 本間
 

Similar to 論文紹介: Sequence to Better Sequence: Continuous Revision of Combinatorial Structures. (16)

Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
文献紹介:Length-Controllable Image Captioning
文献紹介:Length-Controllable Image Captioning文献紹介:Length-Controllable Image Captioning
文献紹介:Length-Controllable Image Captioning
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
 
NLP2012
NLP2012NLP2012
NLP2012
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
voldemortの技術 - Dynamoとの比較
voldemortの技術 - Dynamoとの比較voldemortの技術 - Dynamoとの比較
voldemortの技術 - Dynamoとの比較
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
CV勉強会@関東 3巻3章4節 画像表現
CV勉強会@関東 3巻3章4節 画像表現CV勉強会@関東 3巻3章4節 画像表現
CV勉強会@関東 3巻3章4節 画像表現
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
 

論文紹介: Sequence to Better Sequence: Continuous Revision of Combinatorial Structures.