【論文紹介】Seq2Seq (NIPS 2014)

Sequence to Sequence
Learning with Neural
Networks
Ilya Sutskever
Google
Oriol Vinyals
Google
Quoc V. Le
Google
NIPS 2014

背景
Encoder-Decoderモデル
従来のDNN(ディープニューラルネットワーク)は時系列データを扱うことは難しかった
新たにRNNを⽤いたEncoder-DecoderモデルのSeq2Seqモデルを導⼊
Encoder-Decoderモデルは機械翻訳で多く使われ、
2種類のRNNで構成されている
Seq2Seqモデル
論⽂ではEncoder-Decoder部にLSTMを導⼊

Sequence-to-Sequenceモデル（Seq2Seqモデル、系列変換モデル）
時系列モデル（主に⾔語処理）へ適⽤されているアーキテクチャ
特徴は、系列を⼊⼒として系列を出⼒する機構
例えば、⽂章を単語の系列として捉えれば、Sequence-to-Sequenceモデルを
使うことで⽂章を⼊⼒として⽂章を出⼒するようなモデルを作れる
Sequence-to-SequenceモデルはEncoderとDecoderの2つのRNNで構成される
EncoderのRNNで⼊⼒系列をベクトルに圧縮し、
そのベクトルをDecoderに渡し出⼒系列を⽣成
2
Sequence-to-Sequence
ABC : ⼊⼒系列 (ex: 英語の1⽂) <EOS> : ⽂末記号(End-of-the-sequence)
WXYZ : 出⼒系列 (ex: フランス語の1⽂) 出⼒層 : softmax

３つの重要な⼿法
・⼊⼒系列と出⼒系列に異なる２つのLSTMを使⽤
これによりパラメータの増加による⻑期依存への対応と複数⾔語に対応
・LSTMを4つの層(深層)で使⽤
３層以下のLSTMよりも深層LSTMが実験的に優れた結果を出した
・⼊⼒系列の順序（系列順）を反転
⼊⼒系列の順序を反転させることで実験的にLSTMの結果が⼤幅に向上した
ex.) Stay hungry, Stay foolish. ⇨ foolish. Stay hungry, Stay
WMT-14(データセット)をBLEU(翻訳精度:値域1~100で⾼い⽅が⾼精度)を⽤いて,
英語からフランス語に翻訳してベンチマークテストを⾏う
(BLEU: a Method for Automatic Evaluation of Machine Translation, IBM)
SMT法(Statistical Machine Translation)：33.3
Seq2Seq法：34.8
Seq2Seq法(SMTによる前処理後)：36.8
3
Sequence-to-Sequence

Seq2SeqではRNNから得た出⼒𝑦"をLSTMの⼊⼒として扱う（ℎ"はベクトル）
RNNでは⼊⼒系列をベクトル化する
ここで、RNNの出⼒をLSTMの⼊⼒として加え、条件付き確率𝑃%
&
|𝑥%を求める
⽬的関数（トレーニング時）：原⽂Sの元で翻訳⽂章Tの対数確率を最⼤化する
トレーニングではビームサーチ法を⽤いて変換を探索する
トレーニング終了時に最も精度の⾼い翻訳を作成する
4
The Model
：Sはトレーニングセット
BS(ビームサーチ)法

5
提案モデルの翻訳正誤

【論文紹介】Seq2Seq (NIPS 2014)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Tomoyuki Hioki

More from Tomoyuki Hioki (18)

【論文紹介】Seq2Seq (NIPS 2014)