SlideShare a Scribd company logo
Memory-enhanced Decoder for
Neural Machine Translation
Mingxuan Wang, Zhengdong Lu, Hang Li and Qun Liu
2/22 EMNLP読み会
紹介: B4 山岸駿秀
Introduction
• Attention-based NMT (RNNsearch) の成功 [Bahdanau+ 2015, ICLR]
• 入力文全体を保存し、部分的に用いて出力することは有用である
• Neural Turing Machine (NTM) [Graves+ 2014, arXivにのみ投稿]
• ベクトルを格納する数個のメモリと、重みベクトルによるヘッドを持つ
• 入力時にメモリの状態を読み込み、出力
• 出力と同時にメモリを書き換える
• どのメモリをどれだけ読む/書くのかをヘッドの重みを用いて決定
• ヘッドの重みを学習する
• これらを組み合わせ、外部メモリを持つRNNsearchを提案
• MEMDECと呼ぶ
• 生成の後半で使うような情報を保存できる可能性がある
1
※ デコーダ側のみ
2
NMT with improved attention
• 入力x (xの文長はTx) がある
• Encoderの単語jの隠れ層hjは、メ
モリMsとして格納
• (1)を導出したい
• (2): Decoderの時刻tでの隠れ層
• g()にはGRUを使用
• (3): Attentionベクトル
• Wa、Uaは重み行列
3
NMT with improved attention
• Groundhog (BahdanauらによるRNNsearchの実装) では、αt,jの計算
に前の出力yt-1が用いられていない
• 前の出力を用いることは有用なのではないだろうか
• 今回は、以下の計算式で計算した
• H() = tanh() (GRUの方が性能がよいが、簡略化のためtanhを使用)
• eはyt-1のembedding
4
5
Updating
• MBは今回新たに追加する外部メモリ
• Wはそれぞれ重み行列
• メモリも更新
6
Prediction
• Bahdanauらの提案した手法によって単語を予測する
• “ωy is the parameters associated with the word y.”
7
Reading Memory-state
• MBはn (メモリセルの数) * m (セルの次元数)の行列
• wR
tはn次元、rtはm次元のベクトル
• wR
tは以下のようにして更新
• 、
• wR
gはm次元のベクトル
• vはm次元のベクトル、W、Uはm*m次元の行列
8
Writing to Memory-states
• ERASEとADDの操作をすることでMBを更新
• 初めにERASE処理
• wW
t、μERS
tはm次元のベクトル、WERSはm*mの行列
• 次にADD処理
• μADD
tはm次元のベクトル、WADDはm*mの行列
• wRとwWに同じ重みを用いると性能が良かった 9
Setting
• 中英翻訳
• 学習データ: LDC corpus
• 1.25M 文対 (中国語の単語数: 27.9M、英語の単語数: 34.5M)
• 50単語以上の文はNMTでは不使用 (Mosesでは使用)
• NMTでは、語彙数を30,000語に制限
• テストデータ: NIST2002 〜 2006 (MT02 〜 06と記述)
• embedding: 512、hidden size: 512
• メモリセルの数n = 8、メモリセルの次元m = 1024
• Adadelta (ε = 10-6、ρ = 0.95)で最適化、batch size = 80
• 確率0.5でDropout
10
Pre-training
• パラメータ数がとても多いので、pre-trainingを行う
1. 外部メモリなしのRNNsearchを学習させる
2. 1を元に、EncoderとMEMDECのパラメータを学習させる
• 以下の、メモリ状態に関係あるパラメータは学習させない
3. 全てのパラメータを用いてfine-tuningを行う
11
Comparison system
• Moses (state-of-the-art SMT)
• Groundhog (Baseline)
• BahdanauらのAttention-based NMT (RNNsearch) の実装
• RNNsearch* (strong Baseline)
• 一つ前の出力をAttentionベクトルCtの計算に用いるシステムを追加
• dropoutも追加
• coverage (state-of-the-art NMT, Tu+, ACL2016)
• 入力の表現のカバレッジを用いる
• MEMDEC (提案手法)
12
Result 1
• 前の出力を用いてAttentionを計算するだけでもBLEUが上がる
• Mosesと比較して最大で5.28、Groundhogと比較して最大で4.78の改善
13
Result 2
• Pre-trainingするだけで+1.11
• しなくとも、RNNSearch*に比べて+1.04
• メモリセルの数にrobustである
14
Result 3
15
Conclusion
• RNN Decoderを外部メモリを用いて拡張した
• メモリの数は大きく影響しない
• 結果、中英翻訳のスコアを大きく改善できた
• アテンションの計算に前の出力を用いることも有用である
16

More Related Content

What's hot

データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
JubatusOfficial
 
CPUをちょっと
CPUをちょっとCPUをちょっと
CPUをちょっとTksenda
 
脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている
Naoaki Yamaji
 
無印Pentium debian install memo
無印Pentium debian install memo無印Pentium debian install memo
無印Pentium debian install memoYukiyoshi Yoshimoto
 
札幌シムトラ学会 発表資料
札幌シムトラ学会 発表資料札幌シムトラ学会 発表資料
札幌シムトラ学会 発表資料
myagami
 
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
Yoshitaka Seo
 
Introducing mroonga 20111129
Introducing mroonga 20111129Introducing mroonga 20111129
Introducing mroonga 20111129Kentoku
 

What's hot (7)

データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
 
CPUをちょっと
CPUをちょっとCPUをちょっと
CPUをちょっと
 
脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている
 
無印Pentium debian install memo
無印Pentium debian install memo無印Pentium debian install memo
無印Pentium debian install memo
 
札幌シムトラ学会 発表資料
札幌シムトラ学会 発表資料札幌シムトラ学会 発表資料
札幌シムトラ学会 発表資料
 
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
 
Introducing mroonga 20111129
Introducing mroonga 20111129Introducing mroonga 20111129
Introducing mroonga 20111129
 

Viewers also liked

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
Hayahide Yamagishi
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
Yuya Unno
 
EDI Certificates for Diploma
EDI Certificates for DiplomaEDI Certificates for Diploma
EDI Certificates for DiplomaDave Lee
 
John williams
John williamsJohn williams
AL SARABI CV
AL SARABI CVAL SARABI CV
AL SARABI CV
Ahmad M. Sarabi
 
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
scarlett torres
 
RESUME
RESUMERESUME
CV_WeifnegLi_2016
CV_WeifnegLi_2016CV_WeifnegLi_2016
CV_WeifnegLi_2016
Weifeng Li
 
Nicolette Ure_Curriculum Vitae (2)
Nicolette Ure_Curriculum Vitae (2)Nicolette Ure_Curriculum Vitae (2)
Nicolette Ure_Curriculum Vitae (2)
Nicolette Ure
 
Seo проектирование сайта
Seo проектирование сайтаSeo проектирование сайта
Seo проектирование сайта
Михаил Харченко
 
Serm управление репутацией в поисковых системах
Serm   управление репутацией в поисковых системахSerm   управление репутацией в поисковых системах
Serm управление репутацией в поисковых системах
Михаил Харченко
 
Peritonitis Linda Fajardo
Peritonitis  Linda FajardoPeritonitis  Linda Fajardo
Peritonitis Linda Fajardo
Linda Fajardo Moreno
 
Peritonitis linda fajardo
Peritonitis  linda fajardoPeritonitis  linda fajardo
Peritonitis linda fajardo
Linda Fajardo Moreno
 
Projet Presentation
Projet PresentationProjet Presentation
Projet Presentation
Uttam Sahu
 

Viewers also liked (14)

[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
EDI Certificates for Diploma
EDI Certificates for DiplomaEDI Certificates for Diploma
EDI Certificates for Diploma
 
John williams
John williamsJohn williams
John williams
 
AL SARABI CV
AL SARABI CVAL SARABI CV
AL SARABI CV
 
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
 
RESUME
RESUMERESUME
RESUME
 
CV_WeifnegLi_2016
CV_WeifnegLi_2016CV_WeifnegLi_2016
CV_WeifnegLi_2016
 
Nicolette Ure_Curriculum Vitae (2)
Nicolette Ure_Curriculum Vitae (2)Nicolette Ure_Curriculum Vitae (2)
Nicolette Ure_Curriculum Vitae (2)
 
Seo проектирование сайта
Seo проектирование сайтаSeo проектирование сайта
Seo проектирование сайта
 
Serm управление репутацией в поисковых системах
Serm   управление репутацией в поисковых системахSerm   управление репутацией в поисковых системах
Serm управление репутацией в поисковых системах
 
Peritonitis Linda Fajardo
Peritonitis  Linda FajardoPeritonitis  Linda Fajardo
Peritonitis Linda Fajardo
 
Peritonitis linda fajardo
Peritonitis  linda fajardoPeritonitis  linda fajardo
Peritonitis linda fajardo
 
Projet Presentation
Projet PresentationProjet Presentation
Projet Presentation
 

More from Hayahide Yamagishi

[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
Hayahide Yamagishi
 
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
Hayahide Yamagishi
 
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
Hayahide Yamagishi
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
 
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
Hayahide Yamagishi
 
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
Hayahide Yamagishi
 
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend
Hayahide Yamagishi
 
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
Hayahide Yamagishi
 
[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
 
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
Hayahide Yamagishi
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Hayahide Yamagishi
 
Why neural translations are the right length
Why neural translations are  the right lengthWhy neural translations are  the right length
Why neural translations are the right length
Hayahide Yamagishi
 
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsA hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
Hayahide Yamagishi
 
ニューラル論文を読む前に
ニューラル論文を読む前にニューラル論文を読む前に
ニューラル論文を読む前に
Hayahide Yamagishi
 
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
Hayahide Yamagishi
 

More from Hayahide Yamagishi (15)

[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
 
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
 
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
 
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
 
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
 
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend[ML論文読み会資料] Teaching Machines to Read and Comprehend
[ML論文読み会資料] Teaching Machines to Read and Comprehend
 
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
 
[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs[ML論文読み会資料] Training RNNs as Fast as CNNs
[ML論文読み会資料] Training RNNs as Fast as CNNs
 
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
 
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
 
Why neural translations are the right length
Why neural translations are  the right lengthWhy neural translations are  the right length
Why neural translations are the right length
 
A hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documentsA hierarchical neural autoencoder for paragraphs and documents
A hierarchical neural autoencoder for paragraphs and documents
 
ニューラル論文を読む前に
ニューラル論文を読む前にニューラル論文を読む前に
ニューラル論文を読む前に
 
ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御ニューラル日英翻訳における出力文の態制御
ニューラル日英翻訳における出力文の態制御
 

[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation

  • 1. Memory-enhanced Decoder for Neural Machine Translation Mingxuan Wang, Zhengdong Lu, Hang Li and Qun Liu 2/22 EMNLP読み会 紹介: B4 山岸駿秀
  • 2. Introduction • Attention-based NMT (RNNsearch) の成功 [Bahdanau+ 2015, ICLR] • 入力文全体を保存し、部分的に用いて出力することは有用である • Neural Turing Machine (NTM) [Graves+ 2014, arXivにのみ投稿] • ベクトルを格納する数個のメモリと、重みベクトルによるヘッドを持つ • 入力時にメモリの状態を読み込み、出力 • 出力と同時にメモリを書き換える • どのメモリをどれだけ読む/書くのかをヘッドの重みを用いて決定 • ヘッドの重みを学習する • これらを組み合わせ、外部メモリを持つRNNsearchを提案 • MEMDECと呼ぶ • 生成の後半で使うような情報を保存できる可能性がある 1
  • 4. NMT with improved attention • 入力x (xの文長はTx) がある • Encoderの単語jの隠れ層hjは、メ モリMsとして格納 • (1)を導出したい • (2): Decoderの時刻tでの隠れ層 • g()にはGRUを使用 • (3): Attentionベクトル • Wa、Uaは重み行列 3
  • 5. NMT with improved attention • Groundhog (BahdanauらによるRNNsearchの実装) では、αt,jの計算 に前の出力yt-1が用いられていない • 前の出力を用いることは有用なのではないだろうか • 今回は、以下の計算式で計算した • H() = tanh() (GRUの方が性能がよいが、簡略化のためtanhを使用) • eはyt-1のembedding 4
  • 6. 5
  • 9. Reading Memory-state • MBはn (メモリセルの数) * m (セルの次元数)の行列 • wR tはn次元、rtはm次元のベクトル • wR tは以下のようにして更新 • 、 • wR gはm次元のベクトル • vはm次元のベクトル、W、Uはm*m次元の行列 8
  • 10. Writing to Memory-states • ERASEとADDの操作をすることでMBを更新 • 初めにERASE処理 • wW t、μERS tはm次元のベクトル、WERSはm*mの行列 • 次にADD処理 • μADD tはm次元のベクトル、WADDはm*mの行列 • wRとwWに同じ重みを用いると性能が良かった 9
  • 11. Setting • 中英翻訳 • 学習データ: LDC corpus • 1.25M 文対 (中国語の単語数: 27.9M、英語の単語数: 34.5M) • 50単語以上の文はNMTでは不使用 (Mosesでは使用) • NMTでは、語彙数を30,000語に制限 • テストデータ: NIST2002 〜 2006 (MT02 〜 06と記述) • embedding: 512、hidden size: 512 • メモリセルの数n = 8、メモリセルの次元m = 1024 • Adadelta (ε = 10-6、ρ = 0.95)で最適化、batch size = 80 • 確率0.5でDropout 10
  • 12. Pre-training • パラメータ数がとても多いので、pre-trainingを行う 1. 外部メモリなしのRNNsearchを学習させる 2. 1を元に、EncoderとMEMDECのパラメータを学習させる • 以下の、メモリ状態に関係あるパラメータは学習させない 3. 全てのパラメータを用いてfine-tuningを行う 11
  • 13. Comparison system • Moses (state-of-the-art SMT) • Groundhog (Baseline) • BahdanauらのAttention-based NMT (RNNsearch) の実装 • RNNsearch* (strong Baseline) • 一つ前の出力をAttentionベクトルCtの計算に用いるシステムを追加 • dropoutも追加 • coverage (state-of-the-art NMT, Tu+, ACL2016) • 入力の表現のカバレッジを用いる • MEMDEC (提案手法) 12
  • 14. Result 1 • 前の出力を用いてAttentionを計算するだけでもBLEUが上がる • Mosesと比較して最大で5.28、Groundhogと比較して最大で4.78の改善 13
  • 15. Result 2 • Pre-trainingするだけで+1.11 • しなくとも、RNNSearch*に比べて+1.04 • メモリセルの数にrobustである 14
  • 17. Conclusion • RNN Decoderを外部メモリを用いて拡張した • メモリの数は大きく影響しない • 結果、中英翻訳のスコアを大きく改善できた • アテンションの計算に前の出力を用いることも有用である 16

Editor's Notes

  1. Stの計算時には、それらをcombineする?