Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Improving Neural Machine Translation
by Incorporating
Hierarchical Subword Features
Makoto Morishita, Jun Suzuki and Masaa...
導入
• NMTのOOVの問題の解決策にサブワード化がある
• 3つの層でサブワード化
• 最適なサブワード単位はそれぞれの層で異なる
この論文ではBPEを用いる
デコーダ RNNエンコーダ RNN
エンコーダ埋め込み層 デコーダ埋め込み層
出...
導入
• 複数の語彙数のサブワードを同時に扱うモデルを用意
• 大きなサブワード語彙は小さなサブワード語彙の上位集合
• 小さなサブワード語彙を埋め込み層の追加特徴として使用
サ,ブ,ワ,ー,ド,サブ
ード,ワード,サブワード
サ,ブ,ワ,ー,...
デコーダ / 注意機構
ベースラインモデル
• 注意機構付き Bi-RNN Enc-Decモデル Bahdnau 2015
詳細は省略
𝑋, 𝑌:入, 出力の one-hot ベクトルの列
𝑥𝑖, 𝑦𝑗: 𝑋, 𝑌 の 𝑖, 𝑗 番目のトークン...
Byte-Pair Encoding に基づくサブワード単位
• Sennrich (2016) の方法を SubWBPE として参照
• 文字単位,サブワード単位,単語単位を区別せず,すべて
を サブワード単位 として扱う
1. 入力文を文字...
階層的なサブワード特徴
提案手法
階層的なサブワード特徴
提案手法
𝑸 個のエンコーダ
埋め込み行列
𝑹 個のデコーダ
埋め込み行列𝑬 𝟏
𝑬 𝟐
𝑬 𝟑
𝑭 𝟏
𝑭 𝟐
対応するバイナリベクトルを返す関数
階層的なサブワード特徴
提案手法
record
に対応するバイ
ナリベクトル
実験設定 使用データ
• 英語(EN)と,フランス語(FR),ドイツ語(DE)の双方向翻訳
• データセット:TEDの話に基づくIWSLT
• 前処理:Moses tokenizer, truecaser
• 学習データから50語を削除
英語フ...
実験設定 NMTフレームワーク
• NMTフレームワークとして,提案する埋め込み層以外はLuongら (2015)
と同じ構造を使用
• 40 エポックまで学習
• 30 エポック以降は学習率を 0.8 がけ
• ビームサーチのビームサイズ:2...
実験設定 予備分析
• 実験設定を決定するため文長と語彙数の関係を見つける予備分析をした
• 長い文はより多くの計算コストを必要とし,時間がかかる
• ベースラインシステムの語彙サイズ(マージ数)を16,000に設定
DE-EN学習データ
にお...
実験設定 +実験で答える質問
階層的なサブワード特徴
はモデルを改善するか
エンコーダ側とデコーダ
側どちらを使うべきか
翻訳結果にはどの
ような影響があるか
実験結果
すべて独立して学習した
4つのモデルの平均のBLEU
() 内はベース
ラインとの差
少しだけ良くなっているが,
文長が長すぎて計算時間も延びる
より少ないマージ数
(=少ない語彙数)
を用いたモデル
実験結果
論文で言及されていなかったため省略
EN⇔DEと同じような結果
実験結果
階層的なサブワード特徴がモデルを改善
システム (f) はBPE (m=1k) と (m=300) の両方を使用し,片方だけよりも改善
これらはBPE (m=16k) を単位として使用するため,計算コストは (a) とほぼ同じ
エンコ...
実験結果
システム (g) は予想通り下がっているが,階層的なサブワード特徴を追加すること
でBPEのシステムと同じレベルで精度が向上
階層的なサブワード特徴はモデルの低頻度語を正しく符号化し精度向上を補助
システム (h) では,おそらく大き...
結果
エンコーダ側ほどの改善は見られなかった。これは本手法がモデルの正則化として
働き,デコーダの言語モデリング能力を低下させているからかもしれない
デコーダ側に階層的なサブワード特徴
を追加したモデル
結果
システム (f) および (k) からわずかに改善しているが,有用性は限られる
エンコーダ・デコーダ両側に階層的なサブワード特徴を使用したモデル
結果
この結果は以下のことを示唆している
(1)階層的なサブワード特徴をエンコーダ側だけに追加
(2)より少ないマージ数,例えば m=300, 1k を使用
するのがよい。
パラメータ数と学習時間
• 単語レベルの特徴を追加する
とモデルパラメータ数が大幅
に増加
• サブワードレベルの特徴を追
加してもパラメータ数はあま
り増加しない
• 階層的なサブワード特徴を使
用した学習時間はベースライ
ンNMTと同等
N...
モデルアンサンブルの結果
階層的なサブワード機能は,アンサンブルであってもBLEUスコアを一貫して改善
➝ 本手法はWMTに提出されるような高度に調整されたシステムにも適用可能
独立して訓練された
4つのモデルを
アンサンブル
改善した翻訳の例
FR→ENで改善された翻訳の例
低頻度の固有名詞
“Britney Spears” のサブワード
ベースラインで翻訳できていない「Britney
Spears」を正しく翻訳
大きなマージ数によるサブワードの埋め込み
層が十分に...
関連研究
• SennrichとHaddow (2016) : 言語的特徴を埋め込み層に追加
• 形態素解析器か係り受け解析器が必要で,適用可能な言語が限定
• これに対して提案手法はすべての言語に適用可能
• Kudo (2018) : 分割...
まとめ
• 階層的なサブワード特徴を用いてNMTの実験を実行
• エンコーダ側に階層的なサブワード特徴を追加するとBLEU
スコアが一貫して向上することを確認
• サブワード単位のモデルに適用するのが非常に簡単
• 将来的にデファクトスタンダー...
Upcoming SlideShare
Loading in …5
×

Improving neural machine translation by incorporating hierarchical subword features

47 views

Published on

論文紹介 B4本間
COLING 2018

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Improving neural machine translation by incorporating hierarchical subword features

  1. 1. Improving Neural Machine Translation by Incorporating Hierarchical Subword Features Makoto Morishita, Jun Suzuki and Masaaki Nagata 論文紹介 B4 本間
  2. 2. 導入 • NMTのOOVの問題の解決策にサブワード化がある • 3つの層でサブワード化 • 最適なサブワード単位はそれぞれの層で異なる この論文ではBPEを用いる デコーダ RNNエンコーダ RNN エンコーダ埋め込み層 デコーダ埋め込み層 出力層 1 2 3 仮説
  3. 3. 導入 • 複数の語彙数のサブワードを同時に扱うモデルを用意 • 大きなサブワード語彙は小さなサブワード語彙の上位集合 • 小さなサブワード語彙を埋め込み層の追加特徴として使用 サ,ブ,ワ,ー,ド,サブ ード,ワード,サブワード サ,ブ,ワ,ー,ド サブ,ード⊃ 仮説の検証 これを「階層的なサブワード特徴」と呼ぶ 単に埋め込みの 合計を用いる
  4. 4. デコーダ / 注意機構 ベースラインモデル • 注意機構付き Bi-RNN Enc-Decモデル Bahdnau 2015 詳細は省略 𝑋, 𝑌:入, 出力の one-hot ベクトルの列 𝑥𝑖, 𝑦𝑗: 𝑋, 𝑌 の 𝑖, 𝑗 番目のトークン 𝑥𝑖:𝐼, 𝑦𝑗:𝐽: one-hot ベクトルのリスト 𝐼, 𝐽: one-hot ベクトルのリストの長さ 𝑦0:BOSトークンの one-hot ベクトル 𝑦𝐽+1:EOSトークンの one-hot ベクトル エンコーダ テスト時は 𝐾-best
  5. 5. Byte-Pair Encoding に基づくサブワード単位 • Sennrich (2016) の方法を SubWBPE として参照 • 文字単位,サブワード単位,単語単位を区別せず,すべて を サブワード単位 として扱う 1. 入力文を文字単位に分割 2. 頻繁に出現する2つの連続する文字またはサブワードを1つのサブ ワードに結合 3. この結合操作を事前に定義された 𝑚 回だけ繰り返す 𝑚 = 0 ⇒ 文字単位 𝑚 = ∞ ⇒ 単語単位
  6. 6. 階層的なサブワード特徴 提案手法
  7. 7. 階層的なサブワード特徴 提案手法 𝑸 個のエンコーダ 埋め込み行列 𝑹 個のデコーダ 埋め込み行列𝑬 𝟏 𝑬 𝟐 𝑬 𝟑 𝑭 𝟏 𝑭 𝟐 対応するバイナリベクトルを返す関数
  8. 8. 階層的なサブワード特徴 提案手法 record に対応するバイ ナリベクトル
  9. 9. 実験設定 使用データ • 英語(EN)と,フランス語(FR),ドイツ語(DE)の双方向翻訳 • データセット:TEDの話に基づくIWSLT • 前処理:Moses tokenizer, truecaser • 学習データから50語を削除 英語フランス語 ドイツ語 前処理後のIWSLT
  10. 10. 実験設定 NMTフレームワーク • NMTフレームワークとして,提案する埋め込み層以外はLuongら (2015) と同じ構造を使用 • 40 エポックまで学習 • 30 エポック以降は学習率を 0.8 がけ • ビームサーチのビームサイズ:20 • 短文の出力を防ぐために,文長で負の対数尤度を除算し長さを正規化 • multi-bleu.perl を使用し,BLEU スコアで評価 Cromieres 2016 Morishita 2017 NMTの詳細な構成
  11. 11. 実験設定 予備分析 • 実験設定を決定するため文長と語彙数の関係を見つける予備分析をした • 長い文はより多くの計算コストを必要とし,時間がかかる • ベースラインシステムの語彙サイズ(マージ数)を16,000に設定 DE-EN学習データ における 語彙数と平均文長 の関係
  12. 12. 実験設定 +実験で答える質問 階層的なサブワード特徴 はモデルを改善するか エンコーダ側とデコーダ 側どちらを使うべきか 翻訳結果にはどの ような影響があるか
  13. 13. 実験結果 すべて独立して学習した 4つのモデルの平均のBLEU () 内はベース ラインとの差 少しだけ良くなっているが, 文長が長すぎて計算時間も延びる より少ないマージ数 (=少ない語彙数) を用いたモデル
  14. 14. 実験結果 論文で言及されていなかったため省略 EN⇔DEと同じような結果
  15. 15. 実験結果 階層的なサブワード特徴がモデルを改善 システム (f) はBPE (m=1k) と (m=300) の両方を使用し,片方だけよりも改善 これらはBPE (m=16k) を単位として使用するため,計算コストは (a) とほぼ同じ エンコーダ側に階層的なサブワード特徴 を追加したモデル
  16. 16. 実験結果 システム (g) は予想通り下がっているが,階層的なサブワード特徴を追加すること でBPEのシステムと同じレベルで精度が向上 階層的なサブワード特徴はモデルの低頻度語を正しく符号化し精度向上を補助 システム (h) では,おそらく大きなサブワード単位 (m=16k) が単語単位に似てい るため,あまり上がらなかったと思われる エンコーダ側をBPE (m=16k) ではなく 単語単位 (m=∞) で学習したモデル サブワード の出現頻度 とランクの 関係 Zipf’s law
  17. 17. 結果 エンコーダ側ほどの改善は見られなかった。これは本手法がモデルの正則化として 働き,デコーダの言語モデリング能力を低下させているからかもしれない デコーダ側に階層的なサブワード特徴 を追加したモデル
  18. 18. 結果 システム (f) および (k) からわずかに改善しているが,有用性は限られる エンコーダ・デコーダ両側に階層的なサブワード特徴を使用したモデル
  19. 19. 結果 この結果は以下のことを示唆している (1)階層的なサブワード特徴をエンコーダ側だけに追加 (2)より少ないマージ数,例えば m=300, 1k を使用 するのがよい。
  20. 20. パラメータ数と学習時間 • 単語レベルの特徴を追加する とモデルパラメータ数が大幅 に増加 • サブワードレベルの特徴を追 加してもパラメータ数はあま り増加しない • 階層的なサブワード特徴を使 用した学習時間はベースライ ンNMTと同等 NVIDIA GeForce GTX 1080 Ti GPU 使用 パラメータ数および 1エポックあたりに必要な学習時間 本手法は追加の計算コストが不要 既存のシステムに容易に適用可能
  21. 21. モデルアンサンブルの結果 階層的なサブワード機能は,アンサンブルであってもBLEUスコアを一貫して改善 ➝ 本手法はWMTに提出されるような高度に調整されたシステムにも適用可能 独立して訓練された 4つのモデルを アンサンブル
  22. 22. 改善した翻訳の例 FR→ENで改善された翻訳の例 低頻度の固有名詞 “Britney Spears” のサブワード ベースラインで翻訳できていない「Britney Spears」を正しく翻訳 大きなマージ数によるサブワードの埋め込み 層が十分に学習されていないため 提案モデルでは大小両方の特徴を利用するこ とでこのような低頻度語を正しく翻訳可能
  23. 23. 関連研究 • SennrichとHaddow (2016) : 言語的特徴を埋め込み層に追加 • 形態素解析器か係り受け解析器が必要で,適用可能な言語が限定 • これに対して提案手法はすべての言語に適用可能 • Kudo (2018) : 分割確率に基づいて異なるサブワード分割を 使用するサブワード正則化法 • オープンドメインの設定で効果的 • 今後の研究で調査(組み合わせた効果の検証等) • いくつかの研究では,文字,サブワード,形態素レベルの 情報を符号化するためにRNNやCNNを埋め込み層に組込み • これに対して提案手法は高速計算の点で大きな利点
  24. 24. まとめ • 階層的なサブワード特徴を用いてNMTの実験を実行 • エンコーダ側に階層的なサブワード特徴を追加するとBLEU スコアが一貫して向上することを確認 • サブワード単位のモデルに適用するのが非常に簡単 • 将来的にデファクトスタンダードになる可能性 • 今後の課題 1. RNNベース以外の新しいNMTモデルを用いて本手法を試し,有効 かどうかを確認 2. より大きなデータセットに本手法を適用

×