Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ゼロから始める
ニューラルネットワーク機械翻訳
中澤 敏明
科学技術振興機構
NLP2017 チュートリアル
(2017/3/13)
自己紹介
• 科学技術振興機構 研究員
– 日中・中日機械翻訳実用化プロジェクト
(2013-2017年度)
• NLP若手の会2017年委員長 http://yans.anlp.jp
– 3/14 YANS懇@秋葉原
• チケットまだあります...
非常に参考になる資料など
• そもそもディープラーニングって何?という方は
– https://www.slideshare.net/yutakikuchi927/deep-
learning-26647407
• 日本語いやだ!英語の資料がい...
今日の目標
• 以下の図をできれば全員が理解する
4
[Wu et al., 2016]
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
ニューラル機械翻訳(NMT)の
プロダクト化
2015/05 Baidu 中英
(http://www.aclweb.org/anthology/W15-4110)
2016/08 SYSTRAN 12言語 (日、韓、英、仏など)
(http...
Google‘s Neural Machine
Translation System: Bridging
the Gap between Human
and Machine Translation
[Wu et al., 2016]
https...
どれぐらい進化したの?
• d
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html9
Google NMT (GNMT) の使い方
• NMTを使うには、Google翻訳公式ページ
(https://translate.google.com/)を使う
– それ以外のページを経由する場合は旧翻訳エンジンの
結果になる可能性がある
...
GNMTかどうかの見分け方
単語/句の対応が表示される
→ NMTではない
単語/句の対応が表示されない
(文全体の対応として表示される)
→ NMT
11
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
訓練データ 開発データ 試験データ
翻訳知識 / ルール
フレーズテーブル
素性の重み
言語
モデル
最終
翻訳結果
チューニング
リランキング/
リライティング
デコーダー / 翻訳エンジン
一般的な統計翻訳(SMT)の枠組み
単語/句
アラ...
フレーズベースSMTのデコーディング
新たな 翻訳 手法 を 提案 する
new
novel
translation method
a method the
propose is
do
we propose
a
an approach
appr...
マルチスタック ビームサーチ
• 翻訳された入力
単語数ごとに
スタックを用意
• 各スタック内で翻訳候
補をスコア順に並べ
替え(sort)、スコアが
低いものを枝刈り
(pruning)
• 最後のスタックの最
高スコアが翻訳結果
15
一般的な統計翻訳(SMT)の枠組み
• トレーニング、チューニング、テストの大きく3ステッ
プに分かれる
• トレーニングに使うモデルと翻訳(デコーディング)
に使うモデルは完全独立なことが多い
– トレーニング = IBM model、デコー...
訓練データ 開発データ 試験データ
翻訳知識 / ルール
フレーズテーブル
素性の重み
言語
モデル
最終
翻訳結果
チューニング
リランキング/
リライティング
デコーダー / 翻訳エンジン
NNによるSMTの侵略
単語/句
アライメント
N...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
フィードフォワードニューラルネットワーク
ニューロン
(ノード)
中間層・隠れ層
出力層
入力層
重み付きエッジ
活性化関数
※ バイアスは省略19
フィードフォワードニューラルネットワーク
中間層・隠れ層
出力層
入力層
各入力は
1つの実数値
前の層の出力に
重みをかけて次
の層の入力へ
全ての入力を足し合わせ
さらに活性化関数により
非線形変換を適用
必要な値に
整形や正規化
20
+...
one-hot ベクトル
• ニューラルネットワークの入力は実数値
• 自然言語(単語)は実数値ではない!
• 単語を一箇所だけ”1”となっているベクトルで表現
• 実際にはこれをembeddingしたものを入力
(0, 0, 1, 0, 0,...
Word Embedding
22
局所表現
(local representation)
分散表現
(distributed representation)
(0, …, 0, 0, 1, 0, 0, 0, …, 0)
高次元・疎・離散値
低...
フィードフォワードニューラルネットワーク
中間層・隠れ層
出力層
入力層
ニューロンの出力の集合 = 実数値の集合 = ベクトル!
23
フィードフォワードニューラルネットワーク
中間層・隠れ層
出力層
入力層
ニューロンの出力の集合 = 実数値の集合 = ベクトル!
重みの集合 = n×m個の実数値の集合 = 行列!
24
フィードフォワードニューラルネットワーク
中間層・隠れ層
出力層
入力層
x h y
W1 W2
25ベクトル ベクトル ベクトル
行列 行列
フィードフォワードニューラルネットワーク
x h y
W1 W2
ℎ = 𝑓(𝑊1 𝑥)
𝑦 = 𝑔(𝑊2ℎ)
fは活性化関数
ベクトルの各要素に個別に適用するというオ・ヤ・ク・ソ・ク
gは最後の出力を所望の値に変換する活性化関数
NMTを含む...
softmax関数
• 出力ベクトル y の各要素の値を正規化し、確率の
ように扱う
• 各要素の値は0から1の間の値になり、全ての要素
の和が1になる
• Kは翻訳なら目的言語の語彙サイズに当たる
• 色々と便利な関数だが、計算がものすごく重...
softmaxの問題の解決法
• 階層化softmax [Morin and Bengio, 2005]
– 予測クラスに階層構造を考えることで計算量を低減
– 階層化することでうまく学習できなくなる可能性
• Noise Contrastiv...
フィードフォワードニューラルネットワーク
• ネットワークの形が固定、入力の長さも固定
• 音声や自然言語など、長さがデータごとに異なる
場合にうまく使えない
– 画像などで使う場合は、入力画像サイズを揃えてある
• HMMみたいに入力データを...
リカレントニューラルネットワーク(RNN)
• xは1つの単語、tは時刻(何単語読んだか)
• hが次の入力としても使われるため、記憶機能あり
• これの発展版がLSTM (long short-term memory) と
かGRU (gat...
リカレントニューラルネットワーク(RNN)
x h y
W1 W2
W3
単語 次の単語言語モデル
単語 品詞品詞タグ付け
文字 BIESタグ単語分割
31
などなど、使い方はあなた次第👆
リカレントニューラルネットワーク(RNN)
x1
h1
y1
W1
W2
W3
x2
h2
y2
W1
W2
W3
x3
h3
y3
W1
W2
W3
x4
h4
y4
W1
W2
展開するとFFNNと同じ構造!
論文等ではリカレントの部分が展...
多層RNN
33
x h1 y
W1 W2
W3
h2
W4
W5
x1
h1
1
h2
1
W1
W2
W3
y1
W4
x2
h1
2
h2
2
W1
W2
y2
W4
W5
W3
x3
h1
3
h2
3
W1
W2
y3
W4
W5
W...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
end-to-endとは何か?
• 入力から出力までが単一のモデルで完結
– ルールも単語アライメントもフレーズテーブルも不要!
35
訓練データ 開発データ 試験データ
最終
翻訳結果
NMT
一般的なニューラル翻訳(NMT)の枠組み
36
ビームサーチ
アンサンブル
Sequence to Sequence Learning
• 通常のRNNは入力と出力の長さが同じでなければ
ならないし、順序も一致していなければならない
• 機械翻訳では当然入力と出力の長さが違うし、
語順も異なる
• 入力側と出力側で別々...
Sequence to Sequence Learning
[Cho et al., 2014]
x1
h1
x2
h2
x3
h3
EOS
h4
h’1 h’2 h’3 h’4
y1 y2 y4y3
38
encoder
decoder
c
...
encoder-decoderモデル
• encoder: 入力を中間的な表現(ベクトルなど)に
符号化(エンコード)
• decoder: 符号化された入力から適切な出力を
復号化(デコード)
• 様々なタスクに応用可能
– 文書要約 [Ch...
数値予報データからの天気予報コメントの自動生成
Title
冷たい雨や雪で週がスタート
Comment
今日は冷たい雨や雪が降り、アラレや落雷の
恐れがあります。午後は雨や雪が止む時間
が長くなり、あってもニワカ雨や雪。段々と風
が強まり、一層...
配信時間 6時間毎に更新 (1日4回)
予報時間 84時間
物理量
(11種類)
気圧, 海面更正気圧, 東西風, 南北風, 気温, 相対湿度,
積算降水量, 上層雲量, 中層雲量, 低層雲量, 全雲量
時系列
時刻t=0, .. ., 84
...
モデル
CNN
LSTMsOutputs
Encoder
今日
は
晴れ
です
。
</s>
今日
<s>
は
晴れ
です
。
Decoder
0, 3, 6, 9, 12, 15, 18, 21, 24時間先の数値
予報データから{CNN, ...
Sequence to Sequence Learningの欠点
• 入力文の情報を1つの固定長のベクトルに
押し込めている
– 長い文だと翻訳精度が極端に落ちる
– 入力文を逆順に入れると翻訳精度が上がるという
黒魔術が発見される
43
隠れ...
新たな 翻訳 手法 を 提案 する
embedding
forward RNN
backward RNN
we propose a novel translationmethod
attention
decoder RNN
softmax
in...
Attentionの導入による効果
• 長い文でも翻訳精度が落ちにくい!
45
Attentionあり
[Bahdanau et al., 2014]
Attentionなし
[Cho et al., 2014]
30と50の違いは
トレーニン...
Attention-based Neural Machine Translation
新
た
な
翻
訳
手
法
を 提
案
す
る
Encoder
入力文の
情報を
行列に変換
Attention
どの単語に
注目するかを
1出力ごとに
計算...
Attention-based Neural Machine Translation
新たな 翻訳 手法 を 提案 する
[0.1 0.5 … 0.3] [0.8 0.1 … 1.2] [1.5 0.2 … 0.7] [0.7 0.3 … 0....
Attention-based Neural Machine Translation
0.1
0.5
…
0.3
0.8
0.1
…
1.2
1.5
0.2
…
0.7
0.7
0.3
…
0.6
0.9
1.1
…
1.0
0.3
0.2
…...
NMTの特徴
• フレーズテーブルは存在しない
– 単語アライメント不要、同じモデルで訓練もテストも行う
• SMTのように入力文を「置き換える」ことで翻訳する
のではなく、入力文も見ながら、言語モデルのよう
に翻訳文を作り出す
– <EOS>...
50https://twitter.com/trainjrhokkaido/status/834331315369422848
51https://twitter.com/yasutoc/status/834651903984152576
A boy is playing a piano
Generating Video Description using Sequence-
to-sequence Model with Temporal Attention
[Laokulrat...
Encoder-Decoder Sequence-to-Sequence
Model with Temporal Attention Mechanism
<BOS> a woman is cooking in the kitchen <EOS>...
NMTは本質的には言語モデルと同じ
• エンコードされた入力𝑥と過去の出力𝑦1 … 𝑦𝑡−1から
次の出力単語𝑦𝑡を予測
• RNNなので𝑡 = 0から𝐾(<EOS>出力)までかけると
54
𝑝(𝑦𝑡|𝑦1, … , 𝑦𝑡−1, 𝑥)
𝑡=1
...
NMTの短所
• 既存の(SMT用の)前処理・後処理が使えない
– 事前並べ替えは悪影響 [Sudoh and Nagata, 2016]
– 辞書が簡単には統合できない
• モデルのトレーニングにGPUがほぼ必須
– 翻訳をするだけならCPU...
NMTの短所
• BLEUに対して最適化されていない
– 通常のトレーニングは1単語出力するごとに、正解の単
語と比較(cross-entropy)
– BLEUなど任意の評価指標を損失関数として使う方法
(minimum risk train...
Attention ≠ Alignment
57
出
力
入力
務台俊介
• 横方向に足すと1
• 縦方向は足しても
1にはならない
→ 全ての入力が
カバーされていない
• Alignment Error
Rate
GIZA = 30ぐらい
...
ビームサーチ
• SMTと同様、翻訳の途中状態を複数保持しておく
– 途中状態のスコアを定義し、スコア上位を残す
– スコアの計算例
• 単語の生成確率の積を出力単語数で正規化
• 過去のattentionの状態をスコアに反映 [Wu et a...
アンサンブル
• 複数のNMTを平行に実行し、単語を一つ出力する
際に各NMTからの予測を統合して決定
– NMTは同じモデルでも、全く異なるモデルでもよい
– 1つのモデルの訓練途中の複数のパラメータを使っても
よい (loss最小、BLEU...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
アジア翻訳ワークショップ (WAT)
• Workshop on Asian Translation
– アジア言語を対象とした機械翻訳評価ワークショップ
– 日本語、中国語、韓国語、インドネシア語、ヒンディー語、
英語
– 2014年より開催...
WAT2016翻訳タスク
• 科学技術論文(ASPEC) [Nakazawa et al., 2016b]
– 日英 (3M)、日中 (680K)
• 特許(JPC)
– 日英、日中、日韓 (それぞれ1M)
• 新聞記事(BPPT)
...
翻訳タスク参加チーム一覧
64
Team ID Organization
ASPEC JPC BPPT IITBC pivot
JE EJ JC CJ JE EJ JC CJ JK KJ EI IE HE EH HJ JH
NAIST Nara...
翻訳結果評価方法
• 自動評価
– BLEU, RIBES, AM-FM [Banchs+, 2015]
– 自動評価サーバーを用意し、参加者が翻訳結果を提出
すると自動的に評価され、都度Webに結果が公開
• 人手評価: 二段階評価
1. 一...
一対比較評価(Pairwise)
• 各システムの翻訳結果をベースライン
(フレーズベースSMT)と文ごとに比較
• 評価対象文はテストセットのうちの400文
• 5人の評価者が文ごとにベースラインより
良いか(+1)、悪いか(-1)、同程度か...
内容の伝達レベル評価(Adequacy)
• 一対評価対象文のうちの200文を評価
• 2人の評価者が文ごとに特許庁の基準により評価
評価値 評価基準
5 すべての重要情報が正確に伝達されている。 (100%)
4 ほとんどの重要情報は正確に伝...
ASPEC-JE評価結果
68
SMT ANMT B SMT ANMT B
ASPEC-EJ評価結果
69
SMT ANMT B Online A SMT ANMT B Online A
ASPEC-JC評価結果
70
SMT ANMT B SMT ANMT B
ASPEC-CJ評価結果
71
NMT CNMT B Kyoto-U 1
科学技術論文翻訳 経年評価
NMT (2016) SMT (2015)
26.22 25.41BLEU 36.19 35.83BLEU
31.98 31.61BLEU 46.04 41.75BLEU
NMT (2016) SMT (2015)
...
翻訳例
• 以下の基準で翻訳結果をサンプリング
– 2015年のSMTにおいて(5, 5)の評価だったものが、
2016年のNMTにおいてどちらも5未満の評価
– 2016年のNMTにおいてどちらも2以下の評価
• 日→英・英→日 科学技術論文...
IN
Hartree−Fock−Bogoliubov法を用いて変形した原子核の対密度分布を調
べた。
REF
Using Hartree-Fock-Bogoliubov method, pairing density distribution ...
IN 食事については,全介助から半介助となった。
REF On the meal, changing from all support to half support was realized.
SMT The meal became half...
IN
Using Hartree-Fock-Bogoliubov method, pairing density distribution of the
deformed nuclei was investigated.
REF
Hartree...
IN
The liver and intestine were extracorporeally observed through the central
abdominal wall in the gestational age.
REF 在...
IN “聚合酶链反应”(“PCR”)是本领域技术人员熟知的。
REF 「ポリメラーゼ連鎖反応」(「PCR」)は、当業者によく知られている。
SMT 「ポリメラーゼ連鎖反応(PCR)」は、当業者に周知である。 (5, 5)
NMT 「重反応」(「...
IN 本发明片剂还可以包含包衣层,它可占片剂组合物的约0-15%(重量)。
REF
また錠剤は、錠剤組成全量中0〜約15重量%を含むコーティング層を有す
ることができる。
SMT
本発明の錠剤は、コーティング層をさらに含むことができるが、それは...
結果からわかること
• NMTはアジア言語の翻訳においても有効
– 特に日中翻訳はかなり向上した
• おそらく、中国語の単語分割誤りの影響が
NMTでは低減されることが原因
• 同様の結果は中英翻訳でも確認されている
[Junczys-Dow...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
NMTの課題の整理
• 扱える語彙数が少ない
– [Luong et al., 2015b], [Jean et al., 2015]
– [Li et al., 2016]
– [Costa-jussà and Fonollosa, 2016...
NMTの課題の整理
• 扱える語彙数が少ない
– [Luong et al., 2015b], [Jean et al., 2015]
– [Li et al., 2016]
– [Costa-jussà and Fonollosa, 2016...
NMTにおける語彙サイズの問題
• Softmaxの計算が重たいため、語彙サイズを制限
– 頻度順で上位3万から5万程度、多くても10万
• 語彙範囲外の単語は特別な記号 <UNK> に置換
• 出力中の <UNK> に対応する単語を辞書等で翻...
意味的に近い語彙範囲内の単語に置換
• 全て<UNK>にしてしまうと訳し分けできない!
• <UNK>を意味的に近く、制限された語彙に
含まれる別の単語で置換 (訓練、テストとも)
• テスト時は、置換された入力単語にattentionした
出...
意味的に近い語彙範囲内の単語に置換
86
Niantic developed PokémonGO for iOS and Android devices
Niantic は iOS 及び Android 端末 向け に ポケモンGO を 開発し...
単語ではなく文字を使う
• 入力のみ文字 [Costa-jussà and Fonollosa, 2016]
• 出力のみ文字 [Chung et al., 2016]
• 入力も出力も文字のみ [Lee et al., 2016]
– 上記3...
単語と文字の中間的な単位(sub-word)
• Byte Pair Encoding (BPE) https://github.com/rsennrich/subword-nmt
– データ圧縮方法として提案されたアルゴリズム (1994)
...
Byte Pair Encodingのアルゴリズム
89
[Sennrich et al., 2016b]
頻度
5
2
6
3
単語
l o w
l o w e r
n e w e s t
w i d e s t
コーパス
l, o, w, ...
Sub-wordの影響 (GNMTの例)
90
逗子市小坪5-1の小坪海岸トン
ネル鎌倉側で、9月24日0 時頃、
大きな崖崩れが発生しました。
逗子市小坪 Zushi-shi Kosubo
逗子市の小坪 Zushi in Zushi City...
NMTの課題の整理
• 扱える語彙数が少ない
– [Luong et al., 2015b], [Jean et al., 2015]
– [Li et al., 2016]
– [Costa-jussà and Fonollosa, 2016...
Neural Machine Translation with Reconstruction
• 通常のNMTで翻訳し、さらにそれを原文に翻訳し
直す(Reconstructor)モジュールを追加
92
[Tu et al., 2016a]
モ...
Modeling Coverage for Neural Machine Translation
• 入力文のどの単語が翻訳されたかを追跡するカバ
レージベクトルを追加
• カバレージベクトルをattentionの計算に利用
• 根本解決からは...
Neural Machine Translation with Supervised Attention
• GIZAなどによる単語アライメント結果をNMTで利用
• 単語アライメントとNMTのattentionとのずれを損失
としてNMTの目...
NMTの課題の整理
• 扱える語彙数が少ない
– [Luong et al., 2015b], [Jean et al., 2015]
– [Li et al., 2016]
– [Costa-jussà and Fonollosa, 2016...
Why Neural Translations are the Right Length
• attentionなしの翻訳モデルの隠れ層を分析
– 出力の長さをコントロールしているunitが複数存在
– <EOS>の確率は最後に急に高くなる
9...
Does String-Based Neural MT Learn Source Syntax?
• attentionなしの翻訳モデルの入出力を様々に変え、
隠れ層を使ったロジスティック回帰で以下を予測
97
[Shi et al., 201...
Does String-Based Neural MT Learn Source Syntax?
• d
98
E2P 英語→構文解析
E2F 英語→仏語
E2G 英語→独語
E2E autoencoder
PE2PE
autoencoder
...
Does String-Based Neural MT Learn Source Syntax?
• まず普通にencoder-decoderを学習し、encoderの
パラメータを固定してdecoderのparserを学習
99
autoen...
Neural Machine Translation
with Source-Side Latent Graph Parsing
• 入力文の依存構造解析をencoderの隠れ層で行う
100
[Hashimoto and Tsuruoka, ...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
Google’s Neural Machine Translation (GNMT)
102
[Wu et al., 2016]
Google’s Neural Machine Translation (GNMT)
• ベースはattentionモデル
– ただしencoderもdecoderも8層LSTMでGPUを大量使用
• 高速化のための様々な工夫
– encode...
Google’s Neural Machine Translation (GNMT)
• 翻訳実験データ
– WMT En->Fr (36M), En->De (5M)
– Google En<->Fr, En<->Es, En<->Zh
(W...
GNMTをWATのデータで自動評価(BLEU)
日→英 英→日 日→中 中→日
旧Google 16.91 18.28 11.16 11.56
Google NMT 22.04 26.19 15.94* 18.75*
Best System 2...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
NMTのその他の話題
107
多言語化が容易
• SMTは基本的に記号の置き換えであるため、
多言語対訳コーパスを同時に利用することは困難
• NMTは基本的に数値計算なので、言語に依らず
同じ意味を表すものを同じような値に変換できれば
翻訳可能
– 昔からある中間言語のよ...
Multi-Source Neural Translation
• 複数の言語で書かれた入力文を同時に利用
109
[Zoph and Knight, 2016]
各言語の隠れ層を
組み合わせる
combiner
Multi-Task Learning for Multiple Language Translation
• encoderを共通にして、多言語翻訳を同時に訓練
110
[Dong et al., 2015]
Multi-Way, Multilingual Neural Machine
Translation with a Shared Attention Mechanism
• 言語ごとにencoderとdecoderを用意
attention機構...
Zero-Resource Translation with Multi-
Lingual Neural Machine Translation
• 前の論文で何もせずゼロショット翻訳をすると
BLEUが1以下にしかならない
– encoder...
Transfer Learning for Low-Resource
Neural Machine Translation
• 大きなコーパスがある言語対でNMTを訓練し、
訓練されたパラメータを小さなコーパスしかない言
語対で訓練する際の初期...
モデルの軽量化
• SMTのモデルは巨大だった・・・
– フレーズテーブル、言語モデルなどなど
– 数十GB、数百GB、数TB
• NMTは実数の行列を保存しておけばよい
– ネットワークの大きさによるが、せいぜい数GB
• NMTのモデルをさ...
Compression of Neural Machine
Translation Models via Pruning
• パラメータの絶対値が小さいものから順に枝刈り
– パラメータと同じshapeのmask行列を使って値を0に
• 枝刈り...
Sequence-Level Knowledge Distillation
• 知識蒸留
– 大きなネットワークからなる教師モデルを訓練しておき
より小さなネットワークの生徒モデルを訓練する際に
教師モデルの予測分布に似るように学習
– 1つだ...
Sequence-Level Knowledge Distillation
• 教師モデルより1/5から1/6の生徒モデルでも
教師モデルと遜色ない精度を達成
• なぜかビームサーチをしなくても精度が出るように
• Galaxy 6上でNMTが...
特殊タグの埋め込み
• GNMTの多言語翻訳 [Johnson et al., 2016]
– 入力文に <2es> (スペイン語への翻訳)のようなタグをつ
け、全ての言語対の対訳コーパスを同時に使うだけで
ゼロショット翻訳もできるようになる
...
最近のarXiv (積ん読)
• Neural Machine Translation with Latent Semantic of
Image and Text (1611.08459)
– Joji Toyama, Masanori Mi...
最近のarXiv (積ん読)
• Beam Search Strategies for Neural Machine
Translation (1702.01806)
– Markus Freitag, Yaser Al-Onaizan
• E...
最近のarXiv (積ん読)
• Context Gates for Neural Machine Translation
(1608.06043)
– Zhaopeng Tu, Yang Liu, Zhengdong Lu, Xiaohua ...
最近のarXiv (積ん読)
• Neural Machine Translation Advised by Statistical
Machine Translation (1610.05150)
– Xing Wang, Zhengdong...
目次
• 身近なニューラル機械翻訳
• 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ
• 最低限必要なニューラルネットワークの解説
• end-to-endのNMT
• NMTの性能 (WAT2016の結果より)
• NMTの課題
• ...
Interface Framework https://github.com Note
GroundHog Python Theano lisa-groundhog/GroundHog
開発終了
(Blocksに移行)
Blocks Pytho...
翻訳エンジンには価値がない?
• すでに多くのNMTエンジンがオープンソース
– SYSTRANが使っているエンジン
– 最先端の研究成果も利用可能
• 他の大手企業も技術を論文で公開
– Baidu [He, 2015], Google [W...
日本でのデータ共有の試み
126http://www.nict.go.jp/data/presentation/open-house2016/nict-open-house-2016-presentation-1-2.pdf
今後の展望
• NMTはここ数年で急激に発展し、SMTの精度を追
い越している
• NMTの研究はまだ発展する可能性が高い
• 現状のNMTには解決すべき課題が多く残されてお
り、実用的かと言われると疑問が残る
– Gisting目的ならば十分...
翻訳業界は今後どうなるか?
• GNMTと同等か、少し良い程度の翻訳を納品する
翻訳会社は、立ち行かなくなる
– クラウド翻訳サービスの会社は危ない?
• GNMTの結果をそのまま、もしくは多少の修正で
納品する会社が多発
– GNMTを使った...
$20 / 100万文字
(参考)新聞1日分の文字数: 約13万文字
ただし、現在はまだAPIでは
旧翻訳エンジンしか使えない
129
https://cloud.google.com/translate/docs/premium130
131https://twitter.com/richandbright/status/813368652569264128
132http://japan.hani.co.kr/arti/politics/26591.html
MT勉強会
• https://sites.google.com/site/machinetranslationjp/
• 前身は2012年からやっている関西MT勉強会
• MTに関する話題をざっくばらんに扱っています
• 内容は基本的にオフレ...
134
ありがとうございました
質問や誤り報告等は
以下まで
nakazawa@pa.jst.jp
nakazawa@nlp.ist.i.kyoto-u.ac.jp
zawa13@gmail.com
Twitter: @Tzawa
135
Philip Arthur, Graham Neubig, and Satoshi Nakamura. 2016. Incorporating discrete translation lexicons into neural mach...
136
Josep Maria Crego, Jungi Kim, Guillaume Klein, Anabel Rebollo, Kathy Yang, Jean Senellart, Egor Akhanov, Patrice Brune...
137
Jonas Gehring, Michael Auli, David Grangier, and Yann N. Dauphin. 2016. A convolutional encoder model for neural machi...
138
Peng Li, Yang Liu, Maosong Sun, Tatsuya Izuha, and Dakun Zhang. 2014. A neural reordering model for phrase- based
tran...
139
Toshiaki Nakazawa, Hideya Mino, Chenchen Ding, Isao Goto, Graham Neubig, and Sadao Kurohashi, 2016a. Proceedings of
th...
140
Xing Shi, Inkit Padhi, and Kevin Knight. 2016b. Does string-based neural mt learn source syntax? In Proceedings of the...
141
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao,
Qin ...
Upcoming SlideShare
Loading in …5
×

NLP2017 NMT Tutorial

15,525 views

Published on

言語処理学会第23回年次大会(NLP2017)のチュートリアルで使ったスライドです。日進月歩なので内容がどんどん古くなって行くと思います。最新情報はご自分で勉強してくださいw

Published in: Science
  • Be the first to comment

NLP2017 NMT Tutorial

  1. 1. ゼロから始める ニューラルネットワーク機械翻訳 中澤 敏明 科学技術振興機構 NLP2017 チュートリアル (2017/3/13)
  2. 2. 自己紹介 • 科学技術振興機構 研究員 – 日中・中日機械翻訳実用化プロジェクト (2013-2017年度) • NLP若手の会2017年委員長 http://yans.anlp.jp – 3/14 YANS懇@秋葉原 • チケットまだあります! – 8/27-29 (予定) NLP若手の会 第12回シンポジウム@??? • スポンサー募集予定!ご検討ください! • AMCダイヤモンド会員 2
  3. 3. 非常に参考になる資料など • そもそもディープラーニングって何?という方は – https://www.slideshare.net/yutakikuchi927/deep- learning-26647407 • 日本語いやだ!英語の資料がいい!という方は – https://sites.google.com/site/acl16nmt/ – https://arxiv.org/abs/1703.01619 • 本資料の最新版は以下に置きます (26MB!) – http://lotus.kuee.kyoto-u.ac.jp/~nakazawa/ NLP2017-NMT-Tutorial.pdf • 質問はその都度どうぞ もしくは #nlp2017nmt 3
  4. 4. 今日の目標 • 以下の図をできれば全員が理解する 4 [Wu et al., 2016]
  5. 5. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 5 休憩
  6. 6. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 6 休憩
  7. 7. ニューラル機械翻訳(NMT)の プロダクト化 2015/05 Baidu 中英 (http://www.aclweb.org/anthology/W15-4110) 2016/08 SYSTRAN 12言語 (日、韓、英、仏など) (http://blog.systransoft.com) 2016/10 WIPO 中、日、韓→英 (特許文) (http://www.wipo.int/pressroom/en/articles/2016/article_0014.html) 2016/11 Microsoft 10言語 (英、日、中、仏、独、西、葡、露、伊、剌) (https://blogs.msdn.microsoft.com/translation/) 2016/11 Google 8言語 (英、日、中、韓、仏、独、西、葡、土) (https://japan.googleblog.com/2016/11/google.html) 7
  8. 8. Google‘s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Wu et al., 2016] https://japan.googleblog.com/2016/11/google.html ニューラルネットを活用した機械翻訳は、数年ほど前から素晴らしい研 究成果を生み出しており、9 月には Google の研究者がこの手法の発 表を行いました。今回、採用した新しいシステムでは、文章をパーツご とに翻訳するのではなく、ひとつの文として扱います。文のコンテキスト を把握することで、より正確な訳語の候補を見つけることができるよう になり、その後、言葉の順番を変え調整することで、文法により正しく、 人の言葉に近い翻訳が出来るようになります。ニューラルネットに基づ く機械翻訳は、システム上にエンドツーエンドで学習し続けるシステム を構築しています。お使いいただくことで、よりよい、より自然な翻訳が 出来るようになっていきます。 8
  9. 9. どれぐらい進化したの? • d https://research.googleblog.com/2016/09/a-neural-network-for-machine.html9
  10. 10. Google NMT (GNMT) の使い方 • NMTを使うには、Google翻訳公式ページ (https://translate.google.com/)を使う – それ以外のページを経由する場合は旧翻訳エンジンの 結果になる可能性がある – spreadsheetのtranslate関数も旧翻訳エンジン • NMTは英語とその他の言語間しか対応していない – 日中などを直接翻訳すると、旧翻訳エンジンの結果 • 翻訳結果の再現性はないものと思った方が良い – 同じ文を明日翻訳したら違う結果になるかも 10
  11. 11. GNMTかどうかの見分け方 単語/句の対応が表示される → NMTではない 単語/句の対応が表示されない (文全体の対応として表示される) → NMT 11
  12. 12. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 12 休憩
  13. 13. 訓練データ 開発データ 試験データ 翻訳知識 / ルール フレーズテーブル 素性の重み 言語 モデル 最終 翻訳結果 チューニング リランキング/ リライティング デコーダー / 翻訳エンジン 一般的な統計翻訳(SMT)の枠組み 単語/句 アライメント N-best 翻訳結果 N-best 翻訳結果 正解翻訳 GIZA++ MGIZA FastAlign Nile SRILM KenLM RNNLM Moses, Joshua Travatar, KyotoEBMT MERT MIRA PRO 13
  14. 14. フレーズベースSMTのデコーディング 新たな 翻訳 手法 を 提案 する new novel translation method a method the propose is do we propose a an approach approach suggestdecode we proposetranslation algorithm a new translation method of the novel translation フレーズ テーブル we propose a novel translation method 14
  15. 15. マルチスタック ビームサーチ • 翻訳された入力 単語数ごとに スタックを用意 • 各スタック内で翻訳候 補をスコア順に並べ 替え(sort)、スコアが 低いものを枝刈り (pruning) • 最後のスタックの最 高スコアが翻訳結果 15
  16. 16. 一般的な統計翻訳(SMT)の枠組み • トレーニング、チューニング、テストの大きく3ステッ プに分かれる • トレーニングに使うモデルと翻訳(デコーディング) に使うモデルは完全独立なことが多い – トレーニング = IBM model、デコーディング = log linear • チューニングは一般にBLEUに対して行われる • デコーディングは入力文を小さな部分ごとに目的 言語に「置き換える」ことで行い、全ての部分が置 き換えられたら翻訳終了 16
  17. 17. 訓練データ 開発データ 試験データ 翻訳知識 / ルール フレーズテーブル 素性の重み 言語 モデル 最終 翻訳結果 チューニング リランキング/ リライティング デコーダー / 翻訳エンジン NNによるSMTの侵略 単語/句 アライメント N-best 翻訳結果 N-best 翻訳結果 正解翻訳 [Tamura et al., 2014] Reordering [Li et al., 2014] LM [Auli and Gao, 2014] NNJM [Devlin et al., 2014] [Gao et al., 2014] [Cho et al., 2014] [Mikolov et al., 2010] [Auli et al., 2013] [Miceli-barone+, 2015] 17
  18. 18. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 18 休憩
  19. 19. フィードフォワードニューラルネットワーク ニューロン (ノード) 中間層・隠れ層 出力層 入力層 重み付きエッジ 活性化関数 ※ バイアスは省略19
  20. 20. フィードフォワードニューラルネットワーク 中間層・隠れ層 出力層 入力層 各入力は 1つの実数値 前の層の出力に 重みをかけて次 の層の入力へ 全ての入力を足し合わせ さらに活性化関数により 非線形変換を適用 必要な値に 整形や正規化 20 + 𝑓 + 𝑓 + 𝑓 + 𝑓
  21. 21. one-hot ベクトル • ニューラルネットワークの入力は実数値 • 自然言語(単語)は実数値ではない! • 単語を一箇所だけ”1”となっているベクトルで表現 • 実際にはこれをembeddingしたものを入力 (0, 0, 1, 0, 0, 0, ・・・) (0, 0, 0, 0, 0, 1, ・・・) (0, 0, 0, 0, 1, 0, ・・・) ・・・ pen = pineapple = apple = 入力 21
  22. 22. Word Embedding 22 局所表現 (local representation) 分散表現 (distributed representation) (0, …, 0, 0, 1, 0, 0, 0, …, 0) 高次元・疎・離散値 低次元・密・連続値 (0.05, …, -0.32, 1.83, …, 0.49) word2vecとか GloVeとか king - man + woman ≒ queen Paris - France + Italy ≒ Rome 何かしら意味っぽいものが学習されている NMTではembeddingも1つの層として同時に学習 語彙サイズと 同じ次元数 数百次元
  23. 23. フィードフォワードニューラルネットワーク 中間層・隠れ層 出力層 入力層 ニューロンの出力の集合 = 実数値の集合 = ベクトル! 23
  24. 24. フィードフォワードニューラルネットワーク 中間層・隠れ層 出力層 入力層 ニューロンの出力の集合 = 実数値の集合 = ベクトル! 重みの集合 = n×m個の実数値の集合 = 行列! 24
  25. 25. フィードフォワードニューラルネットワーク 中間層・隠れ層 出力層 入力層 x h y W1 W2 25ベクトル ベクトル ベクトル 行列 行列
  26. 26. フィードフォワードニューラルネットワーク x h y W1 W2 ℎ = 𝑓(𝑊1 𝑥) 𝑦 = 𝑔(𝑊2ℎ) fは活性化関数 ベクトルの各要素に個別に適用するというオ・ヤ・ク・ソ・ク gは最後の出力を所望の値に変換する活性化関数 NMTを含む分類問題でよく使われるのはsoftmax関数 W1とW2は重み(パラメータ) トレーニングにより最適な値に調整されるもの 26
  27. 27. softmax関数 • 出力ベクトル y の各要素の値を正規化し、確率の ように扱う • 各要素の値は0から1の間の値になり、全ての要素 の和が1になる • Kは翻訳なら目的言語の語彙サイズに当たる • 色々と便利な関数だが、計算がものすごく重たい – そのためNMTでは3万や5万などに語彙サイズを制限 𝜎(𝒚) 𝑗 = 𝑒 𝑦 𝑗 𝑘=1 𝐾 𝑒 𝑦 𝑘 for 𝑗 = 1, … , 𝐾 27
  28. 28. softmaxの問題の解決法 • 階層化softmax [Morin and Bengio, 2005] – 予測クラスに階層構造を考えることで計算量を低減 – 階層化することでうまく学習できなくなる可能性 • Noise Contrastive Estimation (NCE) [Gutmann and Aapo Hyvärinen, 2012] – 負例サンプリングによりsoftmaxを近似 – 文脈とは独立にサンプリング • Blackout [Ji et al., 2015] – NCEと似ているが、文脈に依存したサンプリング • 対象とする単語を分割されたデータごとに変更 [Jean et al., 2015] 28
  29. 29. フィードフォワードニューラルネットワーク • ネットワークの形が固定、入力の長さも固定 • 音声や自然言語など、長さがデータごとに異なる 場合にうまく使えない – 画像などで使う場合は、入力画像サイズを揃えてある • HMMみたいに入力データを少しずつ読み込むよう なネットワークがあればなぁ • 過去に読み込んだデータの情報を覚えておけたら なぁ • そうだ!リカレントニューラルネットワークだ! 注: CNNを使う論文もありますが、今回はRNNのみ [Gehring et al., 2016 ]29
  30. 30. リカレントニューラルネットワーク(RNN) • xは1つの単語、tは時刻(何単語読んだか) • hが次の入力としても使われるため、記憶機能あり • これの発展版がLSTM (long short-term memory) と かGRU (gated recurrent unit)とか(説明は省略) x h y W1 W2 ℎ 𝑡 = 𝑓(𝑊1 𝑥 𝑡 + 𝑊3ℎ 𝑡−1) 𝑦𝑡 = 𝑔(𝑊2ℎ 𝑡) W3 30 隠れ層とも 呼ばれる
  31. 31. リカレントニューラルネットワーク(RNN) x h y W1 W2 W3 単語 次の単語言語モデル 単語 品詞品詞タグ付け 文字 BIESタグ単語分割 31 などなど、使い方はあなた次第👆
  32. 32. リカレントニューラルネットワーク(RNN) x1 h1 y1 W1 W2 W3 x2 h2 y2 W1 W2 W3 x3 h3 y3 W1 W2 W3 x4 h4 y4 W1 W2 展開するとFFNNと同じ構造! 論文等ではリカレントの部分が展開されていることが多い 32 h0 W3 省略されて いることが 多い
  33. 33. 多層RNN 33 x h1 y W1 W2 W3 h2 W4 W5 x1 h1 1 h2 1 W1 W2 W3 y1 W4 x2 h1 2 h2 2 W1 W2 y2 W4 W5 W3 x3 h1 3 h2 3 W1 W2 y3 W4 W5 W3 x4 h1 4 h2 4 W1 W2 y4 W4 W5
  34. 34. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 34 休憩
  35. 35. end-to-endとは何か? • 入力から出力までが単一のモデルで完結 – ルールも単語アライメントもフレーズテーブルも不要! 35
  36. 36. 訓練データ 開発データ 試験データ 最終 翻訳結果 NMT 一般的なニューラル翻訳(NMT)の枠組み 36 ビームサーチ アンサンブル
  37. 37. Sequence to Sequence Learning • 通常のRNNは入力と出力の長さが同じでなければ ならないし、順序も一致していなければならない • 機械翻訳では当然入力と出力の長さが違うし、 語順も異なる • 入力側と出力側で別々のRNNを使おう! [Sutskever et al., 2014] x1 h1 x2 h2 x3 h3 EOS h’1 y1 h’2 y2 h’3 y3 h’4 y4 h’5 y1 y2 y3 EOSy4 37 encoder decoder
  38. 38. Sequence to Sequence Learning [Cho et al., 2014] x1 h1 x2 h2 x3 h3 EOS h4 h’1 h’2 h’3 h’4 y1 y2 y4y3 38 encoder decoder c h’5 EOS 注: この論文自体はNMTではなく、 フレーズテーブルのエントリーの スコア計算に使っているが NMTとして使うことも可能
  39. 39. encoder-decoderモデル • encoder: 入力を中間的な表現(ベクトルなど)に 符号化(エンコード) • decoder: 符号化された入力から適切な出力を 復号化(デコード) • 様々なタスクに応用可能 – 文書要約 [Chopra et al., 2016] – 構文解析 [Vinyals et al., 2015] – 質問文のlogical formへの変換 [Dong and Lapata, 2016] – 画像のキャプション生成 [Xu et al., 2015] – マルチモーダル翻訳 [Caglayan et al., 2016] 39 などなど、使い方はあなた次第👆
  40. 40. 数値予報データからの天気予報コメントの自動生成 Title 冷たい雨や雪で週がスタート Comment 今日は冷たい雨や雪が降り、アラレや落雷の 恐れがあります。午後は雨や雪が止む時間 が長くなり、あってもニワカ雨や雪。段々と風 が強まり、一層寒くなります。 数値予報データ (時系列) (気圧, 風, 雲量, 湿度, 雨量 等) 自動生成 (本研究) 従来 天気予報コメント 数値予報データと過去の観測値を参考に人手で更新 東工大 高村大也先生 「様々な形式のデータを 言語で柔軟に記述する汎用的技術の開発」 さきがけ「新しい社会システムデザインに向けた情報基盤技術の創出」 40(Slide by 高村先生&村上聡一朗さん)
  41. 41. 配信時間 6時間毎に更新 (1日4回) 予報時間 84時間 物理量 (11種類) 気圧, 海面更正気圧, 東西風, 南北風, 気温, 相対湿度, 積算降水量, 上層雲量, 中層雲量, 低層雲量, 全雲量 時系列 時刻t=0, .. ., 84 マップ上の各座標には、予測値が格納 例:気圧の場合 1004.32 hPa 930.87 hPa 数値予報データ (時系列) 天気予報コメント ウェザーニューズ社 - ピンポイント天気予報(今日明日の天気) - 全国の277の代表地点について天気予報コメントを配信 配信日時 タイトル コメント 地点 2014/03/01 18:03:23 明日は防寒対策をし てお出かけを 明日は日差しの温もりを感じられるものの、空気はヒンヤリとします。午後は冷た い風で身にしみる寒さに。防寒対策をしてお出かけ下さい。 山形 2015/03/10 18:23:28 明日の外出は暖かい 服装で 明日は日差しが優勢でも、冷たい風が吹きつけるので体感温度はDOWN。外出 時には防寒が必須です。また、花粉も多い予想のため、マスク等で対策を忘れず に。 小名浜 2015/09/05 05:01:12 今日は折りたたみ傘 があると安心 今日は午前ほど日差しが届いて、お出かけが楽しめる天気。ただ、午後は段々と 雲が厚くなってニワカ雨の可能性も。折りたたみ傘があると安心です。 宿毛 (Slide by 高村先生&村上聡一朗さん) 41
  42. 42. モデル CNN LSTMsOutputs Encoder 今日 は 晴れ です 。 </s> 今日 <s> は 晴れ です 。 Decoder 0, 3, 6, 9, 12, 15, 18, 21, 24時間先の数値 予報データから{CNN, MLP}を使って特徴 抽出. (入力チャネル数は, 使用する物理 量分) ある代表地点の数値予報データ MLP 時間embedding 日embedding 月embedding 曜日embedding 地点embedding MLP or メタ情報 メタ情報 (Slide by 高村先生&村上聡一朗さん) 42 日付 & 地点 2015/01/05 00:38:02、魚津 正解 今日 ( 月 ) は 雲 が 多い ものの 、 午後 から は だんだん と 日差し が 出 て き て ま す 。 明日 は 雨 が 降る ので 、 洗濯 や 雪かき など 日差し の 有効 活用 が よ さ そう です 。 生成結果 今日 ( 月 ) は 雲 が 広がり 、 ニワカ 雨 の 可能 性 が あり ます 。 折りたたみ 傘 が あ る と 安心 。 また 、 空気 は 冷たく 、 昼間 でも 寒く 感じ られ ます 。 しっかり 防寒 を し て お出かけ 下さい 。
  43. 43. Sequence to Sequence Learningの欠点 • 入力文の情報を1つの固定長のベクトルに 押し込めている – 長い文だと翻訳精度が極端に落ちる – 入力文を逆順に入れると翻訳精度が上がるという 黒魔術が発見される 43 隠れ層の状態を全て保存しておいて 翻訳時に適宜参照(=attention)しながら 翻訳しよう! ついでにRNNを両方向走らせよう! (=bidirectional RNN)
  44. 44. 新たな 翻訳 手法 を 提案 する embedding forward RNN backward RNN we propose a novel translationmethod attention decoder RNN softmax input output <EOS> <EOS> Attention-based Neural Machine Translation 44 [Bahdanau et al., 2014]
  45. 45. Attentionの導入による効果 • 長い文でも翻訳精度が落ちにくい! 45 Attentionあり [Bahdanau et al., 2014] Attentionなし [Cho et al., 2014] 30と50の違いは トレーニングに 使った最大文長
  46. 46. Attention-based Neural Machine Translation 新 た な 翻 訳 手 法 を 提 案 す る Encoder 入力文の 情報を 行列に変換 Attention どの単語に 注目するかを 1出力ごとに 計算 Decoder 先頭から 1単語ずつ 翻訳を生成 2000 0.1 0.5 … 0.3 0.8 0.1 … 1.2 1.5 0.2 … 0.7 0.7 0.3 … 0.6 0.9 1.1 … 1.0 0.3 0.2 … 0.1 0.45 0.20 0.25 0.05 0.02 0.03 we propose a novel [0.642 0.338 … 0.603] 2000 context vector …… 6 6 6 エンコード された入力 (annotation) 入力文 出力文 46 入力単語の 注目度
  47. 47. Attention-based Neural Machine Translation 新たな 翻訳 手法 を 提案 する [0.1 0.5 … 0.3] [0.8 0.1 … 1.2] [1.5 0.2 … 0.7] [0.7 0.3 … 0.6] [0.9 1.1 … 1.0] [0.3 0.2 … 0.1] [0.6 … 0.4] [0.3 … 0.2] [0.2 … 0.8] [0.7 … 0.1] [0.4 … 0.4] [0.9 … 0.3] LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM 2000次元 2つのベクトルの結合 [0.1 … 0.5] [0.8 … 0.2] [1.5 … 0.1] [0.7 … 1.1] [0.9 … 0.8] [0.3 … 0.4] [0.2 … 0.3] [1.9 … 1.2] [0.2 … 0.7] [1.5 … 0.6] [0.1 … 1.0] [1.4 … 0.1] 620次元 各単語独立 1000次元 前の単語列の 情報を含む Source Embedding - Encoder - 47
  48. 48. Attention-based Neural Machine Translation 0.1 0.5 … 0.3 0.8 0.1 … 1.2 1.5 0.2 … 0.7 0.7 0.3 … 0.6 0.9 1.1 … 1.0 0.3 0.2 … 0.1 0.45 0.20 0.25 0.05 0.02 0.03 [0.642 0.338 … 0.603] LSTM we propose a novel [0.2 … 0.8] LSTM Encodeされた入力 (annotation) LSTM Softmax [0.01 … 0.6 … 0.03] Target Embedding 目的言語の 語彙数次元 1つ前の出力を使う context vector [1.70 0.89 1.11 -0.50 -1.41 -1.01] 非線形変換 正規化 - Attention & Decoder - 48 入力単語の 注目度 attentionの計算方法は いろいろ [Luong et al., 2015a] 訓練時は正解と比較し パラメータを更新
  49. 49. NMTの特徴 • フレーズテーブルは存在しない – 単語アライメント不要、同じモデルで訓練もテストも行う • SMTのように入力文を「置き換える」ことで翻訳する のではなく、入力文も見ながら、言語モデルのよう に翻訳文を作り出す – <EOS>が(どこかで)出力されたら完了 – 入力文を過不足なくカバーして翻訳することができない • 入口(入力文)と出口(翻訳文)以外は全て数値計 算(行列の積など)だけで動いている(end-to-end) • embeddingのおかげで柔軟な翻訳が可能 49
  50. 50. 50https://twitter.com/trainjrhokkaido/status/834331315369422848
  51. 51. 51https://twitter.com/yasutoc/status/834651903984152576
  52. 52. A boy is playing a piano Generating Video Description using Sequence- to-sequence Model with Temporal Attention [Laokulrat+, COLING2016] 52(Slide by Dr. Laokulrat)
  53. 53. Encoder-Decoder Sequence-to-Sequence Model with Temporal Attention Mechanism <BOS> a woman is cooking in the kitchen <EOS> context vector (Slide by Dr. Laokulrat) 53
  54. 54. NMTは本質的には言語モデルと同じ • エンコードされた入力𝑥と過去の出力𝑦1 … 𝑦𝑡−1から 次の出力単語𝑦𝑡を予測 • RNNなので𝑡 = 0から𝐾(<EOS>出力)までかけると 54 𝑝(𝑦𝑡|𝑦1, … , 𝑦𝑡−1, 𝑥) 𝑡=1 𝐾 𝑝(𝑦𝑡|𝑦1, … , 𝑦𝑡−1, 𝑥) = 𝑝(𝑦|𝑥) 言語モデル NMT 入力(𝑥) 考慮しない 考慮する 過去の出力 数単語前まで考慮 全て考慮 単語の表現 離散的 (単語そのものを利用) 連続的 (実数値ベクトル) SMTで求めたい ものと同じ!
  55. 55. NMTの短所 • 既存の(SMT用の)前処理・後処理が使えない – 事前並べ替えは悪影響 [Sudoh and Nagata, 2016] – 辞書が簡単には統合できない • モデルのトレーニングにGPUがほぼ必須 – 翻訳をするだけならCPUでも可能 – トレーニングもCPUでいける!? [Hashimoto and Tsuruoka, 2017] • 実験ごとに最高精度の出る設定が全然違う – 設定を自動で決められるようにはなっていない – 初期パラメータがランダムなため、同じコーパス、同じ 設定でトレーニングしても、精度が結構変わる [Weiss et al., 2015] 55
  56. 56. NMTの短所 • BLEUに対して最適化されていない – 通常のトレーニングは1単語出力するごとに、正解の単 語と比較(cross-entropy) – BLEUなど任意の評価指標を損失関数として使う方法 (minimum risk training)もある [Shen et al., 2016] • BLEUは向上するが人手評価は変わらない?[Wu et al., 2016] • embeddingのせいで全然違う訳が出ることがある – I come from Tunisia → ノルウェーの出身です [Arthur et al., 2016] • attentionの結果はそこまで信用できない 56
  57. 57. Attention ≠ Alignment 57 出 力 入力 務台俊介 • 横方向に足すと1 • 縦方向は足しても 1にはならない → 全ての入力が カバーされていない • Alignment Error Rate GIZA = 30ぐらい Attention = 50ぐらい [Liu et al., 2016a] • GNMTにおいて 単語対応が 表示されない要因 低頻度語は 特別処理 ほとんど attention されていない attentionが ぐちゃぐちゃ
  58. 58. ビームサーチ • SMTと同様、翻訳の途中状態を複数保持しておく – 途中状態のスコアを定義し、スコア上位を残す – スコアの計算例 • 単語の生成確率の積を出力単語数で正規化 • 過去のattentionの状態をスコアに反映 [Wu et al., 2016] • SMTとの違い = いつ終わるかわからない – <EOS>が出るまでサーチが続く • 並列計算がしにくく、GPUとの相性が良くない • softmaxが必要になるため、計算が重たい • ビームサーチの有無で精度が大きく異なる 58
  59. 59. アンサンブル • 複数のNMTを平行に実行し、単語を一つ出力する 際に各NMTからの予測を統合して決定 – NMTは同じモデルでも、全く異なるモデルでもよい – 1つのモデルの訓練途中の複数のパラメータを使っても よい (loss最小、BLEU最大、最終状態など)が、独立に訓 練した複数のNMTを使う方が若干精度が良い 59 出力: 次 の 単語 …入力: what is the next word ? (は, が, を, に, …) NMT1 = (0.3, 0.1, 0.2, 0.1, …) NMT2 = (0.2, 0.1, 0.6, 0.1, …) NMT3 = (0.4, 0.2, 0.1, 0.2, …) 相加平均 (0.28, 0.15, 0.30, 0.13, …) (0.26, 0.14, 0.24, 0.12, …)NMT4 = (0.2, 0.2, 0.3, 0.1, …) 相乗平均 1 𝑀 𝑚=1 𝑀 𝑝 𝑚 𝑚=1 𝑀 𝑝 𝑚 1/𝑀
  60. 60. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 60 休憩
  61. 61. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 61 休憩
  62. 62. アジア翻訳ワークショップ (WAT) • Workshop on Asian Translation – アジア言語を対象とした機械翻訳評価ワークショップ – 日本語、中国語、韓国語、インドネシア語、ヒンディー語、 英語 – 2014年より開催、昨年で3回目 • WAT2016 – 2016年12月12日に大阪で開催(Coling2016併設) – 今回から研究論文も募集 – 招待講演はGoogleの賀沢氏 (GNMTの話) • WAT2017 @ IJCNLP2017? http://lotus.kuee.kyoto-u.ac.jp/WAT/ 62
  63. 63. WAT2016翻訳タスク • 科学技術論文(ASPEC) [Nakazawa et al., 2016b] – 日英 (3M)、日中 (680K) • 特許(JPC) – 日英、日中、日韓 (それぞれ1M) • 新聞記事(BPPT) – インドネシア英 (50K) • 混合ドメイン – ヒンディー英 (1.5M)、ヒンディー日 (150K) 63
  64. 64. 翻訳タスク参加チーム一覧 64 Team ID Organization ASPEC JPC BPPT IITBC pivot JE EJ JC CJ JE EJ JC CJ JK KJ EI IE HE EH HJ JH NAIST Nara Institute of Science and Technology ✓ Kyoto-U Kyoto University ✓ ✓ ✓ ✓ TMU Tokyo Metropolitan University ✓ bjtu_nlp Beijing Jiaotong University ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ Sense Saarland University ✓ ✓ NICT-2 National Institute of Information and Communication Technology ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ WASUIPS Waseda University ✓ EHR Ehara NLP Research Laboratory ✓ ✓ ✓ ✓ ✓ ✓ ntt NTT Communication Science Laboratories ✓ TOKYOMT Weblio, Inc. ✓ IITB-EN- ID Indian Institute of Technology Bombay ✓ ✓ JAPIO Japan Patent Information Organization ✓ ✓ ✓ ✓ ✓ IITP-MT Indian Institute of Technology Patna ✓ UT-KAY University of Tokyo ✓ UT-AKY University of Tokyo ✓ # of participants 5 7 3 6 2 3 2 6 0 2 2 2 0 2 1 0 outside Japancompany NMT
  65. 65. 翻訳結果評価方法 • 自動評価 – BLEU, RIBES, AM-FM [Banchs+, 2015] – 自動評価サーバーを用意し、参加者が翻訳結果を提出 すると自動的に評価され、都度Webに結果が公開 • 人手評価: 二段階評価 1. 一対比較評価(Pairwise) • 各チーム各言語対2つまで翻訳結果を提出可能 2. 特許庁が公開している特許文献機械翻訳の品質評価 手順のうち、「内容の伝達レベルの評価」(Adequacy) • 一対比較評価の結果、各言語対上位3システムを対象に評価 65 http://lotus.kuee.kyoto-u.ac.jp/WAT/evaluation/
  66. 66. 一対比較評価(Pairwise) • 各システムの翻訳結果をベースライン (フレーズベースSMT)と文ごとに比較 • 評価対象文はテストセットのうちの400文 • 5人の評価者が文ごとにベースラインより 良いか(+1)、悪いか(-1)、同程度か(0)を評価 • 5人の評価を足し合わせて、+2以上ならば その文はベースラインより良いと、-2以下ならば 悪いと、それ以外ならば同程度と判定 • 最終的にスコアを以下の式で計算 – Pairwise Score = 100 × (勝ち数 - 負け数) / 400 66
  67. 67. 内容の伝達レベル評価(Adequacy) • 一対評価対象文のうちの200文を評価 • 2人の評価者が文ごとに特許庁の基準により評価 評価値 評価基準 5 すべての重要情報が正確に伝達されている。 (100%) 4 ほとんどの重要情報は正確に伝達されている。 (80%〜) 3 半分以上の重要情報は正確に伝達されている。 (50%〜) 2 いくつかの重要情報は正確に伝達されている。 (20%〜) 1 文意がわからない、もしくは正確に伝達されている重要情報は ほとんどない。 (〜20%) https://www.jpo.go.jp/shiryou/toushin/chousa/tokkyohonyaku_hyouka.htm 67
  68. 68. ASPEC-JE評価結果 68 SMT ANMT B SMT ANMT B
  69. 69. ASPEC-EJ評価結果 69 SMT ANMT B Online A SMT ANMT B Online A
  70. 70. ASPEC-JC評価結果 70 SMT ANMT B SMT ANMT B
  71. 71. ASPEC-CJ評価結果 71 NMT CNMT B Kyoto-U 1
  72. 72. 科学技術論文翻訳 経年評価 NMT (2016) SMT (2015) 26.22 25.41BLEU 36.19 35.83BLEU 31.98 31.61BLEU 46.04 41.75BLEU NMT (2016) SMT (2015) NMT (2016) SMT (2015) NMT (2016) SMT (2015) 72
  73. 73. 翻訳例 • 以下の基準で翻訳結果をサンプリング – 2015年のSMTにおいて(5, 5)の評価だったものが、 2016年のNMTにおいてどちらも5未満の評価 – 2016年のNMTにおいてどちらも2以下の評価 • 日→英・英→日 科学技術論文、中→日 特許文 73
  74. 74. IN Hartree−Fock−Bogoliubov法を用いて変形した原子核の対密度分布を調 べた。 REF Using Hartree-Fock-Bogoliubov method, pairing density distribution of the deformed nuclei was investigated. SMT The pair density distribution of deformed nuclei was investigated using Hartree-Fock-Bogoliubov method. (5, 5) NMT The density distribution of deformed nuclei is investigated by the Hartree - Fock - Bogoliubov method. (4, 4) IN 軸対称な四重極変形した原子核を対象にした。 REF Axial symmetric quadrupole deformed nuclei were examined. SMT The axisymmetric quadrupole deformation nuclei were made to be an object. (5, 5) NMT An axially symmetric quadrupole nucleus is studied. (4, 3) 論文 日→英 1 74
  75. 75. IN 食事については,全介助から半介助となった。 REF On the meal, changing from all support to half support was realized. SMT The meal became half assistance from the assistance. (1, 4) NMT On the meal, it became the assistance from all assistance assistance. (1, 2) IN 排せつ,排尿はまだ時間を要する REF It takes much more times in excretion and urination. SMT The excretion, urination, still needs the time. (5, 5) NMT Excretion and voidance are necessary for a long time. (1, 2) IN スキー滑走中に転倒受傷し右膝変形ととう痛にて受診。 REF A man tumbled over in a ski slide and was injured and then had right knee deformation and pain and so received medical examination. SMT He had medical examination by pain and right knee deformation injured overturning during ski. (3, 4) NMT The ski was injured in ski ski sliding, and it had medical examination by right knee deformation and pain. (2, 2) 論文 日→英 2 75
  76. 76. IN Using Hartree-Fock-Bogoliubov method, pairing density distribution of the deformed nuclei was investigated. REF Hartree−Fock−Bogoliubov法を用いて変形した原子核の対密度分布を調 べた。 SMT Hartree ‐ Fock ‐ Bogoliubov法を用いて,変形した核の対密度分布を調 べた。(5, 5) NMT 標記の方法を用いて,変形核の対密度分布を調べた。 (4, 3) IN By this approach, monodispersed swollen styrene particles were obtained and the fine particles in the title were synthesized. REF この方法で,単分散なスチレン膨潤粒子を得,標記微粒子を合成した。 SMT このアプローチにより,単分散膨潤スチレン粒子が得られ,標記微粒子を合 成した。(5, 5) NMT この方法により,単分散のスチレン粒子を得,標記微粒子を合成した。 (4, 4) IN No side effect was noted during treatment. REF 治療中,副作用は認めなかった。 SMT 治療中に副作用はなかった。 (5, 5) NMT 副作用は認めなかった。 (4, 3) 論文 英→日 1 76
  77. 77. IN The liver and intestine were extracorporeally observed through the central abdominal wall in the gestational age. REF 在胎中,肝と腸が中心腹壁を介し体外的に観察された。 SMT 肝臓や小腸は妊娠期間における中枢腹壁を通して体外に観察された。 (5, 4) NMT 妊娠時の腹部CTでは,肝,腸管はほぼ全周性に描出された。 (1, 1) IN Pilot plant tests showed the system gives clean water reusable as feed water to deionizers. REF パイロットプラントによる結果は,純水装置の原水として再利用可能レベル迄 処理できた。 SMT パイロットプラント試験はdeionizersに水として清浄水再使用を与えるシステ ムを示した。 (3, 4) NMT パイロットプラント試験により,本システムの有効性を確認した。 (2, 1) IN Polonium 210 is found, in an extremely low amount though, in the cigarette smoke. REF またポロニウム210はごく微量であるが,タバコの煙の中にも含まれている。 SMT たばこ煙が極めて低い量で210ポロニウムが見られる。 (3, 5) NMT シガレット210は極低濃度ではあるが,たばこ煙では検出されていない。 (1, 2) 論文 英→日 2 77
  78. 78. IN “聚合酶链反应”(“PCR”)是本领域技术人员熟知的。 REF 「ポリメラーゼ連鎖反応」(「PCR」)は、当業者によく知られている。 SMT 「ポリメラーゼ連鎖反応(PCR)」は、当業者に周知である。 (5, 5) NMT 「重反応」(「PCR」)は当業者に周知である。 (4, 2) IN 具体来讲,如图2中所示地执行晶锭生长步骤(S110)。 REF 具体的には、図2に示すように、まずインゴット成長工程(S110)を実施する。 SMT 具体的には、図2に示すように、インゴット成長工程(S110)が行われる。 (5, 5) NMT 具体的には、図2に示すように結晶成長工程を行う(S110)。 (4, 4) IN 关于施加与最佳值错开的电压时获得的电流量受到血液试样内的血细胞比 容值(Hct值)的影响。 REF 最適値から外れた電圧を印加した時に取得される電流量は、血液試料内の ヘマトクリット値(Hct値)によって左右され得る。 SMT 最適値からずれる電圧を印加した際に得られる電流量は、血液試料内のヘ マトクリット値(Hct値)の影響を受ける。 (5, 5) NMT 最適な値の電圧を印加する際に得られる電流量は、血液試料内のヘマトク リット値(Hct値)の影響を受ける。 (4, 4) 特許 中→日 1 78
  79. 79. IN 本发明片剂还可以包含包衣层,它可占片剂组合物的约0-15%(重量)。 REF また錠剤は、錠剤組成全量中0〜約15重量%を含むコーティング層を有す ることができる。 SMT 本発明の錠剤は、コーティング層をさらに含むことができるが、それは、錠剤 組成物の約0〜15重量%を占めることができる。 (5, 5) NMT 本発明の錠剤はまた、錠剤組成物の約0〜15重量%(重量)を含有していても よい。 (1, 2) IN 使用由高取向热解石墨(HOPG)制成的单色器702作为X射线的单色化单元 以便提取Mo的特征X射线。 REF X線の単色化手段としては高配向性熱分解黒鉛(HOPG)のモノクロメータ7 02を用いMoの特性X線部分を抽出する。 SMT X線として高配向熱分解黒鉛(HOPG)からなるモノクロメータ702の単色化 ユニットを用いてMoの特性X線を抽出することができる。 (3, 3) NMT 高配向熱分解黒鉛(HOPG)からなるの702は、X線を用いてX線を抽出するた めに、X線を使用する。 (1, 2) 特許 中→日 2 79
  80. 80. 結果からわかること • NMTはアジア言語の翻訳においても有効 – 特に日中翻訳はかなり向上した • おそらく、中国語の単語分割誤りの影響が NMTでは低減されることが原因 • 同様の結果は中英翻訳でも確認されている [Junczys-Dowmunt et al., 2016] • NMTでは翻訳文の流暢さは完璧に近いが 正確性は完璧ではない – 平均的な翻訳精度は格段に向上するが 訳抜けが起こりやすい – たまにおかしくなったように同じ単語を繰り返し出力 – 低頻度語の翻訳に弱い 80
  81. 81. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 81 休憩
  82. 82. NMTの課題の整理 • 扱える語彙数が少ない – [Luong et al., 2015b], [Jean et al., 2015] – [Li et al., 2016] – [Costa-jussà and Fonollosa, 2016], [Chung et al., 2016], [Luong and Manning, 2016], [Sennrich et al., 2016b] • 訳抜けと重複 – [Tu et al., 2016a], [Tu et al., 2016b], [Liu et al., 2016] • 何を学習しているのかわからない – [Shi et al., 2016a], [Shi et al., 2016b], [Hashimoto and Tsuruoka, 2017] 82
  83. 83. NMTの課題の整理 • 扱える語彙数が少ない – [Luong et al., 2015b], [Jean et al., 2015] – [Li et al., 2016] – [Costa-jussà and Fonollosa, 2016], [Chung et al., 2016], [Luong and Manning, 2016], [Sennrich et al., 2016b] • 訳抜けと重複 – [Tu et al., 2016a], [Tu et al., 2016b], [Liu et al., 2016] • 何を学習しているのかわからない – [Shi et al., 2016a], [Shi et al., 2016b], [Hashimoto and Tsuruoka, 2017] 83
  84. 84. NMTにおける語彙サイズの問題 • Softmaxの計算が重たいため、語彙サイズを制限 – 頻度順で上位3万から5万程度、多くても10万 • 語彙範囲外の単語は特別な記号 <UNK> に置換 • 出力中の <UNK> に対応する単語を辞書等で翻訳 – 単語アライメント結果を使って対訳文を修正 – <UNK>を出力する際に最も強くattentionした入力単語 で置き換え [Jean et al., 2015] 84 En: The unk portico in unk … Fr: Le unkpos1 unkpos-1 de unkpos0 [Luong et al., 2015b] 添え字は対応する 入力単語の相対位置 これらの方法は copy model/mechanism と呼ばれる
  85. 85. 意味的に近い語彙範囲内の単語に置換 • 全て<UNK>にしてしまうと訳し分けできない! • <UNK>を意味的に近く、制限された語彙に 含まれる別の単語で置換 (訓練、テストとも) • テスト時は、置換された入力単語にattentionした 出力単語を、元の入力単語の辞書翻訳で置換 85 [Li et al., 2016] a) Mike chases the pet with mottle b)Mike chases the pet with scooter c) Mike chases the pet with Sullivan これらが全て <UNK>だと 3つとも同じ文に
  86. 86. 意味的に近い語彙範囲内の単語に置換 86 Niantic developed PokémonGO for iOS and Android devices Niantic は iOS 及び Android 端末 向け に ポケモンGO を 開発した Google は 音楽 及び Android 端末 向け に ゲーム を 開発した Google developed game for music and Android devices 入力文 置き換えた入力文 翻訳 翻訳文 後編集した翻訳文 [Li et al., 2016] attentionミスや、置き換えた単語が 翻訳されないなどの問題がある
  87. 87. 単語ではなく文字を使う • 入力のみ文字 [Costa-jussà and Fonollosa, 2016] • 出力のみ文字 [Chung et al., 2016] • 入力も出力も文字のみ [Lee et al., 2016] – 上記3つは単語間の空白も1文字としており、 間接的に単語の情報を使っている • 単語と文字のハイブリッド – 単語単位のNMTがベース – 入力の<UNK>は文字単位の エンコーダーが表現を作る – 出力の<UNK>は文字単位で翻訳 87[Luong and Manning, 2016]
  88. 88. 単語と文字の中間的な単位(sub-word) • Byte Pair Encoding (BPE) https://github.com/rsennrich/subword-nmt – データ圧縮方法として提案されたアルゴリズム (1994) – 全ての文字を語彙に登録するところからスタート – データの中で最も頻度の高い2文字の連続を 新たな語彙として登録 – 設定された最大語彙サイズまで登録を繰り返す • Wordpiece Model (WPM) – Googleが使っているsub-word unit – 音声認識における日本語、韓国語の単語分割の 問題のために作ったものらしい – 与えられたコーパスにおける言語モデルの尤度が 最小になるようwordpieceを選択 • SentencePiece https://github.com/google/sentencepiece 88 [Sennrich et al., 2016b]
  89. 89. Byte Pair Encodingのアルゴリズム 89 [Sennrich et al., 2016b] 頻度 5 2 6 3 単語 l o w l o w e r n e w e s t w i d e s t コーパス l, o, w, e, r, n, w, s, t, i, d 語彙 (サイズ = 15) 初期語彙 = 文字 (11個) es (頻度 = 9) est (頻度 = 9) lo (頻度 = 7) low (頻度 = 7) 単語 l o w l o w e r n e w es t w i d es t 単語 l o w l o w e r n e w est w i d est 単語 lo w lo w e r n e w est w i d est 単語 low low e r n e w est w i d est
  90. 90. Sub-wordの影響 (GNMTの例) 90 逗子市小坪5-1の小坪海岸トン ネル鎌倉側で、9月24日0 時頃、 大きな崖崩れが発生しました。 逗子市小坪 Zushi-shi Kosubo 逗子市の小坪 Zushi in Zushi City Koonsubo小坪 A large cliff collapse occurred around 0 o'clock on September 24th at the Kobosa coast tunnel Kamakura side of Zushi-shi Kobosa 5-1. 小坪海岸 Kobosu coast ※ 豊橋技科大 井佐原先生のスライドより
  91. 91. NMTの課題の整理 • 扱える語彙数が少ない – [Luong et al., 2015b], [Jean et al., 2015] – [Li et al., 2016] – [Costa-jussà and Fonollosa, 2016], [Chung et al., 2016], [Luong and Manning, 2016], [Sennrich et al., 2016b] • 訳抜けと重複 – [Tu et al., 2016a], [Tu et al., 2016b], [Liu et al., 2016] • 何を学習しているのかわからない – [Shi et al., 2016a], [Shi et al., 2016b], [Hashimoto and Tsuruoka, 2017] 91
  92. 92. Neural Machine Translation with Reconstruction • 通常のNMTで翻訳し、さらにそれを原文に翻訳し 直す(Reconstructor)モジュールを追加 92 [Tu et al., 2016a] モデル 訳抜け 重複 (過剰訳) ベースライン 18.2% 3.9% + reconstruction 16.2% 2.4%
  93. 93. Modeling Coverage for Neural Machine Translation • 入力文のどの単語が翻訳されたかを追跡するカバ レージベクトルを追加 • カバレージベクトルをattentionの計算に利用 • 根本解決からは程遠い 93 [Tu et al., 2016b]
  94. 94. Neural Machine Translation with Supervised Attention • GIZAなどによる単語アライメント結果をNMTで利用 • 単語アライメントとNMTのattentionとのずれを損失 としてNMTの目的関数に追加 • もはやend-to-endではない 94 [Liu et al., 2016a] attention GIZA アライメントのずれ = 損失
  95. 95. NMTの課題の整理 • 扱える語彙数が少ない – [Luong et al., 2015b], [Jean et al., 2015] – [Li et al., 2016] – [Costa-jussà and Fonollosa, 2016], [Chung et al., 2016], [Luong and Manning, 2016], [Sennrich et al., 2016b] • 訳抜けと重複 – [Tu et al., 2016a], [Tu et al., 2016b], [Liu et al., 2016] • 何を学習しているのかわからない – [Shi et al., 2016a], [Shi et al., 2016b], [Hashimoto and Tsuruoka, 2017] 95
  96. 96. Why Neural Translations are the Right Length • attentionなしの翻訳モデルの隠れ層を分析 – 出力の長さをコントロールしているunitが複数存在 – <EOS>の確率は最後に急に高くなる 96 [Shi et al., 2016a] 実験ではこの2つの Unitが最も長さに関与 <EOS>の確率は 最後だけ高い
  97. 97. Does String-Based Neural MT Learn Source Syntax? • attentionなしの翻訳モデルの入出力を様々に変え、 隠れ層を使ったロジスティック回帰で以下を予測 97 [Shi et al., 2016b] 各単語を読み込んだ 時点での隠れ層の 状態を利用 隠れ層の 最後の状態を利用
  98. 98. Does String-Based Neural MT Learn Source Syntax? • d 98 E2P 英語→構文解析 E2F 英語→仏語 E2G 英語→独語 E2E autoencoder PE2PE autoencoder (語順バラバラ)
  99. 99. Does String-Based Neural MT Learn Source Syntax? • まず普通にencoder-decoderを学習し、encoderの パラメータを固定してdecoderのparserを学習 99 autoencoderで学習された情報では parseできない → 構文情報は 学習されていない NMTで学習された情報ならある程度 parseできる → なんらかの構文情報が 学習されている [Vinyals et al., 2015]
  100. 100. Neural Machine Translation with Source-Side Latent Graph Parsing • 入力文の依存構造解析をencoderの隠れ層で行う 100 [Hashimoto and Tsuruoka, 2017] (b)を隠れ層で学習 NLP2017: A7-4 WAT2016 best (NMT) WAT2015 best (SMT) 翻訳例
  101. 101. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 101 休憩
  102. 102. Google’s Neural Machine Translation (GNMT) 102 [Wu et al., 2016]
  103. 103. Google’s Neural Machine Translation (GNMT) • ベースはattentionモデル – ただしencoderもdecoderも8層LSTMでGPUを大量使用 • 高速化のための様々な工夫 – encoderは最初の層だけbidirectional – attentionはdecoderの1層目からencoderの最終層に – 翻訳時に重みの量子化(quantization) • Tensor Processing Unit (TPU)を使うことでさらに高速 • 低頻度語をsub-word units (wordpieces)で扱う • beam search decodingでlength normalizationと coverage penaltyを使う 103
  104. 104. Google’s Neural Machine Translation (GNMT) • 翻訳実験データ – WMT En->Fr (36M), En->De (5M) – Google En<->Fr, En<->Es, En<->Zh (WMTの100倍から1000倍のデータサイズらしい) • 1システムのトレーニング時間 – 最尤訓練: En->Fr (36M)で、96枚のNVIDIA K80 GPU(24GBメモリ)を使って6日間 • K80一枚約80万円ぐらいなので、これだけで8000万円? • 8アンサンブルしてるので全部で6億4000万? – 強化学習: 400k steps行うのに3日間 • 結果 = 人間の翻訳精度に迫る! 104
  105. 105. GNMTをWATのデータで自動評価(BLEU) 日→英 英→日 日→中 中→日 旧Google 16.91 18.28 11.16 11.56 Google NMT 22.04 26.19 15.94* 18.75* Best System 26.39 36.19 31.98 46.04 科学技術論文翻訳 日→英 英→日 日→中 中→日 韓→日 旧Google 35.77 36.88 23.02 26.99 54.78 Google NMT 49.35 50.60 33.04* 42.66* 44.42* Best System 41.62 50.28 33.40 58.66 71.51 特許翻訳 (* 英語を介した翻訳) 105 G社は大量の特許データをすでに持っている!?
  106. 106. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 106 休憩
  107. 107. NMTのその他の話題 107
  108. 108. 多言語化が容易 • SMTは基本的に記号の置き換えであるため、 多言語対訳コーパスを同時に利用することは困難 • NMTは基本的に数値計算なので、言語に依らず 同じ意味を表すものを同じような値に変換できれば 翻訳可能 – 昔からある中間言語のようなもの • 直接の対訳コーパスがない言語対であっても 翻訳可能(ゼロショット翻訳) – SMTでは英語などをピボット言語として用い、 二段階に翻訳するなどする必要があった 108
  109. 109. Multi-Source Neural Translation • 複数の言語で書かれた入力文を同時に利用 109 [Zoph and Knight, 2016] 各言語の隠れ層を 組み合わせる combiner
  110. 110. Multi-Task Learning for Multiple Language Translation • encoderを共通にして、多言語翻訳を同時に訓練 110 [Dong et al., 2015]
  111. 111. Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism • 言語ごとにencoderとdecoderを用意 attention機構のみ全言語共通 • 直接の対訳コーパスが少ない時には効果あり 111 [Firat et al., 2016a]
  112. 112. Zero-Resource Translation with Multi- Lingual Neural Machine Translation • 前の論文で何もせずゼロショット翻訳をすると BLEUが1以下にしかならない – encoderとdecoderは問題ないはず、悪いのはattention • EnFrコーパスのEnをEnEsコーパスを使って Esに翻訳し、擬似Es→Frコーパスを構築 [Sennrich et al., 2016b] – これを使ってattentionパラメータをfine tuning(微調整) 112 [Firat et al., 2016b]
  113. 113. Transfer Learning for Low-Resource Neural Machine Translation • 大きなコーパスがある言語対でNMTを訓練し、 訓練されたパラメータを小さなコーパスしかない言 語対で訓練する際の初期値として利用 • 再訓練する必要がない(しないほうがいい) パラメータは固定しておく – 例:大規模な仏→英コーパスで訓練したモデルを 小規模なウズベク→英コーパスの訓練で使う場合、 英語のembeddingは固定 113 [Zoph et al., 2016]
  114. 114. モデルの軽量化 • SMTのモデルは巨大だった・・・ – フレーズテーブル、言語モデルなどなど – 数十GB、数百GB、数TB • NMTは実数の行列を保存しておけばよい – ネットワークの大きさによるが、せいぜい数GB • NMTのモデルをさらに軽量化する方法もある – 量子化 [Wu et al., 2016] – 枝刈り (pruning) [See et al., 2016] – 蒸留 (distillation) [Kim and Rush, 2016] 114
  115. 115. Compression of Neural Machine Translation Models via Pruning • パラメータの絶対値が小さいものから順に枝刈り – パラメータと同じshapeのmask行列を使って値を0に • 枝刈りすると精度は 下がるが、再訓練す れば元の精度まで 戻せる • 初めから枝刈りした 状態で訓練しても だいたい同じ精度に 115 [See et al., 2016]
  116. 116. Sequence-Level Knowledge Distillation • 知識蒸留 – 大きなネットワークからなる教師モデルを訓練しておき より小さなネットワークの生徒モデルを訓練する際に 教師モデルの予測分布に似るように学習 – 1つだけの正解から学習する よりも、教師モデルの予測分 布を使えるため、効率が良い • 1単語出力するごとに分布を 似せるだけでなく、出力文 全体としての分布を似せる 方法(sequence-level)も提案 116 [Kim and Rush, 2016] 分布を 似せる
  117. 117. Sequence-Level Knowledge Distillation • 教師モデルより1/5から1/6の生徒モデルでも 教師モデルと遜色ない精度を達成 • なぜかビームサーチをしなくても精度が出るように • Galaxy 6上でNMTが動く! 117 [Kim and Rush, 2016] さらに枝刈りも実施 1秒間に翻訳できる単語数
  118. 118. 特殊タグの埋め込み • GNMTの多言語翻訳 [Johnson et al., 2016] – 入力文に <2es> (スペイン語への翻訳)のようなタグをつ け、全ての言語対の対訳コーパスを同時に使うだけで ゼロショット翻訳もできるようになる – “<2en> 私は東京大学학생입니다” みたいなことも可 • 丁寧さを反映 [Sennrich et al., 2016a] – 文に informal/polite などのマークをつけておくだけ – 日本語の話し言葉/書き言葉にも応用可? • ドメイン適応 [Chu et al., 2017] [P14-7] – 複数ドメインの対訳コーパスのそれぞれにドメインを表 すタグを仕込んでおけばドメイン適応ができる 118
  119. 119. 最近のarXiv (積ん読) • Neural Machine Translation with Latent Semantic of Image and Text (1611.08459) – Joji Toyama, Masanori Misono, Masahiro Suzuki, Kotaro Nakayama, Yutaka Matsuo • Syntax-aware Neural Machine Translation Using CCG (1702.01147) – Maria Nadejde, Siva Reddy, Rico Sennrich, Tomasz Dwojak, Marcin Junczys-Dowmunt, Philipp Koehn, Alexandra Birch • Neural Machine Translation from Simplified Translations (1612.06139) – Josep Crego, Jean Senellart 119
  120. 120. 最近のarXiv (積ん読) • Beam Search Strategies for Neural Machine Translation (1702.01806) – Markus Freitag, Yaser Al-Onaizan • Ensemble Distillation for Neural Machine Translation (1702.01802) – Markus Freitag, Yaser Al-Onaizan, Baskaran Sankaran • Trainable Greedy Decoding for Neural Machine Translation (1702.02429) – Jiatao Gu, Kyunghyun Cho, Victor O.K. Li 120
  121. 121. 最近のarXiv (積ん読) • Context Gates for Neural Machine Translation (1608.06043) – Zhaopeng Tu, Yang Liu, Zhengdong Lu, Xiaohua Liu, Hang Li • Neural Machine Translation with Pivot Languages (1611.04928) – Yong Cheng, Yang Liu, Qian Yang, Maosong Sun, Wei Xu • Learning to Parse and Translate Improves Neural Machine Translation (1702.03525) – Akiko Eriguchi, Yoshimasa Tsuruoka, Kyunghyun Cho 121
  122. 122. 最近のarXiv (積ん読) • Neural Machine Translation Advised by Statistical Machine Translation (1610.05150) – Xing Wang, Zhengdong Lu, Zhaopeng Tu, Hang Li, Deyi Xiong, Min Zhang • Boosting Neural Machine Translation (1612.06138) – Dakun Zhang, Jungi Kim, Josep Crego, Jean Senellart • Lattice-Based Recurrent Neural Network Encoders for Neural Machine Translation (1609.07730) – Jinsong Su, Zhixing Tan, Deyi Xiong, Rongrong Ji, Xiaodong Shi, Yang Liu 122
  123. 123. 目次 • 身近なニューラル機械翻訳 • 統計翻訳(SMT)からニューラル機械翻訳(NMT)へ • 最低限必要なニューラルネットワークの解説 • end-to-endのNMT • NMTの性能 (WAT2016の結果より) • NMTの課題 • GoogleのNMTは何をしているのか • NMTのその他の話題 • まとめ 123 休憩
  124. 124. Interface Framework https://github.com Note GroundHog Python Theano lisa-groundhog/GroundHog 開発終了 (Blocksに移行) Blocks Python Theano mila-udem/blocks モントリオール大 DL4MT Python Blocks, Theano nyu-dl/dl4mt-tutorial NYUのChoら NEMATUS Python Theano rsennrich/nematus WMT2016 best KyotoNMT Python Chainer fabiencro/knmt 京大黒橋研 OpenNMT Lua Torch OpenNMT/OpenNMT 元はharvard-nlp SYSTRANが利用 lamtram C++ DyNet neubig/lamtram CMUのGraham NMTKit C++ DyNet odashi/nmtkit NAIST中村研 N3LP C++ なし hassyGo/N3LP 東大鶴岡研 124
  125. 125. 翻訳エンジンには価値がない? • すでに多くのNMTエンジンがオープンソース – SYSTRANが使っているエンジン – 最先端の研究成果も利用可能 • 他の大手企業も技術を論文で公開 – Baidu [He, 2015], Google [Wu et al., 2016] • SMTのように開発に職人技が必要なこともない – 既存のモデルなら学生が1週間かければ作れる – 逆にいうと、MT研究への参入障壁が大幅に低下 • じゃあ(企業にとって)何が重要なのか? – おそらくデータ、あとエンジンを使いこなせる人 125
  126. 126. 日本でのデータ共有の試み 126http://www.nict.go.jp/data/presentation/open-house2016/nict-open-house-2016-presentation-1-2.pdf
  127. 127. 今後の展望 • NMTはここ数年で急激に発展し、SMTの精度を追 い越している • NMTの研究はまだ発展する可能性が高い • 現状のNMTには解決すべき課題が多く残されてお り、実用的かと言われると疑問が残る – Gisting目的ならば十分 – SMTが活躍する場もまだ残っていることは確かで、うまく 組み合わせられると良い – 特に対訳コーパスが少量の場合NMTはSMTよりも弱い – NMTの発展次第ではSMTが遺産になる可能性もある 127
  128. 128. 翻訳業界は今後どうなるか? • GNMTと同等か、少し良い程度の翻訳を納品する 翻訳会社は、立ち行かなくなる – クラウド翻訳サービスの会社は危ない? • GNMTの結果をそのまま、もしくは多少の修正で 納品する会社が多発 – GNMTを使ったかどうかを見分けるのが難しい – 敵対性学習を用いたニューラル機械翻訳[A7-3]? • 一般の人がGNMTの結果をそのまま使用し、 Web上や街中に誤訳が氾濫 – 今でもたまに問題になるが、今後はさらに悪化? 128
  129. 129. $20 / 100万文字 (参考)新聞1日分の文字数: 約13万文字 ただし、現在はまだAPIでは 旧翻訳エンジンしか使えない 129
  130. 130. https://cloud.google.com/translate/docs/premium130
  131. 131. 131https://twitter.com/richandbright/status/813368652569264128
  132. 132. 132http://japan.hani.co.kr/arti/politics/26591.html
  133. 133. MT勉強会 • https://sites.google.com/site/machinetranslationjp/ • 前身は2012年からやっている関西MT勉強会 • MTに関する話題をざっくばらんに扱っています • 内容は基本的にオフレコです • 参加自由、研究者ではない方もぜひご参加下さい 133
  134. 134. 134 ありがとうございました 質問や誤り報告等は 以下まで nakazawa@pa.jst.jp nakazawa@nlp.ist.i.kyoto-u.ac.jp zawa13@gmail.com Twitter: @Tzawa
  135. 135. 135 Philip Arthur, Graham Neubig, and Satoshi Nakamura. 2016. Incorporating discrete translation lexicons into neural machine translation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1557–1567, Austin, Texas, November. Association for Computational Linguistics. Michael Auli and Jianfeng Gao. 2014. Decoder integration and expected bleu training for recurrent neural network language models. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 136–142. Association for Computational Linguistics, June. Michael Auli, Michel Galley, Chris Quirk, and Geoffrey Zweig. 2013. Joint language and translation modeling with recurrent neural networks. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 1044–1054. Association for Computational Linguistics. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473. Ozan Caglayan, Lo ̈ıc Barrault, and Fethi Bougares. 2016. Multimodal attention for neural machine translation. CoRR, abs/1609.03976. Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using rnn encoder–decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1724–1734, Doha, Qatar, October. Association for Computational Linguistics. Sumit Chopra, Michael Auli, and Alexander M. Rush. 2016. Abstractive sentence summarization with attentive recurrent neural networks. In Proceedings of the 2016 Conference of the North American Chapter of the As- sociation for Computational Linguistics: Human Language Technologies, pages 93–98, San Diego, California, June. Association for Computational Linguistics. Chenhui Chu, Raj Dabre, and Sadao Kurohashi. 2017. An empirical comparison of simple domain adaptation methods for neural machine translation. CoRR, abs/1701.03214. Junyoung Chung, Kyunghyun Cho, and Yoshua Bengio. 2016. A character-level decoder without explicit seg- mentation for neural machine translation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1693–1703. Association for Computational Lin- guistics. Marta R. Costa-jussa` and Jose ́ A. R. Fonollosa. 2016. Character-based neural machine translation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 357–361, Berlin, Germany, August. Association for Computational Linguistics.
  136. 136. 136 Josep Maria Crego, Jungi Kim, Guillaume Klein, Anabel Rebollo, Kathy Yang, Jean Senellart, Egor Akhanov, Patrice Brunelle, Aurelien Coquard, Yongchao Deng, Satoshi Enoue, Chiyo Geiss, Joshua Johanson, Ardas Khalsa, Raoum Khiari, Byeongil Ko, Catherine Kobus, Jean Lorieux, Leidiana Martins, Dang-Chuan Nguyen, Alexandra Priori, Thomas Riccardi, Natalia Segal, Christophe Servan, Cyril Tiquet, Bo Wang, Jin Yang, Dakun Zhang, Jing Zhou, and Peter Zoldan. 2016. Systran’s pure neural machine translation systems. CoRR, abs/1610.05540. Fabien Cromieres, Chenhui Chu, Toshiaki Nakazawa, and Sadao Kurohashi, 2016. Proceedings of the 3rd Work- shop on Asian Translation (WAT2016), chapter Kyoto University Participation to WAT 2016, pages 166–174. Workshop on Asian Translation.Jeffrey Dean, Greg Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Mark Mao, Marc’aurelio Ranzato, Andrew Senior, Paul Tucker, Ke Yang, Quoc V. Le, and Andrew Y. Ng. 2012. Large scale distributed deep networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 25, pages 1223–1231. Curran Associates, Inc. Jacob Devlin, Rabih Zbib, Zhongqiang Huang, Thomas Lamar, Richard Schwartz, and John Makhoul. 2014. Fast and robust neural network joint models for statistical machine translation. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1370–1380. Association for Computational Linguistics. Li Dong and Mirella Lapata. 2016. Language to logical form with neural attention. CoRR, abs/1601.01280. Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-task learning for multiple language translation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 1723– 1732. Association for Computational Linguistics. Orhan Firat, Kyunghyun Cho, and Yoshua Bengio. 2016a. Multi-way, multilingual neural machine translation with a shared attention mechanism. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 866–875. Association for Computational Linguistics. Orhan Firat, Baskaran Sankaran, Yaser Al-Onaizan, T. Fatos Yarman Vural, and Kyunghyun Cho. 2016b. Zero- resource translation with multi-lingual neural machine translation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 268–277. Association for Computational Linguis- tics. Jianfeng Gao, Xiaodong He, Wen tau Yih, and Li Deng. 2014. Learning continuous phrase representations for translation modeling. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 699–709. Association for Computational Linguistics, June.
  137. 137. 137 Jonas Gehring, Michael Auli, David Grangier, and Yann N. Dauphin. 2016. A convolutional encoder model for neural machine translation. CoRR, abs/1611.02344. Michael U. Gutmann and Aapo Hyva ̈rinen. 2012. Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics. J. Mach. Learn. Res., 13(1):307–361, February. K. Hashimoto and Y. Tsuruoka. 2017. Neural Machine Translation with Source-Side Latent Graph Parsing. ArXiv e-prints, February. Zhongjun He, 2015. Proceedings of the Fourth Workshop on Hybrid Approaches to Translation (HyTra), chapter Baidu Translate: Research and Products, pages 61–62. Association for Computational Linguistics. Se ́bastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. 2015. On using very large target vocabulary for neural machine translation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 1–10. Association for Computational Linguistics. Shihao Ji, S. V. N. Vishwanathan, Nadathur Satish, Michael J. Anderson, and Pradeep Dubey. 2015. Blackout: Speeding up recurrent neural network language models with very large vocabularies. CoRR, abs/1511.06909. Melvin Johnson, Mike Schuster, Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fer- nanda B. Vie ́gas, Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean. 2016. Google’s multilingual neural machine translation system: Enabling zero-shot translation. CoRR, abs/1611.04558. Marcin Junczys-Dowmunt, Tomasz Dwojak, and Hieu Hoang. 2016. Is neural machine translation ready for deployment? A case study on 30 translation directions. CoRR, abs/1610.01108. Yoon Kim and M. Alexander Rush. 2016. Sequence-level knowledge distillation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1317–1327. Association for Compu- tational Linguistics. Natsuda Laokulrat, Sang Phan, Noriki Nishida, Raphael Shu, Yo Ehara, Naoaki Okazaki, Yusuke Miyao, and Hideki Nakayama. 2016. Generating video description using sequence-to-sequence model with temporal at- tention. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pages 44–52, Osaka, Japan, December. The COLING 2016 Organizing Committee. Jason Lee, Kyunghyun Cho, and Thomas Hofmann. 2016. Fully character-level neural machine translation with- out explicit segmentation. CoRR, abs/1610.03017. Fengfu Li and Bin Liu. 2016. Ternary weight networks. CoRR, abs/1605.04711.
  138. 138. 138 Peng Li, Yang Liu, Maosong Sun, Tatsuya Izuha, and Dakun Zhang. 2014. A neural reordering model for phrase- based translation. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pages 1897–1907. Dublin City University and Association for Computational Linguistics. Xiaoqing Li, Jiajun Zhang, and Chengqing Zong. 2016. Towards zero unknown word in neural machine transla- tion. In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, IJCAI 2016, New York, NY, USA, 9-15 July 2016, pages 2852–2858. Lemao Liu, Masao Utiyama, Andrew Finch, and Eiichiro Sumita. 2016. Neural machine translation with su- pervised attention. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pages 3093–3102. The COLING 2016 Organizing Committee. Minh-Thang Luong and D. Christopher Manning. 2016. Achieving open vocabulary neural machine translation with hybrid word-character models. In Proceedings of the 54th Annual Meeting of the Association for Compu- tational Linguistics (Volume 1: Long Papers), pages 1054–1063. Association for Computational Linguistics. Thang Luong, Hieu Pham, and D. Christopher Manning. 2015a. Effective approaches to attention-based neu- ral machine translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412–1421. Association for Computational Linguistics. Thang Luong, Ilya Sutskever, Quoc Le, Oriol Vinyals, and Wojciech Zaremba. 2015b. Addressing the rare word problem in neural machine translation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 11–19. Association for Computational Linguistics. Valerio Antonio Miceli Barone and Giuseppe Attardi. 2015. Non-projective dependency-based pre-reordering with recurrent neural network for machine translation. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 846– 856. Association for Computational Linguistics. Tomas Mikolov, Martin Karafia ́t, Luka ́s Burget, Jan Cernocky ́, and Sanjeev Khudanpur. 2010. Recurrent neural network based language model. In INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010, pages 1045–1048. Frederic Morin and Yoshua Bengio. 2005. Hierarchical probabilistic neural network language model. In Robert G. Cowell and Zoubin Ghahramani, editors, Proceedings of the Tenth International Workshop on Artificial Intelli- gence and Statistics, pages 246–252. Society for Artificial Intelligence and Statistics.
  139. 139. 139 Toshiaki Nakazawa, Hideya Mino, Chenchen Ding, Isao Goto, Graham Neubig, and Sadao Kurohashi, 2016a. Proceedings of the 3rd Workshop on Asian Translation (WAT2016), chapter Overview of the 3rd Workshop on Asian Translation, pages 1–46. Workshop on Asian Translation. Toshiaki Nakazawa, Manabu Yaguchi, Kiyotaka Uchimoto, Masao Utiyama, Eiichiro Sumita, Sadao Kurohashi, and Hitoshi Isahara. 2016b. Aspec: Asian scientific paper excerpt corpus. In Nicoletta Calzolari (Confer- ence Chair), Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Ninth International Conference on Lan- guage Resources and Evaluation (LREC 2016), pages 2204–2208, Portoro, Slovenia, may. European Language Resources Association (ELRA). Abigail See, Minh-Thang Luong, and D. Christopher Manning. 2016. Compression of neural machine translation models via pruning. In Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 291–301. Association for Computational Linguistics. Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016a. Controlling politeness in neural machine translation via side constraints. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 35–40, San Diego, California, June. Association for Computational Linguistics. Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016b. Improving neural machine translation models with monolingual data. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 86–96, Berlin, Germany, August. Association for Computational Linguistics.Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016c. Neural machine translation of rare words with subword units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715–1725, Berlin, Germany, August. Association for Computational Linguis- tics. Shiqi Shen, Yong Cheng, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016. Minimum risk training for neural machine translation. In Proceedings of the 54th Annual Meeting of the Association for Com- putational Linguistics (Volume 1: Long Papers), pages 1683–1692. Association for Computational Linguistics. Xing Shi, Kevin Knight, and Deniz Yuret. 2016a. Why neural translations are the right length. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2278–2282. Association for Computational Linguistics.
  140. 140. 140 Xing Shi, Inkit Padhi, and Kevin Knight. 2016b. Does string-based neural mt learn source syntax? In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1526–1534. Association for Computational Linguistics. Katsuhito Sudoh and Masaaki Nagata, 2016. Proceedings of the 3rd Workshop on Asian Translation (WAT2016), chapter Chinese-to-Japanese Patent Machine Translation based on Syntactic Pre-ordering for WAT 2016, pages 211–215. Workshop on Asian Translation. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014. Sequence to sequence learning with neural networks. In Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, pages 3104–3112. Curran Associates, Inc. Akihiro Tamura, Taro Watanabe, and Eiichiro Sumita. 2014. Recurrent neural networks for word alignment model. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1470–1480. Association for Computational Linguistics. Zhaopeng Tu, Yang Liu, Lifeng Shang, Xiaohua Liu, and Hang Li. 2016a. Neural machine translation with reconstruction. CoRR, abs/1611.01874. Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. 2016b. Modeling coverage for neural ma- chine translation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 76–85. Association for Computational Linguistics. Oriol Vinyals, Ł ukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, and Geoffrey Hinton. 2015. Grammar as a foreign language. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 2773–2781. Curran Associates, Inc. David Weiss, Chris Alberti, Michael Collins, and Slav Petrov. 2015. Structured training for neural network transition-based parsing. In Proceedings of the 53rd Annual Meeting of the Association for Computational Lin- guistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 323–333, Beijing, China, July. Association for Computational Linguistics. Jiaxiang Wu, Cong Leng, Yuhang Wang, Qinghao Hu, and Jian Cheng. 2016a. Quantized convolutional neural networks for mobile devices. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  141. 141. 141 Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Lukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. 2016b. Google’s neural machine translation system: Bridging the gap between human and machine translation. CoRR, abs/1609.08144. Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio. 2015. Show, attend and tell: Neural image caption generation with visual attention. CoRR, abs/1502.03044. Barret Zoph and Kevin Knight. 2016. Multi-source neural translation. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 30–34. Association for Computational Linguistics. Barret Zoph, Deniz Yuret, Jonathan May, and Kevin Knight. 2016. Transfer learning for low-resource neural machine translation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Pro- cessing, pages 1568– 1575. Association for Computational Linguistics.

×