Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

Bilingual
Correspondence
Recursive

Autoencoders
for
Sta7s7cal

Machine
Transla7on

Jinsong
Su,
Deyi
Xiong,
Biao
Zhang,
Yang
Liu,

Junfeng
Yao
and
Min
Zhang

Proceedings
of
the
2015
Conference
on
Empirical

Methods
in
Natural
Language
Processing

紹介者叶内晨
(@shin_kan0)

@小町研
EMNLP読み会2015

この論文について
•  SMTのために句対の分散表現を同時に学習

•  子ノードの構造を揃えて，対応した子ノード同
士のエラーを最小化

– アライメントに忠実な句対の分散表現を学習

– 2言語の異なるレベルの意味対応を獲得

– 中英
SMT
の State-‐of-‐the-‐art
を達成

F
E
^
^
?
?
原言語
目的言語
?
?

関連研究：分散表現の句への適応
•  Recursive
AutoEncoder
で句を表現[Socher+
10]

•  2言語の句をRAEで表現

– SMTの並べ替えモデルに応用[Li+
13]

•  A
Neural
ITG
Reordering
Model

– SMTの翻訳モデルに応用[Zhang+
14]

•  Bilingually-‐constrained
Recursive
Auto-‐encoder

Bilingually-constrained 
Recursive Auto-encoder
f
e
e’:
対応して
いない句
今まで
[Zhang+
14]

問題点:  
句と句の内部構造を考慮していない
今まで
アライメント

•  句対全体としては分散表現で対応している

•  nf1,
nf2,
ne
は，それぞれ対応していない

•  中身を対応させたら，より良い句対になるのでは？

Bilingual
Correspondence

Recursive
Auto-‐encoder
(BCorrRAE)
提案手法
アライメント

•  各ノードの句と対応する句を探す

•  複数対応するときは最小のものを選択

•  全ての句対を記憶(SAC
node)

•  句対ごとに学習

逆方向もやる
0-‐2
2-‐1
3-‐0

エラーの計算方法
①

②

③

④
①句を作ったときの RAE
の Reconstruc7on
Error

②2言語で対応していないノード
(non-‐SAC)
への罰則

(Consistency
Error)

③2言語で対応しているノード
(SAC)
の類似具合

(Cross-‐Lingual
Reconstruc7on
Error
)

④正則化項

α=
0.12,
β
=
0.63,
γ
=
0.25

②Consistency
Error

Inc→
cns→
cns→
•  句がcnsであるほどエラーが少ない

③Cross-‐Lingual
Reconstruc7on
Error

a.
ベクトルを目的言語側に飛ばす

b.
その子ノードを生成

c.
目的言語側のベクトルとの差が誤差
a.
b.
c.

実験設定
•  翻訳機：log-‐linear
framework
[Och
and
Ney
02]

1.  rule
transla7on
probabili7es
in
two
direc7ons

2.  lexical
weights
in
two
direc7ons

3.  targets-‐side
word
number

4.  phrase
number

5.  language
model
score
(SRILM
5gram)

6.  Score
of
maximal
entropy
based
reordering
model
(MEBTG)

7.  proposed
feature

•  DataSets

–  Train:
FBIS
corpus
and
Hansards
part
of
LDC2004T07
corpus

•  1M
parallel
sentences
(25M
Chinese
words,
29M
English
words)

–  Dev:
MT05

–  Test:
MT06,
MT0

句の翻訳結果の例
•  意味は類似した句が
対応

•  SRC側とTGT側の文法
は必ずしも一致せず

•  句の意味が類似し
つつ，アライメント
に矛盾しないよう
な句が対応

まとめ
•  SMTのための木構造の同時句分散表現を学習

•  子ノードの構造を揃えて，対応した子ノード同
士のエラーを最小化

– アライメントに忠実な句対の分散表現を学習

– 2言語の異なるレベルの意味対応を獲得

– 中英
SMT
の State-‐of-‐the-‐art
を達成

Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

Recommended

Recommended

More Related Content

Similar to Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015

Similar to Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015 (10)

Bilingual Correspondence Recursive Autoencoders for Statistical Machine Translation @小町研 emnlp読み会2015