[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

NAACL2016
Selec.ng Syntac.c, Non-redundant Segments
in Ac.ve Learning for Machine Transla.on

Akiva Miura, Graham Neubig,
Michael Paul, Satoshi Nakamura
紹介者　関沢祐樹
首都大学東京
16/06/23 1

Selec.ng Syntac.c, Non-redundant Segments in
Ac.ve Learning for Machine Transla.on
•  背景
•  SMTにおける能動学習はラベル無しデータから
情報性の高いデータを選択し、効率的に学習
•  選択されたものが、不変か、翻訳しやすいかが不明
•  同じような文脈から冗長なフレーズを選択
•  提案手法（２つ）
•  文法的に不変であるフレーズを選択
•  冗長なフレーズを減少
Ø BLEU値が向上,　翻訳の確信度の向上
16/06/23 2

Introduc.on
•  フレーズの選択
•  右の例だと３つ

•  重なっている部分が冗長 à 効率が悪くなる
•  フレーズのマージを行う
•  フレーズ長を任意にでき、線形時間で計算可能
•  フレーズの一部分を取り出す à　翻訳しづらい
•  構文木を用いて、文法的に正しいものを選択
16/06/23 3

アルゴリズム
•  SrcPool : 翻訳候補を含む原言語データ
•  Translated : 翻訳されたパラレルデータ（フレーズのペア）
•  Oracle : 入力フレーズに対する正しい翻訳を与える
•  ex: human translator
•  Loop Un.l StopCondi.on:
•  TM ß TrainTransla.onModel（Translated）
•  NewSrc ß SelectNextPhrase（SrcPool, Translated, TM）
•  NewTrg ß GetTransla.on（Oracle, NewSrc）
•  Translated ß Translated∪{〈NewSrc, NewTrg〉}
16/06/23 4

既存手法
1.  Sentence Selec.on using N–Gram Frequency
•  カバーできていないフレーズが最も多く出現する文を選択
（上限n-gram）
•  短所 : すでにパラレルデータでカバーされているフレーズ
を多く含む à コスト高
2.  Phrase Selec.on using N–Gram Frequency
•  最も多く出現し、まだカバーされていないh-gramフレーズを
選択（少ないデータの追加になる）
•  短所 : 冗長性、フレーズの重なり
16/06/23 5

冗長なフレーズの削除
•  Maximal substrings
•  フレーズpiがコーパス上に何回現れるかocc（pi）
occが等しい場合、マージする
マージできなくなったフレーズ : 最長単語列（p2, p3）
16/06/23 6

冗長なフレーズの削除
•  利点
•  重なるフレーズを最長句のみに削減, 長さの上限無し
•  最長句、その発生回数はenhanced suﬃx arrays によって
線形時間（文書長）で計算される
•  欠点
•  先ほどの例だとp2とp3が残るがやはり冗長
à 共起回数がほぼ等しい場合は削除
16/06/23 7
λを用いる（０〜１の実数値、本研究では０．５）

文法的な判断
•  原言語文を解析し、全ての部分木を走査
•  文法的に、句である部分を全て抽出
16/06/23 8

simula.on experiment
•  データを増やすこと、それによる再トレーニングによって翻訳の
accuracyがどうなるかを評価
•  人手翻訳なし、データの追加方法の良さを見る
•  英仏の翻訳
•  スタート : Europarl corpus （WMT2014）
•  追加 : EMEA,PatTR,Wikipedia .tle（全てMedical）
•  英日の翻訳
•  スタート :カバレージの広い例文コーパス（英辞郎辞書）
•  追加 : ASPEC科学ペーパーのアブストラクトのコーパス
•  日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は
除去 à 解析、アライメントの正確さを確実
16/06/23 9

データの詳細
16/06/23 10

実験設定
•  フレーズベースSMT（Moses Toolkit）を使用
•  効率的再トレーニングのためにinc-giza-ppを使用、
これは、単語アライメントを取るGIZA++で、トレーニ
ングデータを増やすこと、変化できる suﬃx array フ
レーズテーブル（Moses）を含む。
•  言語モデルは5-gram
•  デコーディングのパラメータ : 毎回調整は非現実的
•  ベースラインのBLEU値が最大となるパラメータ
16/06/23 11

８つの手法
•  sent-rand: 文をランダムに選択
•  4gram-rand: n-gram : 単語列をランダムに選択、上限は4
•  sent-by-4gram-freq（baseline 1）: まだカバーされていないフレーズ（最長
４）を最も多く含む文を選択
4gram-freq（baseline 2）: 最も多く出現する、まだカバーされていないフ
レーズ（最長４）を選択
•  以下は提案
•  maxsubst-freq: 最も多く出現する、まだカバーされていない
最長句を選択
•  reduced-maxsubst-freq:最も多く出現する、まだカバーされていない
凖最長句を選択
•  struct-freq: 部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない句を選択
•  reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない凖最長句を選択
16/06/23 12

result : BLEUとAdd Word 英仏
•  冗長句を除くことは良いといえる
16/06/23 13

result : BLEUとAdd Word 英日
16/06/23 14

result : フレーズ数とLength
•  木構造を用いた方法に注目すると、他のよりも
短いフレーズを選択している
16/06/23 15

result : Coverage
16/06/23 16

人手による翻訳の質の評価
•  翻訳の専門家3人に依頼
16/06/23 17

実験設定
•  beseline : sent-by-4gram-freqと4-gram-freq
•  提案手法 : reduced-struct-freq
•  英日と同じ実験設定
•  目的言語モデルのトレーニングでは、SRILM
を使用して集めたデータを補間
•  パープレキシティが最大になるようにパラメー
タ調整
16/06/23 18

result : BLEUとAdd Words
16/06/23 19

result: BLEUと.me
16/06/23 20

result : TimeとConﬁdence
•  収集単語数 : 10,000
3の割合 : 79%
16/06/23 21

result : TimeとPhrase Length
•  length 1 が時間がかかる
•  専門用語になりやすく、辞書を見る必要あり
16/06/23 22

result : ConﬁdenceとPhrase Length
•  1のとき低い à baselineはlength1が少ない
•  提案手法はlength2以降も安定
16/06/23 23

result : Accuracy（BLEU Score）
•  確信度で分けて実験
•  確信度１を除いた時は総じて良くなる
•  一方3のみの場合は悪くなる
•  データを加えない場合はBLEU : 9.37%
16/06/23 24

Selec.ng Syntac.c, Non-redundant Segments in
Ac.ve Learning for Machine Transla.on
•  提案手法
•  文法的に不変であるフレーズを選択
•  冗長なフレーズを減少
Ø BLEU値が向上,　翻訳の確信度の向上
•  改善点
•  翻訳に時間がかかる専門用語の対処
•  未知語を対処する方法の組み合わせ
•  必要な時間によって選択した単語列を最適化する
•  柔軟な文法の制限による様々なフレーズの
アノテーション
•  例えば”one of the preceding X” 16/06/23 25

[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

Recommended

Recommended

More Related Content

Similar to [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

Similar to [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation (20)

More from sekizawayuuki

More from sekizawayuuki (20)

[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation