SlideShare a Scribd company logo
NAACL2016	
Selec.ng	Syntac.c,	Non-redundant	Segments	
in	Ac.ve	Learning	for	Machine	Transla.on	
	
Akiva	Miura,	Graham	Neubig,	
	Michael	Paul,	Satoshi	Nakamura	
紹介者 関沢祐樹	
首都大学東京	
16/06/23	 1
Selec.ng	Syntac.c,	Non-redundant	Segments	in	
Ac.ve	Learning	for	Machine	Transla.on	
•  背景	
•  SMTにおける能動学習はラベル無しデータから
情報性の高いデータを選択し、効率的に学習	
•  選択されたものが、不変か、翻訳しやすいかが不明	
•  同じような文脈から冗長なフレーズを選択	
•  提案手法(2つ)	
•  文法的に不変であるフレーズを選択	
•  冗長なフレーズを減少	
Ø BLEU値が向上, 翻訳の確信度の向上	
16/06/23	 2
Introduc.on	
•  フレーズの選択	
•  右の例だと3つ	
	
•  重なっている部分が冗長 à	効率が悪くなる	
•  フレーズのマージを行う	
•  フレーズ長を任意にでき、線形時間で計算可能	
•  フレーズの一部分を取り出す à 翻訳しづらい	
•  構文木を用いて、文法的に正しいものを選択	
16/06/23	 3
アルゴリズム	
•  SrcPool	: 翻訳候補を含む原言語データ	
•  Translated	:	翻訳されたパラレルデータ(フレーズのペア)	
•  Oracle	:	入力フレーズに対する正しい翻訳を与える	
•  ex:	human	translator	
•  Loop	Un.l	StopCondi.on:	
•  TM		 	 	ß	TrainTransla.onModel(Translated)	
•  NewSrc		 	ß	SelectNextPhrase(SrcPool,	Translated,	TM)	
•  NewTrg	 	ß	GetTransla.on(Oracle,	NewSrc)	
•  Translated		ß	Translated∪{〈NewSrc,	NewTrg〉}	
16/06/23	 4
既存手法	
1.  Sentence	Selec.on	using	N–Gram	Frequency	
•  カバーできていないフレーズが最も多く出現する文を選択
(上限n-gram)	
•  短所	:	すでにパラレルデータでカバーされているフレーズ
を多く含む à コスト高	
2.  Phrase	Selec.on	using	N–Gram	Frequency	
•  最も多く出現し、まだカバーされていないh-gramフレーズを
選択(少ないデータの追加になる)	
•  短所	:	冗長性、フレーズの重なり	
16/06/23	 5
冗長なフレーズの削除	
•  Maximal	substrings	
•  フレーズpiがコーパス上に何回現れるかocc(pi)	
occが等しい場合、マージする	
マージできなくなったフレーズ	:	最長単語列(p2,	p3)	
16/06/23	 6
冗長なフレーズの削除	
•  利点	
•  重なるフレーズを最長句のみに削減,	長さの上限無し	
•  最長句、その発生回数はenhanced	suffix	arrays	によって
線形時間(文書長)で計算される	
•  欠点	
•  先ほどの例だとp2とp3が残るがやはり冗長	
à	共起回数がほぼ等しい場合は削除	
16/06/23	 7	
λを用いる(0〜1の実数値、本研究では0.5)
文法的な判断	
•  原言語文を解析し、全ての部分木を走査	
•  文法的に、句である部分を全て抽出	
16/06/23	 8
simula.on	experiment	
•  データを増やすこと、それによる再トレーニングによって翻訳の
accuracyがどうなるかを評価	
•  人手翻訳なし、データの追加方法の良さを見る	
•  英仏の翻訳	
•  スタート	:	Europarl	corpus	(WMT2014)	
•  追加	:	EMEA,PatTR,Wikipedia	.tle(全てMedical)	
•  英日の翻訳	
•  スタート	:カバレージの広い例文コーパス(英辞郎辞書)	
•  追加 :	ASPEC科学ペーパーのアブストラクトのコーパス	
•  日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は	
除去 à	解析、アライメントの正確さを確実	
16/06/23	 9
データの詳細	
16/06/23	 10
実験設定	
•  フレーズベースSMT(Moses	Toolkit)を使用	
•  効率的再トレーニングのためにinc-giza-ppを使用、
これは、 単語アライメントを取るGIZA++で、トレーニ
ングデータを増やすこと、変化できる	suffix	array	フ
レーズテーブル(Moses) を含む。	
•  言語モデルは5-gram	
•  デコーディングのパラメータ : 毎回調整は非現実的	
•  ベースラインのBLEU値が最大となるパラメータ	
16/06/23	 11
8つの手法	
•  sent-rand:	文をランダムに選択	
•  4gram-rand:	n-gram	: 単語列をランダムに選択、上限は4	
•  sent-by-4gram-freq(baseline	1):	まだカバーされていないフレーズ(最長
4)を最も多く含む文を選択	
4gram-freq(baseline	2):	最も多く出現する、まだカバーされていないフ
レーズ(最長4)を選択	
•  以下は提案	
•  maxsubst-freq:	最も多く出現する、まだカバーされていない	
最長句を選択	
•  reduced-maxsubst-freq:最も多く出現する、まだカバーされていない	
凖最長句を選択	
•  struct-freq:	部分木から抽出された句のうち、最も多く出現する、	
まだカバーされていない句を選択	
•  reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない凖最長句を選択	
16/06/23	 12
result	:	BLEUとAdd	Word	英仏	
•  冗長句を除くことは良いといえる	
16/06/23	 13
result	:	BLEUとAdd	Word	英日	
16/06/23	 14
result	: フレーズ数とLength	
•  木構造を用いた方法に注目すると、他のよりも
短いフレーズを選択している	
16/06/23	 15
result	:	Coverage	
16/06/23	 16
人手による翻訳の質の評価	
•  翻訳の専門家3人に依頼	
16/06/23	 17
実験設定	
•  beseline	:	sent-by-4gram-freqと4-gram-freq	
•  提案手法	:	reduced-struct-freq	
•  英日と同じ実験設定	
•  目的言語モデルのトレーニングでは、SRILM
を使用して集めたデータを補間	
•  パープレキシティが最大になるようにパラメー
タ調整	
16/06/23	 18
result	:	BLEUとAdd	Words	
16/06/23	 19
result:	BLEUと.me	
16/06/23	 20
result	:	TimeとConfidence	
•  収集単語数	:	10,000	
3の割合	:	79%	
16/06/23	 21
result	:	TimeとPhrase	Length	
•  length	1	が時間がかかる	
•  専門用語になりやすく、辞書を見る必要あり	
16/06/23	 22
result	:	ConfidenceとPhrase	Length	
•  1のとき低い à	baselineはlength1が少ない	
•  提案手法はlength2以降も安定	
16/06/23	 23
result	:	Accuracy(BLEU	Score)	
•  確信度で分けて実験	
•  確信度1を除いた時は総じて良くなる	
•  一方3のみの場合は悪くなる	
•  データを加えない場合はBLEU	:	9.37%	
16/06/23	 24
Selec.ng	Syntac.c,	Non-redundant	Segments	in	
Ac.ve	Learning	for	Machine	Transla.on	
•  提案手法	
•  文法的に不変であるフレーズを選択	
•  冗長なフレーズを減少	
Ø BLEU値が向上, 翻訳の確信度の向上	
•  改善点	
•  翻訳に時間がかかる専門用語の対処	
•  未知語を対処する方法の組み合わせ	
•  必要な時間によって選択した単語列を最適化する	
•  柔軟な文法の制限による様々なフレーズの	
アノテーション	
•  例えば”one	of	the	preceding	X”	16/06/23	 25

More Related Content

Similar to [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
Ohsawa Goodfellow
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
 
Jsai2020
Jsai2020Jsai2020
Jsai2020
Kohei Asano
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択無職
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
Keisuke Umezawa
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
 
Extract and edit
Extract and editExtract and edit
Extract and edit
禎晃 山崎
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Akiva Miura
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
Masayoshi Kondo
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
オラクルエンジニア通信
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
kagami_comput2016_09
kagami_comput2016_09kagami_comput2016_09
kagami_comput2016_09
swkagami
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
 
ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017
Toshiaki Nakazawa
 
Automatic Summarization
Automatic SummarizationAutomatic Summarization
Automatic Summarization
Hitoshi Nishikawa
 

Similar to [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation (20)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
Jsai2020
Jsai2020Jsai2020
Jsai2020
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
 
Tokyo.R #22 LT
Tokyo.R #22 LTTokyo.R #22 LT
Tokyo.R #22 LT
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
kagami_comput2016_09
kagami_comput2016_09kagami_comput2016_09
kagami_comput2016_09
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017ニューラル機械翻訳の動向@IBIS2017
ニューラル機械翻訳の動向@IBIS2017
 
Automatic Summarization
Automatic SummarizationAutomatic Summarization
Automatic Summarization
 

More from sekizawayuuki

Translating phrases in neural machine translation
Translating phrases in neural machine translationTranslating phrases in neural machine translation
Translating phrases in neural machine translation
sekizawayuuki
 
Improving lexical choice in neural machine translation
Improving lexical choice in neural machine translationImproving lexical choice in neural machine translation
Improving lexical choice in neural machine translation
sekizawayuuki
 
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
sekizawayuuki
 
Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...
sekizawayuuki
 
paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...
sekizawayuuki
 
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
sekizawayuuki
 
Acl読み会@2015 09-18
Acl読み会@2015 09-18Acl読み会@2015 09-18
Acl読み会@2015 09-18
sekizawayuuki
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6
sekizawayuuki
 
読解支援@2015 08-10-5
読解支援@2015 08-10-5読解支援@2015 08-10-5
読解支援@2015 08-10-5
sekizawayuuki
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4
sekizawayuuki
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3
sekizawayuuki
 
読解支援@2015 08-10-2
読解支援@2015 08-10-2読解支援@2015 08-10-2
読解支援@2015 08-10-2
sekizawayuuki
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
sekizawayuuki
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24
sekizawayuuki
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17
sekizawayuuki
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13
sekizawayuuki
 
読解支援@2015 07-03
読解支援@2015 07-03読解支援@2015 07-03
読解支援@2015 07-03sekizawayuuki
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
sekizawayuuki
 
Naacl読み会@2015 06-24
Naacl読み会@2015 06-24Naacl読み会@2015 06-24
Naacl読み会@2015 06-24
sekizawayuuki
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
sekizawayuuki
 

More from sekizawayuuki (20)

Translating phrases in neural machine translation
Translating phrases in neural machine translationTranslating phrases in neural machine translation
Translating phrases in neural machine translation
 
Improving lexical choice in neural machine translation
Improving lexical choice in neural machine translationImproving lexical choice in neural machine translation
Improving lexical choice in neural machine translation
 
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
 
Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...
 
paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...
 
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
 
Acl読み会@2015 09-18
Acl読み会@2015 09-18Acl読み会@2015 09-18
Acl読み会@2015 09-18
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6
 
読解支援@2015 08-10-5
読解支援@2015 08-10-5読解支援@2015 08-10-5
読解支援@2015 08-10-5
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3
 
読解支援@2015 08-10-2
読解支援@2015 08-10-2読解支援@2015 08-10-2
読解支援@2015 08-10-2
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13
 
読解支援@2015 07-03
読解支援@2015 07-03読解支援@2015 07-03
読解支援@2015 07-03
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
 
Naacl読み会@2015 06-24
Naacl読み会@2015 06-24Naacl読み会@2015 06-24
Naacl読み会@2015 06-24
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
 

[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation