SlideShare a Scribd company logo
1 of 15
Download to read offline
Learning	
  to	
  simplify	
  sentences	
  
using	
  Wikipedia.	
  
William	
  Coster,	
  David	
  Kauchak.	
  	
  
	
  In	
  Proceedings	
  of	
  the	
  Workshop	
  on	
  
Monolingual	
  Text-­‐ToText	
  
GeneraDon,	
  pp.1–9,	
  2011.	
プレゼンテーション	
  
関沢祐樹	
2015/06/09	
 1
概要	
•  本論文が行ったこと	
  
– 英語の文を、簡単な英語に翻訳する	
  
– English	
  Wikipedia	
  と Simple	
  English	
  Wikipedia	
  を
対応づけて抽出した137,000文からなるコーパス
を用いて簡単化	
  
– テキスト簡単化への新たな翻訳モデルの紹介	
  
•  BLEU,word-­‐F1,SSAという3つの評価手法を用いると、	
  
 	
  T3や句に基づく翻訳システムよりも良い成果	
2015/06/09	
 2
はじめに	
•  目標	
  
–  普通の英語(normal)を簡単な英語(simple)に	
  
	
  	
  	
  	
  翻訳するシステムの学習	
  
•  必要な作業	
  
–  削除 : 主要でない部分を削除、この作業が多い	
  
–  語の言い換え	
  
–  場所の移動 : 語や句の位置を変える	
  
–  挿入	
  
	
  
*要約:単語削除に重点	
  
	
  
2015/06/09	
 3
はじめに	
•  必要な変換に用いるもの	
  
– 句に基づく統計翻訳モデルを拡張したもの	
  
•  確率翻訳モデルに、句の削除を追加したもの	
  
•  ベースモデルは、1つの句の中でしか削除できない	
  
•  簡単化の利点	
  
– 子ども、お年寄り、聴覚障害者、失語症などの人
にも理解しやすい	
  
– NLPの、意味役割付与、関係抽出の成果の向上	
  
2015/06/09	
 4
先行研究	
•  最初の文の簡単化	
  
– データに基づいた考え方ではなかった	
  
– 商業的なアプローチ、プロセスの前処理扱い	
  
•  2010年の実験	
  
– データに基づいたが、評価値は悪かった	
  
•  今回のアプローチ	
  
– 3つの評価手法で十分な向上を獲得	
2015/06/09	
 5
テキスト簡単化のコーパス	
•  テキスト簡単化のデータ数は少ない	
  
•  テキスト要約のデータセットも少ない	
  
– わずか1,000の文アラインメント	
  
•  Wikipediaから得た文アラインメント	
  
– 137,000	
  組を獲得	
  
– これを文アラインメントコーパスとして使用	
2015/06/09	
 6
簡単化のモデル	
•  使用したシステム:Moses	
  
•  簡単化の計算	
  
	
  
•  GIZA++を用いて、単語アラインメントを抽出	
  
– 変換確率を算出	
  
2015/06/09	
 7
モデルの問題点	
•  句の削除が一般的におこる(文単位で47%)	
•  このままだと削除に対応できない	
  
•  制約を緩くする	
  
– normalをsimpleにする際、	
  
 	
  simpleの部分を空っぽにする            	
  
2015/06/09	
 8
NULLに対応させる方法1	
•  normal文の語が、simpleの文の語に非対応	
  
–  simpleの文の適切な場所にNULLを挿入	
  
–  対応先をNULLとする	
  
	
  
Sergio	
  Rodriguez	
  Garcia	
  ,	
  aka	
  Rodri	
  ,	
  is	
  a	
  spanish	
  footballer	
  ...	
  	
  
Sergio	
  Rodriguez	
  Garcia	
       is	
  a	
  spanish	
  football	
  player	
  ...	
  
	
  
	
  	
  
Sergio	
  Rodriguez	
  Garcia	
  	
  	
  NULL	
  	
  	
  is	
  a	
  spanish	
  football	
  player	
  ...	
  	
  
	
  
2015/06/09	
 9
NULLに対応させる方法2	
•  normalの単語集合が全て、simpleの1語に	
  
  対応し、normalのある1語が、simpleと同じ	
  
–  残りのnormalの単語全てをNULLに対応させる	
  
–  句読点や機能語がNULLに対応することが多い	
  
president	
  Obama	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Obama	
  
NULL	
  	
  	
  	
  	
  	
  	
  	
  	
  Obama	
2015/06/09	
 10
実験	
•  5つのアプローチでテキスト簡単化の比較	
  
–  none:何もしない (ベースライン)	
  
–  K&M:文の要約をする	
  
–  T3:誤りのある構文木を誤りのない構文木へ変換	
  
–  Moses:句に基づく機械翻訳	
  
–  Moses+Del:Mosesに削除の機能を追加	
  
–  後半3つの手法のパラメータはデフォルト値	
  
–  none以外は、simpleに対してn-­‐gram言語モデルで訓練	
  
2015/06/09	
 11
詳細設定	
•  使われたデータ:全137,000文	
  
– 訓練:124,000文、開発:12,000文、テスト1,300文	
– Mosesの使用には、ハイパーパラメータを設定	
  
•  訓練データの終わり500文を用いて最適化	
  
•  T3に全てのデータを使うことができなかった	
  
– 時間とメモリの問題によるもの	
  
– 訓練データの最初の30,000文を使用	
  
2015/06/09	
 12
実験結果	
2015/06/09	
 13
実験結果	
•  Moses+Delを30,000文で実験	
  
– 訓練:最初の29,700文、残り300文でチューニング	
  
– BLEU値:0.5952	
  >	
  0.2437	
  (T3のBLEU値)	
  
•  Oracle:各文翻訳確率上位1000で構成	
  
2015/06/09	
 14
結論	
•  Wikipediaから文の簡単化の学習を実験	
  
– 提案手法は、語彙変換、言い換え、挿入、削除	
  
– 比較手法よりも良い評価値を獲得	
  
– 削除が重要であるとわかった	
  
•  今後の課題	
  
– 文法の複雑さを除去	
  
•  句に基づくモデルは、文法を考慮しない	
  
•  階層的構造の導入で改善されると思われる	
  
2015/06/09	
 15

More Related Content

Viewers also liked

読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26sekizawayuuki
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12sekizawayuuki
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3sekizawayuuki
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6sekizawayuuki
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09sekizawayuuki
 
Acl読み会@2015 09-18
Acl読み会@2015 09-18Acl読み会@2015 09-18
Acl読み会@2015 09-18sekizawayuuki
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13sekizawayuuki
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24sekizawayuuki
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17sekizawayuuki
 

Viewers also liked (10)

読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
 
読解支援@2015 06-12
読解支援@2015 06-12読解支援@2015 06-12
読解支援@2015 06-12
 
Nlp2016 sekizawa
Nlp2016 sekizawaNlp2016 sekizawa
Nlp2016 sekizawa
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09
 
Acl読み会@2015 09-18
Acl読み会@2015 09-18Acl読み会@2015 09-18
Acl読み会@2015 09-18
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17
 

More from sekizawayuuki

Translating phrases in neural machine translation
Translating phrases in neural machine translationTranslating phrases in neural machine translation
Translating phrases in neural machine translation sekizawayuuki
 
Improving lexical choice in neural machine translation
Improving lexical choice in neural machine translationImproving lexical choice in neural machine translation
Improving lexical choice in neural machine translationsekizawayuuki
 
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...sekizawayuuki
 
Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...sekizawayuuki
 
paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...sekizawayuuki
 
Coling2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translationColing2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translationsekizawayuuki
 
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善sekizawayuuki
 
Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15sekizawayuuki
 
Acl reading@2016 10-26
Acl reading@2016 10-26Acl reading@2016 10-26
Acl reading@2016 10-26sekizawayuuki
 
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...sekizawayuuki
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4sekizawayuuki
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1sekizawayuuki
 

More from sekizawayuuki (12)

Translating phrases in neural machine translation
Translating phrases in neural machine translationTranslating phrases in neural machine translation
Translating phrases in neural machine translation
 
Improving lexical choice in neural machine translation
Improving lexical choice in neural machine translationImproving lexical choice in neural machine translation
Improving lexical choice in neural machine translation
 
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
 
Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...
 
paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...
 
Coling2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translationColing2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translation
 
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
 
Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15
 
Acl reading@2016 10-26
Acl reading@2016 10-26Acl reading@2016 10-26
Acl reading@2016 10-26
 
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 

Recently uploaded

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~Kochi Eng Camp
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料Tokyo Institute of Technology
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラムKochi Eng Camp
 

Recently uploaded (8)

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 

読解支援@2015 06-09