SlideShare a Scribd company logo
1 of 14
Download to read offline
Sentence  Simplification  as  Tree  Transduction
Dan  Feblowitz David  Kauchak
In  Proceedings  of  the  51st  Annual  Meeting  of  the  Association  for  
Computational  Linguistics.  pp1537-‐‑‒1546,  2013
Presentation	
  :	
  塩⽥田健⼈人
*  どのような問題を?
*  テキスト平易易化
*  どのように解決した?
*  STSGの確率率率モデルを⽤用いた構⽂文に基づいた⽂文平易易化
概要
*  テキスト平易易化とは	
  
*  ⽂文の意味を変えずに語数を減らし、複雑な⽂文法を取り除く	
  
*  どういったことに使われるか	
  
*  ⼦子ども、外国⼈人、障碍者などの⾔言語学習	
  
*  専⾨門的な領領域  (例例  医療療関係など)	
  
*  その他の⾃自然⾔言語処理理の前処理理など	
  
テキスト平易易化について
*  STSGとは…
*  Synchronous  Tree  Substitution  Grammar
*  ⽊木構造から⽊木構造への変換を表す⽂文法
    →難解な⽂文法をもつ構⽂文⽊木を平易易な⽂文法をもつ構⽂文⽊木へ
提案⼿手法について
STSG*1
(S	
  (NP	
  (DT	
  That))	
  PRN	
  VP	
  .	
  ))	
  
↓	
  
(b)となる	
  
	
  
	
  
	
  
この基本⽊木で置き換えると…	
  
↓	
  
(c)となる	
  
↓	
  
同様にルールにより繰り返し	
  
STSGのルール例例
STSGのルール例例
ルールを学習 実験 ⽐比較・考察
⼿手順
学習
• 123,000⽂文対
発展
• 12,000⽂文対
テスト
• 1,358⽂文対
⼿手順
*  3つの簡易易化システムを作成し、⽐比較した
テスト
T3
STSGをベースにした提案⼿手法の別の⼿手法
・相違点
提案⼿手法:⽂文法を増加させている
T3:STSGルールの深さを増加させている
Moses-‐‑‒Diff
Mosesに基づいた⼿手法
10の⼊入⼒力力と最も違う最適解を出⼒力力する
Moses-‐‑‒Del
Mosesに基づき、句句を削除する機能がある⼿手法
著者により開発された
⽂文法が増えたことによる効果を分かりやすくするため…	
  
K&M:同期⾃自由⽂文法に基づくアプローチ	
  
augm-­‐K&M:K&Mにさらに⽂文法を加えたもの	
  
	
  
これら2つも同時に評価した	
  
*  3つの簡易易化システムを作成し、⽐比較した
*  ⽂文の解析にBerkeley  Parser
*  単語アライメントにGiza++
テスト
System BLEU Oracle Length  Ratio
Simple  TT
Moses-‐‑‒Diff
Moses-‐‑‒Del
T3
0.564
0.543
0.605
0.244
0.663
-‐‑‒
0.642
-‐‑‒
0.849
0.960
0.991
0.581
K&M
augm-‐‑‒K&M
0.406
0.498
0.602
0.609
0.676
0.826
Corpus  mean -‐‑‒ -‐‑‒ 0.85
*  いままでのSTSGよりも区別ではなく確率率率モデルを採⽤用
することにより格段に精度度をあげることができ、⼈人間に
よる平易易化と同じように圧倒的によい結果を⾒見見せた。
*  今後、パラメータ・アルゴリズムを変更更することにより
それが出⼒力力に影響を及ぼすかを調べる予定	
  
まとめ
*1同期⽂文法を⽤用いた構⽂文⽊木付きコーパスの誤り訂正	
  
加藤芳秀  松原茂樹	
  
名古屋⼤大学情報基盤センター  	
  
出典
※トランスダクティブとは
*  ラベルや関数値などの教師情報が付随したラベルありデータとそれらが
ないラベルなしデータが与えられる状況を考える。	
  
*  ここで、与えられていない未知データについてラベルを予測する必要は
なく、与えられたラベルなしデータのラベルだけ予測すればよいとする。
すなわち、半教師あり学習で、新規のデータのラベルを予想しない場合
である。	
  
*  このとき、通常の教師あり学習のように、任意のデータのラベルを予測
する関数を求めて、ラベルなしデータを代⼊入してラベルを求めるアプ
ローチも可能。しかし、ラベルを予測すればよいデータ点は⾮非常に限定
されているのに任意の点のラベルを予測する関数を求めるのは過剰に困
難な問題を解いているといえる。よって学習時にラベルなしデータの情
報を使うと予測精度度を向上させることができるらしい。
トランスダクティブ

More Related Content

More from kentshioda (7)

日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター
 
日本語学習者の文章読解支援のための語彙制限
日本語学習者の文章読解支援のための語彙制限日本語学習者の文章読解支援のための語彙制限
日本語学習者の文章読解支援のための語彙制限
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17
 
読解支援プレゼン 4 21
読解支援プレゼン 4 21読解支援プレゼン 4 21
読解支援プレゼン 4 21
 

読解支援 5 26