藤田篤,柴田知秀,秋吉俊,渡邉陽太郎,梶原智之.	
  
言語処理学会第21年次ワークショップ	
  
『自然言語処理におけるエラー分析』発表論文集,	
  
ID:20,	
  11	
  pages(e-­‐pub	
  only),2015.	
  
	
  
プレゼンテーション:野口 真人	
 
1
p  どういう問題を解いたのか	
  
p  言い換え認識技術の客観的な分析を可能にする評
価データを構築したい	
  
p  1.自然な分布	
  
 2.正負のバランス 	
  
 3.プリミティブさ	
  
	
  
p  どうやって解いたのか	
  
p  NTCIR	
  RITE-­‐2のユニットテストデータを利用	
  
p  それをさらに分解して評価データを作成	
  
2
p  入力:同一言語の複数の異なる一般表現	
  
p  出力:入力された言語表現が同義かどうか	
  
p  情報検索,質問応答,複数文書要約に有用	
  
	
 
3
p 言い換え生成:難しい	
  
p 言い換え知識獲得:有意義な分析がすでに	
  
         行われている	
  
p 言い換え認識:分析が十分に行われてない	
  
p 言い換え認識タスクにおける課題	
  
p  客観的かつ精密な評価のためのシナリオ	
  
p  言い換えコーパスが満たすべき要件	
 
4
p  第1段階.評価に適した言い換えコーパスの構築	
  
p  要素:自然な分布,正負のバランス,プリミティブさ	
  
p  第2段階.必要な知識・機能の列挙	
  
p  人間が判断するのに必要	
  
p  第3段階.既存の技術の客観的評価と課題の提言	
  
p  評価データを用いて手法の性能をプロファイル	
  
p  語彙資源の外的な評価	
  
	
 
5
p 正負のラベル付きのテキスト対(事例)	
  
p 英語:Microsoft	
  Research	
  Paraphrase	
  	
  
   Corpus(MSRP)	
  
p 日本語:NTCIR	
  RITE-­‐2	
 
p  もともとは含意関係の研究	
  
F	
  B	
  C	
  I	
 
一方向の	
  
含意関係	
 
両方向の	
  
含意関係	
 
矛盾	
  無関係	
 
言い換え	
 
6
p 正解ラベルが信頼性に欠ける	
  
 	
  
p データが偏っている	
  
p  編集距離が8〜20のテキスト対のみを候補と
している	
 
The	
  stock	
  rose	
  $2.11,	
  or	
  about	
  11	
  percent,	
  to	
  close	
  
Friday	
  at	
  $21.51	
  on	
  the	
  New	
  York	
  Stock	
  Exchange.	
 
PG&E	
  Corp.	
  shares	
  jumped	
  $1.63	
  or	
  8	
  percent,	
  to	
  
$21.03	
  on	
  the	
  New	
  York	
  Stock	
  Exchange	
  on	
  Friday.	
 
同
義
と
判
定
	
 
7
p 簡単すぎる事例	
  
p  重複率(共通するトークン数/総トークン数)
を示すと,重複率が高いとわかる	
  
	
 
表層的な手がかりのみでも	
  
問題がある程度解ける	
 
8
“B”のトークン重複率	
  
が他の3つより高い	
  
原因:標本選択バイアス?	
 
9
p  言い換えコーパスの先行研究はトップダウン	
  
p  テキスト対の収集→正負のラベル付け→コーパス構築	
  
p  以下のような分布の事例が収集できる	
 
10
p Kanekoらによる取り組み	
  
p 含意であるかどうかを2値で判定	
  
p 以下のような評価データ→さらに分解可	
  
11	
 
『トンネルズ&トロールズ第5版』はケン・セント・	
  
アンドレらによってデザインされた.	
 
『トンネルズ&トロールズ第5版』のデザイナーの	
  
一人は,ケン・セント・アンドレである.
12	
 
t1:	
 
t2:
p 163事例が306の事例に分解できた	
  
p  60事例が203事例に分解	
  
p そのうち156件が言い換え	
  
p 残り47件は非言い換え	
  
p  残り103事例は分解不可	
  
p そのうち言い換え関係は58件	
  
p 計214件の(プリミティブな)言い換え事例	
  
  →種類ごとに分類	
  
	
  13
 	
 
14
p  文の構成要素のみでなく,世界知識がないと言い
換えであることを判定できないような事例	
 
15	
 
『ステンカ・ラージン』はウラジミール・ロマシコフが監
督,ワシーリ・ゴンチャロフが脚本の映画だ.	
 
『ステンカ・ラージン』はウラジミール・ロマシコフが監
督,ワシーリ・ゴンチャロフが脚本で製作された映画だ.	
 
カルマ・カギュ派が,化身ラマ制度を初め
て法主の選任に採用した.	
 
カルマ・カギュ派が,化身ラマ制度を初め
て採用した.	
 
プリミティブに分解する事で,	
  
これらの分析・評価が可能となる
p RITE-­‐2のユニットテストデータをプリミ
ティブに分解することで客観的な評価が
可能となる見通しを示した	
  
p 今後の課題:評価用コーパスの構築	
  
p  「自然な分布」についての解決法が現在存在
しない	
  
p  「自然な分布」について十分検討する必要が
がる	
 
16
17	
 
付録
p 言い換え知識獲得に注目	
  
p  入力:コーパスや辞書などの様々な言語資源	
  
p  出力:同義表現集合(対の場合が多い)の集合	
  
p  出力の単位は以下のように想定	
  
 	
  
 	
  
	
  
 	
  
  	
  
重傷	
  大ケガ	
 
重傷を負う	
  大ケガをする	
 
料理がすぐに出てくる	
 
あまり待たずに食べられる	
 
18
p  入力:ある言語表現,目的に応じた評価基準	
  
p  出力:入力された言語表現と同じ言語の異なる	
  
   言語表現の集合	
  
p  テキストの簡単化,文圧縮などに有用	
 
19
p t1が真である場合にt2も常に真である	
  
→「t1はt2を含意している」(「t1ならばt2」)	
  
20	
 
t2	
  t1	
 
例)	
  
 ・上位下位関係	
  
 ・事態とその前提	
  
 など	
 
t1:川端康成は「雪国」などの作品でノーベル文	
  
 学賞を受賞した.	
 
t2:川端康成は「雪国」の著者である.	
 
含
意
	
 
両方向に含意関係が成立する場合,t1とt2は言い換えになる
p 分布の自然さ	
  
p  現実世界の問題の分布を反映する	
  
p  現時点では難しい(濃度の薄さ・偏り)	
  
p 正負例のバランス	
  
p  非自明かつ正負の境界例を収録したい	
  
p  ある程度担保可能	
  
p プリミティブさ	
  
p  個々の事例をあらかじめ分解・分類する	
  
p  担保できる	
 
21

言い換え認識技術の評価に適した言い換えコーパスの構築指針