辞書定義文を用いた二字漢語の	
  
言い換え表現の生成.	
  	
  
萩行正嗣,	
  黒橋禎夫.	
  
言語処理学会第15回年次大会	
  
発表論文集,	
  pp.256-­‐259,	
  2009.	
	
  
プレゼンテーション	
  
関沢祐樹	
2015/06/12	
 1
概要	
•  どのような問題を解いたのか	
  
– JUMAN基本語辞書の登録語彙数は約3万	
  
– 意味情報を記載するには多すぎる	
  
•  どうやって解いたのか	
  
– 語の意味を他の語で表現する	
  
– 半数が二字漢語であることを利用する	
  
•  語構成漢字と辞書定義文から、言い換え表現を自動生成	
  
•  その過程で、逐次的に語構成漢字の言い換え表現を獲得	
2015/06/12	
 2
提案手法1	
•  語構成漢字と辞書定義文の対応付け	
  
– 例  水鳥:川や湖の水辺にすむ鳥。	
  
1.  辞書定義文をJUMAN・KNPを用いて、形態素解析、
構文解析	
  
2015/06/12	
 3
提案手法1	
•  語構成漢字と辞書定義文の対応付け	
  
– 例  水鳥:川や湖の水辺にすむ鳥。	
  
2.自立語のうち、各語構成漢字に対応する語の探索	
  
2015/06/12	
 4
提案手法1	
•  語構成漢字と辞書定義文の対応付け	
  
– 例  水鳥:川や湖の水辺にすむ鳥。	
  
3.定義文主辞に到達する係り受けを言い換え表現	
  
               	
  
2015/06/12	
 5
提案手法2	
•  ブートストラップによる語構成漢字の言い換え
パターンの獲得	
  
– 提案手法1で獲得できない言い換えの獲得	
  
– 例    “疾”の言い換えを探索	
  
1.二字漢語の言い換え生成	
  
悪疾	
  :	
  たちの悪い病気	
  
疾風	
  :	
  速く吹く風	
  
廃疾	
  :	
  不治の病気	
  
2015/06/12	
 6
提案手法2	
2.未対応語構成漢字と自立語を全て組み合わせ	
  
2015/06/12	
 7
提案手法2	
3.個々の語構成漢字に対し、言い換えパターン	
  
 らしさ	
  ”score”	
  を出現回数をもとに計算	
  
2015/06/12	
 8
提案手法2	
4.候補のscore	
  、出現回数がそれぞれの閾値より	
  
 大きいものを言い換えパターンとする	
  
                疾→病気を獲得	
  
2015/06/12	
 9
提案手法2	
5.新たに獲得した言い換えパターンを加えて、	
  
 1〜4を繰り返す	
  
 反復するごとに、獲得できる言い換えは減少	
  
	
  
獲得された	
  
語構成言い換え	
  
パターンの数は	
  
右表の通り	
  
2015/06/12	
 10
実験設定	
•  岩波国語辞典の二字漢語26,157語を対象	
  
•  辞書定義文の一文目のみ使用	
  
– 補足的説明を外すため	
  
•  評価対象	
  
– JUMANの15,523語が二字漢語	
  
– そのうち、岩波国語辞典に存在	
  :	
  13,281語	
  
– 手法2のスコア閾値:0.5、出現回数閾値:3	
  
2015/06/12	
 11
生成された言い換えパターン	
•  ブートストラップを用いて獲得された	
  
  言い換えパターンを利用した場合:反復回数	
  
– 全体の1/3を言い換え	
  
	
  
	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  約10%増加	
2015/06/12	
 12
終わりに	
•  提案手法	
  
– 二字漢語の語構成漢字を利用した	
  
  辞書定義文からの言い換え表現生成	
  
– JUMANの二字漢語の約1/3を言い換え生成	
  
– 語構成漢字の言い換えパターンを獲得	
  
•  今後に向けて	
  
– 生成できなかった二字漢語の言い換え生成	
  
– 語構成が構成的でない語の意味表現の検討	
2015/06/12	
 13

読解支援@2015 06-12