SlideShare a Scribd company logo
1 of 22
Download to read offline
 
語彙的対応関係の一般化に基づく	
  
言い換え知識の拡張	
  
	
  
藤田篤 Pierre	
  Isabelle	
  
情報通信研究機構 National	
  Research	
  Council	
  Canada	
  
	
  
言語処理学会第21回年次大会発表論文集	
  
D1-­‐5,	
  pp.321-­‐324,	
  2015
紹介者:塩田健人
1
概要
・言い換えを頑健かつ精度よく自動生成するためには	
  
多くの言い換え知識が不可欠である	
  
	
  
・現在の言い換え技術では精度のよい言い換えをするには	
  
高品質な言語資源が必要	
  
	
  例:Catvar,	
  Word	
  Net	
  
	
  
・しかし、構築・保守にかかる人的コストは大きく、	
  
高価な資源である	
  
	
  
そこで、	
  
『言語依存の高価な言語資源を使わずに	
  
精度のよい言い換え手法を提案する』
2
先行研究
1.単言語コーパスに基づく方法
•  分布仮説に基づいて使用される文脈が類似している
(文脈類似度が高い)表現の対を言い換え表現対とし
て獲得する。
•  反義関係や上位ー下位関係などの同義以外の関係を持
つ表現の対も高い文脈類似度を持つため、精度は低い。
3
先行研究
2.単言語パラレル/コンパラブルコーパスに基づく方法
•  .単言語パラレル/コンパラブルコーパスの対応する文
の対における同義の部分を使い、精度よく言い換え表
現対を獲得できる。
•  単言語コーパスほどのカバレージを得ることは出来な
い。
4
先行研究
3.異言語パラレルコーパス(対訳コーパス)に基づく方法
•  異なる言語において共通の訳を持つ表現を言い換えと
して獲得できる。
•  しかし、たとえ大きな対訳コーパスであっても単言語
コーパスに比べると極めて小さく、言い換えカバレー
ジも低い
5
提案手法
	
  
	
  
言い換え知識中の個々の言い換え表現対における	
  
語彙的な対応関係に着目し、言い換えパターンの獲得	
  
	
  
獲得した言い換えパターンを用いて、
単言語コーパスから新たな言い換え表現対を収集する
	
  
6
提案手法
言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
7
提案手法
言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
8
提案手法
	
  
Amendment	
  of	
  regulation	
   	
  amending	
  regulation	
  
	
  
X	
  :	
  ment	
  of	
  Y	
  :	
  ϕ ⇔ X : ing Y : ϕ
	
  
investment	
  of	
  resources	
   	
  investing	
  resources	
  
recruitment	
  of	
  engineers	
   	
  recruiting	
  engineers	
  
•  上記のような元々の対とは表層的に全く異なる語で構成
される対も得られる。
9
着目する語群
•  派生語	
  
o  表記や意味の一部を共有する異なる語の群	
  
{“develop”,	
  “developer”,	
  “development”,	
  …}	
  
•  活用形/屈折形	
  
o  活用や屈折に由来する同じ語の異なる出現形	
  
{“amend”,	
  “amends”,	
  “amending”,	
  …}	
  
•  異表記	
  
o  同じ語の同じ活用形/屈折形の異なる表記	
  
{“color”,	
  “colour”},	
  {“authorize”,	
  “authorise”,	
  …}	
  
10
提案手法
言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
11
提案手法
•  高品質なSseedを前提として	
  
•  言い換え表現対の各辺にあり、同じ語幹をもつ語の対は、
特定の(意味的な)関係を持つ
語1      語2 接辞1 接辞2 語幹
aimed	
  
aimed	
  
achieving	
  
achieving	
  
aims	
  
achieve	
  
aims	
  
achieve	
  
X	
  :	
  ed	
  
X	
  :	
  imed	
  
X	
  :	
  chieving	
  
X	
  :	
  ing
X	
  :	
  s	
  
X	
  :	
  chieve	
  
X	
  :	
  ims	
  
X	
  :	
  e
aim	
  
a	
  
a	
  
achiev	
  
12
提案手法
言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
13
提案手法
•  抽出した接辞パターンの品質保持のため	
  
長さk以上の語幹n種類以上に対して	
  
観察された接辞パターンのみを残す。
接辞1 接辞2
語幹の種類数
結果
長さ	
  ≥	
  5	
   長さ	
  <	
  5	
  
X	
  :	
  chieve	
  
X	
  :	
  chieving	
  
X	
  :	
  ed	
  
X	
  :	
  ing
X	
  :	
  imed	
  
X	
  :	
  ims	
  
X	
  :	
  s	
  
X	
  :	
  e
0	
  
0	
  
69	
  
330	
  
1	
  
1	
  
22	
  
70
捨てる	
  
捨てる	
  
残す	
  
残す	
  
14
新規言い換え表現の獲得
15
コーパス
	
  
•  Europarl	
  
o  英仏対200万文(英語5570万語、仏語6190万語)	
  
o  使用したコーパス	
  
•  英語側とNews	
  Crawl	
  5,200万文、12.0億語	
  
•  NTCIR	
  
o  日英対320万文(英語1.07億語、日本語1.16億形態素)	
  
o  使用したコーパス	
  
•  英語側とNTCIRの単言語文書3,990万文、13.6億語	
  
16
問題点
People	
  of	
  Europe	
   	
  European	
  population	
  
	
  
People	
  of	
  X	
  :	
  ϕ	
  ⇔	
  X	
  :	
  an	
  population	
  
	
  
単言語コーパスで同じ関係を持つ	
  
(“Haiti”,	
  ”Haitian”),	
  (“suburb”,	
  “suburban”)だけでなく	
  
(“uncle”,	
  “unclean”)など語の意味ではなく、語の形だけで
抽出されてしまう	
  
	
  
文脈類似度を単言語コーパスから計算して、置き換え出来
ないような対を除外する
17
拡張結果
SLVとSseed中の	
  
言い換え表現対の数	
  
SLVとSseed中の	
  
言い換え表現対の数の比	
  
18
評価
•  評価設定	
  
o  自動生成した言い換え文が文法的か	
  
o  言い換え文が原文と同じ意味を持つか	
  
•  評価方法	
  
o  同じ原文から得られた複数の言い換え文を横並びに
し、文法性、意味の等価性を人間が評価する	
  
19
評価結果
評価基準 粗い分類 細かい分類
文法性 0.64	
  –	
  0.79 0.51	
  –	
  0.56
意味の等価性 0.48	
  –	
  0.53 0.27	
  –	
  0.35
評価者各対のCohenのk
文数 文法性 意味の等価性 両方
SSeed 66 0.85 0.91 0.76
SLV 534 0.76 0.78 0.59
合計 600 0.75 0.79 0.61
自動生成した言い換え文の精度
言語依存の高価な言語資源をほとんど使用することなく、
構文解析器などを用いた従来手法と同等以上の精度を達成	
  
20
考察
文法カテゴリの変化	
  
•  The	
  safety	
  issue	
  was	
  considered	
  sufficiently	
  serious	
  for	
  all	
  
affected	
  parties	
  to	
  be	
  informed	
  
•  The	
  safety	
  issue	
  was	
  sufficient	
  consideration	
  serious	
  for	
  all	
  
affected	
  parties	
  to	
  be	
  informed
	
  
数や冠詞の違い	
  
•  There	
  are	
  tons	
  of	
  potential	
  buyers	
  of	
  military	
  weapons	
  
•  There	
  are	
  a	
  potential	
  buyer	
  of	
  military	
  weapons
21
まとめ
従来手法で自動的に獲得された言い換え知識を	
  
言い換え表現対に見られる語彙的対応関係に着目し、	
  
単言語コーパスで拡張する手法の提案	
  
	
  
この手法は高いカバレージ、許容可能程度の精度	
  
を達成できた	
  
	
  
今後は、英語以外の言語、他の手法で獲得した言い換えに
もこの手法を試していきたい。
22

More Related Content

Viewers also liked

読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10kentshioda
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26kentshioda
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目kentshioda
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースターkentshioda
 

Viewers also liked (7)

読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター
 

Similar to 読解支援プレゼン 4 28

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得swenbe
 
20180602 kawamura presentation_final
20180602 kawamura presentation_final20180602 kawamura presentation_final
20180602 kawamura presentation_finalYoshitake Misaki
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーBasis Technology K.K.
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 

Similar to 読解支援プレゼン 4 28 (8)

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得
 
20180602 kawamura presentation_final
20180602 kawamura presentation_final20180602 kawamura presentation_final
20180602 kawamura presentation_final
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 

読解支援プレゼン 4 28