読解支援プレゼン 4 28

語彙的対応関係の一般化に基づく

言い換え知識の拡張

藤田篤 Pierre
Isabelle

情報通信研究機構 National
Research
Council
Canada

言語処理学会第21回年次大会発表論文集

D1-‐5,
pp.321-‐324,
2015
紹介者：塩田健人
1

概要
・言い換えを頑健かつ精度よく自動生成するためには

多くの言い換え知識が不可欠である

・現在の言い換え技術では精度のよい言い換えをするには

高品質な言語資源が必要

例：Catvar,
Word
Net

・しかし、構築・保守にかかる人的コストは大きく、

高価な資源である

そこで、

『言語依存の高価な言語資源を使わずに

精度のよい言い換え手法を提案する』
2

先行研究
１.単言語コーパスに基づく方法
•  分布仮説に基づいて使用される文脈が類似している
（文脈類似度が高い）表現の対を言い換え表現対とし
て獲得する。
•  反義関係や上位ー下位関係などの同義以外の関係を持
つ表現の対も高い文脈類似度を持つため、精度は低い。
3

先行研究
２.単言語パラレル／コンパラブルコーパスに基づく方法
•  .単言語パラレル／コンパラブルコーパスの対応する文
の対における同義の部分を使い、精度よく言い換え表
現対を獲得できる。
•  単言語コーパスほどのカバレージを得ることは出来な
い。
4

先行研究
３.異言語パラレルコーパス（対訳コーパス）に基づく方法
•  異なる言語において共通の訳を持つ表現を言い換えと
して獲得できる。
•  しかし、たとえ大きな対訳コーパスであっても単言語
コーパスに比べると極めて小さく、言い換えカバレー
ジも低い
5

提案手法

言い換え知識中の個々の言い換え表現対における

語彙的な対応関係に着目し、言い換えパターンの獲得

獲得した言い換えパターンを用いて、
単言語コーパスから新たな言い換え表現対を収集する

6

提案手法
言い換えパターンの獲得
言い換え表現対Sseedから言い換えパターンの獲得
接辞パターンの候補を獲得
抽出された接辞パターンの候補をフィルタリングする
7

提案手法
8

提案手法

Amendment
of
regulation

amending
regulation

X
:
ment
of
Y
:
ϕ ⇔ X : ing Y : ϕ

investment
of
resources

investing
resources

recruitment
of
engineers

recruiting
engineers

•  上記のような元々の対とは表層的に全く異なる語で構成
される対も得られる。
9

着目する語群
•  派生語

o  表記や意味の一部を共有する異なる語の群

{“develop”,
“developer”,
“development”,
…}

•  活用形／屈折形

o  活用や屈折に由来する同じ語の異なる出現形

{“amend”,
“amends”,
“amending”,
…}

•  異表記

o  同じ語の同じ活用形／屈折形の異なる表記

{“color”,
“colour”},
{“authorize”,
“authorise”,
…}

10

提案手法
11

提案手法
•  高品質なSseedを前提として

•  言い換え表現対の各辺にあり、同じ語幹をもつ語の対は、
特定の（意味的な）関係を持つ
語1 語2 接辞1 接辞2 語幹
aimed

aimed

achieving

achieving

aims

achieve

aims

achieve

X
:
ed

X
:
imed

X
:
chieving

X
:
ing
X
:
s

X
:
chieve

X
:
ims

X
:
e
aim

a

a

achiev

12

提案手法
13

提案手法
•  抽出した接辞パターンの品質保持のため

長さk以上の語幹n種類以上に対して

観察された接辞パターンのみを残す。
接辞1 接辞2
語幹の種類数
結果
長さ
≥
5
長さ
<
5

X
:
chieve

X
:
chieving

X
:
ed

X
:
ing
X
:
imed

X
:
ims

X
:
s

X
:
e
0

0

69

330

1

1

22

70
捨てる

捨てる

残す

残す

14

新規言い換え表現の獲得
15

コーパス

•  Europarl

o  英仏対200万文（英語5570万語、仏語6190万語）

o  使用したコーパス

•  英語側とNews
Crawl
5,200万文、12.0億語

•  NTCIR

o  日英対320万文（英語1.07億語、日本語1.16億形態素）

o  使用したコーパス

•  英語側とNTCIRの単言語文書3,990万文、13.6億語

16

問題点
People
of
Europe

European
population

People
of
X
:
ϕ
⇔
X
:
an
population

単言語コーパスで同じ関係を持つ

(“Haiti”,
”Haitian”),
(“suburb”,
“suburban”)だけでなく

(“uncle”,
“unclean”)など語の意味ではなく、語の形だけで
抽出されてしまう

文脈類似度を単言語コーパスから計算して、置き換え出来
ないような対を除外する
17

拡張結果
SLVとSseed中の

言い換え表現対の数

SLVとSseed中の

言い換え表現対の数の比

18

評価
•  評価設定

o  自動生成した言い換え文が文法的か

o  言い換え文が原文と同じ意味を持つか

•  評価方法

o  同じ原文から得られた複数の言い換え文を横並びに
し、文法性、意味の等価性を人間が評価する

19

評価結果
評価基準粗い分類細かい分類
文法性 0.64
–
0.79 0.51
–
0.56
意味の等価性 0.48
–
0.53 0.27
–
0.35
評価者各対のCohenのk
文数文法性意味の等価性両方
SSeed 66 0.85 0.91 0.76
SLV 534 0.76 0.78 0.59
合計 600 0.75 0.79 0.61
自動生成した言い換え文の精度
言語依存の高価な言語資源をほとんど使用することなく、
構文解析器などを用いた従来手法と同等以上の精度を達成

20

考察
文法カテゴリの変化

•  The
safety
issue
was
considered
sufficiently
serious
for
all

affected
parties
to
be
informed

•  The
safety
issue
was
sufficient
consideration
serious
for
all

affected
parties
to
be
informed

数や冠詞の違い

•  There
are
tons
of
potential
buyers
of
military
weapons

•  There
are
a
potential
buyer
of
military
weapons
21

まとめ
従来手法で自動的に獲得された言い換え知識を

言い換え表現対に見られる語彙的対応関係に着目し、

単言語コーパスで拡張する手法の提案

この手法は高いカバレージ、許容可能程度の精度

を達成できた

今後は、英語以外の言語、他の手法で獲得した言い換えに
もこの手法を試していきたい。
22

読解支援プレゼン 4 28

More Related Content

Viewers also liked

Similar to 読解支援プレゼン 4 28

読解支援プレゼン 4 28