放送大学テキスト「自然言語処理」 6章意味の解析(1)

自然言語処理黒橋禎夫著
第6章：意味の解析（１）
6.1 語の意味
6.1.1 語の意味の定義
6.1.2 語の創造的使用
6.1.3 シソーラス
6.2 同義性
6.2.1 同義語
6.2.2 分布類似度
6.3 多義性
6.3.1 多義語
6.3.2 語義曖昧性解消

初参加でいきなり発表者！？
自然言語処理：全くの専門外です、ド素人です
仕事は材料の研究者（吉武道子：前東京オリンピックを見たらしい）
でも・・・
仕事で必要になってしまいました・・・
独学するしかないケド・・・
とりあえずウェブでググれ⇒自然言語処理で有名な研究室のHPで
推薦している本
補欠繰り上がれなさそうだがどうしても参加したい！
⇒発表者枠なら空いている

6.1 語の意味
6.1.1 語の意味の定義
語の意味＝語によって表現される概念
概念の本質的な特徴・性質
内包
概念に含まれる（属す）全て
外延
定義
A= {x|xは10以下の奇数} A= {1, 3, 5, 9}

生物
植物動物
例：「植物」の定義：内包的定義＆外延的定義
上位概念・類
下位概念・種
特徴・性質を
受け継ぐ
特徴・性質を受け
継ぐ最も近い類
種差
種子植物シダ植物コケ植物
具体例の列挙
上位概念・類
下位概念・種
特徴・性質を
受け継ぐ
国語辞典：光合成を行う生物。種子植物、シダ植物、コケ植物などが
ある。

6.1.2 語の創造的使用
（１） a. 彼女はダイヤモンドのようだ。：直喩
b. 彼女はダイヤモンドだ。 ←ダイヤモンド＝輝くもの
c. 彼女はスターだ。←「星」＝輝くもの
（２） a. 鍋を食べる。中身－容器
b. 白バイに捕まる。付属物－主体
c. 漱石を読む。作者－作品
メタファー：特徴・属性（顕現性）に注目
メトメニー：近接性の関係による

6.1.3 シソーラス
シソーラス＝意味の上位下位関係、同義関係を中心に語を体系的
にまとめた辞書
・最初：1852年、英国の医師P.Roget（Roger’s Thesaurus）
・自然言語分野：1980年代～
プリンストン大学G.Mille、WordNet
最新版：WordNet3.0、12万synset（同義語の集合）、15万語
http://wordnet.Princeton.edu/

Synset：同意
語の集合
上位語
下位語
部分語
WordNet：synsetのリンク
Synset：同意
語の集合

WordNetの多言語への拡張
EuroWordNet：ヨーロッパ言語への拡張
中国語・アラビア語・インド諸言語のWordNet
日本語WordNet
日本語シソーラス
国立国語研究所による分類語彙集
EDR電子化辞書プロジェクトによる概念体系辞書
NTTによる日本語語彙体系
Wikipediaなどウェブ上の大規模辞書から、用語の説明・定義が「種差
＋最近類」となっていることを利用して上位下位関係を自動抽出
大規模コーパスから分布類似度の計算によって同義関係を捉える

6.2 同義性
ある意味を持つ語が複数ある：同義性
ある語が複数の意味を持つ：多義性
意味A
語１
意味A
語３語２
意味B 意味C
語１
同義性多義性

6.2 同義性
6.2.1 同義語
表記の異なり：
・｛center, centre｝、｛りんご、リンゴ、林檎｝、｛受付、受け付け｝
・｛あつい、あっつい、あつーい｝
異なる語：
・｛コンピュータ、計算機｝
・｛NHK、日本放送協会｝
・｛He、ヘリウム｝
・｛美しい、きれいだ｝
文脈に依存する類義表現：「景気が落ち込む」～「景気が冷え込む」
大きな単位での類義表現：
「～が大流行している」～「～の感染が広がっている」
言い換え表現

6.2.2 分布類似度
類義語の関係を大規模なコーパスから自動獲得する方法
「文脈の似ている語は類似している」
「共起する語が似ていれば類似している」
よく共起する語＝関連語：自己相互情報量（PMI）を尺度
PMI 𝑥, 𝑦 = 𝑙𝑜𝑔
𝑃 𝑥, 𝑦
𝑃 𝑥 𝑃 𝑦
𝑃 𝑥 , 𝑃 𝑦 ：コーパス中でのｘ、ｙそれぞれの出現確率
𝑃 𝑥, 𝑦 ：ある範囲にｘとｙが共起する確率
ｘとｙが無関係⇒𝑃 𝑥, 𝑦 ～𝑃 𝑥 𝑃 𝑦 ⇒PMI～0
ｘとｙが関係 ⇒𝑃 𝑥, 𝑦 > 𝑃 𝑥 𝑃 𝑦 ⇒PMI > 0
2つの語が同じような関連語⇒2つの語は類似

関連語の選択、その一致度の計算方法：
ｘ、ｙに対しPMI > 0 ⇒ 関連語 ⇒ 関連語の集合をX、Yとして
Jaccard係数：
Simpson係数：
Dice係数：
|𝑋 ∩ 𝑌|
|𝑋 ∪ 𝑌|
|𝑋 ∩ 𝑌|
min( 𝑋 , 𝑌 )
2|𝑋 ∩ 𝑌|
𝑋 + |𝑌|
「医者」の類義語：関連語「診せる」、「かかる」「宣告される」
⇒「医師」「ドクター」「主治医」「先生」
問題点：反意語も同じような関連語をもつ⇒類義語と反意語が
区別しにくい
X
Y

6.3 多義性
6.3.1 多義語：表記が同じで、複数の異なる意味を持つ語
英語： bank: 「銀行」「土手」
interest: 「利子」「興味」
日本語：こうえん：「公園」「公演」「後援」「講演」
「日中」「米」：一般語 vs. 固有名詞
「木構造」：「きこうぞう」データ構造の一種：コンピュータ科学
：「もくこうぞう」木材を用いる構造：建築分野

実際のテキスト中で使用されている語の語義を選択
＝語義曖昧性解消（WSD）
1) 最も素朴な方法：国語辞典などの語義（小見出し）の最初の語義を
選ぶ＝辞書では最も重要で高頻出の語義が最初に挙げられている
2) もうひとつの基本的方法：辞書の語義説明文と、解析対象の語の
文脈との重複が最も大きい語義を選択する
bank1: an institution that keeps and lends money
bank2: land along the side of a river or lake
“I have a little money in the bank”という文脈では、
“money”という語がbank1の説明文に含まれているのでbank1を選択

3) 各語の一定数の出現に語義を付与した注釈付与コーパスを用いて
教師有り学習をさせる（コーパスの構築コスト大）
・日本語：岩波国語辞典タグ付きコーパス
・英語：SemCor=WordNetの語義をBrown Corpusの中の約20万自立
語に付与したもの
・Wikipedia：見出し語となっている固有名・専門用語＝語義曖昧性解
消のための語義セット＆注釈付与コーパスとして利用可
多義の固有名・専門用語
各意味に対応する見出し語＝語義セット
見出しページへのリンク＝語義の注釈
日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与
コーパスと考えてSVMなどによって教師有り学習：～80％精度で多義
性解消

6.2.2 分布類似度：自己相互情報量（PMI）
PMI 𝑥, 𝑦 = 𝑙𝑜𝑔
𝑃 𝑥, 𝑦
𝑃 𝑥 𝑃 𝑦
語をベクトル化する必要がなく、なんとなくコードは想像できる
日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与
コーパスと考えてSVMなどによって教師有り学習：～80％精度で多
義性解消
SVMなどを使用するには、全ての語を同じ長さのベクトル（数値）に
する必要があり、その部分の想像がつかない

放送大学テキスト「自然言語処理」 6章意味の解析(1)

Recommended

Recommended

More Related Content

More from Retrieva inc.

More from Retrieva inc. (11)

Recently uploaded

Recently uploaded (11)