SlideShare a Scribd company logo
1 of 17
自然言語処理 黒橋禎夫 著
第6章:意味の解析(1)
6.1 語の意味
6.1.1 語の意味の定義
6.1.2 語の創造的使用
6.1.3 シソーラス
6.2 同義性
6.2.1 同義語
6.2.2 分布類似度
6.3 多義性
6.3.1 多義語
6.3.2 語義曖昧性解消
初参加でいきなり発表者!?
自然言語処理:全くの専門外です、ド素人です
仕事は材料の研究者(吉武道子:前東京オリンピックを見たらしい)
でも・・・
仕事で必要になってしまいました・・・
独学するしかないケド・・・
とりあえずウェブでググれ⇒自然言語処理で有名な研究室のHPで
推薦している本
補欠繰り上がれなさそうだがどうしても参加したい!
⇒発表者枠なら空いている
6.1 語の意味
6.1.1 語の意味の定義
語の意味=語によって表現される概念
概念の本質的な特徴・性質
内包
概念に含まれる(属す)全て
外延
定義
A= {x|xは10以下の奇数} A= {1, 3, 5, 9}
生物
植物 動物
例:「植物」の定義:内包的定義&外延的定義
上位概念・類
下位概念・種
特徴・性質を
受け継ぐ
特徴・性質を受け
継ぐ最も近い類
種差
種子植物 シダ植物 コケ植物
具体例の列挙
上位概念・類
下位概念・種
特徴・性質を
受け継ぐ
国語辞典:光合成を行う生物。種子植物、シダ植物、コケ植物などが
ある。
6.1.2 語の創造的使用
(1) a. 彼女はダイヤモンドのようだ。:直喩
b. 彼女はダイヤモンドだ。 ←ダイヤモンド=輝くもの
c. 彼女はスターだ。←「星」=輝くもの
(2) a. 鍋を食べる。 中身-容器
b. 白バイに捕まる。 付属物-主体
c. 漱石を読む。 作者-作品
メタファー:特徴・属性(顕現性)に注目
メトメニー:近接性の関係による
6.1.3 シソーラス
シソーラス=意味の上位下位関係、同義関係を中心に語を体系的
にまとめた辞書
・最初:1852年、英国の医師P.Roget(Roger’s Thesaurus)
・自然言語分野:1980年代~
プリンストン大学G.Mille、WordNet
最新版:WordNet3.0、12万synset(同義語の集合)、15万語
http://wordnet.Princeton.edu/
Synset:同意
語の集合
上位語
下位語
部分語
WordNet:synsetのリンク
Synset:同意
語の集合
WordNetの多言語への拡張
EuroWordNet:ヨーロッパ言語への拡張
中国語・アラビア語・インド諸言語のWordNet
日本語WordNet
日本語シソーラス
国立国語研究所による分類語彙集
EDR電子化辞書プロジェクトによる概念体系辞書
NTTによる日本語語彙体系
Wikipediaなどウェブ上の大規模辞書から、用語の説明・定義が「種差
+最近類」となっていることを利用して上位下位関係を自動抽出
大規模コーパスから分布類似度の計算によって同義関係を捉える
6.2 同義性
ある意味を持つ語が複数ある: 同義性
ある語が複数の意味を持つ: 多義性
意味A
語1
意味A
語3語2
意味B 意味C
語1
同義性 多義性
6.2 同義性
6.2.1 同義語
表記の異なり:
・{center, centre}、{りんご、リンゴ、林檎}、{受付、受け付け}
・{あつい、あっつい、あつーい}
異なる語:
・{コンピュータ、計算機}
・{NHK、日本放送協会}
・{He、ヘリウム}
・{美しい、きれいだ}
文脈に依存する類義表現:「景気が落ち込む」~「景気が冷え込む」
大きな単位での類義表現:
「~が大流行している」~「~の感染が広がっている」
言い換え表現
6.2.2 分布類似度
類義語の関係を大規模なコーパスから自動獲得する方法
「文脈の似ている語は類似している」
「共起する語が似ていれば類似している」
よく共起する語=関連語:自己相互情報量(PMI)を尺度
PMI 𝑥, 𝑦 = 𝑙𝑜𝑔
𝑃 𝑥, 𝑦
𝑃 𝑥 𝑃 𝑦
𝑃 𝑥 , 𝑃 𝑦 :コーパス中でのx、yそれぞれの出現確率
𝑃 𝑥, 𝑦 :ある範囲にxとyが共起する確率
xとyが無関係⇒𝑃 𝑥, 𝑦 ~𝑃 𝑥 𝑃 𝑦 ⇒PMI~0
xとyが関係 ⇒𝑃 𝑥, 𝑦 > 𝑃 𝑥 𝑃 𝑦 ⇒PMI > 0
2つの語が同じような関連語⇒2つの語は類似
関連語の選択、その一致度の計算方法:
x、yに対しPMI > 0 ⇒ 関連語 ⇒ 関連語の集合をX、Yとして
Jaccard係数:
Simpson係数:
Dice係数:
|𝑋 ∩ 𝑌|
|𝑋 ∪ 𝑌|
|𝑋 ∩ 𝑌|
min( 𝑋 , 𝑌 )
2|𝑋 ∩ 𝑌|
𝑋 + |𝑌|
「医者」の類義語:関連語「診せる」、「かかる」「宣告される」
⇒「医師」「ドクター」「主治医」「先生」
問題点:反意語も同じような関連語をもつ⇒類義語と反意語が
区別しにくい
X
Y
6.3 多義性
6.3.1 多義語:表記が同じで、複数の異なる意味を持つ語
英語: bank: 「銀行」「土手」
interest: 「利子」「興味」
日本語: こうえん:「公園」「公演」「後援」「講演」
「日中」「米」:一般語 vs. 固有名詞
「木構造」:「きこうぞう」データ構造の一種:コンピュータ科学
:「もくこうぞう」木材を用いる構造:建築分野
実際のテキスト中で使用されている語の語義を選択
=語義曖昧性解消(WSD)
1) 最も素朴な方法:国語辞典などの語義(小見出し)の最初の語義を
選ぶ=辞書では最も重要で高頻出の語義が最初に挙げられている
6.3.2 語義曖昧性解消
2) もうひとつの基本的方法:辞書の語義説明文と、解析対象の語の
文脈との重複が最も大きい語義を選択する
bank1: an institution that keeps and lends money
bank2: land along the side of a river or lake
“I have a little money in the bank”という文脈では、
“money”という語がbank1の説明文に含まれているのでbank1を選択
3) 各語の一定数の出現に語義を付与した注釈付与コーパスを用いて
教師有り学習をさせる(コーパスの構築コスト大)
・日本語:岩波国語辞典タグ付きコーパス
・英語:SemCor=WordNetの語義をBrown Corpusの中の約20万自立
語に付与したもの
・Wikipedia:見出し語となっている固有名・専門用語=語義曖昧性解
消のための語義セット&注釈付与コーパスとして利用可
多義の固有名・専門用語
各意味に対応する見出し語=語義セット
見出しページへのリンク=語義の注釈
日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与
コーパスと考えてSVMなどによって教師有り学習:~80%精度で多義
性解消
6.2.2 分布類似度:自己相互情報量(PMI)
PMI 𝑥, 𝑦 = 𝑙𝑜𝑔
𝑃 𝑥, 𝑦
𝑃 𝑥 𝑃 𝑦
語をベクトル化する必要がなく、なんとなくコードは想像できる
6.3.2 語義曖昧性解消
日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与
コーパスと考えてSVMなどによって教師有り学習:~80%精度で多
義性解消
SVMなどを使用するには、全ての語を同じ長さのベクトル(数値)に
する必要があり、その部分の想像がつかない

More Related Content

More from Retrieva inc.

自然言語処理勉強会11章 情報抽出と知識獲得
自然言語処理勉強会11章 情報抽出と知識獲得自然言語処理勉強会11章 情報抽出と知識獲得
自然言語処理勉強会11章 情報抽出と知識獲得Retrieva inc.
 
キートップのノベルティを作った話
キートップのノベルティを作った話キートップのノベルティを作った話
キートップのノベルティを作った話Retrieva inc.
 
キーボード自作のススメ
キーボード自作のススメキーボード自作のススメ
キーボード自作のススメRetrieva inc.
 
レトリバのキートップ説明書
レトリバのキートップ説明書レトリバのキートップ説明書
レトリバのキートップ説明書Retrieva inc.
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎Retrieva inc.
 
Chainer の Trainer 解説と NStepLSTM について
Chainer の Trainer 解説と NStepLSTM についてChainer の Trainer 解説と NStepLSTM について
Chainer の Trainer 解説と NStepLSTM についてRetrieva inc.
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことRetrieva inc.
 
20170221 cnet live講演資料
20170221 cnet live講演資料20170221 cnet live講演資料
20170221 cnet live講演資料Retrieva inc.
 
Making Google Cardboard and Laser Cutter
Making Google Cardboard and Laser CutterMaking Google Cardboard and Laser Cutter
Making Google Cardboard and Laser CutterRetrieva inc.
 
Chainerで学ぶdeep learning
Chainerで学ぶdeep learningChainerで学ぶdeep learning
Chainerで学ぶdeep learningRetrieva inc.
 

More from Retrieva inc. (11)

自然言語処理勉強会11章 情報抽出と知識獲得
自然言語処理勉強会11章 情報抽出と知識獲得自然言語処理勉強会11章 情報抽出と知識獲得
自然言語処理勉強会11章 情報抽出と知識獲得
 
キートップのノベルティを作った話
キートップのノベルティを作った話キートップのノベルティを作った話
キートップのノベルティを作った話
 
キーボード自作のススメ
キーボード自作のススメキーボード自作のススメ
キーボード自作のススメ
 
レトリバのキートップ説明書
レトリバのキートップ説明書レトリバのキートップ説明書
レトリバのキートップ説明書
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎
 
Chainer の Trainer 解説と NStepLSTM について
Chainer の Trainer 解説と NStepLSTM についてChainer の Trainer 解説と NStepLSTM について
Chainer の Trainer 解説と NStepLSTM について
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
 
20170221 cnet live講演資料
20170221 cnet live講演資料20170221 cnet live講演資料
20170221 cnet live講演資料
 
Making Google Cardboard and Laser Cutter
Making Google Cardboard and Laser CutterMaking Google Cardboard and Laser Cutter
Making Google Cardboard and Laser Cutter
 
Chainerで学ぶdeep learning
Chainerで学ぶdeep learningChainerで学ぶdeep learning
Chainerで学ぶdeep learning
 

Recently uploaded

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

放送大学テキスト「自然言語処理」 6章 意味の解析(1)