Advertisement
Advertisement

More Related Content

Recently uploaded(20)

Advertisement

放送大学テキスト「自然言語処理」 6章 意味の解析(1)

  1. 自然言語処理 黒橋禎夫 著 第6章:意味の解析(1) 6.1 語の意味 6.1.1 語の意味の定義 6.1.2 語の創造的使用 6.1.3 シソーラス 6.2 同義性 6.2.1 同義語 6.2.2 分布類似度 6.3 多義性 6.3.1 多義語 6.3.2 語義曖昧性解消
  2. 初参加でいきなり発表者!? 自然言語処理:全くの専門外です、ド素人です 仕事は材料の研究者(吉武道子:前東京オリンピックを見たらしい) でも・・・ 仕事で必要になってしまいました・・・ 独学するしかないケド・・・ とりあえずウェブでググれ⇒自然言語処理で有名な研究室のHPで 推薦している本 補欠繰り上がれなさそうだがどうしても参加したい! ⇒発表者枠なら空いている
  3. 6.1 語の意味 6.1.1 語の意味の定義 語の意味=語によって表現される概念 概念の本質的な特徴・性質 内包 概念に含まれる(属す)全て 外延 定義 A= {x|xは10以下の奇数} A= {1, 3, 5, 9}
  4. 生物 植物 動物 例:「植物」の定義:内包的定義&外延的定義 上位概念・類 下位概念・種 特徴・性質を 受け継ぐ 特徴・性質を受け 継ぐ最も近い類 種差 種子植物 シダ植物 コケ植物 具体例の列挙 上位概念・類 下位概念・種 特徴・性質を 受け継ぐ 国語辞典:光合成を行う生物。種子植物、シダ植物、コケ植物などが ある。
  5. 6.1.2 語の創造的使用 (1) a. 彼女はダイヤモンドのようだ。:直喩 b. 彼女はダイヤモンドだ。 ←ダイヤモンド=輝くもの c. 彼女はスターだ。←「星」=輝くもの (2) a. 鍋を食べる。 中身-容器 b. 白バイに捕まる。 付属物-主体 c. 漱石を読む。 作者-作品 メタファー:特徴・属性(顕現性)に注目 メトメニー:近接性の関係による
  6. 6.1.3 シソーラス シソーラス=意味の上位下位関係、同義関係を中心に語を体系的 にまとめた辞書 ・最初:1852年、英国の医師P.Roget(Roger’s Thesaurus) ・自然言語分野:1980年代~ プリンストン大学G.Mille、WordNet 最新版:WordNet3.0、12万synset(同義語の集合)、15万語 http://wordnet.Princeton.edu/
  7. Synset:同意 語の集合 上位語 下位語 部分語 WordNet:synsetのリンク Synset:同意 語の集合
  8. WordNetの多言語への拡張 EuroWordNet:ヨーロッパ言語への拡張 中国語・アラビア語・インド諸言語のWordNet 日本語WordNet 日本語シソーラス 国立国語研究所による分類語彙集 EDR電子化辞書プロジェクトによる概念体系辞書 NTTによる日本語語彙体系 Wikipediaなどウェブ上の大規模辞書から、用語の説明・定義が「種差 +最近類」となっていることを利用して上位下位関係を自動抽出 大規模コーパスから分布類似度の計算によって同義関係を捉える
  9. 6.2 同義性 ある意味を持つ語が複数ある: 同義性 ある語が複数の意味を持つ: 多義性 意味A 語1 意味A 語3語2 意味B 意味C 語1 同義性 多義性
  10. 6.2 同義性 6.2.1 同義語 表記の異なり: ・{center, centre}、{りんご、リンゴ、林檎}、{受付、受け付け} ・{あつい、あっつい、あつーい} 異なる語: ・{コンピュータ、計算機} ・{NHK、日本放送協会} ・{He、ヘリウム} ・{美しい、きれいだ} 文脈に依存する類義表現:「景気が落ち込む」~「景気が冷え込む」 大きな単位での類義表現: 「~が大流行している」~「~の感染が広がっている」 言い換え表現
  11. 6.2.2 分布類似度 類義語の関係を大規模なコーパスから自動獲得する方法 「文脈の似ている語は類似している」 「共起する語が似ていれば類似している」 よく共起する語=関連語:自己相互情報量(PMI)を尺度 PMI 𝑥, 𝑦 = 𝑙𝑜𝑔 𝑃 𝑥, 𝑦 𝑃 𝑥 𝑃 𝑦 𝑃 𝑥 , 𝑃 𝑦 :コーパス中でのx、yそれぞれの出現確率 𝑃 𝑥, 𝑦 :ある範囲にxとyが共起する確率 xとyが無関係⇒𝑃 𝑥, 𝑦 ~𝑃 𝑥 𝑃 𝑦 ⇒PMI~0 xとyが関係 ⇒𝑃 𝑥, 𝑦 > 𝑃 𝑥 𝑃 𝑦 ⇒PMI > 0 2つの語が同じような関連語⇒2つの語は類似
  12. 関連語の選択、その一致度の計算方法: x、yに対しPMI > 0 ⇒ 関連語 ⇒ 関連語の集合をX、Yとして Jaccard係数: Simpson係数: Dice係数: |𝑋 ∩ 𝑌| |𝑋 ∪ 𝑌| |𝑋 ∩ 𝑌| min( 𝑋 , 𝑌 ) 2|𝑋 ∩ 𝑌| 𝑋 + |𝑌| 「医者」の類義語:関連語「診せる」、「かかる」「宣告される」 ⇒「医師」「ドクター」「主治医」「先生」 問題点:反意語も同じような関連語をもつ⇒類義語と反意語が 区別しにくい X Y
  13. 6.3 多義性 6.3.1 多義語:表記が同じで、複数の異なる意味を持つ語 英語: bank: 「銀行」「土手」 interest: 「利子」「興味」 日本語: こうえん:「公園」「公演」「後援」「講演」 「日中」「米」:一般語 vs. 固有名詞 「木構造」:「きこうぞう」データ構造の一種:コンピュータ科学 :「もくこうぞう」木材を用いる構造:建築分野
  14. 実際のテキスト中で使用されている語の語義を選択 =語義曖昧性解消(WSD) 1) 最も素朴な方法:国語辞典などの語義(小見出し)の最初の語義を 選ぶ=辞書では最も重要で高頻出の語義が最初に挙げられている 6.3.2 語義曖昧性解消 2) もうひとつの基本的方法:辞書の語義説明文と、解析対象の語の 文脈との重複が最も大きい語義を選択する bank1: an institution that keeps and lends money bank2: land along the side of a river or lake “I have a little money in the bank”という文脈では、 “money”という語がbank1の説明文に含まれているのでbank1を選択
  15. 3) 各語の一定数の出現に語義を付与した注釈付与コーパスを用いて 教師有り学習をさせる(コーパスの構築コスト大) ・日本語:岩波国語辞典タグ付きコーパス ・英語:SemCor=WordNetの語義をBrown Corpusの中の約20万自立 語に付与したもの ・Wikipedia:見出し語となっている固有名・専門用語=語義曖昧性解 消のための語義セット&注釈付与コーパスとして利用可 多義の固有名・専門用語 各意味に対応する見出し語=語義セット 見出しページへのリンク=語義の注釈 日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与 コーパスと考えてSVMなどによって教師有り学習:~80%精度で多義 性解消
  16. 6.2.2 分布類似度:自己相互情報量(PMI) PMI 𝑥, 𝑦 = 𝑙𝑜𝑔 𝑃 𝑥, 𝑦 𝑃 𝑥 𝑃 𝑦 語をベクトル化する必要がなく、なんとなくコードは想像できる 6.3.2 語義曖昧性解消 日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与 コーパスと考えてSVMなどによって教師有り学習:~80%精度で多 義性解消 SVMなどを使用するには、全ての語を同じ長さのベクトル(数値)に する必要があり、その部分の想像がつかない
Advertisement