SlideShare a Scribd company logo
1 of 19
Download to read offline
文献紹介(2015/4/16)
Automatic Retrieval and
Clustering of Similar Words
長岡技術科学大学 電気電子情報工学専攻
自然言語処理研究室 高橋寛治
文献について
•Automatic Retrieval and Clustering of
Similar Words
•Dekang Lin, Department of Computer
Science University of Manitoba, 1998,
ACL’98,Coling’98, Vol.2, pp.768-774
文献紹介:A Baseline System for Chinese Near-Synonym Choice 2
概要
• Dependency tripleを用いた単語類似度を定義
• 定義した類似度測定手法を用いてシソーラスを作成
• 自動構築したシソーラスと既存のシソーラスの類似度
を測る方法を提案
文献紹介:A Baseline System for Chinese Near-Synonym Choice 3
はじめに
•A bottle of tezguino is on the table.
•Everyone likes tezguino.
•Tezguino makes you drunk.
•We make tezguino out of corn.
文献紹介:A Baseline System for Chinese Near-Synonym Choice 4
「tezguino」が「beer,wine,vodka」と
似ていると分かることが、本研究のゴール
はじめに
•ブートストラップ法によりテキストから意味を取
得することがゴール
≒自動的にシソーラスを構築する
•統計的自然言語処理のデータスパースネス問題を
軽減する手段の一つとなる
文献紹介:A Baseline System for Chinese Near-Synonym Choice 5
単語の類似度
•Dependecy triplesを利用(broad-coverage parser Lin,1993)
• 文中の2つの単語の文法関係を記述
“I have a brown dog”
(have subj I), (I subj-of have), (dog obj-of
have),(dog adj-mod brown), (brown adj-mod-of
dog), (dog, det a), (a det-of dog)
文献紹介:A Baseline System for Chinese Near-Synonym Choice 6
Dependency triples
• ||w,r,w‘||は(w,r,w’)の総数を示す
• ワイルドカードを使用する
• ||*,*,*||はコーパスから解析された全てのdependency
triplesを含む
• dependency triplesの頻度はそれぞれ独立と仮定
文献紹介:A Baseline System for Chinese Near-Synonym Choice 7
出現しない組み合わせは共起情報から推定
• 無作為に選択したそれぞれの要素をもとに最尤推定を
行う
• 𝑃 𝑀𝐿𝐸 𝐴, 𝐵, 𝐶 = 𝑃 𝑀𝐿𝐸 𝐵 𝑃 𝑀𝐿𝐸 𝐴|𝐵 𝑃 𝑀𝐿𝐸 𝐶|𝐵
• 𝑃 𝑀𝐿𝐸 𝐵 =
||∗,𝑟,∗||
||∗,∗,∗||
, 𝑃 𝑀𝐿𝐸 𝐴|𝐵 =
||𝑤,𝑟,∗||
||∗,𝑟,∗||
, 𝑃 𝑀𝐿𝐸 𝐶|𝐵 =
||∗,𝑟,𝑤′||
||∗,𝑟,∗||
文献紹介:A Baseline System for Chinese Near-Synonym Choice 8
相互情報量を求め、類似度を計算
• 𝐼 𝑤, 𝑟, 𝑤′
= − log 𝑃 𝑀𝐿𝐸 𝐵 𝑃 𝑀𝐿𝐸 𝐴|𝐵 𝑃 𝑀𝐿𝐸 𝐶|𝐵 − − log 𝑃 𝑀𝐿𝐸 𝐴, 𝐵, 𝐶
単語1と単語2の類似度
文献紹介:A Baseline System for Chinese Near-Synonym Choice 9
使用するコーパス
•全6400万語
• Wall Street Journal(2400万語)
• San Jose Mercury(2100万語)
• AP Newswire(1900万語)
•5650万のdependency triplesを取得
• 各語は頻度100で足切り
文献紹介:A Baseline System for Chinese Near-Synonym Choice 10
類似度を計算しシソーラスを構築
• w(pos):w1,s1,w2,s2,…,wN,sN
• brief(noun):affidavit 0.13, petition 0.05,
memorandum 0.05
• brief(verb):tell 0.09, urge 0.07, ask 0.07, meet
0.06
• 最も似ている単語対を取得
• 名詞543ペア、動詞212ペア、形容詞・副詞382ペア
文献紹介:A Baseline System for Chinese Near-Synonym Choice 11
別の類似度計算でシソーラスの構築
•単語の類似度
• w(pos):w1,s1,w2,s2,…,wN,sN
• 提案手法と既存の類似度計算で比較
文献紹介:A Baseline System for Chinese Near-Synonym Choice 12
評価
• 自動で構築したシソーラスと、WordNet1.5・Roget
Thesaurusを比較
• それぞれのシソーラスでの類似度の計算(1997,Lin)
• S(w)はWordNetの同じsynsetの語,super(c)はcの上位クラス
• R(w)は同じRogetカテゴリーに属する語
文献紹介:A Baseline System for Chinese Near-Synonym Choice 13
シソーラス間の類似度
•シソーラス内での類似度を以下のように示す
• W:w1,s1,w2,s2,…,wN,sN
• W:w’1,s’1,w’2,s’2,…,w’N,s’N
•WordNet,Rogetを同じフォーマットに変更
•右の式で計算を行う
文献紹介:A Baseline System for Chinese Near-Synonym Choice 14
結果
•類似度の平均と標準偏差
• データ数のルートで平均を
割ったもの
•sim,Hindle rとcosineは
WordNetで高いスコア
文献紹介:A Baseline System for Chinese Near-Synonym Choice 15
評価結果
よく似た3つを比較
•統計的に優位かどうか確
認するために、類似度の
差を調査
•Simが他よりいい
文献紹介:A Baseline System for Chinese Near-Synonym Choice 16
相違点の分布
今後の課題
•信頼性の高い類似度を
抽出することが今後の
課題
文献紹介:A Baseline System for Chinese Near-Synonym Choice 17
まとめ
•自動で構築されたシソーラスの評価法を提案
• 自動構築と手動構築の比較を行える
•自動で構築したシソーラスはRoget Thesaurus
よりWordNetに近い
文献紹介:A Baseline System for Chinese Near-Synonym Choice 18
付録
文献紹介:A Baseline System for Chinese Near-Synonym Choice 19

More Related Content

More from Kanji Takahashi

More from Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
 
第4回 日英機械翻訳のための日本語長文自動短文分割と主語の補完
第4回 日英機械翻訳のための日本語長文自動短文分割と主語の補完第4回 日英機械翻訳のための日本語長文自動短文分割と主語の補完
第4回 日英機械翻訳のための日本語長文自動短文分割と主語の補完
 

Recently uploaded

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 

Recently uploaded (7)

次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 

20150415 automatic retirieval_and_clustering_of_similar_words