2. 文献について
•Automatic Retrieval and Clustering of
Similar Words
•Dekang Lin, Department of Computer
Science University of Manitoba, 1998,
ACL’98,Coling’98, Vol.2, pp.768-774
文献紹介:A Baseline System for Chinese Near-Synonym Choice 2
3. 概要
• Dependency tripleを用いた単語類似度を定義
• 定義した類似度測定手法を用いてシソーラスを作成
• 自動構築したシソーラスと既存のシソーラスの類似度
を測る方法を提案
文献紹介:A Baseline System for Chinese Near-Synonym Choice 3
4. はじめに
•A bottle of tezguino is on the table.
•Everyone likes tezguino.
•Tezguino makes you drunk.
•We make tezguino out of corn.
文献紹介:A Baseline System for Chinese Near-Synonym Choice 4
「tezguino」が「beer,wine,vodka」と
似ていると分かることが、本研究のゴール
6. 単語の類似度
•Dependecy triplesを利用(broad-coverage parser Lin,1993)
• 文中の2つの単語の文法関係を記述
“I have a brown dog”
(have subj I), (I subj-of have), (dog obj-of
have),(dog adj-mod brown), (brown adj-mod-of
dog), (dog, det a), (a det-of dog)
文献紹介:A Baseline System for Chinese Near-Synonym Choice 6
7. Dependency triples
• ||w,r,w‘||は(w,r,w’)の総数を示す
• ワイルドカードを使用する
• ||*,*,*||はコーパスから解析された全てのdependency
triplesを含む
• dependency triplesの頻度はそれぞれ独立と仮定
文献紹介:A Baseline System for Chinese Near-Synonym Choice 7
10. 使用するコーパス
•全6400万語
• Wall Street Journal(2400万語)
• San Jose Mercury(2100万語)
• AP Newswire(1900万語)
•5650万のdependency triplesを取得
• 各語は頻度100で足切り
文献紹介:A Baseline System for Chinese Near-Synonym Choice 10