SlideShare a Scribd company logo
1 of 16
Download to read offline
共起要素の
クラスタリングを用いた
分布類似度計算
長岡技術科学大学 電気系 山本研究室
大平 真一,山本 和英
単語類似度とは
 意味が近い語同士を類似する単語とする
 『そば』 と 『うどん』 は共通点が多い→類似度が高い
 『そば』 と 『缶』 は性質など全く異なる→類似度が低い
 コーパスを用いた類似度計算
 類似した文脈の語同士は似ている:分布仮説
 コーパス内での単語の使われ方を比較
→分布類似度
①
分布類似度とは
単語と素性の例 (共起要素を素性とした場合)
 『そば』 「を,打つ」 「を,食べる」 「の,原料」
 『うどん』 「を,打つ」 「を,食べる」 「の,原料」
 『缶』 「を,蹴る」 「を,あける」 「の,ふた」
共通する素性が多い → 類似度が高い
共通する素性が少ない → 類似度が低い
②
既存研究
 [相澤, 08]
- 特徴を強く表す素性のみを使用
 [柴田ら, 09]
- 類似度計算に用いる式の検討
 [Maayan Zhitomirsky-Geffet and Dagan, 09]
- ブートストラップ法を用いての素性選択
 [朝倉ら, 10]
- 重みの相対性を用いた素性選択
③
提案手法
 計算に用いる共起要素をクラスタリングする
 人名などの単語に依存する素性が有効となる
『単語 w』 : 「共起要素」 = 「格要素r,係り先の語w’」
『ドイツ』 : 「の,ビール」 「の,首相」 「の,州」
『フランス』 : 「の,人々」 「の,大統領」 「の,地域圏」
等価な意味の共起要素が
有効な素性となる例
④
システム全体の流れ
1. 共起要素の自動獲得
 単語と共起要素の対を獲得[Lin, 98]
2. 共起要素のクラスタリング
 クラスタリングツールbayonを用いる
3. 関数を用いた類似度計算
 Weight 関数によるノイズ低減と
Measure 関数による類似度計算 [柴田ら, 09]
⑤
クラスタリング
『ドイツ』 : 「の,ビール」 「の,首相」 「の,州」
『フランス』 : 「の,人々」 「の,大統領」 「の,地域圏」
↓
『ドイツ』 : 「クラスタa」 「クラスタx」 「クラスタy」
『フランス』 : 「クラスタb」 「クラスタx」 「クラスタy」
例
 共起要素をクラスタリング結果に置き換える
⑥
クラスタリング : 手法
 bayonによる共起要素のクラスタリング
 共起要素の特徴量として単語と共起回数を使用する
『の:銀閣寺』: 京都(5),都市左京区(3),東山(4)
クラスタa → 「の:南禅寺」,「の:銀閣寺」
出力例
入力例
 『強』類義語ペア→フランス:ドイツ
 『中』類義語ペア→フランス:欧州
 『弱』類義語ペア→フランス:日本人
 『非』類義語ペア→フランス:建物
評価手法
 シソーラスから類義語ペアを自動生成
 『強』や『弱』など段階を設定する[朝倉ら, 10]
 各段階ごとに800セットをランダムで使用
例
⑦
 対象コーパス中の「AやB」という表現から『A:B』を候補とする
 分類語彙表の階層を用いて類義語の強度を設定
物品人間活動の主体
家屋
建物
固有地名 人種・民族
フランス
ドイツ
欧州 日本人
評価セットの作成
評価手法イメージ
 段階の異なる類義語ペアを類似度計算
 800ペアずつ判定したときの誤り数を求める
『強』類義語ペア
800対
『弱』類義語ペア
800対
1
800
801
1600
類
似
度
[順位]
判
定
誤
り
⑧
実験条件
 使用したコーパス
 日本経済新聞全記事データベース
1990~2004年度版
 単語のユニーク数 : 145,057 個
 共起要素のユニーク数 : 158,057 個
 クラスタ数
 12,500,2万5千,5万,7万5千,10万,12万5千
⑨
結果
 全ての評価セットにおいて誤り数の減少
が見られた
→手法は有効であるといえる
評価セット 柴田らの手法 提案手法 クラスタ数
『強+中』 582 554 50,000
『中+弱』 440 418 50,000
『弱+非』 192 190 75,000
⑩
結果 : 評価セット『強+中』
550
560
570
580
590
10000 30000 50000 70000 90000 110000 130000
判定誤り数
クラスタ数
提案手法
柴田らの手法
考察
 クラスタリングが原因の判定誤りがあった
→精度向上に寄与するクラスタを選択する手法が
求められる
 改善例には国名・地域名が多く見られた
 特に『強+中』のセットにおいては39%を占めた
→人名などのクラスタリングの効果が強く表れた
⑪
まとめ
 クラスタリングを行うことで等価な意味を持つ
共起要素をまとめることを狙った
 既存手法に対して誤り数の減少を確認し、
有効性を示した
 国名・地域名に対して特に効果が確認された
⑫

More Related Content

What's hot

状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
Yohei Sato
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 

What's hot (20)

『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
パンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoderパンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoder
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
Rでのtry関数によるエラー処理
Rでのtry関数によるエラー処理Rでのtry関数によるエラー処理
Rでのtry関数によるエラー処理
 
Uplift Modelling 入門(1)
Uplift Modelling 入門(1)Uplift Modelling 入門(1)
Uplift Modelling 入門(1)
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
RとWeb API
RとWeb APIRとWeb API
RとWeb API
 
Shinyユーザのための非同期プログラミング入門
Shinyユーザのための非同期プログラミング入門Shinyユーザのための非同期プログラミング入門
Shinyユーザのための非同期プログラミング入門
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法
 
主成分分析
主成分分析主成分分析
主成分分析
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

共起要素のクラスタリングを用いた分布類似度計算