SlideShare a Scribd company logo
1 of 16
Download to read offline
NAACL読み会2015-­‐06-­‐24	
  
	
  
A	
  Comparison	
  of	
  Word	
  Similarity	
  
Performance	
  Using	
  Explanatory	
  and	
  
Non-­‐explanatory	
  Texts	
  
	
  
Lifeng	
  Jin;	
  William	
  Schuler	
プレゼンテーション	
  
関沢祐樹	
2015/06/24	
 1
概要	
•  大きなデータセットからなる単語ベクトル表現	
  
–  単語親密度タスクで良い成果	
  
•  この論文の手法	
  
–  小さなデータセットからなるベクトル表現	
  
•  English	
  Wikipedia	
  と	
  Simple	
  English	
  Wikipediaを使用	
  	
  
–  十分な語彙意味情報を含む	
  
•  提案手法の結果	
  
–  カテゴリ判定で等しい、あるいはより良い正解率	
  
2015/06/24	
 2
はじめに	
•  説明的テキスト	
  
– 例:“◯	
  ◯とは△△である”	
  
– Full	
  	
  	
  	
  	
  	
  	
  English	
  Wikipedia	
  (FW)	
  
– Simple	
  English	
  Wikipedia	
  (SW)	
  を使用	
  
•  非説明的テキスト	
  
– 単語などの説明部分がない	
  
– Google	
  News	
  を使用	
  
•  上記データよりも大規模なコーパス	
  
2015/06/24	
 3
データ量(2014年12月時点)	
•  Wikipedia	
  
– 記事数:460万以上	
  
– 単語数:16億以上	
  
– かなりの大きさ、カバレージ。単語埋め込みに重要	
  
•  Simple	
  English	
  Wikipedia	
  
– 単純な単語、文法で書かれた記事	
  
– 記事数:約12万	
  
– 単語数:約2000万	
  
2015/06/24	
 4
Word2vec	
•  単語の表現、単語埋め込みのためのベクトル	
  
•  ConGnuous	
  Bag-­‐of-­‐Words	
  (CBOW)	
  	
  
–  周囲の複数単語から1つの単語を推測	
  
–  文脈依存の単語に有利	
  
–  大規模コーパスで訓練された高頻度単語で良いパ
フォーマンス、高正解率	
  
•  Skip-­‐gram	
  (SG)	
  
–  1つの単語から周辺単語を推測	
  
–  文脈的に優れたモデルを生成可能	
  
–  少量の訓練データ、出現頻度の低い単語に良い	
  
2015/06/24	
 5
本論文の目的	
•  モデル同士を比較するのではない	
  
•  訓練コーパスを比較するためにモデルを使用	
  
•  単語埋め込みで、情報の違いがどのように現
れるかを見ていく	
2015/06/24	
 6
実験手法	
•  似た単語ペアを高い順にランク付け	
  
1.  単語埋め込みによるコサイン類似度の計算	
  
•  類似度スコアの高い順にソート	
  
2.  類似度単語ペアの最初のn%の中で、最後のペアを探す	
  
3.  最後のペアを境界とするサブリストの類似単語ペアの	
  
   割合を決定	
  
	
  
–  ある再現率(10%区切り)の時、類似単語ペアを成功した
探索として正解率を決定	
  
2015/06/24	
 7
テストデータ	
•  WordSim353を使用	
  
– 単語のペアを人手でアノテーションしたもの	
  
– 似ているor関連しているか判定	
  
•  類似単語ペア:100	
  
•  関連単語ペア:149	
  
•  関係がほぼない、全くないペア:104	
  
– 評価タスクでは、一番下のペアは不使用	
  
•  249単語ペアのみを使用する	
  
2015/06/24	
 8
モデル	
•  全てのword2vec	
  の訓練にgensim	
  を使用	
  
– python	
  で使う	
  word2vec	
  の構築	
  
– Skip-­‐gram,CBOWは単語を5つずつ切り出す	
  
– 単語出現回数5回以下は対象外	
  
– 単語埋め込みの次元は300	
  
– Google	
  Newsからも、Skip-­‐gramを作成	
  
– 訓練データに100億単語を使用	
  
•  FW	
  の30倍、SWの240倍	
2015/06/24	
 9
結果	
•  GN-­‐SGは最も大きいデータセットで訓練したが、	
  
  最も良い成果を出さなかった	
  
•  FWとSWの成果が、両手法でほぼ同じ	
  
–  FWを使ったことによる利益は成果としてでない	
  
2015/06/24	
 10
結果	
	
  
•  FW-­‐CBOWが全体的にもっともよい	
  
– 最初の方は、等しい、あるいは少し悪い	
  
2015/06/24	
 11
結果のまとめ	
•  小さいデータセットが良い結果である	
  
– 主要ではない	
  
•  小さい説明的訓練データセットの結果	
  
– 大規模コーパスの結果と非常に近いこと	
  
– これについて分析する	
2015/06/24	
 12
分析	
•  Google	
  Newsより優れた理由	
  
– 機能的、シンタクス的類似度を測定するため	
  
– シンタクス的情報が単語埋め込みの大部分要素
であるかどうかは明らかでない	
  
•  類義語、下位語などの似ている単語	
  
– 意味的な素性が似ている	
  
– 文脈を見ると同じ単語が同じ位置によく出現	
  
– 例:PHYSICSとCHEMISTRYのペア	
  
•  1つ前にquantumが多く出現	
  
2015/06/24	
 13
分析	
•  ある単語の一般的知識	
  
– 説明的テキストで見つかる	
  
•  繰り返し書かれている場合もある	
  
– ニュース記事のような非説明的テキストにはない	
  
•  書き手は、読み手の基礎知識を想定	
  
•  わざわざ説明の情報を載せる必要がない	
  
– 説明的テキストの方が、データが少ないけれど、
一般的知識は伝わる	
2015/06/24	
 14
FWとSWを比較	
•  FWとSWの違い:データ量	
  
– FWの方が情報量は多い	
  
– 実験結果はあまり変わらない	
  
– 説明的テキストの性質が関係	
  
– 概念を明らかにする要素がどちらにも存在	
  
– FWで加えられる新しく、まばらな情報を支配	
  
•  SWでも出現する単語が支配している	
  
2015/06/24	
 15
まとめ	
•  Wikipediaのような説明的テキストデータセット
からなるベクトル表現の正解率は、より大きな
ニュースコーパスの正解率以上であった	
  
•  理由として、説明的テキストには、常識が広く
存在したことと分析した	
  
•  将来の研究者が他の言語でも同様に	
  
  良いベクトルを生み出せると気づいてほしい	
2015/06/24	
 16

More Related Content

More from sekizawayuuki

Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...sekizawayuuki
 
paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...sekizawayuuki
 
Coling2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translationColing2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translationsekizawayuuki
 
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善sekizawayuuki
 
Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15sekizawayuuki
 
Acl reading@2016 10-26
Acl reading@2016 10-26Acl reading@2016 10-26
Acl reading@2016 10-26sekizawayuuki
 
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...sekizawayuuki
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09sekizawayuuki
 
Acl読み会@2015 09-18
Acl読み会@2015 09-18Acl読み会@2015 09-18
Acl読み会@2015 09-18sekizawayuuki
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6sekizawayuuki
 
読解支援@2015 08-10-5
読解支援@2015 08-10-5読解支援@2015 08-10-5
読解支援@2015 08-10-5sekizawayuuki
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4sekizawayuuki
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3sekizawayuuki
 
読解支援@2015 08-10-2
読解支援@2015 08-10-2読解支援@2015 08-10-2
読解支援@2015 08-10-2sekizawayuuki
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1sekizawayuuki
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24sekizawayuuki
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17sekizawayuuki
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13sekizawayuuki
 
読解支援@2015 07-03
読解支援@2015 07-03読解支援@2015 07-03
読解支援@2015 07-03sekizawayuuki
 

More from sekizawayuuki (20)

Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...Incorporating word reordering knowledge into attention-based neural machine t...
Incorporating word reordering knowledge into attention-based neural machine t...
 
paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...paper introducing: Exploiting source side monolingual data in neural machine ...
paper introducing: Exploiting source side monolingual data in neural machine ...
 
Coling2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translationColing2016 pre-translation for neural machine translation
Coling2016 pre-translation for neural machine translation
 
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
 
Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15Emnlp読み会@2017 02-15
Emnlp読み会@2017 02-15
 
Acl reading@2016 10-26
Acl reading@2016 10-26Acl reading@2016 10-26
Acl reading@2016 10-26
 
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
[論文紹介]Selecting syntactic, non redundant segments in active learning for mach...
 
Nlp2016 sekizawa
Nlp2016 sekizawaNlp2016 sekizawa
Nlp2016 sekizawa
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09
 
Acl読み会@2015 09-18
Acl読み会@2015 09-18Acl読み会@2015 09-18
Acl読み会@2015 09-18
 
読解支援@2015 08-10-6
読解支援@2015 08-10-6読解支援@2015 08-10-6
読解支援@2015 08-10-6
 
読解支援@2015 08-10-5
読解支援@2015 08-10-5読解支援@2015 08-10-5
読解支援@2015 08-10-5
 
読解支援@2015 08-10-4
読解支援@2015 08-10-4読解支援@2015 08-10-4
読解支援@2015 08-10-4
 
読解支援@2015 08-10-3
読解支援@2015 08-10-3読解支援@2015 08-10-3
読解支援@2015 08-10-3
 
読解支援@2015 08-10-2
読解支援@2015 08-10-2読解支援@2015 08-10-2
読解支援@2015 08-10-2
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
読解支援@2015 07-24
読解支援@2015 07-24読解支援@2015 07-24
読解支援@2015 07-24
 
読解支援@2015 07-17
読解支援@2015 07-17読解支援@2015 07-17
読解支援@2015 07-17
 
読解支援@2015 07-13
読解支援@2015 07-13読解支援@2015 07-13
読解支援@2015 07-13
 
読解支援@2015 07-03
読解支援@2015 07-03読解支援@2015 07-03
読解支援@2015 07-03
 

Recently uploaded

ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfyukisuga3
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 

Recently uploaded (6)

ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 

Naacl読み会@2015 06-24