Efficient	
  Es*ma*on	
  of	
  Word	
  
Representa*ons	
  in	
  Vector	
  Space	
  
	
  
Tomas	
  Mikolov,	
  Kai	
  Chen,	
  	
  
Greg	
  Corrado,	
  Jeffrey	
  Dean	
  	
  
	
  In	
  Proceedings	
  of	
  Interna*onal	
  Conference	
  on	
  
Learning	
  Representa*ons,	
  2013	
プレゼンテーション	
  
関沢祐樹	
2015/06/26	
 1
本研究が行ったこと	
•  提案するモデル	
  
– 非常に大きなデータからなる単語ベクトル表現	
  
– 正解率、計算コストで比較	
  
•  16億単語のデータセットから1日経たずに学習	
  
– シンタクス的実験と、意味的実験を行った	
  
– ニューラルネットワークよりも良い成果	
2015/06/26	
 2
ニューラルネットワークモデル	
•  neural	
  network	
  language	
  model	
  (NNLM)	
  	
  
– 過去の単語から予測 (指定する必要あり)	
  
– 入力層、予測層、隠れ層、出力層の4層	
  
– 計算がかなり複雑	
  
•  Recurrent	
  Neural	
  Net	
  Language	
  Model	
  (RNNLM)	
  	
  
– 予測層がない、 過去の文脈を見る	
  
– NNLMよりも、計算が少し簡単	
  
•  Parallel	
  Training	
  of	
  Neural	
  Networks	
  	
  
– 集中型サーバで基盤を複製して、並列処理をする	
  
2015/06/26	
 3
新たな対数線形モデル	
•  ConBnuous	
  Bag-­‐of-­‐Words	
  Model	
  (CBOW)	
  
– NNLMに似ている	
  
– 前後4単語ずつを用いると最も良い成果と判明	
  
•  ConBnuous	
  Skip-­‐gram	
  Model	
  	
  
– 遠い単語ほど、関連が少ない	
  
– 遠いほど、重みを小さくする	
  
– とる単語の範囲は最大10として実験	
  
2015/06/26	
 4
今回のタスク	
•  テストセットを定義して、使用	
  
–  5種類の意味的問題     問題数:8869	
  
–  9種類のシンタクス的問題 問題数:10675	
  
–  手動で類似単語ペアのリストを作成	
  
–  リストからランダムに2つの単語ペアをとって作成	
  
–  2語以上からなるものは対象外  (例:New	
  York)	
  
2015/06/26	
 5
タスクの評価手法	
•  全ての問題に対する正解率を使用	
  
– 意味的問題とシンタクス的問題は切り離す	
  
•  それぞれに対する正解率を算出	
  
– 問題の答えと、各手法が導いた最も近いとする	
  
  単語ベクトルが同じであるとき、正解とする	
2015/06/26	
 6
訓練データ単語数とベクトルの次元数の関係	
•  CBOWを用いた実験:正解率の変化の視覚化	
  
– 問題:Google	
  Newsで頻度の高い3万語のみを含む	
  
– どちらも多いほど、正解率向上	
  
– 次元が50→100のとき、正解率が大きく変化	
  
– 片方だけを大きくすると、悪くなることがある	
  
2015/06/26	
 7
モデルの比較1	
•  訓練データ・・・単語数:3.2億、語彙数:8,200	
  
•  ベクトル次元数:640	
  
•  上記2つの条件を固定して実験	
2015/06/26	
 8
モデルの比較2	
2015/06/26	
 9
モデルの比較3	
•  CPUの数は推定	
  
– 他のタスクの影響で若干の変動がある	
  
•  NNLMのベクトル次元数は100	
  
– 1000だと、時間がかかりすぎるため	
  
•  100でも、かなり時間がかかっている	
2015/06/26	
 10
まとめ	
•  様々なモデルの単語ベクトル表現の質を見た	
  
•  ニューラルネットワークよりも単純なモデル	
  
– CBOWとSkip-­‐gramを使用	
  
– 質の良い単語ベクトルを生成できた	
  
– 計算がより複雑でない	
  
•  計算時間が早い	
  
•  次元を大きくできる	
  
2015/06/26	
 11

読解支援@2015 06-26