1. Distributed
Representa/ons
of
Words
and
Phrases
and
their
Composi/onality
Tomas
Mikolov,
Ilya
Sutskever,
Kai
Chen,
Greg
Corrado,
Jeffrey
Dean
In
Advances
on
Neural
InformaBon
Processing
Systems,
2013
プレゼンテーション
関沢祐樹
2015/07/03
1
11. Subsampling
of
Frequent
Words
• 高頻度単語の部分サンプリング(平滑化、間引き)
– in,
a,
the
などの単語は、情報量が少ない
– 頻度をバランスよくする必要がある
• 各単語を、以下の確率で訓練セットから捨てる
• wi
:
単語
• f()
:
単語の頻度
• t
:
閾値(普通は10-‐5)
• f
>
t
でサブサンプリング
• fが大きいほど、P(wi)も大きい
2015/07/03
11