DeepLearning論文紹介@Ace12358

Deep Learning 勉強会＠小町研究室
Linguistic Regularities in
Continuous Space Word
Representations
introduced by 北川善彬

紹介する単語のベクトル表現の特徴
❖ 統語的、意味的情報の規則性をよく捉えている
❖ 単語の関係をベクトルの関係によって表現出来る
• 例: “King” - ”Man” + ”Woman” = “Queen”

ngramでは表現出来ないレベルの一般化を可能に
❖ ngram model: 1:1の切り離せない関係をもつ別々のunit
で表現
❖ continuous space model: 似たような位置関係を持つ単
語ベクトルは似ているということによる表現

Recurrent Neural Language model
1個前の隠れ層を入力に
❖ input vector w(t): 1-
of-N coding
Vocab次元Vocab次元
❖ out put layer y(t): 確
率分布で出力
❖ hidden layer s(t):
sentence historyの
表現
Recuurentはここ！

❖ 学習時はy(t)の対数尤度が最大になるように誤差伝搬
❖ がs(t-1)を入力として利用している
❖ このframeworkではUのcolumが１つの単語表現
❖ 注目すべきはこの単語表現が統語的、意味的情報を顕著
に表しているということ
❖ hidden layerを見ていくことによって前の情報を伝搬し
て持ってこれるイメージ

統語性を評価するためのtest set
❖ PenTreebankから各ラベルごとに頻度の高い100個を選びそ
の後ランダムにanalogy questionを生成

意味性を評価するためのtest set
❖ SemEval 2012 Task2, Measuring Relation Similarity(Jurgens
eral., 2012)を使用して評価
❖ このdata set は 79のfine-grained word relationsが含まれてい
る
❖ “clothing:shirt”の関係(Class- Inclusion:Singular Collective
relation)が与えられたときこの2つの単語の関係と最も同じよ
うな単語ペア(例えば”dish:bowl”等)を出力するシステムに対
し、その正当性を評価

どのようにanalogy questionsに答えるか
❖ analogy questions に対してはcos類似度が有効
❖ question a:b c:d が与えられる（dが分からない）
❖ a,b,cのembeddingベクトルxa , xb , xcにより
❖ y = xb − xa + xcを計算してyを探す
❖ yが存在することはもちろんない。そこで
❖ これを計算する→

❖ 左: gender relation
❖ 右: different projection and singular/plural relation
❖ 高次元の空間では多くの関係を埋め込める

LSA (Latent Semantic Analysis) との比較
❖ 統語タスクではRNNのほうが優れている
❖ RNN-〇〇はベクトルの次元数

他のベクトル表現との比較
❖ それぞれのデータセットが異なるので共通の単語のみを使用したtest setを用いた
❖ HLBL（Hierarchical Log-Bilinear Model vectors）がRSSと同程度に優れていた

UTD-NB(Rink and Harabagiu, 2012)というbest performing systemを
超えた
❖ このタスクに対して
トレーニングやチュー
ニングを行っていな
いのにも関わらず良
い結果残した
❖ 意味においてはCW
の方がHLBLより適
している

スピアマンの順位相関係数
❖ 2つの順序リストが与えられた場合に，それらがどれほ
ど似ているかという類似性評価のために順位相関係数
を用いる

Maxdiff
❖ 4択にすることで全てのペアを考えなくて良くなる
❖ このなかでbestなものとworstなものをそれぞれ選ぶ
❖ 一番いいもの、悪いものを選ぶので人による程度等によるbiasがかからない

まとめ
❖ RNNLMが統語タスクにおいて約40%の正解率を記録し
た
❖ RNNLMが意味タスクにおいてstate of the artの記録を
塗り替えた
❖ これらを大規模なデータから教師なしで行うことで達成
出来たのも驚きである

DeepLearning論文紹介@Ace12358

Recommended

Recommended

More Related Content

More from Ace12358

More from Ace12358 (10)

DeepLearning論文紹介@Ace12358