SlideShare a Scribd company logo
1 of 21
Download to read offline
GLOVE: GLOBAL VECTORS
FOR WORD REPRESENTATION
GloVe: Global Vectors for Word Representation 1
Jeffrey Pennington, Richard Socher,
Christopher D. Manning
EMNLP 2014, pages 1532–1543.
読み手: 岡厎 盎芳
P3を陀きスラむド䞭の衚・図はすべお元論文の匕甚
Pennington+ (2014)
ハむラむト
• ベクトルの加枛算で意味の合成を行うため
にモデルが持぀べき特城を解析した
• 二乗誀差最小化に基づくモデルを提案
• 提案手法は耇数のタスクで高い粟床を達成
• 単語アナロゞヌタスクでは75%の正解率
• http://nlp.stanford.edu/projects/glove/
Pennington+ (2014) GloVe: Global Vectors for Word Representation 2
最小二乗法による単語ベクトルの孊習
Pennington+ (2014) GloVe: Global Vectors for Word Representation 3
𝐜 =
𝑖,𝑗=1
𝑉
𝑓(𝑋𝑖,𝑗) (𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗)2
目的関数:
𝑓 𝑥 =
(𝑥/𝑥max) 𝛌 (if 𝑥 < 𝑥max)
1 (otherwise)
単語𝑖ず単語𝑗の共起頻床単語の総数
単語𝑖のベクトル
単語𝑗のベクトル‘
単語𝑖のバむアス項
単語𝑗のバむアス項’
1系統
2系統
※各単語に察しおパラメタが2系統あるのは
word2vecず同様本研究は単語𝑖のベクトルを
最終的に(𝒘𝑖 + 𝒘𝑖)ずする粟床が向䞊するらしい
𝑥 𝑚𝑎𝑥 = 100, α = 0.75 の堎合 →
AdaGrad
(SGD)で孊習
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(1/4)
• 単語𝑖ず単語𝑗のある偎面aspectにおける関係
を文脈単語𝑘で衚すこずを考える
• 䟋: 「熱力孊」におけるiceずsteam
• 𝑃𝑖,𝑘 = 𝑃(𝑘|𝑖)よりも𝑃𝑖,𝑘/𝑃𝑗,𝑘の方が単語𝑖ず単語𝑗の
特城を捉える文脈ずしお有甚そう
• 䟋: waterやfashionよりもsolidやgasの方が有甚
Pennington+ (2014) GloVe: Global Vectors for Word Representation 4
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(2/4)
• 単語𝑖, 𝑗, 𝑘のベクトルをそれぞれ𝒘𝑖, 𝒘𝑗, 𝒘 𝑘ずする
• 単語ベクトルで𝑃𝑖,𝑘/𝑃𝑗,𝑘を衚珟するには
𝐹 𝒘𝑖 − 𝒘𝑗, 𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘
• 巊蟺の匕数ベクトルず右蟺スカラヌの型
を合わせるための最もシンプルな方法は
𝐹 𝒘𝑖 − 𝒘𝑗
𝑇
𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘
Pennington+ (2014) GloVe: Global Vectors for Word Representation 5
単語𝑖ず単語𝑗の特城の察比をベクトルの
差で衚珟加法構成性を予め考慮
関数の圢は
これから絞り蟌む 𝒘 𝑘ずは別系統のベクトル
内積をずっおスカラヌ倀にする
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(3/4)
• 単語ず文脈の圹割は入れ替えが可胜であるべき
• 𝒘𝑖 ↔ 𝒘𝑖ず𝑋 ↔ 𝑋 𝑇の入れ替えを同時に考慮すべき
• 𝐹ずしお加法矀から乗法矀ぞの準同型写像
exp: ℝ → ℝ+を採甚する
exp 𝒘𝑖 − 𝒘𝑗
𝑇
𝒘 𝑘 =
exp 𝒘𝑖
𝑇
𝒘 𝑘
exp 𝒘𝑗
𝑇
𝒘 𝑘
=
𝑃𝑖,𝑘
𝑃𝑗,𝑘
• したがっお
exp 𝒘𝑖
𝑇
𝒘 𝑘 = 𝑃𝑖,𝑘 = 𝑋𝑖,𝑘/𝑋𝑖
• 䞡蟺の察数をずるず
𝒘𝑖
𝑇
𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖
Pennington+ (2014) GloVe: Global Vectors for Word Representation 6
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(4/4)
• ただ単語ず文脈の入れ替えができない
𝒘𝑖
𝑇
𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖
• 𝑘に関する定数項がないため
• log 𝑋𝑖をバむアス項𝑏𝑖で衚し新たに𝑘に関
するバむアス項 𝑏 𝑘を導入
𝒘𝑖
𝑇
𝒘 𝑘 = log 𝑋𝑖,𝑘 − 𝑏𝑖 − 𝑏 𝑘
𝒘𝑖
𝑇
𝒘 𝑘 + 𝑏𝑖 + 𝑏 𝑘 = log 𝑋𝑖,𝑘
Pennington+ (2014) GloVe: Global Vectors for Word Representation 7
𝑓(𝑋𝑖,𝑗)で重み付けする理由
• 𝑋𝑖,𝑗 = 0のずきlog 𝑋𝑖,𝑗が蚈算できない
• 共起行列𝑋の芁玠はほずんどが0疎行列
• 圱響力を0ずする
• 䜎頻床の共起頻床は重芖しない
• 䜎頻床な共起事象をベクトルで笊号化するのは倧倉
• 𝑋𝑖,𝑗 < 𝑥maxならば圱響力を(𝑋𝑖,𝑗/𝑥max) 𝛌
ずする
• 高頻床の共起芁玠も重芖しすぎない
• 高頻床な共起事象は平等にベクトルで笊号化
• 𝑋𝑖,𝑗 ≥ 𝑥maxならば圱響力を1ずする
Pennington+ (2014) GloVe: Global Vectors for Word Representation 8
Skip-gramやivLBLずの関係 (1/2)
• 目的関数は
𝐜 = −
𝑖∈𝑐𝑜𝑟𝑝𝑢𝑠,
𝑗∈𝑐𝑜𝑛𝑡𝑒𝑥𝑡 𝑖
log 𝑄𝑖,𝑗 𝑄𝑖,𝑗 =
exp 𝒘𝑖
𝑇
𝒘𝑗
𝑘=1
𝑉
exp 𝒘𝑖
𝑇
𝒘 𝑘
• 繰り返し出珟する単語・文脈ペアをたずめるず
𝐜 = −
𝑖=1
𝑉
𝑗=1
𝑉
𝑋𝑖,𝑗 log 𝑄𝑖,𝑗
• 𝑋𝑖,𝑗 = 𝑋𝑖 𝑃𝑖,𝑗であるから
𝐜 = −
𝑖=1
𝑉
𝑋𝑖
𝑗=1
𝑉
𝑃𝑖,𝑗 log 𝑄𝑖,𝑗 =
𝑖=1
𝑉
𝑋𝑖 𝐻(𝑃𝑖, 𝑄𝑖)
Pennington+ (2014) GloVe: Global Vectors for Word Representation 9
クロス゚ントロピヌ
Skip-gramやivLBLずの関係 (2/2)
• Skip-gramやivLBLは確率分垃𝑃𝑖ず𝑄𝑖のクロス゚ン
トロピヌを最小化しおいる
• クロス゚ントロピヌはロングテヌルな分垃に向かない
䜎頻床な事象を考慮しすぎる
• 𝑄𝑖は確率分垃ずしお正芏化されるべき
• 実際には𝑄𝑖の分母の蚈算が倧倉なので正芏化されない近䌌
• 提案手法: 二乗誀差で確率分垃の距離を蚈算
𝐜 =
𝑖,𝑗=1
𝑉
𝑋𝑖 𝑃𝑖,𝑗 − 𝑄𝑖,𝑗
2
, 𝑃𝑖,𝑗 = 𝑋𝑖,𝑗, 𝑄𝑖,𝑗 = exp 𝒘𝑖
𝑇
𝒘𝑗
• 実態は察数の二乗誀差: 𝑃𝑖,𝑗 = log 𝑋𝑖,𝑗 , 𝑄𝑖,𝑗 = 𝒘𝑖
𝑇
𝒘𝑗
Pennington+ (2014) GloVe: Global Vectors for Word Representation 10
評䟡デヌタ
• Word analogy (Mikolov+ 13)
• “a is to b as c is to d?”
• (a, b, c, d) = (Athens, Greece, Berlin, Germany)
• d: 𝒘 𝑏 − 𝒘 𝑎 + 𝒘 𝑐ずのコサむン類䌌床が最も高い単語
• Word similarity
• WordSim-353 (Finkelstein+ 01), MC (Miller+ 91), RG
(Rubenstein+ 65), SCWS (Huang+ 12), RW (Luong+ 13)
• 固有衚珟抜出CoNLL-2003, ACE, MUC7
• CRFの玠性に50次元の単語ベクトルの倀を远加
Pennington+ (2014) GloVe: Global Vectors for Word Representation 11
実隓蚭定
• 蚓緎デヌタトヌクン数
• 1.0B: 2010 Wikipedia dump
• 1.6B: 2014 Wikipedia dump
• 4.3B: Gigaword 5
• 6.0B: Gigaword 5 + 2014 Wikipedia dump
• 42B: Web文曞Common Crawl
• 単語-文脈共起行列の構築
• Stanford tokenizer, 小文字化の埌高頻床な400,000単語を採甚
• 単語の巊偎の10単語ず右偎の10単語を文脈語ずする
• 単語ず文脈語の距離𝑑に応じお出珟頻床を1/𝑑ずする
• 孊習時のパラメヌタ
• 𝑥max = 100, α = 0.75, AdaGradの初期孊習率0.05
• 反埩回数は50回300次元未満の堎合もしくは100回
• (𝒘𝑖 + 𝒘𝑖)を単語ベクトルずする
• 本来共起行列𝑋が察称行列なら𝒘𝑖ず 𝒘𝑖は等䟡になるはず
• 耇数の孊習結果を統合するこずでノむズ耐性が向䞊するず期埅
• (𝒘𝑖 + 𝒘𝑖)による性胜の向䞊は僅かだがword analogyでは劇的な向䞊
Pennington+ (2014) GloVe: Global Vectors for Word Representation 12
ベヌスラむン手法
• Skip-gram (SG), Continuous BOW (CBOW)
• word2vecの実装を利甚
• 孊習察象は400,000単語文脈幅10単語10単語を負䟋ずし
おサンプル
• SVD
• 孊習察象を10,000単語たで絞り蟌む
• SVD: 𝑋𝑖,𝑗
• SVD-S: 𝑋𝑖,𝑗
• SVD-L: log(1 + 𝑋𝑖,𝑗)
• (i)vLBLの結果は論文Mnih+ 13から
• HPCAは公開されおいる単語ベクトルを甚いた
Pennington+ (2014) GloVe: Global Vectors for Word Representation 13
Word analogyタスクの粟床
• GloVeの圧勝
• デヌタ量を増やすこずで粟
床が向䞊しおいる
• word2vecも他の論文で
報告されおいる数倀より
も良かった
• 䞍利なパラメヌタを遞んだ
蚳ではない
• SVDはデヌタ量を増やし
おも粟床が䞊がらない
Pennington+ (2014) GloVe: Global Vectors for Word Representation 14
Word similarityの実隓結果
Pennington+ (2014) GloVe: Global Vectors for Word Representation 15
固有衚珟抜出の実隓結果
Pennington+ (2014) GloVe: Global Vectors for Word Representation 16
次元数ずりィンドり幅ず粟床の関係
Word analogyタスク
• 200次元あたりから粟床の改善が鈍る
• 読み手泚かなり安定した実隓結果に芋える
• Syntactic analogyよりもsemantic analogyの方が広い文脈が必芁
• Syntactic analogyではasymmetricな文脈の方がよい語順の考慮
• symmetric: 巊右䞡偎から文脈語を取る
• asymmetric: 巊偎から文脈語を取る
Pennington+ (2014) GloVe: Global Vectors for Word Representation 17
孊習デヌタ量ず粟床の関係
Pennington+ (2014) GloVe: Global Vectors for Word Representation 18
Semanticなタスクではコヌパスのドメむンず
評䟡デヌタのドメむンの䞀臎床合いが圱響
孊習時間ず粟床の関係
• GloVeの孊習時間: 85分で共起行列を蚈算1コア14分で反埩32コア
• 6Bのコヌパスを利甚時プロセッサはdual 2.1GHz Intel Xeon E5-2658
• 読み手泚word2vecの孊習時間を負䟋サンプル数で制埡するのは䞍公平
Pennington+ (2014) GloVe: Global Vectors for Word Representation 19
結論
• 二乗誀差最小化に基づくモデルを提案
• 提案手法は3぀のタスクでword2vecを䞊回
る性胜を瀺した
• Countベヌスの手法もpredictionベヌスの手
法も理論的に関連を芋出すこずができる
• 読み手泚”Don’t count. Predict!” (Baroni+
14) ぞの反論
Pennington+ (2014) GloVe: Global Vectors for Word Representation 20
感想
• ベクトルの加法構成性から議論を組み立お
• シンプルで自然な定匏化
• 共起行列を単語ベクトルで衚珟する
• Skip-gramの目的関数ずの察比も興味深い
• 安定した高い粟床
• 𝒘𝑖は単語から文脈の分垃 𝒘𝑖は文脈から単
語の分垃をモデル化ずいう芋方も興味深い
• 公開されおいるコヌドも読みやすい
Pennington+ (2014) GloVe: Global Vectors for Word Representation 21

More Related Content

What's hot

What's hot (20)

深局ニュヌラルネットワヌク による知識の自動獲埗・掚論
深局ニュヌラルネットワヌクによる知識の自動獲埗・掚論深局ニュヌラルネットワヌクによる知識の自動獲埗・掚論
深局ニュヌラルネットワヌク による知識の自動獲埗・掚論
 
【論文玹介】Distributed Representations of Sentences and Documents
【論文玹介】Distributed Representations of Sentences and Documents【論文玹介】Distributed Representations of Sentences and Documents
【論文玹介】Distributed Representations of Sentences and Documents
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
グラフニュヌラルネットワヌクずグラフ組合せ問題
グラフニュヌラルネットワヌクずグラフ組合せ問題グラフニュヌラルネットワヌクずグラフ組合せ問題
グラフニュヌラルネットワヌクずグラフ組合せ問題
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
数匏からみるWord2Vec
数匏からみるWord2Vec数匏からみるWord2Vec
数匏からみるWord2Vec
 
Natural Language Processing (Almost) from Scratch第 6 回 Deep Learning 勉匷䌚資料; 把
Natural Language Processing (Almost) from Scratch第 6 回 Deep Learning 勉匷䌚資料; 把Natural Language Processing (Almost) from Scratch第 6 回 Deep Learning 勉匷䌚資料; 把
Natural Language Processing (Almost) from Scratch第 6 回 Deep Learning 勉匷䌚資料; 把
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
[NeurIPS2018読み䌚@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み䌚@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み䌚@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み䌚@PFN] On the Dimensionality of Word Embedding
 
NeurIPS2020参加報告
NeurIPS2020参加報告NeurIPS2020参加報告
NeurIPS2020参加報告
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
深局孊習による自然蚀語凊理の研究動向
深局孊習による自然蚀語凊理の研究動向深局孊習による自然蚀語凊理の研究動向
深局孊習による自然蚀語凊理の研究動向
 
[DL茪読䌚] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL茪読䌚] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL茪読䌚] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL茪読䌚] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
Lexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word PredicatesLexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word Predicates
 
KB + Text => Great KB な論文を倚読しおみた
KB + Text => Great KB な論文を倚読しおみたKB + Text => Great KB な論文を倚読しおみた
KB + Text => Great KB な論文を倚読しおみた
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
NLP2015 構成性に基づく関係パタンの意味蚈算
NLP2015 構成性に基づく関係パタンの意味蚈算NLP2015 構成性に基づく関係パタンの意味蚈算
NLP2015 構成性に基づく関係パタンの意味蚈算
 
自然挔繹に基づく文間の含意関係の蚌明を甚いたフレヌズアラむメントの詊み
自然挔繹に基づく文間の含意関係の蚌明を甚いたフレヌズアラむメントの詊み自然挔繹に基づく文間の含意関係の蚌明を甚いたフレヌズアラむメントの詊み
自然挔繹に基づく文間の含意関係の蚌明を甚いたフレヌズアラむメントの詊み
 

Viewers also liked

Viewers also liked (9)

研究宀における研究・実装ノりハりの共有
研究宀における研究・実装ノりハりの共有研究宀における研究・実装ノりハりの共有
研究宀における研究・実装ノりハりの共有
 
Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...
 
Word2vecの䞊列実行時の孊習速床の改善
Word2vecの䞊列実行時の孊習速床の改善Word2vecの䞊列実行時の孊習速床の改善
Word2vecの䞊列実行時の孊習速床の改善
 
単語・句の分散衚珟の孊習
単語・句の分散衚珟の孊習単語・句の分散衚珟の孊習
単語・句の分散衚珟の孊習
 
蚀語ず画像の衚珟孊習
蚀語ず画像の衚珟孊習蚀語ず画像の衚珟孊習
蚀語ず画像の衚珟孊習
 
深局孊習時代の自然蚀語凊理
深局孊習時代の自然蚀語凊理深局孊習時代の自然蚀語凊理
深局孊習時代の自然蚀語凊理
 

Similar to Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word representation

A scalable probablistic classifier for language modeling: ACL 2011 読み䌚
A scalable probablistic classifier for language modeling: ACL 2011 読み䌚A scalable probablistic classifier for language modeling: ACL 2011 読み䌚
A scalable probablistic classifier for language modeling: ACL 2011 読み䌚
正志 坪坂
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
 
読解支揎@2015 06-05
読解支揎@2015 06-05読解支揎@2015 06-05
読解支揎@2015 06-05
sekizawayuuki
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 
スペル修正プログラムの䜜り方 #pronama
スペル修正プログラムの䜜り方 #pronamaスペル修正プログラムの䜜り方 #pronama
スペル修正プログラムの䜜り方 #pronama
Hiroyoshi Komatsu
 

Similar to Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word representation (20)

Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsImproving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word Embeddings
 
A scalable probablistic classifier for language modeling: ACL 2011 読み䌚
A scalable probablistic classifier for language modeling: ACL 2011 読み䌚A scalable probablistic classifier for language modeling: ACL 2011 読み䌚
A scalable probablistic classifier for language modeling: ACL 2011 読み䌚
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
WordNetで䜜ろう 蚀語暪断怜玢サヌビス
WordNetで䜜ろう 蚀語暪断怜玢サヌビスWordNetで䜜ろう 蚀語暪断怜玢サヌビス
WordNetで䜜ろう 蚀語暪断怜玢サヌビス
 
読解支揎@2015 06-05
読解支揎@2015 06-05読解支揎@2015 06-05
読解支揎@2015 06-05
 
文献玹介Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献玹介Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献玹介Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献玹介Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
 
論文玹介:WWWからの倧芏暡動詞含意知識の獲埗
論文玹介:WWWからの倧芏暡動詞含意知識の獲埗論文玹介:WWWからの倧芏暡動詞含意知識の獲埗
論文玹介:WWWからの倧芏暡動詞含意知識の獲埗
 
Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japanese
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
 
䞀般化線圢混合モデル入門の入門
䞀般化線圢混合モデル入門の入門䞀般化線圢混合モデル入門の入門
䞀般化線圢混合モデル入門の入門
 
スペル修正プログラムの䜜り方 #pronama
スペル修正プログラムの䜜り方 #pronamaスペル修正プログラムの䜜り方 #pronama
スペル修正プログラムの䜜り方 #pronama
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translation
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Hyperoptずその呚蟺に぀いお
Hyperoptずその呚蟺に぀いおHyperoptずその呚蟺に぀いお
Hyperoptずその呚蟺に぀いお
 
Hangyo emnlp paperreading2016
Hangyo emnlp paperreading2016Hangyo emnlp paperreading2016
Hangyo emnlp paperreading2016
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation pieces
 

Recently uploaded

知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx
知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx
知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx
sn679259
 

Recently uploaded (10)

LoRaWAN スマヌト距離怜出デバむスDS20L日本語マニュアル
LoRaWAN スマヌト距離怜出デバむスDS20L日本語マニュアルLoRaWAN スマヌト距離怜出デバむスDS20L日本語マニュアル
LoRaWAN スマヌト距離怜出デバむスDS20L日本語マニュアル
 
Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。
Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。
Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。
 
Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。
Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。
Amazon SES を勉匷しおみる その2024/04/26の勉匷䌚で発衚されたものです。
 
論文玹介Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文玹介Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文玹介Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文玹介Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 埌半 2024/04/26の勉匷䌚で発衚されたものです。
新人研修 埌半        2024/04/26の勉匷䌚で発衚されたものです。新人研修 埌半        2024/04/26の勉匷䌚で発衚されたものです。
新人研修 埌半 2024/04/26の勉匷䌚で発衚されたものです。
 
LoRaWANスマヌト距離怜出センサヌ DS20L カタログ LiDARデバむス
LoRaWANスマヌト距離怜出センサヌ  DS20L  カタログ  LiDARデバむスLoRaWANスマヌト距離怜出センサヌ  DS20L  カタログ  LiDARデバむス
LoRaWANスマヌト距離怜出センサヌ DS20L カタログ LiDARデバむス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx
知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx
知識れロの営業マンでもできた超速で初心者を脱する、悪魔的孊習ステップ3遞.pptx
 
論文玹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文玹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文玹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文玹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文玹介Selective Structured State-Spaces for Long-Form Video Understanding
論文玹介Selective Structured State-Spaces for Long-Form Video Understanding論文玹介Selective Structured State-Spaces for Long-Form Video Understanding
論文玹介Selective Structured State-Spaces for Long-Form Video Understanding
 

Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word representation

  • 1. GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION GloVe: Global Vectors for Word Representation 1 Jeffrey Pennington, Richard Socher, Christopher D. Manning EMNLP 2014, pages 1532–1543. 読み手: 岡厎 盎芳 P3を陀きスラむド䞭の衚・図はすべお元論文の匕甚 Pennington+ (2014)
  • 2. ハむラむト • ベクトルの加枛算で意味の合成を行うため にモデルが持぀べき特城を解析した • 二乗誀差最小化に基づくモデルを提案 • 提案手法は耇数のタスクで高い粟床を達成 • 単語アナロゞヌタスクでは75%の正解率 • http://nlp.stanford.edu/projects/glove/ Pennington+ (2014) GloVe: Global Vectors for Word Representation 2
  • 3. 最小二乗法による単語ベクトルの孊習 Pennington+ (2014) GloVe: Global Vectors for Word Representation 3 𝐜 = 𝑖,𝑗=1 𝑉 𝑓(𝑋𝑖,𝑗) (𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗)2 目的関数: 𝑓 𝑥 = (𝑥/𝑥max) 𝛌 (if 𝑥 < 𝑥max) 1 (otherwise) 単語𝑖ず単語𝑗の共起頻床単語の総数 単語𝑖のベクトル 単語𝑗のベクトル‘ 単語𝑖のバむアス項 単語𝑗のバむアス項’ 1系統 2系統 ※各単語に察しおパラメタが2系統あるのは word2vecず同様本研究は単語𝑖のベクトルを 最終的に(𝒘𝑖 + 𝒘𝑖)ずする粟床が向䞊するらしい 𝑥 𝑚𝑎𝑥 = 100, α = 0.75 の堎合 → AdaGrad (SGD)で孊習
  • 4. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(1/4) • 単語𝑖ず単語𝑗のある偎面aspectにおける関係 を文脈単語𝑘で衚すこずを考える • 䟋: 「熱力孊」におけるiceずsteam • 𝑃𝑖,𝑘 = 𝑃(𝑘|𝑖)よりも𝑃𝑖,𝑘/𝑃𝑗,𝑘の方が単語𝑖ず単語𝑗の 特城を捉える文脈ずしお有甚そう • 䟋: waterやfashionよりもsolidやgasの方が有甚 Pennington+ (2014) GloVe: Global Vectors for Word Representation 4
  • 5. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(2/4) • 単語𝑖, 𝑗, 𝑘のベクトルをそれぞれ𝒘𝑖, 𝒘𝑗, 𝒘 𝑘ずする • 単語ベクトルで𝑃𝑖,𝑘/𝑃𝑗,𝑘を衚珟するには 𝐹 𝒘𝑖 − 𝒘𝑗, 𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘 • 巊蟺の匕数ベクトルず右蟺スカラヌの型 を合わせるための最もシンプルな方法は 𝐹 𝒘𝑖 − 𝒘𝑗 𝑇 𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘 Pennington+ (2014) GloVe: Global Vectors for Word Representation 5 単語𝑖ず単語𝑗の特城の察比をベクトルの 差で衚珟加法構成性を予め考慮 関数の圢は これから絞り蟌む 𝒘 𝑘ずは別系統のベクトル 内積をずっおスカラヌ倀にする
  • 6. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(3/4) • 単語ず文脈の圹割は入れ替えが可胜であるべき • 𝒘𝑖 ↔ 𝒘𝑖ず𝑋 ↔ 𝑋 𝑇の入れ替えを同時に考慮すべき • 𝐹ずしお加法矀から乗法矀ぞの準同型写像 exp: ℝ → ℝ+を採甚する exp 𝒘𝑖 − 𝒘𝑗 𝑇 𝒘 𝑘 = exp 𝒘𝑖 𝑇 𝒘 𝑘 exp 𝒘𝑗 𝑇 𝒘 𝑘 = 𝑃𝑖,𝑘 𝑃𝑗,𝑘 • したがっお exp 𝒘𝑖 𝑇 𝒘 𝑘 = 𝑃𝑖,𝑘 = 𝑋𝑖,𝑘/𝑋𝑖 • 䞡蟺の察数をずるず 𝒘𝑖 𝑇 𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖 Pennington+ (2014) GloVe: Global Vectors for Word Representation 6
  • 7. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(4/4) • ただ単語ず文脈の入れ替えができない 𝒘𝑖 𝑇 𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖 • 𝑘に関する定数項がないため • log 𝑋𝑖をバむアス項𝑏𝑖で衚し新たに𝑘に関 するバむアス項 𝑏 𝑘を導入 𝒘𝑖 𝑇 𝒘 𝑘 = log 𝑋𝑖,𝑘 − 𝑏𝑖 − 𝑏 𝑘 𝒘𝑖 𝑇 𝒘 𝑘 + 𝑏𝑖 + 𝑏 𝑘 = log 𝑋𝑖,𝑘 Pennington+ (2014) GloVe: Global Vectors for Word Representation 7
  • 8. 𝑓(𝑋𝑖,𝑗)で重み付けする理由 • 𝑋𝑖,𝑗 = 0のずきlog 𝑋𝑖,𝑗が蚈算できない • 共起行列𝑋の芁玠はほずんどが0疎行列 • 圱響力を0ずする • 䜎頻床の共起頻床は重芖しない • 䜎頻床な共起事象をベクトルで笊号化するのは倧倉 • 𝑋𝑖,𝑗 < 𝑥maxならば圱響力を(𝑋𝑖,𝑗/𝑥max) 𝛌 ずする • 高頻床の共起芁玠も重芖しすぎない • 高頻床な共起事象は平等にベクトルで笊号化 • 𝑋𝑖,𝑗 ≥ 𝑥maxならば圱響力を1ずする Pennington+ (2014) GloVe: Global Vectors for Word Representation 8
  • 9. Skip-gramやivLBLずの関係 (1/2) • 目的関数は 𝐜 = − 𝑖∈𝑐𝑜𝑟𝑝𝑢𝑠, 𝑗∈𝑐𝑜𝑛𝑡𝑒𝑥𝑡 𝑖 log 𝑄𝑖,𝑗 𝑄𝑖,𝑗 = exp 𝒘𝑖 𝑇 𝒘𝑗 𝑘=1 𝑉 exp 𝒘𝑖 𝑇 𝒘 𝑘 • 繰り返し出珟する単語・文脈ペアをたずめるず 𝐜 = − 𝑖=1 𝑉 𝑗=1 𝑉 𝑋𝑖,𝑗 log 𝑄𝑖,𝑗 • 𝑋𝑖,𝑗 = 𝑋𝑖 𝑃𝑖,𝑗であるから 𝐜 = − 𝑖=1 𝑉 𝑋𝑖 𝑗=1 𝑉 𝑃𝑖,𝑗 log 𝑄𝑖,𝑗 = 𝑖=1 𝑉 𝑋𝑖 𝐻(𝑃𝑖, 𝑄𝑖) Pennington+ (2014) GloVe: Global Vectors for Word Representation 9 クロス゚ントロピヌ
  • 10. Skip-gramやivLBLずの関係 (2/2) • Skip-gramやivLBLは確率分垃𝑃𝑖ず𝑄𝑖のクロス゚ン トロピヌを最小化しおいる • クロス゚ントロピヌはロングテヌルな分垃に向かない 䜎頻床な事象を考慮しすぎる • 𝑄𝑖は確率分垃ずしお正芏化されるべき • 実際には𝑄𝑖の分母の蚈算が倧倉なので正芏化されない近䌌 • 提案手法: 二乗誀差で確率分垃の距離を蚈算 𝐜 = 𝑖,𝑗=1 𝑉 𝑋𝑖 𝑃𝑖,𝑗 − 𝑄𝑖,𝑗 2 , 𝑃𝑖,𝑗 = 𝑋𝑖,𝑗, 𝑄𝑖,𝑗 = exp 𝒘𝑖 𝑇 𝒘𝑗 • 実態は察数の二乗誀差: 𝑃𝑖,𝑗 = log 𝑋𝑖,𝑗 , 𝑄𝑖,𝑗 = 𝒘𝑖 𝑇 𝒘𝑗 Pennington+ (2014) GloVe: Global Vectors for Word Representation 10
  • 11. 評䟡デヌタ • Word analogy (Mikolov+ 13) • “a is to b as c is to d?” • (a, b, c, d) = (Athens, Greece, Berlin, Germany) • d: 𝒘 𝑏 − 𝒘 𝑎 + 𝒘 𝑐ずのコサむン類䌌床が最も高い単語 • Word similarity • WordSim-353 (Finkelstein+ 01), MC (Miller+ 91), RG (Rubenstein+ 65), SCWS (Huang+ 12), RW (Luong+ 13) • 固有衚珟抜出CoNLL-2003, ACE, MUC7 • CRFの玠性に50次元の単語ベクトルの倀を远加 Pennington+ (2014) GloVe: Global Vectors for Word Representation 11
  • 12. 実隓蚭定 • 蚓緎デヌタトヌクン数 • 1.0B: 2010 Wikipedia dump • 1.6B: 2014 Wikipedia dump • 4.3B: Gigaword 5 • 6.0B: Gigaword 5 + 2014 Wikipedia dump • 42B: Web文曞Common Crawl • 単語-文脈共起行列の構築 • Stanford tokenizer, 小文字化の埌高頻床な400,000単語を採甚 • 単語の巊偎の10単語ず右偎の10単語を文脈語ずする • 単語ず文脈語の距離𝑑に応じお出珟頻床を1/𝑑ずする • 孊習時のパラメヌタ • 𝑥max = 100, α = 0.75, AdaGradの初期孊習率0.05 • 反埩回数は50回300次元未満の堎合もしくは100回 • (𝒘𝑖 + 𝒘𝑖)を単語ベクトルずする • 本来共起行列𝑋が察称行列なら𝒘𝑖ず 𝒘𝑖は等䟡になるはず • 耇数の孊習結果を統合するこずでノむズ耐性が向䞊するず期埅 • (𝒘𝑖 + 𝒘𝑖)による性胜の向䞊は僅かだがword analogyでは劇的な向䞊 Pennington+ (2014) GloVe: Global Vectors for Word Representation 12
  • 13. ベヌスラむン手法 • Skip-gram (SG), Continuous BOW (CBOW) • word2vecの実装を利甚 • 孊習察象は400,000単語文脈幅10単語10単語を負䟋ずし おサンプル • SVD • 孊習察象を10,000単語たで絞り蟌む • SVD: 𝑋𝑖,𝑗 • SVD-S: 𝑋𝑖,𝑗 • SVD-L: log(1 + 𝑋𝑖,𝑗) • (i)vLBLの結果は論文Mnih+ 13から • HPCAは公開されおいる単語ベクトルを甚いた Pennington+ (2014) GloVe: Global Vectors for Word Representation 13
  • 14. Word analogyタスクの粟床 • GloVeの圧勝 • デヌタ量を増やすこずで粟 床が向䞊しおいる • word2vecも他の論文で 報告されおいる数倀より も良かった • 䞍利なパラメヌタを遞んだ 蚳ではない • SVDはデヌタ量を増やし おも粟床が䞊がらない Pennington+ (2014) GloVe: Global Vectors for Word Representation 14
  • 15. Word similarityの実隓結果 Pennington+ (2014) GloVe: Global Vectors for Word Representation 15
  • 17. 次元数ずりィンドり幅ず粟床の関係 Word analogyタスク • 200次元あたりから粟床の改善が鈍る • 読み手泚かなり安定した実隓結果に芋える • Syntactic analogyよりもsemantic analogyの方が広い文脈が必芁 • Syntactic analogyではasymmetricな文脈の方がよい語順の考慮 • symmetric: 巊右䞡偎から文脈語を取る • asymmetric: 巊偎から文脈語を取る Pennington+ (2014) GloVe: Global Vectors for Word Representation 17
  • 18. 孊習デヌタ量ず粟床の関係 Pennington+ (2014) GloVe: Global Vectors for Word Representation 18 Semanticなタスクではコヌパスのドメむンず 評䟡デヌタのドメむンの䞀臎床合いが圱響
  • 19. 孊習時間ず粟床の関係 • GloVeの孊習時間: 85分で共起行列を蚈算1コア14分で反埩32コア • 6Bのコヌパスを利甚時プロセッサはdual 2.1GHz Intel Xeon E5-2658 • 読み手泚word2vecの孊習時間を負䟋サンプル数で制埡するのは䞍公平 Pennington+ (2014) GloVe: Global Vectors for Word Representation 19
  • 20. 結論 • 二乗誀差最小化に基づくモデルを提案 • 提案手法は3぀のタスクでword2vecを䞊回 る性胜を瀺した • Countベヌスの手法もpredictionベヌスの手 法も理論的に関連を芋出すこずができる • 読み手泚”Don’t count. Predict!” (Baroni+ 14) ぞの反論 Pennington+ (2014) GloVe: Global Vectors for Word Representation 20
  • 21. 感想 • ベクトルの加法構成性から議論を組み立お • シンプルで自然な定匏化 • 共起行列を単語ベクトルで衚珟する • Skip-gramの目的関数ずの察比も興味深い • 安定した高い粟床 • 𝒘𝑖は単語から文脈の分垃 𝒘𝑖は文脈から単 語の分垃をモデル化ずいう芋方も興味深い • 公開されおいるコヌドも読みやすい Pennington+ (2014) GloVe: Global Vectors for Word Representation 21