Submit Search
Upload
Learning Composition Models for Phrase Embeddings
•
Download as PPTX, PDF
•
0 likes
•
1,263 views
Sho Takase
Follow
第7回最先端NLP勉強会での発表資料 TACLのLearning Composition Models for Phrase Embeddings
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 21
Download now
Recommended
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
Sho Takase
Retrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic Lexicons
Sho Takase
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
Sho Takase
4thNLPDL
4thNLPDL
Sho Takase
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Naoaki Okazaki
NeurIPS2020参加報告
NeurIPS2020参加報告
Sho Takase
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
2015 08 survey
2015 08 survey
marujirou
Recommended
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
Sho Takase
Retrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic Lexicons
Sho Takase
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
Sho Takase
4thNLPDL
4thNLPDL
Sho Takase
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Naoaki Okazaki
NeurIPS2020参加報告
NeurIPS2020参加報告
Sho Takase
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
2015 08 survey
2015 08 survey
marujirou
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
Shunta Ito
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
Masayoshi Kondo
2016word embbed
2016word embbed
Shin Asakawa
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
Word2vec alpha
Word2vec alpha
KCS Keio Computer Society
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
Hiroshi Nakagawa
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
Hitomi Yanaka
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
Mathematical Systems Inc.
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
Acl yomikai, 1016, 20110903
Acl yomikai, 1016, 20110903
Yo Ehara
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
Shohei Okada
Neural Models for Information Retrieval
Neural Models for Information Retrieval
Keisuke Umezawa
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
Naoaki Okazaki
意味表現の学習
意味表現の学習
nozyh
Extract and edit
Extract and edit
禎晃 山崎
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理
Sho Takase
More Related Content
What's hot
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
Shunta Ito
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
Masayoshi Kondo
2016word embbed
2016word embbed
Shin Asakawa
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
Word2vec alpha
Word2vec alpha
KCS Keio Computer Society
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
Hiroshi Nakagawa
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
Hitomi Yanaka
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
Mathematical Systems Inc.
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
Acl yomikai, 1016, 20110903
Acl yomikai, 1016, 20110903
Yo Ehara
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
Shohei Okada
Neural Models for Information Retrieval
Neural Models for Information Retrieval
Keisuke Umezawa
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
Naoaki Okazaki
意味表現の学習
意味表現の学習
nozyh
Extract and edit
Extract and edit
禎晃 山崎
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
What's hot
(20)
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
2016word embbed
2016word embbed
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Word2vec alpha
Word2vec alpha
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Acl yomikai, 1016, 20110903
Acl yomikai, 1016, 20110903
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
Neural Models for Information Retrieval
Neural Models for Information Retrieval
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論
意味表現の学習
意味表現の学習
Extract and edit
Extract and edit
LDA等のトピックモデル
LDA等のトピックモデル
More from Sho Takase
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理
Sho Takase
Rethinking Perturbations in Encoder-Decoders for Fast Training
Rethinking Perturbations in Encoder-Decoders for Fast Training
Sho Takase
Robust Neural Machine Translation with Doubly Adversarial Inputs
Robust Neural Machine Translation with Doubly Adversarial Inputs
Sho Takase
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Sho Takase
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword Information
Sho Takase
Harnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic Rules
Sho Takase
NLP2015 構成性に基づく関係パタンの意味計算
NLP2015 構成性に基づく関係パタンの意味計算
Sho Takase
Lexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word Predicates
Sho Takase
More from Sho Takase
(9)
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理
Rethinking Perturbations in Encoder-Decoders for Fast Training
Rethinking Perturbations in Encoder-Decoders for Fast Training
Robust Neural Machine Translation with Doubly Adversarial Inputs
Robust Neural Machine Translation with Doubly Adversarial Inputs
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword Information
Harnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic Rules
NLP2015 構成性に基づく関係パタンの意味計算
NLP2015 構成性に基づく関係パタンの意味計算
Lexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word Predicates
Learning Composition Models for Phrase Embeddings
1.
Learning Composition Models for
Phrase Embeddings Mo Yu, Mark Dredze TACL2015 読む人:東北大学,高瀬翔 1
2.
word embedding • 単語の特徴(意味)を低次元のベクトルで表現 •
どのように得るか? – 次元圧縮(e.g., 単語共起行列をSVD) – ニューラル言語モデル(e.g., word2vec) 2 peach penguin medicinedrug
3.
本論文の目的 • フレーズの意味を表す低次元のベクトル を単語のベクトルから構築する 3 medical center product research center medical
product research f ( , ) f ( , )
4.
既存研究と問題点 • あらかじめ演算を定義(e.g., sum) 単語の特徴や文脈に適した演算を行えない •
DT(e.g., a, the, this)の意味は無視して良いはず • 行列やテンソルを利用(e.g., RecursiveNN) 計算量が大きい • 次元数を増やしづらい • 小規模なデータセットでの教師あり学習のみ 4 + medical product f ( , ) = medical product medical product f ( , ) = medical product σ [ : ]
5.
本研究の概要 • 単語の特徴や文脈に応じた演算でフレー ズのベクトルを計算する手法を提案 • 提案手法の計算量は小さい –
高次元(e.g., 200次元)なベクトルも扱える – 大規模なデータで学習可能 • データスパースネスを解消できる • 教師なし,教師あり,組み合わせで学習, 評価 5
6.
提案モデル • フレーズのベクトル:単語ベクトルの重み付き和 • 重みは単語の素性(e.g.,
品詞,単語の位置)から 計算 6 フレーズのベクトル 単語ベクトル単語wi への 重みベクトル 単語wi への 重みベクトルの j 次元 素性ベクトル
7.
素性 • 組み合わせ素性は割愛 7 品詞による意味の 強さを捉えたい (DT(e.g., a,
the, this)の 意味は無視(重み 0 )する) 似た意味の単語は 同じ重みで計算して欲しい (big, large, hugeは 同じ重みになって欲しい)
8.
目的関数 • 教師なし学習 – skip-gramの目的関数をフレーズに拡張 •
教師あり学習 – softmaxを用いたmulti label分類 • 2つの組み合わせ – 2つの目的関数の重み付き和 – 重みは開発セットで調整 8
9.
• 単語wiから周辺語wi+jの予測確率を最大化 – 周辺単語のベクトルに似るように学習 9 P(wi+j
| wi ) = exp(ewi+j T ewi ) exp(ew' T ewi ) w'ÎV å skip-gram[Mikolov+ 13] …natural herbal medicine cures several … 周辺単語を予測 文脈の範囲 J = logP(wi+j | wi ) -c£j£c, j¹0 å i=1 S å ただし
10.
skip-gramのフレーズへの拡張 • 単語ベクトルの代わりにフレーズのベクトル で周辺語を予測 – フレーズのベクトル:単語ベクトルから構築 10 …natural
herbal medical product cures several … 周辺単語を予測 +λproductλmedical medical product 誤差逆伝播でパラメータ (単語のベクトル,α,b) を学習
11.
softmaxを用いたmulti label分類 • フレーズ
ps がフレーズ pi と似ているか, 分類するタスク – ps がpi と似ている:yi = 1 – ps がpi と似ていない:yi = 0 – として 11 目的関数:
12.
実験設定 • コーパス:NYT 1994-97(LDC2011T07) –
515,301,382 tokens – 語彙:518,235語(頻度5以上の単語) • フレーズ:NPとなるbi-gram – new trial, dead body, an extension, … • ベクトルの次元数:200 • 提案手法の初期値:skip-gramで学習したベクトル – skip-gramモデルを比較する際はコーパスを2周する • skip-gramと提案手法での学習設定(窓幅や負例の サンプリング数)は合わせる 12
13.
比較手法 • skip-gramで得たベクトルの和(SUM) • RecursiveNN(行列は品詞組み合わせ毎) –
ADJ-NNの行列,NN-NNの行列,… 13 + medical product f ( , ) = medical product medical product f ( , ) = medical product σ [ : ] ADJ-NNの行列 ADJ NN
14.
タスク • 複数の教師ありタスクで実験 • PPDB:inputに対し,outputとの類似度が候補中で高いか •
SemEval2013:2つの表現が類似か否か • Turney2012:inputに対し,正しいoutputを選択できるか – 候補中で正解の類似度が最も高くなるか 14
15.
PPDB 15 提案手法 目的関数 (LM,-:skip-gram TASK-SPEC:教師あり学習) 単語ベクトルを 更新するか 正解のランク の逆数の和 単語毎の重み ベクトルを学習 (提案手法で 素性ベクトルを 利用しない手法)
16.
Turney2012,SemEval2013 16 この2つは 50次元かも
17.
ベクトルの次元と性能 17
18.
結論 • 単語の特徴や文脈に応じた演算でフレー ズのベクトルを計算する手法を提案 • 単語ベクトルの和,RNNよりも良い性能 であると示した –
教師なし学習(大量のデータ使用)を組み合 わせるとさらに良くなる 18
19.
おまけ:計算量,計算時間 • 単語ベクトルの次元数200での訓練時に – 提案手法:2.33
instance / ms – RNN:0.31 instance / ms • と論文では報告している • しかし,計算量は – 単語の次元数 d ,発火した素性数 n とすると – 提案手法:O( n * d^2 ) • 重みベクトルの計算量:O( n * d ) なので(多分) – RNN:O(次元数^2) • に思うので,ちょっと良くわからない 19
20.
おまけ:素性と性能の変化 • 単語クラスタが最も効果がある • 単語ごとに重みベクトルを学習(WSUM)は低い –
クラスタにしないと疎だから? – 素性は前後の単語も見ているから? 20
21.
おまけ:skip-gramモデルの perplexity • 提案手法はperplexity,lossが低いのでフレーズの ベクトルから周辺語の予測が良く出来ている • 学習時にフレーズを学習するかで窓幅が変わる可 能性があり,公平な比較か少し疑問 –
herbal medical product curesについて – skip-gram:medicalの周辺N単語 – 提案手法:medical productの周辺N単語 21
Editor's Notes
word embedding(前提)に関する説明 似た意味の単語は似たベクトルとなる(なるようにする)
提案手法の計算量は小さい,という主張,ちょっと納得感がない,実装の問題では?という気がする
単語 i への,ってのは言わなくても良いと思っているが
head wordとかに関する説明はないけど,その単語がフレーズ内でどれくらい重要そうかを位置から判断しているんだと思う
これ一枚目でも良いかも(単語の意味ベクトル学習の話)
窓幅5,負例15,サブサンプル3/4
教師ありのタスクはnegative samplingで学習する設定のみ
jointの方が良い(大規模なデータを利用することで,データスパースネスを解消できるので)
FCT d = 50はRNNのd = 50よりも良かった(200次元で負けた言い訳)を本文中でしているので,表の中に50次元のFCTが入っている可能性がある,それが下から2つ目のテーブルでは?と思っている Dual space:turney2012を再実装したものと,turney 2012の論文で報告されているもの
論文中ではタスクを解くために次元を大きくする必要があるが,RNNは計算量が大きいので次元を大きくしづらいと主張,しかし,自分としては一部はサチっているようにも見えるのでこの主張は疑問 次元数を大きくするのがsemanticなタスクでは重要,と言っているが,それの主張としては謎,って感じか
提案手法が速いと言っているの,実装の問題では?と思う(計算量は論文に書かれてないし,俺の勘違いかもしれない)
このスライド,完全に個人の意見だし,出しても出さなくても良い,って感じかな?
Download now