首都大学東京 情報通信システム学域 小町研究室に行われた EMNLP 2015 読み会で "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" を紹介した際の資料です。
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
Word Sense Disambiguation, BERT, clustering
ということで読みました.
p. 7 は「solid は glass の上位語,glassware は glass の下位語」でした。。。
BERT を中心に解説した資料です.BERT に比べると,XLNet と RoBERTa の内容は詳細に追ってないです.
あと,自作の図は上から下ですが,引っ張ってきた図は下から上になっているので注意してください.
もし間違い等あったら修正するので,言ってください.
(特に,RoBERTa の英語を読み間違えがちょっと怖いです.言い訳すいません.)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
文献紹介:SemEval-2012 Task 1: English Lexical SimplificationTomoyuki Kajiwara
Lucia Specia, Sujay Kumar Jauhar, Rada Mihalcea. SemEval-2012 Task 1: English Lexical Simplification. In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval-2012), pp.347-355, 2012.
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
Word Sense Disambiguation, BERT, clustering
ということで読みました.
p. 7 は「solid は glass の上位語,glassware は glass の下位語」でした。。。
BERT を中心に解説した資料です.BERT に比べると,XLNet と RoBERTa の内容は詳細に追ってないです.
あと,自作の図は上から下ですが,引っ張ってきた図は下から上になっているので注意してください.
もし間違い等あったら修正するので,言ってください.
(特に,RoBERTa の英語を読み間違えがちょっと怖いです.言い訳すいません.)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
文献紹介:SemEval-2012 Task 1: English Lexical SimplificationTomoyuki Kajiwara
Lucia Specia, Sujay Kumar Jauhar, Rada Mihalcea. SemEval-2012 Task 1: English Lexical Simplification. In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval-2012), pp.347-355, 2012.
Lyan Verwimp, Joris Pelemans, Hugo Van hamme, Patrick Wambacq, Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, pages 417–427, Valencia, Spain, April 3-7, 2017
Neural Models for Information Retrieval
Bhaskar Mitra, Nick Craswell
(Submitted on 3 May 2017)
Neural ranking models for information retrieval (IR) use shallow or deep neural networks to rank search results in response to a query. Traditional learning to rank models employ machine learning techniques over hand-crafted IR features. By contrast, neural models learn representations of language from raw text that can bridge the gap between query and document vocabulary. Unlike classical IR models, these new machine learning based approaches are data-hungry, requiring large scale training data before they can be deployed. This tutorial introduces basic concepts and intuitions behind neural IR models, and places them in the context of traditional retrieval models. We begin by introducing fundamental concepts of IR and different neural and non-neural approaches to learning vector representations of text. We then review shallow neural IR methods that employ pre-trained neural term embeddings without learning the IR task end-to-end. We introduce deep neural networks next, discussing popular deep architectures. Finally, we review the current DNN models for information retrieval. We conclude with a discussion on potential future directions for neural IR.
Lyan Verwimp, Joris Pelemans, Hugo Van hamme, Patrick Wambacq, Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, pages 417–427, Valencia, Spain, April 3-7, 2017
Neural Models for Information Retrieval
Bhaskar Mitra, Nick Craswell
(Submitted on 3 May 2017)
Neural ranking models for information retrieval (IR) use shallow or deep neural networks to rank search results in response to a query. Traditional learning to rank models employ machine learning techniques over hand-crafted IR features. By contrast, neural models learn representations of language from raw text that can bridge the gap between query and document vocabulary. Unlike classical IR models, these new machine learning based approaches are data-hungry, requiring large scale training data before they can be deployed. This tutorial introduces basic concepts and intuitions behind neural IR models, and places them in the context of traditional retrieval models. We begin by introducing fundamental concepts of IR and different neural and non-neural approaches to learning vector representations of text. We then review shallow neural IR methods that employ pre-trained neural term embeddings without learning the IR task end-to-end. We introduce deep neural networks next, discussing popular deep architectures. Finally, we review the current DNN models for information retrieval. We conclude with a discussion on potential future directions for neural IR.
6. Base Model
辞書 - 80万単語
レンマ,POS,活用形 の情報を含む
JUMAN辞書
追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル
で主に構成
Scoring function
Features
単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)
文字種,trigram (Zhang and Clark 2008)
6
y : タグ付けされた単語列
Φ(y) : y に対しての素性べクトル
w : 重みベクトル
7. Base Model
Training
重みベクトル w の学習のために soft confidence-weighted learning
(Wang et al., 2012) を利用
out-of-vocabulary (OOV) の取り扱い
解析時:文字種で入力列を分割することで自動で単語を生成
学習時:辞書中には無いが学習コーパスにある単語は OOV 単語
としてそれらの重みを学習する
Decording
second-order Viterbi algorithm (Thede and Harper, 1999)を利用す
ることで厳密なデコードが可能
7
9. RNNLM Integrated Model
Decording
RNNLMにおける可能な単語ラティスは組み合
わせ爆発が起こるため beam search (Zhang
and Clark 2008) を利用し,ビーム幅中の可能
なcontext 候補のみ保持する
十分なビームサイズは単語列の曖昧な候補を保
持することができると考える
各候補は context を表現するベクトルを持ち,
二つの単語の履歴を持つ
9
10. Experiments - Data sets
人手タグ付きコーパス
(RNNLMの再学習, base model の学習に利用)
Kyoto University Text Corpus (Kawahara et al.,
2002)
Kyoto University Web Document Leads Corpus
(Hangyo et al., 2012)
Test : 2000, Develop : 500, Train : 45000
10
11. Experiments - Baselines
JUMAN
MeCab
Base model のみ
Base model + 従来の言語モデル
3-gram 言語モデル(同じ自動単語分割コーパ
スからSRILMを使いKneser-Ney Smothing を
行い作成)
11
12. Experiments - Settings
事前に設定するパラメータ
ビーム幅:5
C_p = 5 (Mikolov et al. 2011)のデフォルト値
チューニングするパラメータ
development dataにおいて、提案手法, ベースモデル,
言語モデルのパラメータをグリッドサーチし下記のよ
うに決定
12
手法 α L_p
Base + SRILM 0.3 0.5
Base + RNNLM 0.1 2.0
Base + RNNLM_retrain(提案手法) 0.3 1.5
RNNME language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用
RNNLM の学習リソース
自動で単語分割され構築されたコーパス
人手でラベル付けされたコーパス
Recurrent Neural Net-work trained jointly with Maximum Entropy model