Natural Language Processing
(Almost) from Scratch
Ronan Collobert et al.
Journal of Machine Learning
Research vol.12 (2011)
本論文の選定理由
• ACL 2012 Tutorial Deep Learning for NLPにて紹介さ
れている
• 代表的なNLPタスクにDeep Learningを適用している
– POS tagging
– Chunking
– Named Entity Recognition
– Semantic Role Labeling
• NLP with Deep Learningの代表的な研究者が執筆し
ている
– Chris Manning
– Ronan Collobert
本論文のまとめ
目的
Propose a unified neural network architecture and
learning algorithm that can be applied to various
NLP tasks
POS tagging, Chunking, NER, SLR
結論
人手でfeatureを作成する代わりに、大量のlabeled/unlabeled training
dataからinternal representationを学習する
本研究の成果は、高精度で低計算コストなfreely available tagging
systemを構築するための基礎となる
本論文のまとめ
注目点
様々なNLPタスクにNeural Networkを適用する際
に、どのようにデータを扱うべきか
Labeled Data/Unlabeled Dataにおける扱いの違い
について
背景と目的
背景
自然言語を構造化されたデータに変換する研究
は、AI研究の基礎研究であり、数多くの研究が
行われてきた
実際には、研究者自身がtask-specific featureを
engineeringすることで、intermediate
representationを発見し、performanceを向上させ
てきた
このような改善は実用的ではあるが、自然言語
の理解やAI構築といった大目的についての知見
はほとんど得られない
問題点
背景と目的
目的
task-specific engineeringせずに、複数の基準手法
を超えることを目指す
large unlabeled data setsから発見される
intermediate representationを適用することで、
多くのNLPタスクについて高精度を得ることを
目指す
Multi-tasking な言語モデルを構築する
Multi Tasking: shared features
タスクとデータセット
タスク説明
• Part Of Speech tagging
– 各単語、形態素への品詞付与
• Chunking
– 名詞句、動詞句、専門用語等文法的にひとま
とまりとして扱われるword sequence の抽出
• Named Entity Recognition
– 固有名詞抽出(地名、人名など)
タスク説明
• Semantic Role Labeling
– 文法的役割(主語、目的語、述語)や語同士
の係り受け関係など、意味的や役割を付与す
る
benchmark systems
Chapter 3 The Networks
提案手法
問題設定
全てのNLPタスクは語へのラベル付けであると
考える
Traditional
Approach
hand-designed featuresを分類アルゴリズムに適用
New
Approach
multilayer neural networkによる学習
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Neural Networks
提案手法〜概要〜
Window approach network Sentence approach network
Lookup tablesの作成
各単語をK個のdiscrete featureで表現したMatrix
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Extracting Higher Level Features From
Word Feature Vectors
L層のNeural Network
l層関数
パラメータ
Window approach
の場合
前後の語の特徴ベクトルを連結したものが入力ベク
Window approach
Linear Layer
Window approach
Parameters to be trained
第l層でのhidden unit数
HardTanh Layer
• Non-linear featureの表現
Window approach
Window Approach
Window approach
の問題点
SLRタスクにおいてうまく機能しない
=係り受け関係にある語が違うwindowに含まれ
てしまう場合があるため
Convolutional Layer
Sentence approach
sentence全体が入力ベクトル
→1入力の中で、語毎に時間をずらして入力
Time Delay Neural Network
Convolutional Neural Network
Max Layer
Sentence approach
各hidden unit ごとにt=0〜tで最大となる重みを第l層
への重みに
Tagging Schemes
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Training
対数尤度の最大化
Training
Word Level
Log-Likelihood
soft max all
over tags
Training
Sentence Level Log-Likelihood
transition score to jump from tag k to tagi
Sentence score for a tag path
Training
Sentence Level
Log-Likelihood
Conditional likelihood
by normalizingw.r.tall possible paths
Training
正規化項はrecursive Forward algorithm で算出可能
Inference: Viterbi algorithm (replace logAdd by max)
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Benchmark Result
Pre Processing
• use lower case words in the dictionary
• add “caps” feature to words had at least one
non-initial capital letter
• number with in a word are replace with the
string “NUMBER”
Hyper-parameters
Benchmark Result
Sentences with similar words should be tagged in the
same way.
The cat sat on the mat
The feline sat on the mat
neighboring words
neighboring wordsが意味的に関連していない
Chapter 4 Lots of Unlabeled Data
Ranking Language Model
Lots of Unlabeled Data
• Two window approach (11) networks (100HU) trained on
two corpus
• LM1
– Wikipedia: 631 Mwords
– order dictionary words by frequency
– increase dictionary size: 5000, 10; 000, 30; 000, 50; 000, 100;
000
– 4 weeks of training
• LM2
– Wikipedia + Reuter=631+221=852M words
– initialized with LM1, dictionary size is 130; 000
– 30,000 additional most frequent Reuters words
– 3 additional weeks of training
Word Embeddings
neighboring wordsが意味的に関連している
Benchmark Performance
Chapter 5 Multitask Learning
Multitask Learning
Joint Training
ある訓練データに対し、同一のパターンを用いて異
なるラベリング結果を得る
Multitask Learning
window approachでは、First Layerのパラメータを共
有
Joint Training
Multitask Learning
Joint Training
Chapter 6 Temptation
その他の工夫
• Suffix Features
– Use last two characters as feature
• Gazetters
– 8,000 locations, person names, organizations and
misc entries from CoNLL2003
• POS
– use POS as a feature for CHUNK &NER
• CHUNK
– use CHUNK as a feature for SRL
その他の工夫
その他の工夫
異なるパラメータで10個のNeural Networkを作成
→各タスクの精度を検証
Conclusion
• Achievements
– “All purpose" neural network architecture for NLP tagging
– Limit task-specic engineering
– Rely on very large unlabeled datasets
– We do not plan to stop here
• Critics
– Why forgetting NLP expertise for neural network training
skills?
• NLP goals are not limited to existing NLP task
• Excessive task-specic engineering is not desirable
– Why neural networks?
• Scale on massive datasets
• Discover hidden representations
• Most of neural network technology existed in 1997 (Bottou, 1997)

Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)