Natural Language Processing
(Almost) from Scratch
Ronan Collobert et al.
Journal of Machine Learning
Research vol.12 (2011)
本論文の選定理由
• ACL 2012 Tutorial Deep Learning for NLPにて紹介さ
れている
• 代表的なNLPタスクにDeep Learningを適用している
– POS tagging
– Chunking
– ...
本論文のまとめ
目的
Propose a unified neural network architecture and
learning algorithm that can be applied to various
NLP tasks
P...
本論文のまとめ
注目点
様々なNLPタスクにNeural Networkを適用する際
に、どのようにデータを扱うべきか
Labeled Data/Unlabeled Dataにおける扱いの違い
について
背景と目的
背景
自然言語を構造化されたデータに変換する研究
は、AI研究の基礎研究であり、数多くの研究が
行われてきた
実際には、研究者自身がtask-specific featureを
engineeringすることで、intermedia...
背景と目的
目的
task-specific engineeringせずに、複数の基準手法
を超えることを目指す
large unlabeled data setsから発見される
intermediate representationを適用する...
Multi Tasking: shared features
タスクとデータセット
タスク説明
• Part Of Speech tagging
– 各単語、形態素への品詞付与
• Chunking
– 名詞句、動詞句、専門用語等文法的にひとま
とまりとして扱われるword sequence の抽出
• Named Entit...
タスク説明
• Semantic Role Labeling
– 文法的役割(主語、目的語、述語)や語同士
の係り受け関係など、意味的や役割を付与す
る
benchmark systems
Chapter 3 The Networks
提案手法
問題設定
全てのNLPタスクは語へのラベル付けであると
考える
Traditional
Approach
hand-designed featuresを分類アルゴリズムに適用
New
Approach
multilayer neura...
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Be...
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Be...
Neural Networks
提案手法〜概要〜
Window approach network Sentence approach network
Lookup tablesの作成
各単語をK個のdiscrete featureで表現したMatrix
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Be...
Extracting Higher Level Features From
Word Feature Vectors
L層のNeural Network
l層関数
パラメータ
Window approach
の場合
前後の語の特徴ベクトルを連結したものが入力ベク
Window approach
Linear Layer
Window approach
Parameters to be trained
第l層でのhidden unit数
HardTanh Layer
• Non-linear featureの表現
Window approach
Window Approach
Window approach
の問題点
SLRタスクにおいてうまく機能しない
=係り受け関係にある語が違うwindowに含まれ
てしまう場合があるため
Convolutional Layer
Sentence approach
sentence全体が入力ベクトル
→1入力の中で、語毎に時間をずらして入力
Time Delay Neural Network
Convolutional Neural Network
Max Layer
Sentence approach
各hidden unit ごとにt=0〜tで最大となる重みを第l層
への重みに
Tagging Schemes
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Be...
Training
対数尤度の最大化
Training
Word Level
Log-Likelihood
soft max all
over tags
Training
Sentence Level Log-Likelihood
transition score to jump from tag k to tagi
Sentence score for a tag path
Training
Sentence Level
Log-Likelihood
Conditional likelihood
by normalizingw.r.tall possible paths
Training
正規化項はrecursive Forward algorithm で算出可能
Inference: Viterbi algorithm (replace logAdd by max)
提案手法
• Transforming word into Feature Vectors
• Extracting Higher Level Features from Word
Feature Vectors
• Training
• Be...
Pre Processing
• use lower case words in the dictionary
• add “caps” feature to words had at least one
non-initial capital...
Hyper-parameters
Benchmark Result
Sentences with similar words should be tagged in the
same way.
The cat sat on the mat
The feline sat on t...
neighboring words
neighboring wordsが意味的に関連していない
Chapter 4 Lots of Unlabeled Data
Ranking Language Model
Lots of Unlabeled Data
• Two window approach (11) networks (100HU) trained on
two corpus
• LM1
– Wikipedia: 631 Mwords
– o...
Word Embeddings
neighboring wordsが意味的に関連している
Benchmark Performance
Chapter 5 Multitask Learning
Multitask Learning
Joint Training
ある訓練データに対し、同一のパターンを用いて異
なるラベリング結果を得る
Multitask Learning
window approachでは、First Layerのパラメータを共
有
Joint Training
Multitask Learning
Joint Training
Chapter 6 Temptation
その他の工夫
• Suffix Features
– Use last two characters as feature
• Gazetters
– 8,000 locations, person names, organizations a...
その他の工夫
その他の工夫
異なるパラメータで10個のNeural Networkを作成
→各タスクの精度を検証
Conclusion
• Achievements
– “All purpose" neural network architecture for NLP tagging
– Limit task-specic engineering
– Re...
Upcoming SlideShare
Loading in...5
×

Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)

2,628

Published on

Deep Learning Japan @ 東大です
http://www.facebook.com/DeepLearning
https://sites.google.com/site/deeplearning2013/

Published in: Technology, Education
0 Comments
8 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,628
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
49
Comments
0
Likes
8
Embeds 0
No embeds

No notes for slide

Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)

  1. 1. Natural Language Processing (Almost) from Scratch Ronan Collobert et al. Journal of Machine Learning Research vol.12 (2011)
  2. 2. 本論文の選定理由 • ACL 2012 Tutorial Deep Learning for NLPにて紹介さ れている • 代表的なNLPタスクにDeep Learningを適用している – POS tagging – Chunking – Named Entity Recognition – Semantic Role Labeling • NLP with Deep Learningの代表的な研究者が執筆し ている – Chris Manning – Ronan Collobert
  3. 3. 本論文のまとめ 目的 Propose a unified neural network architecture and learning algorithm that can be applied to various NLP tasks POS tagging, Chunking, NER, SLR 結論 人手でfeatureを作成する代わりに、大量のlabeled/unlabeled training dataからinternal representationを学習する 本研究の成果は、高精度で低計算コストなfreely available tagging systemを構築するための基礎となる
  4. 4. 本論文のまとめ 注目点 様々なNLPタスクにNeural Networkを適用する際 に、どのようにデータを扱うべきか Labeled Data/Unlabeled Dataにおける扱いの違い について
  5. 5. 背景と目的 背景 自然言語を構造化されたデータに変換する研究 は、AI研究の基礎研究であり、数多くの研究が 行われてきた 実際には、研究者自身がtask-specific featureを engineeringすることで、intermediate representationを発見し、performanceを向上させ てきた このような改善は実用的ではあるが、自然言語 の理解やAI構築といった大目的についての知見 はほとんど得られない 問題点
  6. 6. 背景と目的 目的 task-specific engineeringせずに、複数の基準手法 を超えることを目指す large unlabeled data setsから発見される intermediate representationを適用することで、 多くのNLPタスクについて高精度を得ることを 目指す Multi-tasking な言語モデルを構築する
  7. 7. Multi Tasking: shared features
  8. 8. タスクとデータセット
  9. 9. タスク説明 • Part Of Speech tagging – 各単語、形態素への品詞付与 • Chunking – 名詞句、動詞句、専門用語等文法的にひとま とまりとして扱われるword sequence の抽出 • Named Entity Recognition – 固有名詞抽出(地名、人名など)
  10. 10. タスク説明 • Semantic Role Labeling – 文法的役割(主語、目的語、述語)や語同士 の係り受け関係など、意味的や役割を付与す る
  11. 11. benchmark systems
  12. 12. Chapter 3 The Networks
  13. 13. 提案手法 問題設定 全てのNLPタスクは語へのラベル付けであると 考える Traditional Approach hand-designed featuresを分類アルゴリズムに適用 New Approach multilayer neural networkによる学習
  14. 14. 提案手法 • Transforming word into Feature Vectors • Extracting Higher Level Features from Word Feature Vectors • Training • Benchmark Result
  15. 15. 提案手法 • Transforming word into Feature Vectors • Extracting Higher Level Features from Word Feature Vectors • Training • Benchmark Result
  16. 16. Neural Networks
  17. 17. 提案手法〜概要〜 Window approach network Sentence approach network
  18. 18. Lookup tablesの作成 各単語をK個のdiscrete featureで表現したMatrix
  19. 19. 提案手法 • Transforming word into Feature Vectors • Extracting Higher Level Features from Word Feature Vectors • Training • Benchmark Result
  20. 20. Extracting Higher Level Features From Word Feature Vectors L層のNeural Network l層関数 パラメータ
  21. 21. Window approach の場合 前後の語の特徴ベクトルを連結したものが入力ベク Window approach
  22. 22. Linear Layer Window approach Parameters to be trained 第l層でのhidden unit数
  23. 23. HardTanh Layer • Non-linear featureの表現 Window approach
  24. 24. Window Approach Window approach の問題点 SLRタスクにおいてうまく機能しない =係り受け関係にある語が違うwindowに含まれ てしまう場合があるため
  25. 25. Convolutional Layer Sentence approach sentence全体が入力ベクトル →1入力の中で、語毎に時間をずらして入力
  26. 26. Time Delay Neural Network
  27. 27. Convolutional Neural Network
  28. 28. Max Layer Sentence approach 各hidden unit ごとにt=0〜tで最大となる重みを第l層 への重みに
  29. 29. Tagging Schemes
  30. 30. 提案手法 • Transforming word into Feature Vectors • Extracting Higher Level Features from Word Feature Vectors • Training • Benchmark Result
  31. 31. Training 対数尤度の最大化
  32. 32. Training Word Level Log-Likelihood soft max all over tags
  33. 33. Training Sentence Level Log-Likelihood transition score to jump from tag k to tagi Sentence score for a tag path
  34. 34. Training Sentence Level Log-Likelihood Conditional likelihood by normalizingw.r.tall possible paths
  35. 35. Training 正規化項はrecursive Forward algorithm で算出可能 Inference: Viterbi algorithm (replace logAdd by max)
  36. 36. 提案手法 • Transforming word into Feature Vectors • Extracting Higher Level Features from Word Feature Vectors • Training • Benchmark Result
  37. 37. Pre Processing • use lower case words in the dictionary • add “caps” feature to words had at least one non-initial capital letter • number with in a word are replace with the string “NUMBER”
  38. 38. Hyper-parameters
  39. 39. Benchmark Result Sentences with similar words should be tagged in the same way. The cat sat on the mat The feline sat on the mat
  40. 40. neighboring words neighboring wordsが意味的に関連していない
  41. 41. Chapter 4 Lots of Unlabeled Data
  42. 42. Ranking Language Model
  43. 43. Lots of Unlabeled Data • Two window approach (11) networks (100HU) trained on two corpus • LM1 – Wikipedia: 631 Mwords – order dictionary words by frequency – increase dictionary size: 5000, 10; 000, 30; 000, 50; 000, 100; 000 – 4 weeks of training • LM2 – Wikipedia + Reuter=631+221=852M words – initialized with LM1, dictionary size is 130; 000 – 30,000 additional most frequent Reuters words – 3 additional weeks of training
  44. 44. Word Embeddings neighboring wordsが意味的に関連している
  45. 45. Benchmark Performance
  46. 46. Chapter 5 Multitask Learning
  47. 47. Multitask Learning Joint Training ある訓練データに対し、同一のパターンを用いて異 なるラベリング結果を得る
  48. 48. Multitask Learning window approachでは、First Layerのパラメータを共 有 Joint Training
  49. 49. Multitask Learning Joint Training
  50. 50. Chapter 6 Temptation
  51. 51. その他の工夫 • Suffix Features – Use last two characters as feature • Gazetters – 8,000 locations, person names, organizations and misc entries from CoNLL2003 • POS – use POS as a feature for CHUNK &NER • CHUNK – use CHUNK as a feature for SRL
  52. 52. その他の工夫
  53. 53. その他の工夫 異なるパラメータで10個のNeural Networkを作成 →各タスクの精度を検証
  54. 54. Conclusion • Achievements – “All purpose" neural network architecture for NLP tagging – Limit task-specic engineering – Rely on very large unlabeled datasets – We do not plan to stop here • Critics – Why forgetting NLP expertise for neural network training skills? • NLP goals are not limited to existing NLP task • Excessive task-specic engineering is not desirable – Why neural networks? • Scale on massive datasets • Discover hidden representations • Most of neural network technology existed in 1997 (Bottou, 1997)
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×