SlideShare a Scribd company logo
1 of 14
Download to read offline
Character-Word LSTM Language Models
長岡技術科学大学 自然言語処理研究室
修士1年 西山 浩気
Lyan Verwimp, Joris Pelemans, Hugo Van hamme, Patrick Wambacq, Proceedings of
the 15th Conference of the European Chapter of the Association for Computational
Linguistics: Volume 1, Long Papers, pages 417–427, Valencia, Spain, April 3-7, 2017
 文字-単語LSTMモデルを提案
 perplexity(複雑さ)とパラメータ数を減少
 文字情報は単語の類似性を表すだけでなく、
未知語(out-of-vocabulary)にも有効
 文字Embeddingを足すことで, 2.77%の性能向上
 パラメータ数がより多いモデルと比較しても
高い性能を示す
1. 概要
2
 様々な主要タスクで使用される
✓ 音声認識
✓ 機械翻訳
現在では LSTMベースのLMが最高性能[Jozefowicz et al., ‘15]
 欠点
 パラメータ数が多く、低頻度語の精度が低い
 1-hot vectorでは単語の情報が不足している
2.1 言語モデル(Language Model) はじめに
3
 未知語の品詞を特定する際に,
例えば末尾の “ity”から”名詞”であると特定できる
 “文字情報”が未知語・低頻度語を表すことに有効 ?
低頻度語 : felicity (高頻度語 : great happiness)
本稿では
文字と単語情報を連結させたEmbeddingを使う
2.2 単語情報 はじめに
4
ability, complexity, creativity, … ⇒ felicity も “名詞”
主に以下の2つのパターン
1. 単語レベルの表現を文字レベルに置換
 単語Embeddingを文字Embeddingに置換[Ling et al., ’15 等]
 Bi-LSTMで文字Embeddingを生成[Xie et al. ‘16]
2. 単語と文字情報を組み合わせる
 単語を漢字を組み合わせて入力[Chen et al. ’15 等]
 文字情報をBi-LSTMで生成して足し合わせる
[Miyamoto and Cho ‘16]
5
2.3 先行手法 はじめに
従来手法
 文字1hot ×重み
提案手法
 従来に加え
文字ごとの
1hot × 重みを足す
6
3. Character-Word LSTM LMs 提案手法
Embeddingサイズを合わせる
 文字がN文字以上なら
✓ 先頭から or
✓ 末尾から or
✓ N文字 を使用
 N文字以下なら
✓ 代わりの特殊文字を挿入
接頭辞・接尾辞の情報を取り入れる 7
3. Character-Word LSTM LMs 提案手法
パラメータ縮小のために
文字ごとに重みを共有する
従来手法
提案手法
8
3. Character-Word LSTM LMs 提案手法
 コーパス
 英語 : Penn Treebank (PTB)
 オランダ語 : Corpus of Spoken Dutch (CGN)
 ベースライン
 w200, w650 :LSTMの層数が同じ, パラメータが多い
 w175, w475 :パラメータ数が同じ
9
4.1 実験設定 評価
 Small CW c5,10, 15
単語埋め込み数が 5,10,15
 いずれの提案手法も
パラメータ同数の
baselineを上回る
文字Embeddingサイズ
が小さい程効果が大きい
10
4.2 Perplexityの比較(英語) 評価
 4.2より単語数の多い場合
 文字Embeddingサイズが
10,25,50のいずれにも
perplexityが向上
 単語数が多い場合に
より有意な効果
11
4.2 Perplexityの比較(英語) 評価
 単語数が少ない・多い場合いずれも
baselineより優れたPerplexity
 オランダ語の形態素的な特徴を加えたことで、
未知語・低頻度語の補間ができている可能性がある
12
4.3 Perplexityの比較(オランダ語) 評価
 前後の文字を加えることで
未知語が低減できているのかを調査
 未知語に対するPerplexityを計算
 Baselineに比べ,
文字情報を利用することでPerpexityが低下
13
4.3 未知語・低頻度語数の評価 評価
 単語と文字情報を組み合わせた
LSTM言語モデルを提案
 英語とオランダ語で実験
 同パラメータ数のLSTMと比較して高い性能
 未知語のPerplexityを改善
 今後の展望
 文字レベルのLSTMと単語レベルのLSTMの組み合わせ
 共起情報の利用
14
まとめ

More Related Content

Similar to Character word lstm language models

Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Kosuke Futamata
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi
 

Similar to Character word lstm language models (7)

Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 

More from 浩気 西山

Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...浩気 西山
 
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...浩気 西山
 
Nlp2018 参加報告
Nlp2018 参加報告Nlp2018 参加報告
Nlp2018 参加報告浩気 西山
 
Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...
Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...
Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...浩気 西山
 
Evaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasksEvaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasks浩気 西山
 
Semi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language modelsSemi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language models浩気 西山
 
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths浩気 西山
 
Neural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method EngineNeural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method Engine浩気 西山
 
Are emojis predictable
Are emojis predictableAre emojis predictable
Are emojis predictable浩気 西山
 
Semantic analysis and helpfulness prediction of text for online product reviews
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews浩気 西山
 
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...浩気 西山
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム浩気 西山
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム浩気 西山
 

More from 浩気 西山 (13)

Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
 
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
 
Nlp2018 参加報告
Nlp2018 参加報告Nlp2018 参加報告
Nlp2018 参加報告
 
Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...
Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...
Character aware-neural-networks-for-arabic-named-entity-recognition-for-socia...
 
Evaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasksEvaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasks
 
Semi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language modelsSemi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language models
 
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
 
Neural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method EngineNeural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method Engine
 
Are emojis predictable
Are emojis predictableAre emojis predictable
Are emojis predictable
 
Semantic analysis and helpfulness prediction of text for online product reviews
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews
 
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
 
1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
 

Character word lstm language models