Character word lstm language models

Character-Word LSTM Language Models
長岡技術科学大学自然言語処理研究室
修士1年西山浩気
Lyan Verwimp, Joris Pelemans, Hugo Van hamme, Patrick Wambacq, Proceedings of
the 15th Conference of the European Chapter of the Association for Computational
Linguistics: Volume 1, Long Papers, pages 417–427, Valencia, Spain, April 3-7, 2017

 文字－単語LSTMモデルを提案
 perplexity(複雑さ)とパラメータ数を減少
 文字情報は単語の類似性を表すだけでなく、
未知語(out-of-vocabulary)にも有効
 文字Embeddingを足すことで, 2.77%の性能向上
 パラメータ数がより多いモデルと比較しても
高い性能を示す
1. 概要
2

 様々な主要タスクで使用される
✓ 音声認識
✓ 機械翻訳
現在では LSTMベースのLMが最高性能[Jozefowicz et al., ‘15]
 欠点
 パラメータ数が多く、低頻度語の精度が低い
 1-hot vectorでは単語の情報が不足している
2.1 言語モデル(Language Model) はじめに
3

 未知語の品詞を特定する際に,
例えば末尾の “ity”から”名詞”であると特定できる
 “文字情報”が未知語・低頻度語を表すことに有効 ?
低頻度語 : felicity (高頻度語 : great happiness)
本稿では
文字と単語情報を連結させたEmbeddingを使う
2.2 単語情報はじめに
4
ability, complexity, creativity, … ⇒ felicity も “名詞”

主に以下の2つのパターン
1. 単語レベルの表現を文字レベルに置換
 単語Embeddingを文字Embeddingに置換[Ling et al., ’15 等]
 Bi-LSTMで文字Embeddingを生成[Xie et al. ‘16]
2. 単語と文字情報を組み合わせる
 単語を漢字を組み合わせて入力[Chen et al. ’15 等]
 文字情報をBi-LSTMで生成して足し合わせる
[Miyamoto and Cho ‘16]
5
2.3 先行手法はじめに

従来手法
 文字1hot ×重み
提案手法
 従来に加え
文字ごとの
1hot × 重みを足す
6
3. Character-Word LSTM LMs 提案手法

Embeddingサイズを合わせる
 文字がN文字以上なら
✓ 先頭から or
✓ 末尾から or
✓ N文字を使用
 N文字以下なら
✓ 代わりの特殊文字を挿入
接頭辞・接尾辞の情報を取り入れる 7

パラメータ縮小のために
文字ごとに重みを共有する
従来手法
提案手法
8

 コーパス
 英語 : Penn Treebank (PTB)
 オランダ語 : Corpus of Spoken Dutch (CGN)
 ベースライン
 w200, w650 ：LSTMの層数が同じ, パラメータが多い
 w175, w475 ：パラメータ数が同じ
9
4.1 実験設定評価

 Small CW c5,10, 15
単語埋め込み数が 5,10,15
 いずれの提案手法も
パラメータ同数の
baselineを上回る
文字Embeddingサイズ
が小さい程効果が大きい
10
4.2 Perplexityの比較(英語) 評価

 4.2より単語数の多い場合
 文字Embeddingサイズが
10,25,50のいずれにも
perplexityが向上
 単語数が多い場合に
より有意な効果
11
4.2 Perplexityの比較(英語) 評価

 単語数が少ない・多い場合いずれも
baselineより優れたPerplexity
 オランダ語の形態素的な特徴を加えたことで、
未知語・低頻度語の補間ができている可能性がある
12
4.3 Perplexityの比較(オランダ語) 評価

 前後の文字を加えることで
未知語が低減できているのかを調査
 未知語に対するPerplexityを計算
 Baselineに比べ,
文字情報を利用することでPerpexityが低下
13
4.3 未知語・低頻度語数の評価評価

 単語と文字情報を組み合わせた
LSTM言語モデルを提案
 英語とオランダ語で実験
 同パラメータ数のLSTMと比較して高い性能
 未知語のPerplexityを改善
 今後の展望
 文字レベルのLSTMと単語レベルのLSTMの組み合わせ
 共起情報の利用
14
まとめ

Character word lstm language models

Recommended

Recommended

More Related Content

Similar to Character word lstm language models

Similar to Character word lstm language models (7)

More from 浩気西山

More from 浩気西山 (13)