EMNLP 2015 読み会 @小町研
“Morphological Analysis for Unsegmented
Languages using Recurrent Neural Network
Language Model “
Hajime Morita, Daisuke Kawahara, Sadao Kurohashi
首都大学東京 情報通信システム学域
小町研究室 M2 塘 優旗
1
Abstract
 Recurrent Neural Network Language Model
(RNNLM) を利用し、新たな形態素解析モ
デルを提案
 意味的に一般化された言語モデルとして
RNNLMを利用
 二つの日本語コーパスにおいて、提案手法
がベースラインに比べて良い結果を示した
2
Proposed Method
 RNNLM を利用することで意味的に尤もらしい単語列を考
慮して形態素解析を行う手法
 RNNME (Recurrent Neural Net-work trained jointly with
Maximum Entropy) language model (Mikolov et al., 2011;
Mikolov, 2012) をRNNLMの実装として利用
3
Recurrent Neural Network
Language Model (RNNLM)
 Auto Segmented Corpus
 生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を
JUMANで自動解析し作成
 JUMANにおける解析誤りが含まれる
 Training
 Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語
列で学習
 学習されたモデルは,自動解析における誤りを含む
 Re-training
 人手でラベル付けされたコーパスで再学習
 機能語の単語列に関するエラーの解消のため
4
Base Model
 教師有り形態素解析モデル(単語分割,レンマ化,POS
タグ付け)を Base Model として利用
 Train data:アノテーション済み1万文のコーパス
 解析手順
1. 入力文の文字列を辞書を利用し参照
2. 単語ラティスの構築
3. ラティス中の最もスコアの高いパスを探索
5
Base Model
 辞書 - 80万単語
 レンマ,POS,活用形 の情報を含む
 JUMAN辞書
 追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル
で主に構成
 Scoring function
 Features
 単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)
 文字種,trigram (Zhang and Clark 2008)
6
y : タグ付けされた単語列
Φ(y) : y に対しての素性べクトル
w : 重みベクトル
Base Model
 Training
 重みベクトル w の学習のために soft confidence-weighted learning
(Wang et al., 2012) を利用
 out-of-vocabulary (OOV) の取り扱い
 解析時:文字種で入力列を分割することで自動で単語を生成
 学習時:辞書中には無いが学習コーパスにある単語は OOV 単語
としてそれらの重みを学習する
 Decording
 second-order Viterbi algorithm (Thede and Harper, 1999)を利用す
ることで厳密なデコードが可能
7
RNNLM Integrated Model
 タグ付けされた系列に対してのRNNLM,ベースモデ
ルによるそれぞれのスコア(score_R, score_B)を統
合
 OOV単語に対してのスコア付け
8
C_p : OOVへの定数ペナルティ
L_p : 単語長に対してのペナルティ
length(n) : 次の単語 n の長さ
α:補間パラメータ
RNNLM Integrated Model
 Decording
 RNNLMにおける可能な単語ラティスは組み合
わせ爆発が起こるため beam search (Zhang
and Clark 2008) を利用し,ビーム幅中の可能
なcontext 候補のみ保持する
 十分なビームサイズは単語列の曖昧な候補を保
持することができると考える
 各候補は context を表現するベクトルを持ち,
二つの単語の履歴を持つ
9
Experiments - Data sets
 人手タグ付きコーパス
(RNNLMの再学習, base model の学習に利用)
 Kyoto University Text Corpus (Kawahara et al.,
2002)
 Kyoto University Web Document Leads Corpus
(Hangyo et al., 2012)
 Test : 2000, Develop : 500, Train : 45000
10
Experiments - Baselines
 JUMAN
 MeCab
 Base model のみ
 Base model + 従来の言語モデル
 3-gram 言語モデル(同じ自動単語分割コーパ
スからSRILMを使いKneser-Ney Smothing を
行い作成)
11
Experiments - Settings
 事前に設定するパラメータ
 ビーム幅:5
 C_p = 5 (Mikolov et al. 2011)のデフォルト値
 チューニングするパラメータ
 development dataにおいて、提案手法, ベースモデル,
言語モデルのパラメータをグリッドサーチし下記のよ
うに決定
12
手法 α L_p
Base + SRILM 0.3 0.5
Base + RNNLM 0.1 2.0
Base + RNNLM_retrain(提案手法) 0.3 1.5
Experiments - Evaluation
 単語分かち書き, POSタグ付けのジョイン
ト評価のF値
 ドメイン:News, Web, ALL(News + Web)
 ブートストラッピング(Zhang et al., 2004)
を用いて提案手法とその他のモデルの優位
性をテスト
13
Experiments - Results
 提案手法が全ての点で最高精度
14
Experiments - Results
 Segmentation で特に大きな改善
 レンマ化されたPOSタグ付けのされていな
い単語列をベースに学習されたRNNLMを
利用することによる
15
Experiments - Results
 単語分割の具体例
 上記のようなベースラインの解析誤りは言語モデル
を作成する際に利用される自動作成コーパスにおけ
るエラーに由来する
 RNNLMを利用し、意味的な単語の遷移が捉えること
ができれば提案手法で正しい解析が可能になる 16
手法 解析結果
JUMAN 外国 / 人参 / 政権
Base + SRILM
Base + RNNLM_retrain(提案手法) 外国人 / 参政権
Experiments - Results
 単語分割の具体例
 ベースラインのような分割は文法的には問題ないが、
意味的に解釈することは難しい
 RNNLMが意味的に尤もらしい単語列を学習するため、
提案手法ではうまくいく
17
手法 解析結果
JUMAN 健康/な/どの/点/で
Base + SRILM
Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
Conclusion
 RNNLM を自動的に単語分割を行ったコーパス、人手で作
成したコーパスで学習することで形態素解析の新しいモ
デルを提案
 RNNLMによって単語系列の意味的な尤もらしさを捉える
ことでベースモデルのエラーを減少
 Future Work
 RNNLMモデル由来の素性を設計し、それらを統合された学習フ
レームワークに組み込みたい
 中国語やタイ語のような単語分割のされていない言語にも適用し
たい
18

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

  • 1.
    EMNLP 2015 読み会@小町研 “Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model “ Hajime Morita, Daisuke Kawahara, Sadao Kurohashi 首都大学東京 情報通信システム学域 小町研究室 M2 塘 優旗 1
  • 2.
    Abstract  Recurrent NeuralNetwork Language Model (RNNLM) を利用し、新たな形態素解析モ デルを提案  意味的に一般化された言語モデルとして RNNLMを利用  二つの日本語コーパスにおいて、提案手法 がベースラインに比べて良い結果を示した 2
  • 3.
    Proposed Method  RNNLMを利用することで意味的に尤もらしい単語列を考 慮して形態素解析を行う手法  RNNME (Recurrent Neural Net-work trained jointly with Maximum Entropy) language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 3
  • 4.
    Recurrent Neural Network LanguageModel (RNNLM)  Auto Segmented Corpus  生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を JUMANで自動解析し作成  JUMANにおける解析誤りが含まれる  Training  Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語 列で学習  学習されたモデルは,自動解析における誤りを含む  Re-training  人手でラベル付けされたコーパスで再学習  機能語の単語列に関するエラーの解消のため 4
  • 5.
    Base Model  教師有り形態素解析モデル(単語分割,レンマ化,POS タグ付け)をBase Model として利用  Train data:アノテーション済み1万文のコーパス  解析手順 1. 入力文の文字列を辞書を利用し参照 2. 単語ラティスの構築 3. ラティス中の最もスコアの高いパスを探索 5
  • 6.
    Base Model  辞書- 80万単語  レンマ,POS,活用形 の情報を含む  JUMAN辞書  追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル で主に構成  Scoring function  Features  単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)  文字種,trigram (Zhang and Clark 2008) 6 y : タグ付けされた単語列 Φ(y) : y に対しての素性べクトル w : 重みベクトル
  • 7.
    Base Model  Training 重みベクトル w の学習のために soft confidence-weighted learning (Wang et al., 2012) を利用  out-of-vocabulary (OOV) の取り扱い  解析時:文字種で入力列を分割することで自動で単語を生成  学習時:辞書中には無いが学習コーパスにある単語は OOV 単語 としてそれらの重みを学習する  Decording  second-order Viterbi algorithm (Thede and Harper, 1999)を利用す ることで厳密なデコードが可能 7
  • 8.
    RNNLM Integrated Model タグ付けされた系列に対してのRNNLM,ベースモデ ルによるそれぞれのスコア(score_R, score_B)を統 合  OOV単語に対してのスコア付け 8 C_p : OOVへの定数ペナルティ L_p : 単語長に対してのペナルティ length(n) : 次の単語 n の長さ α:補間パラメータ
  • 9.
    RNNLM Integrated Model Decording  RNNLMにおける可能な単語ラティスは組み合 わせ爆発が起こるため beam search (Zhang and Clark 2008) を利用し,ビーム幅中の可能 なcontext 候補のみ保持する  十分なビームサイズは単語列の曖昧な候補を保 持することができると考える  各候補は context を表現するベクトルを持ち, 二つの単語の履歴を持つ 9
  • 10.
    Experiments - Datasets  人手タグ付きコーパス (RNNLMの再学習, base model の学習に利用)  Kyoto University Text Corpus (Kawahara et al., 2002)  Kyoto University Web Document Leads Corpus (Hangyo et al., 2012)  Test : 2000, Develop : 500, Train : 45000 10
  • 11.
    Experiments - Baselines JUMAN  MeCab  Base model のみ  Base model + 従来の言語モデル  3-gram 言語モデル(同じ自動単語分割コーパ スからSRILMを使いKneser-Ney Smothing を 行い作成) 11
  • 12.
    Experiments - Settings 事前に設定するパラメータ  ビーム幅:5  C_p = 5 (Mikolov et al. 2011)のデフォルト値  チューニングするパラメータ  development dataにおいて、提案手法, ベースモデル, 言語モデルのパラメータをグリッドサーチし下記のよ うに決定 12 手法 α L_p Base + SRILM 0.3 0.5 Base + RNNLM 0.1 2.0 Base + RNNLM_retrain(提案手法) 0.3 1.5
  • 13.
    Experiments - Evaluation 単語分かち書き, POSタグ付けのジョイン ト評価のF値  ドメイン:News, Web, ALL(News + Web)  ブートストラッピング(Zhang et al., 2004) を用いて提案手法とその他のモデルの優位 性をテスト 13
  • 14.
    Experiments - Results 提案手法が全ての点で最高精度 14
  • 15.
    Experiments - Results Segmentation で特に大きな改善  レンマ化されたPOSタグ付けのされていな い単語列をベースに学習されたRNNLMを 利用することによる 15
  • 16.
    Experiments - Results 単語分割の具体例  上記のようなベースラインの解析誤りは言語モデル を作成する際に利用される自動作成コーパスにおけ るエラーに由来する  RNNLMを利用し、意味的な単語の遷移が捉えること ができれば提案手法で正しい解析が可能になる 16 手法 解析結果 JUMAN 外国 / 人参 / 政権 Base + SRILM Base + RNNLM_retrain(提案手法) 外国人 / 参政権
  • 17.
    Experiments - Results 単語分割の具体例  ベースラインのような分割は文法的には問題ないが、 意味的に解釈することは難しい  RNNLMが意味的に尤もらしい単語列を学習するため、 提案手法ではうまくいく 17 手法 解析結果 JUMAN 健康/な/どの/点/で Base + SRILM Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
  • 18.
    Conclusion  RNNLM を自動的に単語分割を行ったコーパス、人手で作 成したコーパスで学習することで形態素解析の新しいモ デルを提案 RNNLMによって単語系列の意味的な尤もらしさを捉える ことでベースモデルのエラーを減少  Future Work  RNNLMモデル由来の素性を設計し、それらを統合された学習フ レームワークに組み込みたい  中国語やタイ語のような単語分割のされていない言語にも適用し たい 18

Editor's Notes

  • #2 07/16/96
  • #4 RNNME language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 RNNLM の学習リソース 自動で単語分割され構築されたコーパス 人手でラベル付けされたコーパス Recurrent Neural Net-work trained jointly with Maximum Entropy model