ACL 2015 読み会 @小町研
Gated Recursive Neural Network
for Chinese Word Segmentation
Xinchi Chen, Xipeng Qiu, Chenxi Zhu,
Xuanjing Huang
首都大学東京 情報通信システム学域 小町研究室
M2 塘 優旗
2015/10/2 ACL 2015 読み会 @小町研 1
Abstract
中国語の単語わかち書きタスク
素性選択の負担軽減が注目されているが、これまでのNNは離散的な
featuresを用いたtraditionalな手法のようにcomplicated feature
compositions を抽出できなかった
reset gate, update gateという二つのゲートを持つ Gated Recursive
Neural Network (GRNN) を利用することで文脈文字の複雑な組み合わ
せを取り入れることができて素性選択が必要ない
GRNNはdeepなので layer-wise trainingを利用することでgradient
diffusion (勾配拡散)の問題を回避
現時点での最高精度を達成
2015/10/2 ACL 2015 読み会 @小町研 2
Chinese
Word Segmentation
文字ベースの系列ラベリング
{B, M, E, S} = { Begin, Middle, End, Single }
2015/10/2 ACL 2015 読み会 @小町研 3
B E B E EBS
ACL 2015 読み会 @小町研 4
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
•RNN
• 系列のモデル化を行うために位
相グラフが必要
•directed acyclic graph (DAG)有
向非巡回グラフ
• ある頂点 v から出発し、辺をた
どり、頂点 v に戻ってこない
• 文字の組み合わせをボトム層か
ら連続してミックスすることで
モデル化できる
• 各ノードは複数文字の
complicated feature composition
とみなせる
2015/10/2 ACL 2015 読み会 @小町研 5
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
文字セット:
文字embedding:
↓
h_i : 隠れノード,d次元
g : 非線形関数, シグモイドなど
2015/10/2 ACL 2015 読み会 @小町研 6
Gated Recursive
Neural Network (GRNN)
complicated combination features
を表現するにはシンプルすぎるため、
gated recurrent neural network (Cho et al.,
2014b; Chung et al., 2014) を参考に
2種類のゲートの導入
• reset gate (r_L, r_R)
• 右,左それぞれの子ノードから情報読み込み
• update gate
• 子ノードの情報を統合する際に何を保持するか
決定
→ どのようにアップデートし、
combination information を利用するかを
決定
update gate
reset gate
2015/10/2 ACL 2015 読み会 @小町研 7
Gated Recursive
Neural Network (GRNN)
for Chinese
Word Segmentation
最後のレイヤー(出力)
エンベディングが1stレイヤーに入力
され、1つの固定長ベクトルになるま
で上層のレイヤーまで繰り返し伝達さ
れる
異なるニューロンの出力は、異なる
feature compositionsとみなす
最後に全てのニューロンの出力を連結
しベクトル x_i を得る
x_i を線形変換することで、文字 c_i
に対しての各タグのスコアを得る
q : 総ノード数
3つのゲートの要素は同じ次元
が正規化されている
2015/10/2 ACL 2015 読み会 @小町研 8
Gated Recursive Unit
• update gate の定義
new activation
• j-th hidden node の更新式
正規化
2015/10/2 ACL 2015 読み会 @小町研 9
Gated Recursive Unit
• reset gates の定義
new activation
• j-th activationの定義、更新
reset gate :
係数 :
シグモイド関数
reset gates は right , left のchild nodeの出力を選択の仕方をコントロールし、
結果的に new activation を得る
update gates は new activation, left child, right child の選択としてみなすこ
とができる
→ この gating mechanism は文字のコンビネーションを効率よくモデル化できる
Inference
GRNN によって各文字に対してラベル付
けされるスコアが得られたため,Viterbi
アルゴリズムを利用して系列全体を通し
て最適なラベル列を推定する
先行研究にならい、transition matrix を導
入し,タグ間の遷移のスコアとして利用
する
2015/10/2 ACL 2015 読み会 @小町研 10
B E B ES→ へ遷移するスコア
従って、sentence-level のスコア付けは以下のようになる
2015/10/2 ACL 2015 読み会 @小町研 11
Training
- Layer-wise Training
Deep Learning の学習は難しい
 gradient diffusion (勾配の拡散)
 overfitting のリスク
(Hinton and Salakhutdinov, 2006)
Layer-wise Training
 Layer を1つづつ追加して学習を行う
1. 隠れ層の1層目のみ学習
2. 1層目の学習が終わったら2つの隠れ層の学習を行う。一番上の隠れ層 まで繰り返し
学習を行う (1~ )
3. 最後の層まで学習が終わったら現在のパラメータを初期値として 1~ の層にお
いて学習を行う
2015/10/2 ACL 2015 読み会 @小町研 12
Training
- Max-Margin criterion
Taskar et al., 2005 によって提案
モデルの決定境界の頑健さに着目することで確率、尤度の代替となる
尺度を与える
:全ての可能なラベル列のセット
:正解ラベル列
:予測ラベル列
 与えられた文 x _i に対して
 Margin Loss
 トレーニングインスタンス
に対して最もスコアのものを探索
 Max-Margin training の目的は最
も高いスコアとなるタグ系列が
正解と一致すること
Subgradien Method
 Ratliff et al., 2007
 最急降下の帰納法
 gradient-like direction を計算
目的関数の最小化
 (Socher et al., 2013a) にならう
 AdaGrad (Duchi et al., 2011) を利用してみ
にバッチでパラメータを更新
上記の式から m training exampleに対し
ての正規化された目的関数 J(θ)を定義
下記式を最小化することで正しいタグ系列
のスコアが増加し、間違っているタグ系列
のスコアが減少する
2015/10/2 ACL 2015 読み会 @小町研 13
Training
- Max-Margin training
Experiments
ドメインの異なる二種類のテキストで実験
1. Newswire (Web上で配信されるニュース)
2. Micro-blog
評価
•一般的なBakeoff scoring program
•Precision, Recall, F1-score
2015/10/2 ACL 2015 読み会 @小町研 14
Experiments (Newswire)
- データセット
•PKU, MSRA
• the second International Chinese Word Segmentation Bakeoff
(Emerson, 2005) で提供
• Training set:train data中の90%
• Development set : train data中の10%
•CTB6
• Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による
• 分かち書き、POSタグ付け済み、選択的な形式主義において完全に構
造化されたコーパス
• Training, Development, Test のデータセットの分割は(Yang and Xue,
2012) らにならう
→ 前処理:中国語の熟語、英字、数字 は特殊記号で置き換える
2015/10/2 ACL 2015 読み会 @小町研 15
Experiments (Newswire)
- ハイパーパラメータ
batch size:20
文字エンベディングサイズ
• 計算機リソース、実験結果にお
けるunderfit を考慮して決定
Dropout (Srivastava et al.,
2014)
• 過学習を避ける
• 効率、パフォーマンスを考慮し
て右のrateにする
2015/10/2 ACL 2015 読み会 @小町研 16
Experiments(Newswire)
- Layer-wise Training
2015/10/2 ACL 2015 読み会 @小町研 17
Layer-wise training の効果を
調査
提案手法:
window幅 5,
recursion layer 5
異なるrecursion layer で実験
各モデルの収束スピードの比
較
パフォーマンスの比較
Experiments (Newswire)
- Layer-wise Training
- F値の収束スピード
異なるレイヤー数、layer-wise
trainingを行ったかどうか
1 layer
最後の線形スコア関数のみ利用
非線形レイヤーがないためunderfit,
性能低い
5 layer
5層利用し、全てのニューロンを利
用
ただ単に学習すると遅い、性能低
い
Layer-wise
5層利用してもF値の収束が早く,
性能も良い
2015/10/2 ACL 2015 読み会 @小町研 18
Experiments (Newswire)
- Layer-wise Training
- テストセットにおける評価
PKU (test set)における性能評価
layer-wise training を利用した場合が常に一番良い結果
→ layer-wise を利用することで layer数が増えても高い性能で安
定する
2015/10/2 ACL 2015 読み会 @小町研 19
Results (Newswire)
- Gated Recursive Architectureの効果
2015/10/2 ACL 2015 読み会 @小町研 20
Character Embedding(文字エンベディング)ランダム初期化
Gated Recursive Architecture の導入により性能向上
Results (Newswire)
- pre-trained, bigram の効果
2015/10/2 ACL 2015 読み会 @小町研 21
文字embedding :
ランダム初期化
文字embedding :
中国語Wikipedia,
word2vecで
事前学習
bigram feature
embedding の利用
(Pei et al., 2014 )
Experiments(Micro-blog)
データセット
• NLPCC 2015 dataset1 (Qiu et al., 2015)
• NLPCC 2015 のシェアドタスクで提供
• Sina Weibo から抽出
• Training set : Training data中の90%
• Development set : Training data中の10%
• 比較的informalなテキスト
• 以下のような様々なトピックを含む
2015/10/2 ACL 2015 読み会 @小町研 22
Results (Micro-blog)
2015/10/2 ACL 2015 読み会 @小町研 23
提案手法(以下を利用)
• pre-trained
• bigram character embeddings
比較手法
• FNLP3 (Qiu et al., 2013)
• CRF++ toolkit(デフォルト)
Conclusion
Gated recursive neural network (GRNN) を提案し、3種のベンチ
マークセットで state-of-the-art を達成
GRNN中の各ニューロンは入力文字列の複雑な組み合わせと見な
せ、traditional な手法における洗練された素性の選択を再現する
能力があるといえる
中国語の単語分かち書きタスクは特殊になりうる(マイクロブ
ログなど)が、提案モデルは簡単に適応させることができ、その
他のラベリングタスクにおいても対応させることができる
将来的には、その他のラベリングタスクにおいても調査したい
2015/10/2 ACL 2015 読み会 @小町研 24

ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentation"

  • 1.
    ACL 2015 読み会@小町研 Gated Recursive Neural Network for Chinese Word Segmentation Xinchi Chen, Xipeng Qiu, Chenxi Zhu, Xuanjing Huang 首都大学東京 情報通信システム学域 小町研究室 M2 塘 優旗 2015/10/2 ACL 2015 読み会 @小町研 1
  • 2.
    Abstract 中国語の単語わかち書きタスク 素性選択の負担軽減が注目されているが、これまでのNNは離散的な featuresを用いたtraditionalな手法のようにcomplicated feature compositions を抽出できなかった resetgate, update gateという二つのゲートを持つ Gated Recursive Neural Network (GRNN) を利用することで文脈文字の複雑な組み合わ せを取り入れることができて素性選択が必要ない GRNNはdeepなので layer-wise trainingを利用することでgradient diffusion (勾配拡散)の問題を回避 現時点での最高精度を達成 2015/10/2 ACL 2015 読み会 @小町研 2
  • 3.
    Chinese Word Segmentation 文字ベースの系列ラベリング {B, M,E, S} = { Begin, Middle, End, Single } 2015/10/2 ACL 2015 読み会 @小町研 3 B E B E EBS
  • 4.
    ACL 2015 読み会@小町研 4 Gated Recursive Neural Network (GRNN) for Chinese Word Segmentation •RNN • 系列のモデル化を行うために位 相グラフが必要 •directed acyclic graph (DAG)有 向非巡回グラフ • ある頂点 v から出発し、辺をた どり、頂点 v に戻ってこない • 文字の組み合わせをボトム層か ら連続してミックスすることで モデル化できる • 各ノードは複数文字の complicated feature composition とみなせる
  • 5.
    2015/10/2 ACL 2015読み会 @小町研 5 Gated Recursive Neural Network (GRNN) for Chinese Word Segmentation 文字セット: 文字embedding: ↓ h_i : 隠れノード,d次元 g : 非線形関数, シグモイドなど
  • 6.
    2015/10/2 ACL 2015読み会 @小町研 6 Gated Recursive Neural Network (GRNN) complicated combination features を表現するにはシンプルすぎるため、 gated recurrent neural network (Cho et al., 2014b; Chung et al., 2014) を参考に 2種類のゲートの導入 • reset gate (r_L, r_R) • 右,左それぞれの子ノードから情報読み込み • update gate • 子ノードの情報を統合する際に何を保持するか 決定 → どのようにアップデートし、 combination information を利用するかを 決定 update gate reset gate
  • 7.
    2015/10/2 ACL 2015読み会 @小町研 7 Gated Recursive Neural Network (GRNN) for Chinese Word Segmentation 最後のレイヤー(出力) エンベディングが1stレイヤーに入力 され、1つの固定長ベクトルになるま で上層のレイヤーまで繰り返し伝達さ れる 異なるニューロンの出力は、異なる feature compositionsとみなす 最後に全てのニューロンの出力を連結 しベクトル x_i を得る x_i を線形変換することで、文字 c_i に対しての各タグのスコアを得る q : 総ノード数
  • 8.
    3つのゲートの要素は同じ次元 が正規化されている 2015/10/2 ACL 2015読み会 @小町研 8 Gated Recursive Unit • update gate の定義 new activation • j-th hidden node の更新式 正規化
  • 9.
    2015/10/2 ACL 2015読み会 @小町研 9 Gated Recursive Unit • reset gates の定義 new activation • j-th activationの定義、更新 reset gate : 係数 : シグモイド関数 reset gates は right , left のchild nodeの出力を選択の仕方をコントロールし、 結果的に new activation を得る update gates は new activation, left child, right child の選択としてみなすこ とができる → この gating mechanism は文字のコンビネーションを効率よくモデル化できる
  • 10.
    Inference GRNN によって各文字に対してラベル付 けされるスコアが得られたため,Viterbi アルゴリズムを利用して系列全体を通し て最適なラベル列を推定する 先行研究にならい、transition matrixを導 入し,タグ間の遷移のスコアとして利用 する 2015/10/2 ACL 2015 読み会 @小町研 10 B E B ES→ へ遷移するスコア 従って、sentence-level のスコア付けは以下のようになる
  • 11.
    2015/10/2 ACL 2015読み会 @小町研 11 Training - Layer-wise Training Deep Learning の学習は難しい  gradient diffusion (勾配の拡散)  overfitting のリスク (Hinton and Salakhutdinov, 2006) Layer-wise Training  Layer を1つづつ追加して学習を行う 1. 隠れ層の1層目のみ学習 2. 1層目の学習が終わったら2つの隠れ層の学習を行う。一番上の隠れ層 まで繰り返し 学習を行う (1~ ) 3. 最後の層まで学習が終わったら現在のパラメータを初期値として 1~ の層にお いて学習を行う
  • 12.
    2015/10/2 ACL 2015読み会 @小町研 12 Training - Max-Margin criterion Taskar et al., 2005 によって提案 モデルの決定境界の頑健さに着目することで確率、尤度の代替となる 尺度を与える :全ての可能なラベル列のセット :正解ラベル列 :予測ラベル列  与えられた文 x _i に対して  Margin Loss  トレーニングインスタンス に対して最もスコアのものを探索  Max-Margin training の目的は最 も高いスコアとなるタグ系列が 正解と一致すること
  • 13.
    Subgradien Method  Ratliffet al., 2007  最急降下の帰納法  gradient-like direction を計算 目的関数の最小化  (Socher et al., 2013a) にならう  AdaGrad (Duchi et al., 2011) を利用してみ にバッチでパラメータを更新 上記の式から m training exampleに対し ての正規化された目的関数 J(θ)を定義 下記式を最小化することで正しいタグ系列 のスコアが増加し、間違っているタグ系列 のスコアが減少する 2015/10/2 ACL 2015 読み会 @小町研 13 Training - Max-Margin training
  • 14.
    Experiments ドメインの異なる二種類のテキストで実験 1. Newswire (Web上で配信されるニュース) 2.Micro-blog 評価 •一般的なBakeoff scoring program •Precision, Recall, F1-score 2015/10/2 ACL 2015 読み会 @小町研 14
  • 15.
    Experiments (Newswire) - データセット •PKU,MSRA • the second International Chinese Word Segmentation Bakeoff (Emerson, 2005) で提供 • Training set:train data中の90% • Development set : train data中の10% •CTB6 • Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による • 分かち書き、POSタグ付け済み、選択的な形式主義において完全に構 造化されたコーパス • Training, Development, Test のデータセットの分割は(Yang and Xue, 2012) らにならう → 前処理:中国語の熟語、英字、数字 は特殊記号で置き換える 2015/10/2 ACL 2015 読み会 @小町研 15
  • 16.
    Experiments (Newswire) - ハイパーパラメータ batchsize:20 文字エンベディングサイズ • 計算機リソース、実験結果にお けるunderfit を考慮して決定 Dropout (Srivastava et al., 2014) • 過学習を避ける • 効率、パフォーマンスを考慮し て右のrateにする 2015/10/2 ACL 2015 読み会 @小町研 16
  • 17.
    Experiments(Newswire) - Layer-wise Training 2015/10/2ACL 2015 読み会 @小町研 17 Layer-wise training の効果を 調査 提案手法: window幅 5, recursion layer 5 異なるrecursion layer で実験 各モデルの収束スピードの比 較 パフォーマンスの比較
  • 18.
    Experiments (Newswire) - Layer-wiseTraining - F値の収束スピード 異なるレイヤー数、layer-wise trainingを行ったかどうか 1 layer 最後の線形スコア関数のみ利用 非線形レイヤーがないためunderfit, 性能低い 5 layer 5層利用し、全てのニューロンを利 用 ただ単に学習すると遅い、性能低 い Layer-wise 5層利用してもF値の収束が早く, 性能も良い 2015/10/2 ACL 2015 読み会 @小町研 18
  • 19.
    Experiments (Newswire) - Layer-wiseTraining - テストセットにおける評価 PKU (test set)における性能評価 layer-wise training を利用した場合が常に一番良い結果 → layer-wise を利用することで layer数が増えても高い性能で安 定する 2015/10/2 ACL 2015 読み会 @小町研 19
  • 20.
    Results (Newswire) - GatedRecursive Architectureの効果 2015/10/2 ACL 2015 読み会 @小町研 20 Character Embedding(文字エンベディング)ランダム初期化 Gated Recursive Architecture の導入により性能向上
  • 21.
    Results (Newswire) - pre-trained,bigram の効果 2015/10/2 ACL 2015 読み会 @小町研 21 文字embedding : ランダム初期化 文字embedding : 中国語Wikipedia, word2vecで 事前学習 bigram feature embedding の利用 (Pei et al., 2014 )
  • 22.
    Experiments(Micro-blog) データセット • NLPCC 2015dataset1 (Qiu et al., 2015) • NLPCC 2015 のシェアドタスクで提供 • Sina Weibo から抽出 • Training set : Training data中の90% • Development set : Training data中の10% • 比較的informalなテキスト • 以下のような様々なトピックを含む 2015/10/2 ACL 2015 読み会 @小町研 22
  • 23.
    Results (Micro-blog) 2015/10/2 ACL2015 読み会 @小町研 23 提案手法(以下を利用) • pre-trained • bigram character embeddings 比較手法 • FNLP3 (Qiu et al., 2013) • CRF++ toolkit(デフォルト)
  • 24.
    Conclusion Gated recursive neuralnetwork (GRNN) を提案し、3種のベンチ マークセットで state-of-the-art を達成 GRNN中の各ニューロンは入力文字列の複雑な組み合わせと見な せ、traditional な手法における洗練された素性の選択を再現する 能力があるといえる 中国語の単語分かち書きタスクは特殊になりうる(マイクロブ ログなど)が、提案モデルは簡単に適応させることができ、その 他のラベリングタスクにおいても対応させることができる 将来的には、その他のラベリングタスクにおいても調査したい 2015/10/2 ACL 2015 読み会 @小町研 24

Editor's Notes