Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Acl reading 2nd

470 views

Published on

ACL読み会2015@小町研 紹介者: @Ace12358 北川善彬

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Acl reading 2nd

  1. 1. Accurate Linear-Time Chinese Word Segmentation via Embedding Matching Jianqiang Ma and Erhard Hinrichs ACL読み会2015@小町研究室 M1 北川善彬 1
  2. 2. Abstract • embedding matching によるアプローチで中国の単語分割 (CWS)をしてみた話(あとで詳しく) • 従来通りの系列ラベリングを分散表現を利用して一般化 • 学習と予測を線形時間で実現 • 外部リソースを使わない かつ シンプルな素性セットでNN で作った先行研究の CWS を上回る性能を達成
 stage-of-the-art にも 張り合う性能 2
  3. 3. Motivating Example • 中国 ⃝ 格外 (where ⃝ {⻛风, 规, …}) ⃝:ターゲット → これを左と繋げるかを考える • 中国⻛风 格外 (特殊な例) • 中国 规格 外 (よくある例) → 同じような構成でも切れたり切れなかったり
 → 構成 と ターゲットの文字 を考慮したマッチングモデル 3 ⃝に入りうるもの
  4. 4. Configuration-Action-Matching アクションベースの分割 a. 猫占领了婴儿床 b. 猫 占领 了 婴儿床 c. The cat occupied the crib 4 • a が 与えられたとき b を得たい (cは英訳) • 左に繋げる(-c (combibation))か 分けるか(-s (separation))のアクション • 今の例ではこんな感じ
  猫 -s, 占 -s, 领 -c, 了-s, 婴-s, 儿-c, 床-c
  5. 5. モデルの構造 5
  6. 6. モデルの構造ベースで 説明します
  7. 7. モデルの構造 7
  8. 8. 入力の素性の話
  9. 9. Context feature • window size h=5 としたときの uni-gram と bi- gram を利用する素性 • 例:猫占领了婴儿床 • uni-gram素性: 猫, 占, 领, 了, 婴 • bi-gram素性: 猫占, 占领, 领了, 了婴 9 window size h=5
  10. 10. モデルの構造 10
  11. 11. History feature • 前のアクション を l=2 個分 って作る素性 • 例:猫 占领 了 婴儿床 • 履歴素性: 猫 -s 战 -s • これを作るため文頭には START-s START-s をつける 部分的に構文的、意味的情報をとられるための素性 11 l=2
  12. 12. matching model 
 の学習のための定式化 • a: 分割の構成を表す(history feature) • c: 文脈を表す(context feature) • b: それらをまとめた構成を表すもの 12
  13. 13. 次は構造の話
  14. 14. モデルの構造 14
  15. 15. 入力側の構造  の構成 • 入力側は3段構成 1. Look-up table
 学習データから
 次元 N の embedding ベクトル を学習 2. Concatenation
 単純に連結する
 次元: N K (K: 素性総数) 3. Softmax
 (出力と絡むので後のスライドで) 15
  16. 16. モデルの構造 16
  17. 17. 出力側の構造  の構成 • 出力側は単純な2段構成 1. Look-up table
 学習データからターゲットのアク ション素性のembedding ベクトル 
 次元: N K
 別々に学習し次元を えておく(理 由は後でわかる) 2. Softmax
 (入力と絡むので次のスライドで) 17
  18. 18. モデルの構造 18 最後に入力と出力をmatching
  19. 19. Matching して Softmax • 次元の同じ(N K)入力と出力ベクトルの内積を取 る • Softmaxで確率にする 19
  20. 20. Softmax と 最適な分割 の 定式化 • k は -s か -c の2つなので •   は 领-c, 领-s を表す 20 • 最適な分割はこれ Softmaxの分母が2回の定数回すだけ
  21. 21. Greedy Segmenter 1/3 • CRFを用いてビタビをつかう手法は
 Greedy search と同程度であることが予備実験で わかったのでこれを使用 • START-s からはじめて左から右に予測していく 21
  22. 22. Greedy Segmenter 2/3
 Hybrid matching と Complexity • ターゲットの未知語、低頻度の問題があるが Hybrid matching で対処
 ALL-s, ALL-c のそれぞれを平均したもので置き換える • 計算時間について(Complexity) Softmax の和が定数時間でできる(C) Greedy search は 文の長さで計算できる(n) つまり n C の線形時間で可能 22
  23. 23. Greedy Segmenter 3/3
 Training • 目的関数を
 クロスエントロピー
 損失関数で定義
 これを最小化する • 正則化項を追加 • 微分して勾配を計算 • 素性の更新 23
  24. 24. データと評価 • データ: 中国語のコーパス PKU と MSR を使用 24 • 評価: Precision, Recall, F-score, R_oov
 R_oov は 未知語に関しての分割のRecall
  25. 25. Results
  26. 26. embdeddingの先行研究 との比較 • pre-training は外部リソースを使ったかどうか • 使わない場合はすべて勝っている26
  27. 27. stage-of-the-art との比較 • 最近のstage-of-the- art は洗練された素性 設計と半教師あり学習 によるもの • シンプルなモデルで外 部リソースも使わない でこの結果になってい る 27
  28. 28. 提案手法の素性の評価 • 注目すべきは action の素性が uni-gram 素性より有用であること • 先行研究と比べても同程度かそれ以下の n-gram素性だが精度が 高い → matching が良いということ 28
  29. 29. まとめ • 分散表現を用いた matching によるシンプルで線 形時間で解ける CWS 手法を提案 • 性能もstage-of-the-art 相当である • 外部リソースの利用や CNN などを試すことで更な る向上が見込めるかもしれない (Future work) 29

×