“Two Knives Cut Better Than One:
Chinese Word Segmentation with
Dual Decomposition”
Mengqiu Wang, Rob Voigt, Christopher D...
自己紹介
 岩田 英一郎(@eiichiroi)
– 元さいたまの競技プログラマー(引退済み)
 経歴
– 2009年 PFIでアルバイト開始
– 2010年 埼玉大学 大学院 修了
– 2010年 PFI入社
 仕事
– ソフトウェアエ...
論文の要旨
 (中国語の)単語分割を双対分解で解くと良いよ
 既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
 提案手法
– 文字ベース/単語ベースの手法を組み合わせて双対...
単語分割とは
 単語分割とは、単語の区切りを求める処理
– 素敵な例文が欲しいです。
– 素敵_な_例文_が_欲しい_です_。
 日本語や中国語、タイ語では単語の区切りに空白を入れない
– 分かち書きしない言語では重要な処理
4
単語分割の意義
 後続の処理に大きな影響を与える重要なタスク
– 品詞タグ付け
– 構文解析
– 機械翻訳
 高い精度で切れないと困る
– うまく切れていない例 →
 新しい技術を創りだす
 エンジニアカンパニー
 最新の研究成果の性...
既存手法の概要
1. 文字ベースのモデル
– 文字単位で単語の区切りかどうかを判別する
– ◯ 未知語 × 広い文脈
2. 単語ベースのモデル
– 辞書を元に単語の分割方法を探索する
– ◯ 広い文脈 × 未知語
3. 文字ベース/単語ベースの...
既存手法(1) - 文字ベースのモデル
 系列ラベリングとして定式化 [Xue, 2003]
– 各文字に対して、単語の境界かどうかのラベルを付ける
– CRFがstate-of-the-art [Lafferty et al., 2001]...
既存手法(2) - 単語ベースのモデル
 スコア関数を使って単語分割の候補(リスト)を探索
– 辞書を使った最大マッチング [Chen and Liu, 1992]
– 線形モデル(average perceptron) [Collins, ...
既存手法(3) - 文字ベース/単語ベースの組み合わせ
のモデル
 モデルが複雑な手法 [Sun et al., 2009]
– 学習に時間がかかる
 特徴のbagging(?) [Wang et al., 2006], [Sun, 201...
提案手法 (1/4)
- モデルを組み合わせる
 基本的なアイデア
– 文字ベース/単語ベースの両方のモデルが合意できる単語分割を見つける
 目的関数
 yc: 文字ベースのCRFで求めた単語分割
 yw: 単語ベースのパーセプトロンで...
提案手法 (2/4)
- ラグランジュ緩和後の双対問題を考える
 元の目的関数
 ラグランジュ緩和
– ui: 位置iの乗数
– 位置iでの分割が異なっているときのペナルティ
 ラグランジュ緩和した後の目的関数
– 等式の制約を外せる
...
提案手法 (3/4)
- ラグランジュ緩和後の双対問題を考える
 双対問題を考える
– 主問題と双対問題の最適解は同じ
 主問題が最大化なら
 双対問題は最小化
 maxを含んでいるので微分できない
– 劣勾配は計算できる
 劣勾配を...
提案手法 (4/4)
- 双対分解で一番良い分割を求めるアルゴリズム
13
実験
 モデルの組み合わせとハイパーパラメーター
– 文字ベースのモデル
 Stanford CRF segmenter [Tseng et al., 2005]
 L2正則化項のλは3
– 単語ベースのモデル
 Perceptron ...
結果 (1/3) – ベースのモデルとの性能比較
15
 P: 精度
 R: 再現率
 F1: F値
 Roov: 未知語に対する再現率
 C: 分割の一貫性(※低い方が良い)
• 4種類のドメインに対してロバスト
• 未知語に対する...
結果 (2/3) – 他の手法との性能比較
 6/7のデータセットで
– F値が最高精度を達成
16
結果 (3/3) – モデル間で分割が一致するまでの時間
 100イテレーションで
– 99.1%のデータで分割が一致
 最初のイテレーションで
– 77.4%のデータで分割が一致
17
エラー分析 (1/2)
 ベースモデル両方が異なる分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割しすぎ
 同じ文字からなる名前の分割
– 日本語で言うと「仲里依紗」?
 仲 / 里依紗 (なか /...
エラー分析 (2/2)
 ベースモデル両方が同じ分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割がたりない
 “一点点”
– “A little bit”
 なぜか?
– 分割方法を決めるときに情報...
まとめ (論文の要旨の再掲)
 (中国語の)単語分割を双対分解で解くと良いよ
 既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
 提案手法
– 文字ベース/単語ベースの手法...
参考文献 (1/2) – 論文
 Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two
Knives Cut Better Than One: Chinese Word Segmentat...
参考文献 (2/2) – ブログ
 双対分解による構造学習
– http://research.preferred.jp/2010/11/dual-decomposition/
– 弊社の岡野原による双対分解の解説
– とても詳しく書かれてお...
Copyright © 2006-2014
Preferred Infrastructure All Right Reserved.
Upcoming SlideShare
Loading in …5
×

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

4,917 views

Published on

ACL2014読み会@PFIで発表した資料です。
"Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"の解説です。

Published in: Data & Analytics
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,917
On SlideShare
0
From Embeds
0
Number of Embeds
2,141
Actions
Shares
0
Downloads
13
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

  1. 1. “Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition” Mengqiu Wang, Rob Voigt, Christopher D. Manning ACL読み会2014@PFI 株式会社Preferred Infrastructure 岩田 英一郎(@eiichiroi) 2014 年 7 月 12 日 ※スライド中の図・表は上記の論文から引用しました
  2. 2. 自己紹介  岩田 英一郎(@eiichiroi) – 元さいたまの競技プログラマー(引退済み)  経歴 – 2009年 PFIでアルバイト開始 – 2010年 埼玉大学 大学院 修了 – 2010年 PFI入社  仕事 – ソフトウェアエンジニア  検索エンジンや自然言語処理ツールの開発・保守(主に繋ぎ込み担当)  研究開発の成果を製品へ取り込む  自然言語処理初心者(重要!) – 単語分割の論文を読み始めて一週間… 2
  3. 3. 論文の要旨  (中国語の)単語分割を双対分解で解くと良いよ  既存の手法 – 文字ベースのモデル – 単語ベースのモデル – 文字ベース/単語ベースの手法を組み合わせたモデル  提案手法 – 文字ベース/単語ベースの手法を組み合わせて双対分解で解く  提案手法の利点 – 実装が簡単 – SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成 – 文字ベース/単語ベースのモデルをそのまま使える(再学習不要) 3
  4. 4. 単語分割とは  単語分割とは、単語の区切りを求める処理 – 素敵な例文が欲しいです。 – 素敵_な_例文_が_欲しい_です_。  日本語や中国語、タイ語では単語の区切りに空白を入れない – 分かち書きしない言語では重要な処理 4
  5. 5. 単語分割の意義  後続の処理に大きな影響を与える重要なタスク – 品詞タグ付け – 構文解析 – 機械翻訳  高い精度で切れないと困る – うまく切れていない例 →  新しい技術を創りだす  エンジニアカンパニー  最新の研究成果の性能は高い – F値は0.95前後 5 ※会社HPのリニューアル直後のFacebookのサムネール
  6. 6. 既存手法の概要 1. 文字ベースのモデル – 文字単位で単語の区切りかどうかを判別する – ◯ 未知語 × 広い文脈 2. 単語ベースのモデル – 辞書を元に単語の分割方法を探索する – ◯ 広い文脈 × 未知語 3. 文字ベース/単語ベースの組み合わせのモデル – ◯ 未知語、広い文脈 × 複雑、計算コストが高い  まだ課題は残っている 6
  7. 7. 既存手法(1) - 文字ベースのモデル  系列ラベリングとして定式化 [Xue, 2003] – 各文字に対して、単語の境界かどうかのラベルを付ける – CRFがstate-of-the-art [Lafferty et al., 2001] [Tseng et al., 2005]  動的計画法でyを求められる  ◯ 未知語に強い – 周辺文字のn-gram – 形態論的な接尾辞・接頭辞  × 広い文脈を捉えにくい – マルコフ性の仮定 7 x: 文字列 y: ラベル列(0 or 1の列) θ: パラメータ(素性関数の重み)のベクトル f: 素性関数のベクトル Z: 確率分布にするための係数(定数) 0 1 2 3 4 5 6 7 8 9 x 私 の 名 前 は 中 野 で す 。 y 1 1 0 1 1 0 1 0 1 1
  8. 8. 既存手法(2) - 単語ベースのモデル  スコア関数を使って単語分割の候補(リスト)を探索 – 辞書を使った最大マッチング [Chen and Liu, 1992] – 線形モデル(average perceptron) [Collins, 2002] [Zhang and Clark, 2007]  探索空間GEN(x)は広い – Beam Searchで探索  各ステップで上位k件以外は枝刈り – 1文字読んだら、単語分割の各候補に対して ([“私の”], [“私”, “の”]) + “名”  最後の単語にくっ付ける [“私の名”], [“私”, “の名”]  その文字から新しい単語を始める [“私の”, “名”], [“私”, “の”, “名”] – ※最後の単語が辞書に含まれるものだけ – 一番長い範囲を扱う素性は単語bigram(動的計画法だと解の空間が広すぎる) 8 x: 文字列 y: ラベル列(0 or 1の列) F(y|x): ラベル列yで分割したときのスコア GEN(x): 文字列xのラベル列の候補 α: パラメータベクトル Φ: 素性ベクトル
  9. 9. 既存手法(3) - 文字ベース/単語ベースの組み合わせ のモデル  モデルが複雑な手法 [Sun et al., 2009] – 学習に時間がかかる  特徴のbagging(?) [Wang et al., 2006], [Sun, 2010] – 最適な分割を求めるのに時間がかかる  双対分解によるモデルの組み合わせの様々な問題への適用 – 係り受け解析 – 対訳系列タグ付け – 単語のアライメント  単語分割に双対分解を適用してみよう 9
  10. 10. 提案手法 (1/4) - モデルを組み合わせる  基本的なアイデア – 文字ベース/単語ベースの両方のモデルが合意できる単語分割を見つける  目的関数  yc: 文字ベースのCRFで求めた単語分割  yw: 単語ベースのパーセプトロンで求めた単語分割  制約付きの凸最適化問題を解くには…? – ラグランジュの未定乗数法! 10
  11. 11. 提案手法 (2/4) - ラグランジュ緩和後の双対問題を考える  元の目的関数  ラグランジュ緩和 – ui: 位置iの乗数 – 位置iでの分割が異なっているときのペナルティ  ラグランジュ緩和した後の目的関数 – 等式の制約を外せる  双対問題を考える – 主問題と双対問題の最適解は同じ 11
  12. 12. 提案手法 (3/4) - ラグランジュ緩和後の双対問題を考える  双対問題を考える – 主問題と双対問題の最適解は同じ  主問題が最大化なら  双対問題は最小化  maxを含んでいるので微分できない – 劣勾配は計算できる  劣勾配を計算してuを更新する – 分割が一致するか、一定回数更新するまで 12
  13. 13. 提案手法 (4/4) - 双対分解で一番良い分割を求めるアルゴリズム 13
  14. 14. 実験  モデルの組み合わせとハイパーパラメーター – 文字ベースのモデル  Stanford CRF segmenter [Tseng et al., 2005]  L2正則化項のλは3 – 単語ベースのモデル  Perceptron segmenter [Zhang and Clark, 2007]  学習はビームサイズ200で10イテレーション – 双対分解  最大イテレーションはT = 100  ステップ幅は0.1  データセット – SIGHAN 2003, 2005 14
  15. 15. 結果 (1/3) – ベースのモデルとの性能比較 15  P: 精度  R: 再現率  F1: F値  Roov: 未知語に対する再現率  C: 分割の一貫性(※低い方が良い) • 4種類のドメインに対してロバスト • 未知語に対するブレが少ない • -> ROOV • 分割の一貫性が高い • 後段の精度向上に繋がる • -> C
  16. 16. 結果 (2/3) – 他の手法との性能比較  6/7のデータセットで – F値が最高精度を達成 16
  17. 17. 結果 (3/3) – モデル間で分割が一致するまでの時間  100イテレーションで – 99.1%のデータで分割が一致  最初のイテレーションで – 77.4%のデータで分割が一致 17
  18. 18. エラー分析 (1/2)  ベースモデル両方が異なる分割方法で間違えても正解できるケース – CRF: 分割がたりない – PCRT: 分割しすぎ  同じ文字からなる名前の分割 – 日本語で言うと「仲里依紗」?  仲 / 里依紗 (なか / りいさ) 18 ※ 仲里依紗の画像は 削除されました
  19. 19. エラー分析 (2/2)  ベースモデル両方が同じ分割方法で間違えても正解できるケース – CRF: 分割がたりない – PCRT: 分割がたりない  “一点点” – “A little bit”  なぜか? – 分割方法を決めるときに情報を共有できるから  他にも、双対分解で正解できる400以上の例があった  ただし、手法上、ベースモデルの間違いは再現しやすい – 上記の例は大丈夫だけど、ダメなケースもあるのではないか? – 詳細は書かれていなかった 19
  20. 20. まとめ (論文の要旨の再掲)  (中国語の)単語分割を双対分解で解くと良いよ  既存の手法 – 文字ベースのモデル – 単語ベースのモデル – 文字ベース/単語ベースの手法を組み合わせたモデル  提案手法 – 文字ベース/単語ベースの手法を組み合わせて双対分解で解く  提案手法の利点 – 実装が簡単 – SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成 – 文字ベース/単語ベースのモデルをそのまま使える(再学習不要) 20
  21. 21. 参考文献 (1/2) – 論文  Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition”. ACL 2014 – 本論文  Referencesの論文で特に参考にしたもの – Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, Christopher Manning. “A Conditional Random Field Segmenter for Sighan Bakeoff 2005”. 4-th SIGHAN workshop on Chinese language Processing  文字ベースの中国語の単語分割器。ベースに使用したモデル – Yue Zhang, Stephen Clark. “Chinese Segmentation with a Word-Based Perceptron Algorithm”. ACL 2007  単語ベースの中国語の単語分割器。ベースに使用したモデル 21
  22. 22. 参考文献 (2/2) – ブログ  双対分解による構造学習 – http://research.preferred.jp/2010/11/dual-decomposition/ – 弊社の岡野原による双対分解の解説 – とても詳しく書かれており、参考にしました  劣微分を用いた最適化手法について(1)〜(4)、(完) – http://research.preferred.jp/2010/11/subgradient-optimization-1/ – 弊社の徳永による劣微分の解説 – 論文では劣微分の値を使って最適化しているので、劣微分について理解するた めに参考にしました 22
  23. 23. Copyright © 2006-2014 Preferred Infrastructure All Right Reserved.

×