Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
“Two Knives Cut Better Than One:
Chinese Word Segmentation with
Dual Decomposition”
Mengqiu Wang, Rob Voigt, Christopher D...
自己紹介
 岩田 英一郎(@eiichiroi)
– 元さいたまの競技プログラマー(引退済み)
 経歴
– 2009年 PFIでアルバイト開始
– 2010年 埼玉大学 大学院 修了
– 2010年 PFI入社
 仕事
– ソフトウェアエ...
論文の要旨
 (中国語の)単語分割を双対分解で解くと良いよ
 既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
 提案手法
– 文字ベース/単語ベースの手法を組み合わせて双対...
単語分割とは
 単語分割とは、単語の区切りを求める処理
– 素敵な例文が欲しいです。
– 素敵_な_例文_が_欲しい_です_。
 日本語や中国語、タイ語では単語の区切りに空白を入れない
– 分かち書きしない言語では重要な処理
4
単語分割の意義
 後続の処理に大きな影響を与える重要なタスク
– 品詞タグ付け
– 構文解析
– 機械翻訳
 高い精度で切れないと困る
– うまく切れていない例 →
 新しい技術を創りだす
 エンジニアカンパニー
 最新の研究成果の性...
既存手法の概要
1. 文字ベースのモデル
– 文字単位で単語の区切りかどうかを判別する
– ◯ 未知語 × 広い文脈
2. 単語ベースのモデル
– 辞書を元に単語の分割方法を探索する
– ◯ 広い文脈 × 未知語
3. 文字ベース/単語ベースの...
既存手法(1) - 文字ベースのモデル
 系列ラベリングとして定式化 [Xue, 2003]
– 各文字に対して、単語の境界かどうかのラベルを付ける
– CRFがstate-of-the-art [Lafferty et al., 2001]...
既存手法(2) - 単語ベースのモデル
 スコア関数を使って単語分割の候補(リスト)を探索
– 辞書を使った最大マッチング [Chen and Liu, 1992]
– 線形モデル(average perceptron) [Collins, ...
既存手法(3) - 文字ベース/単語ベースの組み合わせ
のモデル
 モデルが複雑な手法 [Sun et al., 2009]
– 学習に時間がかかる
 特徴のbagging(?) [Wang et al., 2006], [Sun, 201...
提案手法 (1/4)
- モデルを組み合わせる
 基本的なアイデア
– 文字ベース/単語ベースの両方のモデルが合意できる単語分割を見つける
 目的関数
 yc: 文字ベースのCRFで求めた単語分割
 yw: 単語ベースのパーセプトロンで...
提案手法 (2/4)
- ラグランジュ緩和後の双対問題を考える
 元の目的関数
 ラグランジュ緩和
– ui: 位置iの乗数
– 位置iでの分割が異なっているときのペナルティ
 ラグランジュ緩和した後の目的関数
– 等式の制約を外せる
...
提案手法 (3/4)
- ラグランジュ緩和後の双対問題を考える
 双対問題を考える
– 主問題と双対問題の最適解は同じ
 主問題が最大化なら
 双対問題は最小化
 maxを含んでいるので微分できない
– 劣勾配は計算できる
 劣勾配を...
提案手法 (4/4)
- 双対分解で一番良い分割を求めるアルゴリズム
13
実験
 モデルの組み合わせとハイパーパラメーター
– 文字ベースのモデル
 Stanford CRF segmenter [Tseng et al., 2005]
 L2正則化項のλは3
– 単語ベースのモデル
 Perceptron ...
結果 (1/3) – ベースのモデルとの性能比較
15
 P: 精度
 R: 再現率
 F1: F値
 Roov: 未知語に対する再現率
 C: 分割の一貫性(※低い方が良い)
• 4種類のドメインに対してロバスト
• 未知語に対する...
結果 (2/3) – 他の手法との性能比較
 6/7のデータセットで
– F値が最高精度を達成
16
結果 (3/3) – モデル間で分割が一致するまでの時間
 100イテレーションで
– 99.1%のデータで分割が一致
 最初のイテレーションで
– 77.4%のデータで分割が一致
17
エラー分析 (1/2)
 ベースモデル両方が異なる分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割しすぎ
 同じ文字からなる名前の分割
– 日本語で言うと「仲里依紗」?
 仲 / 里依紗 (なか /...
エラー分析 (2/2)
 ベースモデル両方が同じ分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割がたりない
 “一点点”
– “A little bit”
 なぜか?
– 分割方法を決めるときに情報...
まとめ (論文の要旨の再掲)
 (中国語の)単語分割を双対分解で解くと良いよ
 既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
 提案手法
– 文字ベース/単語ベースの手法...
参考文献 (1/2) – 論文
 Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two
Knives Cut Better Than One: Chinese Word Segmentat...
参考文献 (2/2) – ブログ
 双対分解による構造学習
– http://research.preferred.jp/2010/11/dual-decomposition/
– 弊社の岡野原による双対分解の解説
– とても詳しく書かれてお...
Copyright © 2006-2014
Preferred Infrastructure All Right Reserved.
Upcoming SlideShare
Loading in …5
×

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

5,149 views

Published on

ACL2014読み会@PFIで発表した資料です。
"Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"の解説です。

Published in: Data & Analytics
  • Be the first to comment

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

  1. 1. “Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition” Mengqiu Wang, Rob Voigt, Christopher D. Manning ACL読み会2014@PFI 株式会社Preferred Infrastructure 岩田 英一郎(@eiichiroi) 2014 年 7 月 12 日 ※スライド中の図・表は上記の論文から引用しました
  2. 2. 自己紹介  岩田 英一郎(@eiichiroi) – 元さいたまの競技プログラマー(引退済み)  経歴 – 2009年 PFIでアルバイト開始 – 2010年 埼玉大学 大学院 修了 – 2010年 PFI入社  仕事 – ソフトウェアエンジニア  検索エンジンや自然言語処理ツールの開発・保守(主に繋ぎ込み担当)  研究開発の成果を製品へ取り込む  自然言語処理初心者(重要!) – 単語分割の論文を読み始めて一週間… 2
  3. 3. 論文の要旨  (中国語の)単語分割を双対分解で解くと良いよ  既存の手法 – 文字ベースのモデル – 単語ベースのモデル – 文字ベース/単語ベースの手法を組み合わせたモデル  提案手法 – 文字ベース/単語ベースの手法を組み合わせて双対分解で解く  提案手法の利点 – 実装が簡単 – SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成 – 文字ベース/単語ベースのモデルをそのまま使える(再学習不要) 3
  4. 4. 単語分割とは  単語分割とは、単語の区切りを求める処理 – 素敵な例文が欲しいです。 – 素敵_な_例文_が_欲しい_です_。  日本語や中国語、タイ語では単語の区切りに空白を入れない – 分かち書きしない言語では重要な処理 4
  5. 5. 単語分割の意義  後続の処理に大きな影響を与える重要なタスク – 品詞タグ付け – 構文解析 – 機械翻訳  高い精度で切れないと困る – うまく切れていない例 →  新しい技術を創りだす  エンジニアカンパニー  最新の研究成果の性能は高い – F値は0.95前後 5 ※会社HPのリニューアル直後のFacebookのサムネール
  6. 6. 既存手法の概要 1. 文字ベースのモデル – 文字単位で単語の区切りかどうかを判別する – ◯ 未知語 × 広い文脈 2. 単語ベースのモデル – 辞書を元に単語の分割方法を探索する – ◯ 広い文脈 × 未知語 3. 文字ベース/単語ベースの組み合わせのモデル – ◯ 未知語、広い文脈 × 複雑、計算コストが高い  まだ課題は残っている 6
  7. 7. 既存手法(1) - 文字ベースのモデル  系列ラベリングとして定式化 [Xue, 2003] – 各文字に対して、単語の境界かどうかのラベルを付ける – CRFがstate-of-the-art [Lafferty et al., 2001] [Tseng et al., 2005]  動的計画法でyを求められる  ◯ 未知語に強い – 周辺文字のn-gram – 形態論的な接尾辞・接頭辞  × 広い文脈を捉えにくい – マルコフ性の仮定 7 x: 文字列 y: ラベル列(0 or 1の列) θ: パラメータ(素性関数の重み)のベクトル f: 素性関数のベクトル Z: 確率分布にするための係数(定数) 0 1 2 3 4 5 6 7 8 9 x 私 の 名 前 は 中 野 で す 。 y 1 1 0 1 1 0 1 0 1 1
  8. 8. 既存手法(2) - 単語ベースのモデル  スコア関数を使って単語分割の候補(リスト)を探索 – 辞書を使った最大マッチング [Chen and Liu, 1992] – 線形モデル(average perceptron) [Collins, 2002] [Zhang and Clark, 2007]  探索空間GEN(x)は広い – Beam Searchで探索  各ステップで上位k件以外は枝刈り – 1文字読んだら、単語分割の各候補に対して ([“私の”], [“私”, “の”]) + “名”  最後の単語にくっ付ける [“私の名”], [“私”, “の名”]  その文字から新しい単語を始める [“私の”, “名”], [“私”, “の”, “名”] – ※最後の単語が辞書に含まれるものだけ – 一番長い範囲を扱う素性は単語bigram(動的計画法だと解の空間が広すぎる) 8 x: 文字列 y: ラベル列(0 or 1の列) F(y|x): ラベル列yで分割したときのスコア GEN(x): 文字列xのラベル列の候補 α: パラメータベクトル Φ: 素性ベクトル
  9. 9. 既存手法(3) - 文字ベース/単語ベースの組み合わせ のモデル  モデルが複雑な手法 [Sun et al., 2009] – 学習に時間がかかる  特徴のbagging(?) [Wang et al., 2006], [Sun, 2010] – 最適な分割を求めるのに時間がかかる  双対分解によるモデルの組み合わせの様々な問題への適用 – 係り受け解析 – 対訳系列タグ付け – 単語のアライメント  単語分割に双対分解を適用してみよう 9
  10. 10. 提案手法 (1/4) - モデルを組み合わせる  基本的なアイデア – 文字ベース/単語ベースの両方のモデルが合意できる単語分割を見つける  目的関数  yc: 文字ベースのCRFで求めた単語分割  yw: 単語ベースのパーセプトロンで求めた単語分割  制約付きの凸最適化問題を解くには…? – ラグランジュの未定乗数法! 10
  11. 11. 提案手法 (2/4) - ラグランジュ緩和後の双対問題を考える  元の目的関数  ラグランジュ緩和 – ui: 位置iの乗数 – 位置iでの分割が異なっているときのペナルティ  ラグランジュ緩和した後の目的関数 – 等式の制約を外せる  双対問題を考える – 主問題と双対問題の最適解は同じ 11
  12. 12. 提案手法 (3/4) - ラグランジュ緩和後の双対問題を考える  双対問題を考える – 主問題と双対問題の最適解は同じ  主問題が最大化なら  双対問題は最小化  maxを含んでいるので微分できない – 劣勾配は計算できる  劣勾配を計算してuを更新する – 分割が一致するか、一定回数更新するまで 12
  13. 13. 提案手法 (4/4) - 双対分解で一番良い分割を求めるアルゴリズム 13
  14. 14. 実験  モデルの組み合わせとハイパーパラメーター – 文字ベースのモデル  Stanford CRF segmenter [Tseng et al., 2005]  L2正則化項のλは3 – 単語ベースのモデル  Perceptron segmenter [Zhang and Clark, 2007]  学習はビームサイズ200で10イテレーション – 双対分解  最大イテレーションはT = 100  ステップ幅は0.1  データセット – SIGHAN 2003, 2005 14
  15. 15. 結果 (1/3) – ベースのモデルとの性能比較 15  P: 精度  R: 再現率  F1: F値  Roov: 未知語に対する再現率  C: 分割の一貫性(※低い方が良い) • 4種類のドメインに対してロバスト • 未知語に対するブレが少ない • -> ROOV • 分割の一貫性が高い • 後段の精度向上に繋がる • -> C
  16. 16. 結果 (2/3) – 他の手法との性能比較  6/7のデータセットで – F値が最高精度を達成 16
  17. 17. 結果 (3/3) – モデル間で分割が一致するまでの時間  100イテレーションで – 99.1%のデータで分割が一致  最初のイテレーションで – 77.4%のデータで分割が一致 17
  18. 18. エラー分析 (1/2)  ベースモデル両方が異なる分割方法で間違えても正解できるケース – CRF: 分割がたりない – PCRT: 分割しすぎ  同じ文字からなる名前の分割 – 日本語で言うと「仲里依紗」?  仲 / 里依紗 (なか / りいさ) 18 ※ 仲里依紗の画像は 削除されました
  19. 19. エラー分析 (2/2)  ベースモデル両方が同じ分割方法で間違えても正解できるケース – CRF: 分割がたりない – PCRT: 分割がたりない  “一点点” – “A little bit”  なぜか? – 分割方法を決めるときに情報を共有できるから  他にも、双対分解で正解できる400以上の例があった  ただし、手法上、ベースモデルの間違いは再現しやすい – 上記の例は大丈夫だけど、ダメなケースもあるのではないか? – 詳細は書かれていなかった 19
  20. 20. まとめ (論文の要旨の再掲)  (中国語の)単語分割を双対分解で解くと良いよ  既存の手法 – 文字ベースのモデル – 単語ベースのモデル – 文字ベース/単語ベースの手法を組み合わせたモデル  提案手法 – 文字ベース/単語ベースの手法を組み合わせて双対分解で解く  提案手法の利点 – 実装が簡単 – SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成 – 文字ベース/単語ベースのモデルをそのまま使える(再学習不要) 20
  21. 21. 参考文献 (1/2) – 論文  Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition”. ACL 2014 – 本論文  Referencesの論文で特に参考にしたもの – Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky, Christopher Manning. “A Conditional Random Field Segmenter for Sighan Bakeoff 2005”. 4-th SIGHAN workshop on Chinese language Processing  文字ベースの中国語の単語分割器。ベースに使用したモデル – Yue Zhang, Stephen Clark. “Chinese Segmentation with a Word-Based Perceptron Algorithm”. ACL 2007  単語ベースの中国語の単語分割器。ベースに使用したモデル 21
  22. 22. 参考文献 (2/2) – ブログ  双対分解による構造学習 – http://research.preferred.jp/2010/11/dual-decomposition/ – 弊社の岡野原による双対分解の解説 – とても詳しく書かれており、参考にしました  劣微分を用いた最適化手法について(1)〜(4)、(完) – http://research.preferred.jp/2010/11/subgradient-optimization-1/ – 弊社の徳永による劣微分の解説 – 論文では劣微分の値を使って最適化しているので、劣微分について理解するた めに参考にしました 22
  23. 23. Copyright © 2006-2014 Preferred Infrastructure All Right Reserved.

×