SlideShare a Scribd company logo
ACL 2014 読み会
首都大学東京 システムデザイン研究科
小町研究室
チョウ インチェン
修士1年 趙 寅 琛
2014/8/01
 Two Knives Cut Better Than One: Chinese Word
Segmentation with Dual Decomposition
 二つのナイフでよりよく切れる:
双対分解による中国語の単語分割
 http://nlp.stanford.edu/pubs/cws_wang_acl14.pdf
論文紹介
 日本語、中国語、タイ語などの言語はスペースで
区切されていない
 単語分割という前処理をしなければならない
 中国語の単語分割には曖昧性が生じやすい
才能 → 才|能
(才能) (…れば…できる)
(talent ) ( just able)
単語分割
先行研究
単語に基づくモデル
( Word-based Models )
文字に基づくモデル
(Character-based Models)
双対分解による単語分割:二つのモデルを結合する
 CRF:Conditional Random Fields
文字に基づくモデル
y:ラベル列
x:入力文字列
Z:正規化係数
θ:フィーチャ重み
f:フィーチャ関数(結果的に二値関数のことが多い)
入力文字列とyt-→yt+1ラベルの遷移より計算される
 ラベル:単語の開始なのか、それとも中間・末尾なのか
才 能
(START)(NOTSTART)
 ビタビアルゴリズムにより
確率が最も高いラベル列を探し出す
 参考文献
Peng, Fuchun, Fangfang Feng and Andrew McCallum. 2004.
Chinese segmentation and new word detection using conditional
random fields. In COLING 2004.
文字に基づくモデル
 パーセプトロン
単語に基づくモデル
y:単語列
x:入力文字列
Gen(x):文字列xに対するすべて可能な分割結果
α:重みベクトル
Φ(y):フィーチャベクトル
 また確率が最も高い分割結果を探し出せばいい
 Gen(x)の処理は手に負えないので
ビーム探索法を用いて計算量を減らす
 参考文献
Yue Zhang and Stephen Clark. 2007. Chinese segmentation with a
word-based perceptron algorithm. In Proceedings of ACL.
単語に基づくモデル
二つのモデルを結合しましょう
 二つのモデルによる出力を一致させるという条件付けの
最大化問題になる
 条件付け最適化問題を解くには
ラグランジュ未定乗数法を使う
モデルの結合
 ラグランジュ関数を以下のように作る:
ここで、iは単語の位置
U未定乗数のベクトル(u1, u2… ui … )
 yc と yw 近ければ近いほど U→ 0ので、
は以下のように書き直せる
モデルの結合
 双対分解法の推論により変形すると
二つのより簡単な最大化問題になる
 参考文献
Alexander M. Rush and Michael Collins. 2012. A tutorial on dual
decomposition and Lagrangian relaxation for inference in natural
language processing. JAIR, 45:305–362.
双対分解(Dual Decomposition)
DDアルゴリズム
DDアルゴリズム
分解された二つの最大化問題
yc と yw は一致してくるなら、
最終の結果として返される
DDアルゴリズム
一致していない場合は、未定乗数ui を更新 :
αt はt時点での学習率 αt =1/N
Nは観測された「t回回した」という事件の回数
DDアルゴリズム
まずは未定乗数ui を0に初期化する
収束するまでt回回す
ただし、イテレーションの上限Tを超えてしまたら
中止させ、強制にyc と yw 一致させてあげる
……
……
 SIGHANという中国語の言語処理ワークショプ
 SIGHAN2003と2005のベークオフのデータ
に基づいて実験を行った
 l2正規化パラメータ λ =3
パーセプトロンのイテーレション回数: 10
ビームサイズ: 200
DDアルゴリズムのイテーレション上限T=100
学習率 αt = 0.1
実験とその結果
四つのグループ(台湾中央研究院、北京大学、香港城市大学、
マイクロソフト) それぞれの実験結果
実験とその結果
R:再現率 P:適合率 F1:RとPの調和平均
ROOV: 辞書外(Out-Of-Vocabulary) の再現率
C(consistency): 一貫性
実験とその結果
ほかの研究者が提案した手法との比較
ディスカッション
横軸:収束するまでの
イテレーション回数t
縦軸: 「t回回した」
という事件の頻度
99.1%のケースは
100回以内に収束した
 人の名前など厄介な対象でも対応できる
中国語文: 田雅各|的|创作
英語文: Tian Yage|’s|creation
日本語文: 田雅各|の|創作
CRF : 田雅各的|创作 (分割不足)
PCPT: 田雅|各|的|创作 (分割過剰)
DD : 田雅各|的|创作 (正解)
ディスカッション
ディスカッション
 同じ漢字が連続出てきて、曖昧性いっぱいでも心配いらない
中国語文: 享受|一点|点心
英語文: Enjoy|a bit of|dessert
日本語文: デザートを|少し|味わう
CRF : 享受|一点点|心(心を少しだけ味わう)
PCPT: 享受|一点点|心
DD : 享受|一点|点心 (正解)
まとめ
 この論文は双対分解による中国語単語分割の手法を提案した
従来の手法より精度が高い、一貫性が良い
 何より実現方法は複雑ではない、さらに新たなモデルを構築
し、データをリートレーニング必要はない
 中国語単語分割のみならず、ほかの研究にも非常に役に立ち
そうである

More Related Content

Viewers also liked

Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
Shuyo Nakatani
 
入門自然言語処理入門
入門自然言語処理入門入門自然言語処理入門
入門自然言語処理入門
Hiromu Shioya
 
自然言語処理のための機械学習入門1章
自然言語処理のための機械学習入門1章自然言語処理のための機械学習入門1章
自然言語処理のための機械学習入門1章
Hiroki Mizukami
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
Kei Uchiumi
 
HMM, MEMM, CRF メモ
HMM, MEMM, CRF メモHMM, MEMM, CRF メモ
HMM, MEMM, CRF メモ
Takeshi Arabiki
 
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
Takeshi Arabiki
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyoShuyo Nakatani
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
Shuyo Nakatani
 
文脈自由文法の話
文脈自由文法の話文脈自由文法の話
文脈自由文法の話
kogecoo
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
Hisao Soyama
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
 

Viewers also liked (14)

Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
 
入門自然言語処理入門
入門自然言語処理入門入門自然言語処理入門
入門自然言語処理入門
 
自然言語処理のための機械学習入門1章
自然言語処理のための機械学習入門1章自然言語処理のための機械学習入門1章
自然言語処理のための機械学習入門1章
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
HMM, MEMM, CRF メモ
HMM, MEMM, CRF メモHMM, MEMM, CRF メモ
HMM, MEMM, CRF メモ
 
Signl213
Signl213 Signl213
Signl213
 
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 
文脈自由文法の話
文脈自由文法の話文脈自由文法の話
文脈自由文法の話
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 

ACL 2014 読み会