ACL 2014 読み会: A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction

987 views
869 views

Published on

首都大の ACL 2014 読み会で紹介した Zhongye Jia and Hai Zhao "A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction" のスライドです。

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
987
On SlideShare
0
From Embeds
0
Number of Embeds
71
Actions
Shares
0
Downloads
2
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

ACL 2014 読み会: A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction

  1. 1. A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction Zhongye Jia and Hai Zhao, ACL 2014 ※スライド中の図表は全て論文から引用されたもの 小町守 <komachi@tmu.ac.jp> ACL 2014 読み会@首都大学東京 2014/08/01
  2. 2. 中国語の入力にはローマ字化さ れたピンイン(拼音)を用いる 2 1音節1文字(1∼300の曖昧性。 500種類の音節で6,000文字を入力)
  3. 3. 中国語のスペリング誤りの訂正 |  方言話者だと「正しい」発音を知らない(cf 7 大方言) |  スマートフォン(ソフトウェアキーボード)の 普及 |  誤りが自動訂正できなかった場合、ユーザは カーソルを戻して修正する必要→UXの悪化 (Zheng et al., ACL 2011) |  CHIME (Zheng et al., IJCAI 2011) は誤り訂正 つき中国語IMEだが、単語をスペースで区切って 入力しないといけないので、非現実的な設定 3
  4. 4. 単一始点最短経路問題としての ピンイン分割(O(|V|+|E|)) 4 P* = argmin (v,E)∈G∧(v,E)∈P wv v ∑ + WE E ∑ wvは全て 0、WEは音節2gramスコア
  5. 5. ピンイン誤り訂正をグラフ (ラティス)で表現 5
  6. 6. 編集距離を用いて正しい単語 候補をグラフに挿入していく |  Levenstein 距離が一定の閾値以下でシラブルと して可能なものをグラフに追加 |  ノードの重みは正規化パラメータ× Levenstein 距離 6w !Si, j = β L( !Sk k−i j ∑ ,Sk )
  7. 7. 単純なグラフに基づく中国 語スペリング訂正の問題点 |  中国語の意味の単位は文字ではなく単語 {  音節の条件付き確率では不十分 |  同音異義語(文字)の存在 {  条件付き確率はノイジー |  ピンイン単語を音節の代わりに使う? {  単語分割はピンイン分割より難しいタスク 7 ピンイン→単語変換を同時に行なう!
  8. 8. 隠れマルコフモデルを用いた ピンイン→単語変換 |  確率的変換モデル(Viterbi アルゴリズムでデ コード)←日本語形態素解析と同じ {  P(wi|wi-1) は遷移確率・P(si | wi) は生起確率 8 W* = argmax W P(W | S) = argmax W P(W)P(S |W) P(S) = argmax W P(W)P(S |W) = arg max w1,..,wM P(wi | wi−1) P(si | wi ) wi ∏ wi ∏
  9. 9. 誤り訂正と単語変換の結合 処理を最短経路問題として解く 9 隣接する音節で辞書引きして単語ラティスにする
  10. 10. 誤り訂正グラフの重みは Levenstein 距離で拡張 |  ノードの重みは音節の Levenshtein 距離と生起 確率の混合(後述→γはほとんど0でよい?) |  エッジの重みは(訂正後の単語の)遷移確率 10 W* = arg max w1,..,wM P(wi | wi−1) P(si | wi ) wi ∏ wi ∏ P* = argmin vxt ∈V (wvxt +WE(vxt−1 →vxt ) ) t=1 T ∑ wVi, j = β L( !Sk, k=i j ∑ Sk )−γ logP( !Si... !Sj |Vi, j ) WE(Vi, j→VJ+1,k ) = −logP(Vj+1,k |Vi, j )
  11. 11. K-最短パスを用いてグラフ のフィルタリング 11 Levenstein 距離の閾値を 2 にしても M 文字からなる 結合グラフのノード数は M × 1,000、エッジ数は M × 1,000,000 →巨大なので枝狩りする Eppstein (1998) のヒープを用いた K-最短パスを求める アルゴリズムを使用。(フィボナッチヒープ)
  12. 12. 枝狩りされた誤り訂正・ピ ンイン→単語結合グラフ 12
  13. 13. 実験データ・ツール 13 People’s Daily (Yang et al., 2012) コーパス (ピンインがついている。単語分割済み) 言語モデルのトレーニング: SRILM 言語モデルの検索: KenLM ピンイン辞書: sunpinyin(オープンソースの中国語IME) 生起確率: Moses の翻訳確率
  14. 14. オープンソースシステムや商用シ ステムよりも高い性能 14 MIU = Max Input Unit (Jia and Zhao, IJCNLP 2013) Ch-Acc: 文字正解率 S-Acc: 文正解率
  15. 15. Google のシステムより訂 正性能も変換性能も高い 15 0-P, 2-P, 5-P: 人工的に誤りを0%, 2%, 5%生成したデータ (中国語ではスペリング誤りの含まれるのは2%程度)
  16. 16. 言語モデルはbigram より trigram のほうが高い変換精度 16 KN: Kneser-Ney WB: Witten-Bell
  17. 17. 枝狩りする最短経路数の トレードオフ 17
  18. 18. 変換モデルの重み(ほとんど エッジの重みだけで決まる?) 18 wVi, j = β L( !Sk, k=i j ∑ Sk )−γ logP( !Si... !Sj |Vi, j ) どのように誤り訂正候補をグラフに入れるかが問題で、 あとは言語モデルでほとんど正しい候補を選択できる。
  19. 19. まとめ: 中国語の誤り訂正と ピンイン→単語変換の同時処理 |  タイポの訂正のできるピンイン→単語の変換の ための結合グラフモデルを提案 {  誤り訂正候補は音節の Levenshtein 類似度の高 い候補を自動で挿入 {  効率を上げるために K-最短パスで枝刈り |  ピンインの入力文(分かち書きされていない) に対して全体で最適な変換結果を出力 {  単語に基づく言語モデルで適切な候補が選択可能 |  オープンソース・商用システムよりも高い性能、 実用的な速度 19

×