Successfully reported this slideshow.
Your SlideShare is downloading. ×

A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 15 Ad

More Related Content

Viewers also liked (16)

Similar to A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation (20)

Advertisement

More from Kanji Takahashi (20)

Recently uploaded (20)

Advertisement

A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation

  1. 1. A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation 自然言語処理研究室 高橋 寛治 Pidong Wang, Hwee Tou Ng, Proceedings of NAACL-HLT 2013, pp.471-481, June 2013 文献紹介 2016年9月27日
  2. 2. 概要 • SNSなど崩れた表記を解析するための正規化 • 正規化候補を列挙し、ビームサーチで選択 • 機械翻訳の性能向上を確認 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  3. 3. はじめに • SMS, SNSのテキストは崩れており解析性能が低下 Ø品詞付与90%→76%(Ritter et al. 2011) Ø依存構造解析20ポイントの低下(Foster et al. 2011) • 学習データを作るのは大変 Ø正規化が一番の近道 • 従来は単語の置換 Ø消えた語の復元や句読点の復元も含む 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  4. 4. 関連研究 • 単語単位での置換、盛んに研究されている ØNoisy channel modelによる置換(Aw et al. 2005) ØCRFによるEメールの正規化(Zhu et al. 2007) ØHMMによる単語の正規化(Choudhury et al. 2007) Ø崩れ語と語のフレーズペアの獲得(Li and Yarowsky 2008) ØSMSの省略語(Pennell and Liu 2011) ØSNSの正規化(Xue et al. 2011) 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  5. 5. 崩れ語を観察する • 中国語 ØWeiboから200メッセージを取得 Ø代名詞の”我[I]”がよく消える Ø感嘆詞の”哦[oh] ”がよく使われる Ø単語分割がうまくいかない • 英語 ØNUS SMSコーパスから200メッセージ取得 Ø省略語が多い Ø冗長な感嘆詞が多い Ø“be”が消える 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  6. 6. 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  7. 7. 手法 • 候補の生成とデコード • 候補の生成 Ø句読点の復元 Ø消失した語の復元 • 正規化のためのデコーダ 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  8. 8. 句読点の復元 • 挿入、削除、置換 • 句読点の復元は文境界の 検出 • 2層のDCRFを用いる • 学習コーパスが足りない ので、人為的に作成 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  9. 9. 消失した語の復元 • 中国語では「我」、英語では「be」がよく消える • CRFで復元 ØNone, BE, IS, ARE, AMの5つのタグを用いる Ø同じn-gram素性を用いる Øbeは人為的 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  10. 10. デコーダ • 最適な正規化を探索 Ø現段階の推測から、文単 位での新しい推測を行う Ø良い仮説を残すために評 価する 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  11. 11. スコア計算 • 仮説:h • 素性:f Ø言語モデルのスコア Ø崩れ語の頻度によるペナルティ Ø復元の回数の素性 • 重み:λ 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  12. 12. 実験 • 翻訳モデル ØIWSLT2009の中英コーパス • 言語モデル ØLDCのGigawordコーパス • テストとチューニング Ø中英:Weiboから1000メッセージを集める Ø英中はNUS SMSから2000メッセージ Ø半分はチューニング、もう半分はテストセット 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  13. 13. 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  14. 14. その他 • デコードの早さ Ø0.2秒/文(2.27GHzのXeon 32GB) • 人手評価 Ø入力 u“yeah must sign up , im in lt25” u“yeah must sign up, i ’m in lt25 .” Ø出力 u“对[yeah] 必须[must] 签 署[sign up] , im 在[in] lt25“ u“对必须签署,我在lt25。 “ 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation
  15. 15. まとめ • ビームサーチでSNSテキストを正規化 • 挿入や置換など様々な方法で正規化 • 正規化により統計翻訳の精度を向上させた 2016/9/27 A Beam-Search Decoder for Normalization of Social Media Text with Application to Machine Translation

×