Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

読解支援@2015 05-01

211 views

Published on

NEWSWEB EASY

Published in: Education
  • Be the first to comment

  • Be the first to like this

読解支援@2015 05-01

  1. 1. やさしい表現へのニュースの 自動変換評価用データセットの構築 後藤功雄 熊野正 田中英輝 NHK 放送技術研究所 プレゼンテーション 関沢祐樹 12015-05-01
  2. 2. 概要 • 現在の課題 – ニュースをやさしく書き換えるのは人手 • 取り組みたいこと – 自動処理技術による、支援システムの自動化 – 書き換え作業の効率化、及び配信記事数の増加 • 取り組んだこと – NEWSWEB EASYに蓄積された書き換えを用いた 自動変換評価用データセットの構築 2015-05-01 2
  3. 3. 自動処理技術に用いるもの 統計的機械翻訳(SMT) – テキストデータを集め、統計モデルを学習 – 統計モデルを基に自動的に翻訳 • 書き換え前の記事と、やさしく書き換えられた 記事対から、対応する文対を抽出 • 自動変換評価用データセットを構築 2015-05-01 3
  4. 4. 記事の書き換え • 日本語教師と、記者が交互に書き換え • 1回目の日本語教師の書き換えを採用 – 2回目以降の書き換えの状態 – すでにやさしくなっている – 書き換えの数が少なくなる • 記者の書き換えが含まれる – 表現をやさしくする部分での評価ができなくなる 2015-05-01 4
  5. 5. 人手によるパラレル文対の抽出 パラレル記事対内でアラインメント作成 (1:n) 2015-05-01 5 原文1 原文2 目的文3 目的文2 目的文1
  6. 6. 対象とするための条件 • 条件1・・・原文:目的文=1:n (n:自然数) – n:1は対象外 – 書き換えられていない文を1文単位で評価したいため • 条件2・・・ノイズ制約 – 原文の主要内容が目的文にあること – 原文にない内容が目的文に 追加されていないこと *原文の詳細情報が目的文になくてもよい 2015-05-01 6
  7. 7. 文アラインメントの付与 • 前述2つの条件内で、人手で付与 – 490記事対中485記事で抽出可能だった • ノイズ制約を満たさない文対 – ノイズありと見なす 1:nのパラレル文対のノイズの割合 2015-05-01 7
  8. 8. 人手による記事の書き換えの例 2015-05-01 8
  9. 9. 文アラインメントの自動推定 • 書き換え前後の文は、単語、文順が一致しやすい →一致する語に対して動的計画法 ・Champollion を用いる • Champollionの動的計画法 – 文の省略、追加、連続の複数文を含む アラインメントの推定が可能 – 対応する文対の文順を同じに制限する – 文順が変わると、アラインメント不可 – 質の低いパラレル文対の抽出を回避 2015-05-01 9
  10. 10. 文アラインメントの割合 人手:490記事対 自動推定:1,559記事対 2015-05-01 10
  11. 11. 文アラインメント推定の品質評価 • 人手で文アラインメントを付与した 490記事対を用いて評価 • アラインメントの単位を1つの対応関係 – 1文:1文、1文:2文、1文:0文など 2015-05-01 11
  12. 12. 自動変換の重要点 • 自動変換できない表現の存在 – そのまま出力 – 無理矢理変換 の2つの方法がある • 無理矢理変換すると、誤りを含みやすい – 出力の品質の低下 • データ量よりも、ノイズの軽減が重要 2015-05-01 12
  13. 13. 自動変換評価用データセット • 2012年4月〜2014年9月のデータから構築 • 日本語教師の書き換えを含む編集を利用 • 訓練データ、開発データ、テストデータを持つ 2015-05-01 13
  14. 14. 各データの用途 • 訓練データ – Champollionの自動推定のうち、1:nを採用 – 言語モデルの構築 • 開発データ – 人手によるパラレル文対を採用 – SMTシステムのパラメータのチューニング • テストデータ – 人手によるパラレル文対を採用 – 機械翻訳の自動評価手法などを用いて、 自動変換した文の品質評価 2015-05-01 14
  15. 15. 終わりに • データセットの用途 – 自動変換の評価・課題調査・改善 • 書き換え方法の変更 – 現在、記者の書き換え→日本語教師の書き換え – 最初に表現を自動変換で効率が上がるかも – この条件での評価データも構築したい 2015-05-01 15

×