Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

同時通訳データを利用した自動同時通訳システムの構築

960 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

同時通訳データを利用した自動同時通訳システムの構築

  1. 1. 同時通訳データを利用した 自動同時通訳システムの構築 ☆清水宏晃,Graham Neubig,Sakriani Sakti, 戸田智基,中村哲(奈良先端大) NAIST AHCLAB
  2. 2. 背景と目的  背景:自動音声翻訳 - ある言語を音声を異なる言語の音声に翻訳する技術 音声認識 機械翻訳 音声合成 時間  自動音声翻訳の問題点 - 旅行会話文のような短い発話に対応 - 講演のような長い発話には未対応 研究目的 長い発話を自動的に同時通訳するシステムを構築 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 2 /16
  3. 3. 同時通訳とは  通訳の種類 逐次通訳: 発話終了後に通訳を開始 通訳 同時通訳: 発話途中に通訳を開始  同時通訳の特徴:時間の制約が強い環境下 1)長い発話を分割 [Jones 02] 2)並び替えが少ない訳出 [遠山+ 03] 翻訳: 原言語: 同時通訳: B だから A because A B A なぜならば B 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 3 /16
  4. 4. 関連研究と問題点  発話の分割 [Ryu+ 04][Bangalore+ 12][Fujita+ 13] - 同時通訳者のように長い発話を分割する手法 音声認識 翻訳 翻訳 合成  関連研究の問題点 翻訳 合成 合成 時間 機械翻訳システム 原言語文 目的言語文 翻訳データ 学習 学習に翻訳データ(翻訳者が作成したデータ)の使用 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 4 /16
  5. 5. アプローチ 本発表 学習に同時通訳データ(同時通訳者の通訳データ)を使用 通訳者のように訳出する同時通訳システムの構築 機械翻訳システム 同時通訳のような 目的言語文 原言語文 学習 翻訳 データ 同時通訳 データ 発表内容 - - 同時通訳データの収集 学習に同時通訳データの使用 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 5 /16
  6. 6. 同時通訳データの収集  収録材料:TED講演(英語⇒日本語) <理由> - 翻訳(字幕)と同時通訳の 違いを比較  同時通訳者:通訳経験年数の異なる3名 <理由> - 通訳者同士の上手さを比較 - 自動同時通訳システムと 通訳者のレベルを比較 ランク 通訳経験年数 S 15年 A 4年 B 1年 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 6 /16
  7. 7. 同時通訳データの例  同時通訳データの書き起こし例 0001 - 00:44:107 - 00:45:043 本日は<H> 0002 - 00:45:552 - 00:49:206 みなさまに(F え)難しい話題についてお話したいと思います。  通訳経験年数の異なる同時通訳データ (原言語) you have been digitally preserved in about four minute Sランク: 4分間ほどみなさんの様子がデジタル的に記録されています Aランク: デジタルで皆さん保存されました 本当に数分の内にです Bランク: 皆さんはデジタル的に数分間の間に保全されたのです 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 7 /16
  8. 8. 適応1:機械翻訳システムの学習 機械翻訳システム構築時の3つの過程に同時通訳データを 利用 1)チューニング:各モデルのパラメータ調整 - 同時通訳のような訳出 2)言語モデルの学習:出力文のスタイルに影響 - 同時通訳に近い語順 3)翻訳モデルの学習:翻訳するフレーズに影響 - 同時通訳に使用されるフレーズ 同時通訳者に近い訳出の期待 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 8 /16
  9. 9. 適応2:文分割法の学習  右確率を用いた文分割法 [Fujita+ 13] - 右確率を用いて、分割位置を自動的に決定する手法 - 閾値によって分割位置を調整 - 閾値1.0のときは、文単位 - 閾値0.0のときは、フレーズ単位  右確率の学習に同時通訳データを用いる理由 翻訳: 原言語: 同時通訳: B だから A because A B A なぜならば B [遠山+ 03] 精度の維持と分割位置の増加による 遅延時間短縮の期待 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 9 /16
  10. 10. 実験設定  実験手法 - 適応1:機械翻訳システムの学習 - 適応2:右確率の学習 - 同時通訳者と同時通訳システムの比較  タスク - TED講演(英語⇒日本語)  評価方法 - 翻訳精度 BLEU:一般的に広く使用されている尺度 RIBES:文全体の大局的な単語の並びに注目した尺度 - 遅延時間 :発話の開始から翻訳の開始までの処理時間 (音声認識、音声合成の処理時間は考慮せず)  データ - 正解データは同時通訳データ - 同時通訳データはSランクのデータのみを使用 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 10 /16
  11. 11. 結果:機械翻訳システムの学習 精度の向上 フレーズ 単位 同時通訳 に近い訳出 文単位 遅延時間の短縮 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 11 /16
  12. 12. 結果:機械翻訳システムの学習 D: 2.08 BLEU: 8.39 D: 5.23 BLEU: 7.81 遅延時間が短縮し,通訳者に近い訳出結果 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 12 /16
  13. 13. 結果:右確率の学習 同時通訳データなし 同時通訳データあり <考察> 同時通訳データのサイズ(同時通訳) - 同時通訳データの形態素数:29.7k - 翻訳データの形態素数:1.57M 同時通訳データを追加しても変化せず 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 13 /16
  14. 14. 同時通訳者とシステムの比較実験  実際の同時通訳者とシステムの性能を比較 - 同時通訳データを利用した同時通訳システム - Aランク(通訳経験年数4年) - Bランク(通訳経験年数1年) 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 14 /16
  15. 15. 結果:同時通訳者とシステムの比較 Aランク D: 2.17 RIBES: 45.59 Bランク D: 2.06 RIBES: 44.59 Bランクの通訳者(通訳経験年数1年)と同等の性能 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 15 /16
  16. 16. まとめ  本発表 - 通訳者のように訳出する自動同時通訳システムの構築  提案 - 同時通訳データの収集 - 学習に同時通訳データの使用  結果 - 遅延時間が短縮し,同時通訳者に近い訳出 - 通訳経験年数1年の同時通訳者と同等の性能  今後 - 自動同時通訳システムの主観評価 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 16 /16
  17. 17. 結果:機械翻訳システムの学習 (RIBES) 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 17 /16
  18. 18. 結果:同時通訳者との比較 (BLEU) 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 18 /16
  19. 19. 翻訳例 原言語 the next slide i show you will be a rapid fast forward of what’s happened over the last 25 years 正解文 この25年間に何が起こったかというのを早送りで見せた (Sランクの いと思います 同時通訳) Baseline 次のスライドをお見せしますが急速に進んで何が起こっ (右確率 1.0) たのです過去25年間 TM+LM+Tu 次のスライドをお見せしますがこの25年間に起こったの (右確率 1.0) です 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 19 /16
  20. 20. 使用したデータ 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 20 /16
  21. 21. 分割された翻訳単位数 2013©Hiroaki Shimizu AHC-Lab, IS, NAIST 21 /16

×