Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1
不完全な文の構文解析に基づく
同時音声翻訳
小田 悠介
Graham Neubig  Sakriani Sakti
...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2
背 景
提案法の概要
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3
同時音声翻訳
●
同時音声翻訳 (Simultaneous Speech Translation: SST)
– 音...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4
同時音声翻訳の手法
●
逐次デコーディング (Sankaran+2010 Yarmohammadi+2013; Fi...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5
文分割による構文情報の欠落
●
例: in the next 18 minutes I 'm going to ta...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6
本研究の目的 (1)
●
文分割による翻訳単位に欠落した構文情報を補完
In the next 18 minutes...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7
本研究の目的 (2)
●
文分割による翻訳単位に欠落した構文情報を補完
●
補完された構文情報を用いて、構文的に妥当...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8
同時音声翻訳の構成
●
文分割に基づく同時音声翻訳システム
音
声
認
識
な
ど
this is
a pen
th...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9
提案法 (1)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
音
声
認
識
な
ど
構
...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10
提案法 (2)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
●
提案法2: 構文情報に...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11
不足した構文情報の推定
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12
構文情報の補完 (1)
●
文分割により得られた構文単位から構文情報を補完
VP
翻訳単位 追加の構文情報
推定
...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13
構文情報の補完 (2)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14
構文情報の補完 (3)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15
構文情報の補完 (4)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16
構文情報の補完 (5)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17
構文情報の補完 (6)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18
学習データの生成 (1)
●
Penn Treebankの木を分解して学習データを生成
This is a pen...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19
学習データの生成 (2)
●
Penn Treebankの木を分解して学習データを生成
This is a pen...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20
Tree-to-string 翻訳 (1)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21
Tree-to-string 翻訳 (2)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 22
構文情報を用いた
翻訳待機
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 23
構文情報を用いた翻訳待機 (1)
タグ推定後の
入力文
in the next 18 minutes
翻訳結果 1...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 24
構文情報を用いた翻訳待機 (2)
タグ推定後の
入力文
in the next 18 minutes
i 'm g...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 25
構文情報を用いた翻訳待機 (3)
タグ推定後の
入力文
in the next 18 minutes
i 'm g...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 26
構文情報を用いた翻訳待機 (4)
タグ推定後の
入力文
in the next 18 minutes
i 'm g...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 27
実 験
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 28
実験設定
●
ドメイン TED [WIT3]
●
言語対 英語 → 日本語
●
トークン化 Stanford To...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 29
実験結果: BLEU (1)
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0....
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 30
実験結果: BLEU (2)
●
分割が少ない(グラフ右) … Tree-to-stringが高性能
●
分割が多...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 31
実験結果: BLEU (3)
●
構文情報の補完(T2S-tag, T2S-wait)
– 文分割=n単語で多く分...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 32
実験結果: RIBES (1)
0 2 4 6 8 10 12 14 16 18
0.42
0.44
0.46
0...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 33
実験結果: RIBES (2)
●
構文情報の補完(T2S-wait)
– 特に分割の多い条件で、他の手法より高精...
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 34
まとめ
●
文法的に不完全な翻訳単位に対して、正しい構文情報を用いて翻訳
– 提案法:
●
不足している構文要素の...
Upcoming SlideShare
Loading in …5
×

不完全な文の構文解析に基づく同時音声翻訳

38,974 views

Published on

同時音声翻訳は話者の発話と同時に翻訳結果を提示するシステムであり、この実現には通常の機械翻訳に加えて、どこまで発話を入力したら翻訳を開始するべきかを判断することになります。しかし従来用いられていた手法では、構文的に正しくない位置で発話を区切ってしまう可能性があり、翻訳精度が低下する問題がありました。本研究では区切られた発話の前後にどのような構文が現れるかを予測することでこの不整合を補い、従来よりも構文的に正しい翻訳結果を得ることができるようになりました。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

不完全な文の構文解析に基づく同時音声翻訳

  1. 1. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1 不完全な文の構文解析に基づく 同時音声翻訳 小田 悠介 Graham Neubig  Sakriani Sakti 戸田 智基  中村 哲      言語処理学会第21回全国大会 (2015/3/18)
  2. 2. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2 背 景 提案法の概要
  3. 3. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3 同時音声翻訳 ● 同時音声翻訳 (Simultaneous Speech Translation: SST) – 音声→音声の機械翻訳 – 話者の発話を連続的に翻訳・出力 – 同時性(訳出時間の短さ)を重視 … 発話の途中でも結果を随時出力 同時音声翻訳システム 今から18分間で 皆様を旅にご案内します In the next 18 minutes I'm going to take you on a journey 可能な限り短時間で訳出 →会話の途中でも出力
  4. 4. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4 同時音声翻訳の手法 ● 逐次デコーディング (Sankaran+2010 Yarmohammadi+2013; Finch+2014) – 前回の翻訳過程+入力単語 → 次回の翻訳過程 – 翻訳過程が条件を満たせば結果を出力 – 翻訳時の履歴を考慮可能 but 翻訳器の大幅な修正 ● 文分割 (Fügen+2007; Bangalore+2012; Sridhar+2013; Fujita+2013; Oda+2014) – 入力単語列を予め翻訳するべき単位で分割 – 分割で得た単位をそのまま翻訳 – 通常の翻訳器を使用可能 but 構文的に問題のある分割が発生                → 統語情報に基づく翻訳法と相性が悪い this is a pen MT MT MT MT これはペンです OKmore more more that this is a pen and ... MT これはペンです and MT
  5. 5. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5 文分割による構文情報の欠落 ● 例: in the next 18 minutes I 'm going to take … ● 本来なら「I」の後ろに動詞句が続くことが予想されるが、分割によって欠落 ● 翻訳単位だけでは正しい構文情報が得られない VP (動詞句)
  6. 6. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6 本研究の目的 (1) ● 文分割による翻訳単位に欠落した構文情報を補完 In the next 18 minutes I VP 翻訳単位 追加の構文情報 推定
  7. 7. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7 本研究の目的 (2) ● 文分割による翻訳単位に欠落した構文情報を補完 ● 補完された構文情報を用いて、構文的に妥当な翻訳の実現 In the next 18 minutes I VP 翻訳単位 追加の構文情報 推定 今から18分で、私はVP 今から18分私補完なし 補完あり
  8. 8. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8 同時音声翻訳の構成 ● 文分割に基づく同時音声翻訳システム 音 声 認 識 な ど this is a pen this is a pen 文 分 割 翻 訳 これです 出 力 ペン 単語単位で 入力発話を取得 入力発話を 適切な位置で グループ化 翻訳単位を生成 翻訳単位を 個別に変換
  9. 9. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9 提案法 (1) ● 提案法1: 構文情報の補完 – 翻訳単位が正しい構文となるよう補正 音 声 認 識 な ど 構 文 補 完 構 文 解 析 this is NPthis is a pen this is a pen 文 分 割 翻 訳 これは NP です 出 力 ペンa pen 提案法1
  10. 10. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10 提案法 (2) ● 提案法1: 構文情報の補完 – 翻訳単位が正しい構文となるよう補正 ● 提案法2: 構文情報に基づく翻訳待機 – 翻訳結果が特定の条件を満たすときに翻訳を待機 – 次の翻訳単位と結合 音 声 認 識 な ど 構 文 補 完 構 文 解 析 this is NPthis is a pen this is a pen 文 分 割 翻 訳 これは NP です 出 力 これはペンですthis is a pen 待 機 this is 提案法1 提案法2
  11. 11. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11 不足した構文情報の推定
  12. 12. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12 構文情報の補完 (1) ● 文分割により得られた構文単位から構文情報を補完 VP 翻訳単位 追加の構文情報 推定 in the next 18 min. I
  13. 13. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13 構文情報の補完 (2) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 1. 翻訳単位を無理やり構文解析
  14. 14. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14 構文情報の補完 (3) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 2. 素性の抽出 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... 1. 翻訳単位を無理やり構文解析
  15. 15. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15 構文情報の補完 (4) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 3. 多値分類 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... VP ... 0.65 NP ... 0.28 nil ... 0.04 ... 1. 翻訳単位を無理やり構文解析 2. 素性の抽出
  16. 16. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16 構文情報の補完 (5) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 3. 多値分類 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... VP ... 0.65 NP ... 0.28 nil ... 0.04 ... 1. 翻訳単位を無理やり構文解析 2. 素性の抽出 VP 4. 確率最大の文法要素を    追加
  17. 17. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17 構文情報の補完 (6) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 3. 多値分類 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... VP ... 0.65 NP ... 0.28 nil ... 0.04 ... 1. 翻訳単位を無理やり構文解析 2. 素性の抽出 VP 4. 確率最大の文法要素を    追加 5. nilが生成されるまで反復 nil
  18. 18. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18 学習データの生成 (1) ● Penn Treebankの木を分解して学習データを生成 This is a pen DT VBZ NN NP VP NP S DT This is DT VBZ NP VP NP S is a pen VBZ NN NP VP DT is a VBZ NN NP VP DT is a pen [nil] is a [NN] [nil] This is [NP] [nil]
  19. 19. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19 学習データの生成 (2) ● Penn Treebankの木を分解して学習データを生成 This is a pen DT VBZ NN NP VP NP S DT This is DT VBZ NP VP NP S is a pen VBZ NN NP VP DT is a VBZ NN NP VP DT is a pen [nil] is a [NN] [nil] This is [NP] [nil] 元の構文木と 同じ部分木 ↓ 推定は不要 同じ部分木を 生成するのに NN が必要 同じ部分木を 生成するのに NP が必要
  20. 20. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20 Tree-to-string 翻訳 (1) ● Tree-to-string 翻訳 … – 原言語の構文木を翻訳に使用 – 一般にフレーズベース翻訳よりも構文の異なる言語に強い ● 例:英語→日本語 This is a pen This is a pen DT VBZ NN NP VP NP S DT これ は ペン で す 構文解析 翻訳
  21. 21. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21 Tree-to-string 翻訳 (2) ● Tree-to-string 翻訳 … – 原言語の構文木を翻訳に使用 – 一般にフレーズベース翻訳よりも構文の異なる言語に強い ● 例:英語→日本語 – 補完した構文情報を明示的に利用することが可能 This is NP This is DT VBZ NP VP NP S これ は NP で す 構文解析 翻訳
  22. 22. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 22 構文情報を用いた 翻訳待機
  23. 23. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 23 構文情報を用いた翻訳待機 (1) タグ推定後の 入力文 in the next 18 minutes 翻訳結果 18 分 で あ る
  24. 24. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 24 構文情報を用いた翻訳待機 (2) タグ推定後の 入力文 in the next 18 minutes i 'm going to take [NP] 翻訳結果 18 分 で あ る [NP] を 行 っ て い ま す 右側に推定された文法要素が翻訳結果の中に来ることがある
  25. 25. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 25 構文情報を用いた翻訳待機 (3) タグ推定後の 入力文 in the next 18 minutes i 'm going to take [NP] you on a journey 翻訳結果 18 分 で あ る [NP] を 行 っ て い ま す 旅 の 途中 で あ る の か 右側に推定された文法要素が翻訳結果の中に来ることがある ⇒ 前後の文の並べ替え, 恐らく 分割が失敗
  26. 26. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 26 構文情報を用いた翻訳待機 (4) タグ推定後の 入力文 in the next 18 minutes i 'm going to take [NP] (待機) i 'm going to take you on a journey 翻訳結果 18 分 で あ る [NP] を 行 っ て い ま す 皆さん を 旅 に お連れ します 右側に推定された文法要素が翻訳結果の中に来ることがある ⇒ 前後の文の並べ替え, 恐らく 分割が失敗 ⇒ 翻訳結果に現れた場合、後続の断片を待機    逐次デコーディングと同様の効果を翻訳器の変更なしで実現 正しい翻訳結果
  27. 27. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 27 実 験
  28. 28. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 28 実験設定 ● ドメイン TED [WIT3] ● 言語対 英語 → 日本語 ● トークン化 Stanford Tokenizer, KyTea ● 構文解析 Ckylark [小田+ 2015] ● 翻訳器 Moses(フレーズベース), Travatar(tree-to-string) ● 最終評価 BLEU・RIBES ● 文分割法 n単語で分割 手法 概要 ベースライン PBMT フレーズベース翻訳 (Moses) T2S Tree-to-string翻訳 (Travatar) 文法要素の推定なし 提案法 T2S-tag Tree-to-string翻訳 (Travatar) 文法要素の推定 T2S-wait Tree-to-string翻訳 (Travatar) 文法要素の推定・断片の再結合
  29. 29. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 29 実験結果: BLEU (1) 0 2 4 6 8 10 12 14 16 18 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 T2S T2S-tag T2S-wait PBMT 平均単語数
  30. 30. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 30 実験結果: BLEU (2) ● 分割が少ない(グラフ右) … Tree-to-stringが高性能 ● 分割が多い(グラフ左) … フレーズベースが高性能 – 分割により構文情報が欠落したためと考えられる 0 2 4 6 8 10 12 14 16 18 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 T2S T2S-tag T2S-wait PBMT 平均単語数 PBMT T2S この辺りで 翻訳精度が逆転
  31. 31. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 31 実験結果: BLEU (3) ● 構文情報の補完(T2S-tag, T2S-wait) – 文分割=n単語で多く分割しても精度を維持 … 構文情報の補正がうまく作用 0 2 4 6 8 10 12 14 16 18 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 T2S T2S-tag T2S-wait PBMT 平均単語数 T2S-waitT2S-tag 多く分割しても 精度を維持
  32. 32. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 32 実験結果: RIBES (1) 0 2 4 6 8 10 12 14 16 18 0.42 0.44 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 T2S T2S-tag T2S-wait PBMT 平均単語数
  33. 33. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 33 実験結果: RIBES (2) ● 構文情報の補完(T2S-wait) – 特に分割の多い条件で、他の手法より高精度 ● 単語の並べ替えに関して他の手法よりも頑健 0 2 4 6 8 10 12 14 16 18 0.42 0.44 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 T2S T2S-tag T2S-wait PBMT 平均単語数 T2S-wait 多く分割しても 精度を維持
  34. 34. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 34 まとめ ● 文法的に不完全な翻訳単位に対して、正しい構文情報を用いて翻訳 – 提案法: ● 不足している構文要素の補完 ● 翻訳結果による分割単位の再結合 = 翻訳の待機 – メリット: ● Tree-to-string翻訳を文分割に基づく同時音声翻訳へ適用可能 ● 文分割結果の良さを翻訳結果に基づいて評価可能 ● 実験結果 – フレーズベース翻訳とtree-to-string翻訳の相補的な関係 – 構文木をそのまま使用した場合よりも… ● 多い分割でPBMTと同等のBLEU = 構文的に問題のある文分割に頑健 ● RIBES値が向上 = 単語の並べ替えに頑健 ● 今後の課題 – 構文の推定精度の向上 – 文分割法への反映 … 構文情報を明示的に考慮する文分割法の作成

×