SlideShare a Scribd company logo
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1
不完全な文の構文解析に基づく
同時音声翻訳
小田 悠介
Graham Neubig  Sakriani Sakti
戸田 智基  中村 哲
     言語処理学会第21回全国大会 (2015/3/18)
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2
背 景
提案法の概要
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3
同時音声翻訳
●
同時音声翻訳 (Simultaneous Speech Translation: SST)
– 音声→音声の機械翻訳
– 話者の発話を連続的に翻訳・出力
– 同時性(訳出時間の短さ)を重視 … 発話の途中でも結果を随時出力
同時音声翻訳システム
今から18分間で
皆様を旅にご案内します
In the next 18 minutes
I'm going to take you on a journey
可能な限り短時間で訳出
→会話の途中でも出力
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4
同時音声翻訳の手法
●
逐次デコーディング (Sankaran+2010 Yarmohammadi+2013; Finch+2014)
– 前回の翻訳過程+入力単語 → 次回の翻訳過程
– 翻訳過程が条件を満たせば結果を出力
– 翻訳時の履歴を考慮可能 but 翻訳器の大幅な修正
●
文分割 (Fügen+2007; Bangalore+2012; Sridhar+2013; Fujita+2013; Oda+2014)
– 入力単語列を予め翻訳するべき単位で分割
– 分割で得た単位をそのまま翻訳
– 通常の翻訳器を使用可能 but 構文的に問題のある分割が発生
               → 統語情報に基づく翻訳法と相性が悪い
this is a pen
MT MT MT MT
これはペンです
OKmore more more
that this is a pen and ...
MT これはペンです
and
MT
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5
文分割による構文情報の欠落
●
例: in the next 18 minutes I 'm going to take …
●
本来なら「I」の後ろに動詞句が続くことが予想されるが、分割によって欠落
●
翻訳単位だけでは正しい構文情報が得られない
VP (動詞句)
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6
本研究の目的 (1)
●
文分割による翻訳単位に欠落した構文情報を補完
In the next 18 minutes I VP
翻訳単位 追加の構文情報
推定
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7
本研究の目的 (2)
●
文分割による翻訳単位に欠落した構文情報を補完
●
補完された構文情報を用いて、構文的に妥当な翻訳の実現
In the next 18 minutes I VP
翻訳単位 追加の構文情報
推定
今から18分で、私はVP
今から18分私補完なし
補完あり
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8
同時音声翻訳の構成
●
文分割に基づく同時音声翻訳システム
音
声
認
識
な
ど
this is
a pen
this
is
a
pen
文
分
割
翻
訳
これです
出
力
ペン
単語単位で
入力発話を取得
入力発話を
適切な位置で
グループ化
翻訳単位を生成
翻訳単位を
個別に変換
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9
提案法 (1)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
音
声
認
識
な
ど
構
文
補
完
構
文
解
析
this is NPthis is
a pen
this
is
a
pen
文
分
割
翻
訳
これは NP です
出
力
ペンa pen
提案法1
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10
提案法 (2)
●
提案法1: 構文情報の補完
– 翻訳単位が正しい構文となるよう補正
●
提案法2: 構文情報に基づく翻訳待機
– 翻訳結果が特定の条件を満たすときに翻訳を待機
– 次の翻訳単位と結合
音
声
認
識
な
ど
構
文
補
完
構
文
解
析
this is NPthis is
a pen
this
is
a
pen
文
分
割
翻
訳
これは NP です
出
力
これはペンですthis is a pen
待 機
this is
提案法1
提案法2
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11
不足した構文情報の推定
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12
構文情報の補完 (1)
●
文分割により得られた構文単位から構文情報を補完
VP
翻訳単位 追加の構文情報
推定
in the next 18 min. I
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13
構文情報の補完 (2)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
1. 翻訳単位を無理やり構文解析
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14
構文情報の補完 (3)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
2. 素性の抽出
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
1. 翻訳単位を無理やり構文解析
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15
構文情報の補完 (4)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
1. 翻訳単位を無理やり構文解析
2. 素性の抽出
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16
構文情報の補完 (5)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
1. 翻訳単位を無理やり構文解析
2. 素性の抽出
VP
4. 確率最大の文法要素を
   追加
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17
構文情報の補完 (6)
●
文分割により得られた構文単位から構文情報を補完
翻訳単位
in the next 18 min. I
IN DT JJ CD NNS NN
NP NP
NP
PP
3. 多値分類
単語:R1=I
品詞:R1=NN
単語:R1-2=I,min.
品詞:R1-2=NN,NNS
...
ROOT=PP
ROOT-L=IN
ROOT-R=NP
...
VP ... 0.65
NP ... 0.28
nil ... 0.04
...
1. 翻訳単位を無理やり構文解析
2. 素性の抽出
VP
4. 確率最大の文法要素を
   追加
5. nilが生成されるまで反復
nil
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18
学習データの生成 (1)
●
Penn Treebankの木を分解して学習データを生成
This is a pen
DT VBZ NN
NP
VP
NP
S
DT
This is
DT VBZ
NP
VP
NP
S
is a pen
VBZ NN
NP
VP
DT
is a
VBZ NN
NP
VP
DT
is a pen [nil]
is a [NN] [nil]
This is [NP] [nil]
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19
学習データの生成 (2)
●
Penn Treebankの木を分解して学習データを生成
This is a pen
DT VBZ NN
NP
VP
NP
S
DT
This is
DT VBZ
NP
VP
NP
S
is a pen
VBZ NN
NP
VP
DT
is a
VBZ NN
NP
VP
DT
is a pen [nil]
is a [NN] [nil]
This is [NP] [nil]
元の構文木と
同じ部分木
↓
推定は不要
同じ部分木を
生成するのに
NN が必要
同じ部分木を
生成するのに
NP が必要
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20
Tree-to-string 翻訳 (1)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に使用
– 一般にフレーズベース翻訳よりも構文の異なる言語に強い
●
例:英語→日本語
This is a pen
This is a pen
DT VBZ NN
NP
VP
NP
S
DT これ は ペン で す
構文解析
翻訳
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21
Tree-to-string 翻訳 (2)
●
Tree-to-string 翻訳 …
– 原言語の構文木を翻訳に使用
– 一般にフレーズベース翻訳よりも構文の異なる言語に強い
●
例:英語→日本語
– 補完した構文情報を明示的に利用することが可能
This is NP
This is
DT VBZ
NP
VP
NP
S
これ は NP で す
構文解析
翻訳
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 22
構文情報を用いた
翻訳待機
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 23
構文情報を用いた翻訳待機 (1)
タグ推定後の
入力文
in the next 18 minutes
翻訳結果 18 分 で あ る
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 24
構文情報を用いた翻訳待機 (2)
タグ推定後の
入力文
in the next 18 minutes
i 'm going to take [NP]
翻訳結果 18 分 で あ る
[NP] を 行 っ て い ま す
右側に推定された文法要素が翻訳結果の中に来ることがある
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 25
構文情報を用いた翻訳待機 (3)
タグ推定後の
入力文
in the next 18 minutes
i 'm going to take [NP]
you on a journey
翻訳結果 18 分 で あ る
[NP] を 行 っ て い ま す
旅 の 途中 で あ る の か
右側に推定された文法要素が翻訳結果の中に来ることがある
⇒ 前後の文の並べ替え, 恐らく 分割が失敗
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 26
構文情報を用いた翻訳待機 (4)
タグ推定後の
入力文
in the next 18 minutes
i 'm going to take [NP] (待機)
i 'm going to take you on a journey
翻訳結果 18 分 で あ る
[NP] を 行 っ て い ま す
皆さん を 旅 に お連れ します
右側に推定された文法要素が翻訳結果の中に来ることがある
⇒ 前後の文の並べ替え, 恐らく 分割が失敗
⇒ 翻訳結果に現れた場合、後続の断片を待機
   逐次デコーディングと同様の効果を翻訳器の変更なしで実現
正しい翻訳結果
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 27
実 験
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 28
実験設定
●
ドメイン TED [WIT3]
●
言語対 英語 → 日本語
●
トークン化 Stanford Tokenizer, KyTea
●
構文解析 Ckylark [小田+ 2015]
●
翻訳器 Moses(フレーズベース), Travatar(tree-to-string)
●
最終評価 BLEU・RIBES
●
文分割法 n単語で分割
手法 概要
ベースライン
PBMT フレーズベース翻訳 (Moses)
T2S Tree-to-string翻訳 (Travatar)
文法要素の推定なし
提案法
T2S-tag Tree-to-string翻訳 (Travatar)
文法要素の推定
T2S-wait Tree-to-string翻訳 (Travatar)
文法要素の推定・断片の再結合
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 29
実験結果: BLEU (1)
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
T2S T2S-tag
T2S-wait PBMT
平均単語数
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 30
実験結果: BLEU (2)
●
分割が少ない(グラフ右) … Tree-to-stringが高性能
●
分割が多い(グラフ左) … フレーズベースが高性能
– 分割により構文情報が欠落したためと考えられる
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
T2S T2S-tag
T2S-wait PBMT
平均単語数
PBMT
T2S
この辺りで
翻訳精度が逆転
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 31
実験結果: BLEU (3)
●
構文情報の補完(T2S-tag, T2S-wait)
– 文分割=n単語で多く分割しても精度を維持 … 構文情報の補正がうまく作用
0 2 4 6 8 10 12 14 16 18
0.07
0.08
0.09
0.1
0.11
0.12
0.13
0.14
0.15
T2S T2S-tag
T2S-wait PBMT
平均単語数
T2S-waitT2S-tag
多く分割しても
精度を維持
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 32
実験結果: RIBES (1)
0 2 4 6 8 10 12 14 16 18
0.42
0.44
0.46
0.48
0.5
0.52
0.54
0.56
0.58
0.6
T2S T2S-tag
T2S-wait PBMT
平均単語数
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 33
実験結果: RIBES (2)
●
構文情報の補完(T2S-wait)
– 特に分割の多い条件で、他の手法より高精度
●
単語の並べ替えに関して他の手法よりも頑健
0 2 4 6 8 10 12 14 16 18
0.42
0.44
0.46
0.48
0.5
0.52
0.54
0.56
0.58
0.6
T2S T2S-tag
T2S-wait PBMT
平均単語数
T2S-wait
多く分割しても
精度を維持
15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 34
まとめ
●
文法的に不完全な翻訳単位に対して、正しい構文情報を用いて翻訳
– 提案法:
●
不足している構文要素の補完
●
翻訳結果による分割単位の再結合 = 翻訳の待機
– メリット:
●
Tree-to-string翻訳を文分割に基づく同時音声翻訳へ適用可能
●
文分割結果の良さを翻訳結果に基づいて評価可能
●
実験結果
– フレーズベース翻訳とtree-to-string翻訳の相補的な関係
– 構文木をそのまま使用した場合よりも…
●
多い分割でPBMTと同等のBLEU = 構文的に問題のある文分割に頑健
●
RIBES値が向上 = 単語の並べ替えに頑健
●
今後の課題
– 構文の推定精度の向上
– 文分割法への反映 … 構文情報を明示的に考慮する文分割法の作成

More Related Content

What's hot

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Yuta Kikuchi
 
LT@Chainer Meetup
LT@Chainer MeetupLT@Chainer Meetup
LT@Chainer Meetup
Shunta Saito
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
Preferred Networks
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014
Jiro Nishitoba
 
Chenchen Ding - 2015 - NICT at WAT 2015
Chenchen Ding - 2015 - NICT at WAT 2015Chenchen Ding - 2015 - NICT at WAT 2015
Chenchen Ding - 2015 - NICT at WAT 2015
Association for Computational Linguistics
 
Chainer Meetup LT (Alpaca)
Chainer Meetup LT (Alpaca)Chainer Meetup LT (Alpaca)
Chainer Meetup LT (Alpaca)
Jun-ya Norimatsu
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
 
High performance python computing for data science
High performance python computing for data scienceHigh performance python computing for data science
High performance python computing for data science
Takami Sato
 
Cythonの一喜一憂
Cythonの一喜一憂Cythonの一喜一憂
Cythonの一喜一憂
Kotaro Tanahashi
 
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGAPolyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
ryos36
 
Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例
Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例
Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例
Jun-ya Norimatsu
 

What's hot (11)

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
 
LT@Chainer Meetup
LT@Chainer MeetupLT@Chainer Meetup
LT@Chainer Meetup
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
Chainer meetup20151014
Chainer meetup20151014Chainer meetup20151014
Chainer meetup20151014
 
Chenchen Ding - 2015 - NICT at WAT 2015
Chenchen Ding - 2015 - NICT at WAT 2015Chenchen Ding - 2015 - NICT at WAT 2015
Chenchen Ding - 2015 - NICT at WAT 2015
 
Chainer Meetup LT (Alpaca)
Chainer Meetup LT (Alpaca)Chainer Meetup LT (Alpaca)
Chainer Meetup LT (Alpaca)
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
High performance python computing for data science
High performance python computing for data scienceHigh performance python computing for data science
High performance python computing for data science
 
Cythonの一喜一憂
Cythonの一喜一憂Cythonの一喜一憂
Cythonの一喜一憂
 
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGAPolyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
 
Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例
Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例
Capitalicoでのchainer 1.1 → 1.5 バージョンアップ事例
 

Similar to 不完全な文の構文解析に基づく同時音声翻訳

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
奈良先端大 情報科学研究科
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
Yusuke Oda
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
Akiva Miura
 
RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)
NAIST Machine Translation Study Group
 
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
Kosuke Futamata
 
PerlでKyTea
PerlでKyTeaPerlでKyTea
PerlでKyTea
pawa_
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
Kyoshiro Sugiyama
 

Similar to 不完全な文の構文解析に基づく同時音声翻訳 (7)

複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)RNN-based Translation Models (Japanese)
RNN-based Translation Models (Japanese)
 
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
 
PerlでKyTea
PerlでKyTeaPerlでKyTea
PerlでKyTea
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
 

More from 奈良先端大 情報科学研究科

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
奈良先端大 情報科学研究科
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
奈良先端大 情報科学研究科
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
奈良先端大 情報科学研究科
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
奈良先端大 情報科学研究科
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
奈良先端大 情報科学研究科
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
奈良先端大 情報科学研究科
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
奈良先端大 情報科学研究科
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
奈良先端大 情報科学研究科
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
奈良先端大 情報科学研究科
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
奈良先端大 情報科学研究科
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
奈良先端大 情報科学研究科
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
奈良先端大 情報科学研究科
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
奈良先端大 情報科学研究科
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
奈良先端大 情報科学研究科
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
奈良先端大 情報科学研究科
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
奈良先端大 情報科学研究科
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
奈良先端大 情報科学研究科
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
奈良先端大 情報科学研究科
 

More from 奈良先端大 情報科学研究科 (20)

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
 

Recently uploaded

VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
company21
 
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
iPride Co., Ltd.
 
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツールMOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
TsuyoshiSaito7
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
Tetsuya Nihonmatsu
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
Hironori Washizaki
 
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
shogotaguchi
 
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
Tatsuya Ishikawa
 
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
TsuyoshiSaito7
 

Recently uploaded (10)

VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
VRM*VOICEVOX*GoogleCloudを使って自分だけのAIパートナーを作る話
 
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
 
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツールMOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
 
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
能動的サイバー防御の時代へ - GPTsから垣間見えた私達と未来のAIについて
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
 
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
 
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
2024/07/04 Blazor+ローコードで実現する.NET資産のモダナイズ
 
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
 

不完全な文の構文解析に基づく同時音声翻訳

  • 1. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 1 不完全な文の構文解析に基づく 同時音声翻訳 小田 悠介 Graham Neubig  Sakriani Sakti 戸田 智基  中村 哲      言語処理学会第21回全国大会 (2015/3/18)
  • 2. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 2 背 景 提案法の概要
  • 3. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 3 同時音声翻訳 ● 同時音声翻訳 (Simultaneous Speech Translation: SST) – 音声→音声の機械翻訳 – 話者の発話を連続的に翻訳・出力 – 同時性(訳出時間の短さ)を重視 … 発話の途中でも結果を随時出力 同時音声翻訳システム 今から18分間で 皆様を旅にご案内します In the next 18 minutes I'm going to take you on a journey 可能な限り短時間で訳出 →会話の途中でも出力
  • 4. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 4 同時音声翻訳の手法 ● 逐次デコーディング (Sankaran+2010 Yarmohammadi+2013; Finch+2014) – 前回の翻訳過程+入力単語 → 次回の翻訳過程 – 翻訳過程が条件を満たせば結果を出力 – 翻訳時の履歴を考慮可能 but 翻訳器の大幅な修正 ● 文分割 (Fügen+2007; Bangalore+2012; Sridhar+2013; Fujita+2013; Oda+2014) – 入力単語列を予め翻訳するべき単位で分割 – 分割で得た単位をそのまま翻訳 – 通常の翻訳器を使用可能 but 構文的に問題のある分割が発生                → 統語情報に基づく翻訳法と相性が悪い this is a pen MT MT MT MT これはペンです OKmore more more that this is a pen and ... MT これはペンです and MT
  • 5. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 5 文分割による構文情報の欠落 ● 例: in the next 18 minutes I 'm going to take … ● 本来なら「I」の後ろに動詞句が続くことが予想されるが、分割によって欠落 ● 翻訳単位だけでは正しい構文情報が得られない VP (動詞句)
  • 6. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 6 本研究の目的 (1) ● 文分割による翻訳単位に欠落した構文情報を補完 In the next 18 minutes I VP 翻訳単位 追加の構文情報 推定
  • 7. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 7 本研究の目的 (2) ● 文分割による翻訳単位に欠落した構文情報を補完 ● 補完された構文情報を用いて、構文的に妥当な翻訳の実現 In the next 18 minutes I VP 翻訳単位 追加の構文情報 推定 今から18分で、私はVP 今から18分私補完なし 補完あり
  • 8. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 8 同時音声翻訳の構成 ● 文分割に基づく同時音声翻訳システム 音 声 認 識 な ど this is a pen this is a pen 文 分 割 翻 訳 これです 出 力 ペン 単語単位で 入力発話を取得 入力発話を 適切な位置で グループ化 翻訳単位を生成 翻訳単位を 個別に変換
  • 9. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 9 提案法 (1) ● 提案法1: 構文情報の補完 – 翻訳単位が正しい構文となるよう補正 音 声 認 識 な ど 構 文 補 完 構 文 解 析 this is NPthis is a pen this is a pen 文 分 割 翻 訳 これは NP です 出 力 ペンa pen 提案法1
  • 10. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 10 提案法 (2) ● 提案法1: 構文情報の補完 – 翻訳単位が正しい構文となるよう補正 ● 提案法2: 構文情報に基づく翻訳待機 – 翻訳結果が特定の条件を満たすときに翻訳を待機 – 次の翻訳単位と結合 音 声 認 識 な ど 構 文 補 完 構 文 解 析 this is NPthis is a pen this is a pen 文 分 割 翻 訳 これは NP です 出 力 これはペンですthis is a pen 待 機 this is 提案法1 提案法2
  • 11. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 11 不足した構文情報の推定
  • 12. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 12 構文情報の補完 (1) ● 文分割により得られた構文単位から構文情報を補完 VP 翻訳単位 追加の構文情報 推定 in the next 18 min. I
  • 13. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 13 構文情報の補完 (2) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 1. 翻訳単位を無理やり構文解析
  • 14. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 14 構文情報の補完 (3) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 2. 素性の抽出 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... 1. 翻訳単位を無理やり構文解析
  • 15. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 15 構文情報の補完 (4) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 3. 多値分類 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... VP ... 0.65 NP ... 0.28 nil ... 0.04 ... 1. 翻訳単位を無理やり構文解析 2. 素性の抽出
  • 16. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 16 構文情報の補完 (5) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 3. 多値分類 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... VP ... 0.65 NP ... 0.28 nil ... 0.04 ... 1. 翻訳単位を無理やり構文解析 2. 素性の抽出 VP 4. 確率最大の文法要素を    追加
  • 17. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 17 構文情報の補完 (6) ● 文分割により得られた構文単位から構文情報を補完 翻訳単位 in the next 18 min. I IN DT JJ CD NNS NN NP NP NP PP 3. 多値分類 単語:R1=I 品詞:R1=NN 単語:R1-2=I,min. 品詞:R1-2=NN,NNS ... ROOT=PP ROOT-L=IN ROOT-R=NP ... VP ... 0.65 NP ... 0.28 nil ... 0.04 ... 1. 翻訳単位を無理やり構文解析 2. 素性の抽出 VP 4. 確率最大の文法要素を    追加 5. nilが生成されるまで反復 nil
  • 18. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 18 学習データの生成 (1) ● Penn Treebankの木を分解して学習データを生成 This is a pen DT VBZ NN NP VP NP S DT This is DT VBZ NP VP NP S is a pen VBZ NN NP VP DT is a VBZ NN NP VP DT is a pen [nil] is a [NN] [nil] This is [NP] [nil]
  • 19. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 19 学習データの生成 (2) ● Penn Treebankの木を分解して学習データを生成 This is a pen DT VBZ NN NP VP NP S DT This is DT VBZ NP VP NP S is a pen VBZ NN NP VP DT is a VBZ NN NP VP DT is a pen [nil] is a [NN] [nil] This is [NP] [nil] 元の構文木と 同じ部分木 ↓ 推定は不要 同じ部分木を 生成するのに NN が必要 同じ部分木を 生成するのに NP が必要
  • 20. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 20 Tree-to-string 翻訳 (1) ● Tree-to-string 翻訳 … – 原言語の構文木を翻訳に使用 – 一般にフレーズベース翻訳よりも構文の異なる言語に強い ● 例:英語→日本語 This is a pen This is a pen DT VBZ NN NP VP NP S DT これ は ペン で す 構文解析 翻訳
  • 21. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 21 Tree-to-string 翻訳 (2) ● Tree-to-string 翻訳 … – 原言語の構文木を翻訳に使用 – 一般にフレーズベース翻訳よりも構文の異なる言語に強い ● 例:英語→日本語 – 補完した構文情報を明示的に利用することが可能 This is NP This is DT VBZ NP VP NP S これ は NP で す 構文解析 翻訳
  • 22. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 22 構文情報を用いた 翻訳待機
  • 23. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 23 構文情報を用いた翻訳待機 (1) タグ推定後の 入力文 in the next 18 minutes 翻訳結果 18 分 で あ る
  • 24. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 24 構文情報を用いた翻訳待機 (2) タグ推定後の 入力文 in the next 18 minutes i 'm going to take [NP] 翻訳結果 18 分 で あ る [NP] を 行 っ て い ま す 右側に推定された文法要素が翻訳結果の中に来ることがある
  • 25. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 25 構文情報を用いた翻訳待機 (3) タグ推定後の 入力文 in the next 18 minutes i 'm going to take [NP] you on a journey 翻訳結果 18 分 で あ る [NP] を 行 っ て い ま す 旅 の 途中 で あ る の か 右側に推定された文法要素が翻訳結果の中に来ることがある ⇒ 前後の文の並べ替え, 恐らく 分割が失敗
  • 26. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 26 構文情報を用いた翻訳待機 (4) タグ推定後の 入力文 in the next 18 minutes i 'm going to take [NP] (待機) i 'm going to take you on a journey 翻訳結果 18 分 で あ る [NP] を 行 っ て い ま す 皆さん を 旅 に お連れ します 右側に推定された文法要素が翻訳結果の中に来ることがある ⇒ 前後の文の並べ替え, 恐らく 分割が失敗 ⇒ 翻訳結果に現れた場合、後続の断片を待機    逐次デコーディングと同様の効果を翻訳器の変更なしで実現 正しい翻訳結果
  • 27. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 27 実 験
  • 28. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 28 実験設定 ● ドメイン TED [WIT3] ● 言語対 英語 → 日本語 ● トークン化 Stanford Tokenizer, KyTea ● 構文解析 Ckylark [小田+ 2015] ● 翻訳器 Moses(フレーズベース), Travatar(tree-to-string) ● 最終評価 BLEU・RIBES ● 文分割法 n単語で分割 手法 概要 ベースライン PBMT フレーズベース翻訳 (Moses) T2S Tree-to-string翻訳 (Travatar) 文法要素の推定なし 提案法 T2S-tag Tree-to-string翻訳 (Travatar) 文法要素の推定 T2S-wait Tree-to-string翻訳 (Travatar) 文法要素の推定・断片の再結合
  • 29. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 29 実験結果: BLEU (1) 0 2 4 6 8 10 12 14 16 18 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 T2S T2S-tag T2S-wait PBMT 平均単語数
  • 30. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 30 実験結果: BLEU (2) ● 分割が少ない(グラフ右) … Tree-to-stringが高性能 ● 分割が多い(グラフ左) … フレーズベースが高性能 – 分割により構文情報が欠落したためと考えられる 0 2 4 6 8 10 12 14 16 18 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 T2S T2S-tag T2S-wait PBMT 平均単語数 PBMT T2S この辺りで 翻訳精度が逆転
  • 31. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 31 実験結果: BLEU (3) ● 構文情報の補完(T2S-tag, T2S-wait) – 文分割=n単語で多く分割しても精度を維持 … 構文情報の補正がうまく作用 0 2 4 6 8 10 12 14 16 18 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14 0.15 T2S T2S-tag T2S-wait PBMT 平均単語数 T2S-waitT2S-tag 多く分割しても 精度を維持
  • 32. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 32 実験結果: RIBES (1) 0 2 4 6 8 10 12 14 16 18 0.42 0.44 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 T2S T2S-tag T2S-wait PBMT 平均単語数
  • 33. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 33 実験結果: RIBES (2) ● 構文情報の補完(T2S-wait) – 特に分割の多い条件で、他の手法より高精度 ● 単語の並べ替えに関して他の手法よりも頑健 0 2 4 6 8 10 12 14 16 18 0.42 0.44 0.46 0.48 0.5 0.52 0.54 0.56 0.58 0.6 T2S T2S-tag T2S-wait PBMT 平均単語数 T2S-wait 多く分割しても 精度を維持
  • 34. 15/03/25 Copyright (C) 2015 by Yusuke Oda, AHC-Lab, IS, NAIST 34 まとめ ● 文法的に不完全な翻訳単位に対して、正しい構文情報を用いて翻訳 – 提案法: ● 不足している構文要素の補完 ● 翻訳結果による分割単位の再結合 = 翻訳の待機 – メリット: ● Tree-to-string翻訳を文分割に基づく同時音声翻訳へ適用可能 ● 文分割結果の良さを翻訳結果に基づいて評価可能 ● 実験結果 – フレーズベース翻訳とtree-to-string翻訳の相補的な関係 – 構文木をそのまま使用した場合よりも… ● 多い分割でPBMTと同等のBLEU = 構文的に問題のある文分割に頑健 ● RIBES値が向上 = 単語の並べ替えに頑健 ● 今後の課題 – 構文の推定精度の向上 – 文分割法への反映 … 構文情報を明示的に考慮する文分割法の作成