SlideShare a Scribd company logo
1 of 24
翻訳精度の最大化による
同時音声翻訳のための文分割法
小田 悠介 (@odashi_t)
Graham Neubig 清水 宏晃
Sakriani Sakti 戸田 智基 中村 哲
情報科学研究科, NAIST
2014/3/18 (NLP2014)
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 1
1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 2
同時音声翻訳 ― 機械翻訳の応用
©2014 by Yusuke Oda, AHC-Lab, IS, NAIST2014/3/18 (NLP2014) 3
• 講義・スピーチの同時音声翻訳
(Simultaneous Speech Translation: SST)
– 原発話を連続的に音声認識、翻訳(、音声合成)
– 同時性(訳出時間の短さ)を重視
同時音声翻訳システム(English → Japanese)
今から18分間で
皆様を旅にご案内します
可能な限り
短時間で訳出
In the next 18 minutes
I'm going to take you on a journey
従来の音声翻訳と文分割法
• 従来の音声翻訳 …
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 4
しかし…
同時性が大きく損失• 講義など 「文が長い」 「文末が曖昧」
EN JA
in the next 18 minutes I 'm going to
take you on a journey and it 's a
journey that you and i have been
on for many years now and ...
翻訳単位 = 文末推定 [Matusov+ 2006]
in the next 18 minutes
I 'm going to take you
on a journey
文分割
より短い単位の翻訳が必要 文分割法の適用
今から18分間で
あなたを連れていきます
旅に
翻訳
翻訳単位を細分化
高速な訳出を実現
(翻訳精度も低下:トレードオフ)
1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 5
関連研究
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 6
• [Rangarajan-Sridhar+ 2013]
– 予測された句読点の挿入位置 (コンマ、ピリオド、その他) を使用
• 線型SVMで学習 (素性: word 1,2,3-gram / POS 1, 2, 3-gram)
• 数種類の手法を比較検討 … 句読点による手法が最高性能
• [Fujita+ 2013]
– 分割位置の右確率 (Right Probability: RP) を使用
• 右確率 … ある位置の前後で語順が同じになる確率
• [Bangalore+ 2012]
– 音声認識の無音区間(=発話の休止)を用いて文を分割
すべてヒューリスティクスに基づく手法
音韻的情報、言語的情報 …
関連研究の問題点
• 分割位置が翻訳精度に与える影響を考慮せず
• 翻訳器に対して分割位置が最適化されていない
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 7
1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 8
提案手法への要件
• 提案手法が満たすべき要件
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 9
機械翻訳の評価尺度に基づいて
最適な分割位置を決定
1. 定式化
2. 文分割アルゴリズムの提案
文ごとの評価値の総和:
文分割
→個別に翻訳
→結合
定式化
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 10
学習データ中の
文分割位置集合
機械翻訳の
評価尺度
学習済み
翻訳器
対訳文
(学習データ)
• 対訳文・翻訳器・評価尺度が与えられたとき、
文ごとの評価尺度の合計を最大化する文分割位置を探索
文分割
モデル
モデル化
S*
分割位置の
選択
アルゴリズムの概要
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 11
3. 分割位置を素性でモデル化
2. 個の分割位置を学習データから選択
翻訳器 MT対訳
𝒇 𝑗, 𝒆𝑗
評価尺度 EV
K
今回メインの話題
3種類の手法
1. 学習データ(対訳コーパス)全体で分割する数 を決定
(=分割頻度の制約)
例
I ate lunch but she left
手法 1: 貪欲法に基づく探索
• 次の分割位置を決めるとき、今までに選んだ分割位置を保持
(=貪欲法: greedy search)
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 12
最初の分割位置
ω = 0.7 ω = 0.5 ω = 0.8 ω = 0.6 ω = 0.6
2番目の分割位置
ω = 0.7 ω = 0.5 ω = 0.7 ω = 0.8
3番目の分割位置
ω = 0.5 ω = 0.8ω = 0.9
I ate lunch but she left
I ate lunch but she left
選ばれた分割位置の素性をSVMで学習
I ate lunch but she left
代名詞 動詞 名詞 接続詞 代名詞 動詞
I ate an apple and an orange
代名詞 動詞 限定詞 名詞 接続詞 限定詞 名詞
例 (素性:前後の品詞)
手法 2: 素性によるグループ化
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 13
• 翻訳器・評価尺度 … 複雑な関数 ノイズが多い
– 学習データの性能が偶然良くなる分割位置で過学習
• 解決策 … 同じ素性を持つ分割位置をグループ化、同時に分割
グループ(代名詞+動詞) グループ(名詞+接続詞) グループ(限定詞+名詞)
• 動的計画法(DP)で探索、 探索で素性が得られるので モデル化は不要
手法 3: 正則化の追加
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 14
• 素性によるグループ化を行っても、
滅多に現れない素性に対して過学習してしまう可能性
正則化項
• 素性の数に対する正則化項を導入
• 大きな α … 最終的に選択される素性の数が減少
– α = 0 のときはグループ化のみの場合と等価
1. 研究背景
2. 関連研究
3. 提案手法
4. 実験と結果
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 15
実験設定
• テストデータのドメイン … TED翻訳タスク [WIT3: Cettolo+ 2012]
• 言語対 ... 英語→ドイツ語 ・ 英語→日本語
• トークン化・品詞推定 ... Stanford POS Tagger, KyTea
• ... BLEU+1
• ... Moses(PBMT)
• テストデータの評価 ... BLEU, RIBES
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 16
言語対 用途 形態素数(英) 形態素数(独/日)
英語→ドイツ語
PBMT 学習 21.8M 20.3M
文分割 学習 424k 390k
テスト 27.6k 25.4k
英語→日本語
PBMT 学習 13.7M 19.7M
文分割 学習 401k 550k
テスト 8.20k 11.9k
比較対象
手法名 概要
従来手法
Punct-Predict 句読点位置の予測 [Rangarajan+ 2013]
RP 右確率 [Fujita+ 2013]
提案手法
Greedy
手法1:
貪欲法(+SVMによるモデル化)
Greedy+DP
手法2:
貪欲法+素性によるグループ化
Greedy+DP (α = 0.5)
手法3:
貪欲法+素性によるグループ化+正則化
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 17
実験結果 - BLEU
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 18
翻訳単位の平均単語数
BLEU
Greedyは性能が低い
(過学習?)
Greedy+DPは
RPよりも高性能
(英→独:1程度向上)
翻訳性能を維持して
未分割より3~5倍、
句読点予測より2~3倍
の分割頻度を実現
実験結果 - RIBES
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 19
翻訳単位の平均単語数
RIBES
英→独、英→日
両方でRPより高性能
(英→独:1程度向上)
(英→日:3程度向上)
実験結果 - 学習データのBLEU
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 20
翻訳単位の平均単語数
BLEU
Greedyは
学習データに対し
非常に高い性能
しかし
テスト結果は悪い
過学習
Greedy+DP
グループ化制約
過学習を抑制
学習結果 (Greedy+GP)
(高頻度順)
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 21
1 NN / CC 7 NN / RB
2 NN / VBZ 8 NNS / VBP
3 CC / PRP 9 NN / VBD
4 NN / PRP 10 CC / IN
5 CC / DT 11 CC / NN
6 CC / RB 12 CC / LS
まとめ
• 同時音声翻訳の実現には文分割法が必要
• 従来手法 = ヒューリスティクス
• 提案手法 = 翻訳精度を直接最適化
– 貪欲法
– 動的計画法
– 素性の数による正則化
• 実験結果
– BLEU 英→独 で性能向上
– RIBES 英→独、英→日 で性能向上
– 分割頻度 未適用より3~5倍、従来手法(句読点予測)より2~3倍
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 22
今後の課題
• Greedy+DPアルゴリズムの改良
– 多数の素性を使用できるようにする
– 学習データの大規模化 (要:高速化・省メモリ化)
• 履歴を考慮した翻訳[Rangarajan-Sridhar+ 2013]の適用
– 翻訳精度が向上することが既知
• 文末推定・品詞推定のオンライン化
• 人手評価による検証
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 23
References
• [Matusov+ 2006]
Evgeny Matusov, Arne Mauser, and Hermann Ney. Automatic sentence segmentation and
punctuation prediction for spoken language translation. In Proc. IWSLT, pages 158-165, 2006.
• [Bangalore+ 2012]
Srinivas Bangalore, Vivek Kumar Rangarajan Sridhar, Prakash Kolan, Ladan Golipour, and Aura
Jimenez. Real-time incremental speech-to-speech translation of dialogs. In Proc. NAACL HLT, pages
437-445, 2012.
• [Rangarajan-Sridhar+ 2013]
Vivek Kumar Rangarajan Sridhar, John Chen, Srinivas Bangalore, Andrej Ljolje, and Rathinavelu
Chengalvarayan. Segmentation strategies for streaming speech translation. In Proc. NAACL HLT,
pages 230-238, 2013.
• [Fujita+ 2013]
Tomoki Fujita, Graham Neubig, Sakriani Sakti, Tomoki Toda, and Satoshi Nakamura. Simple,
lexicalized choice of translation timing for simultaneous speech translation. In InterSpeech, 2013.
• [WIT3: Cettolo+ 2012]
Mauro Cettolo, Christian Girardi, and Marcello Federico.2012. Wit3: Web inventory of transcribed
and translated talks. In Proc. EAMT, pages 261–268.
2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 24

More Related Content

What's hot

Image Restoration for 3D Computer Vision
Image Restoration for 3D Computer VisionImage Restoration for 3D Computer Vision
Image Restoration for 3D Computer VisionPetteriTeikariPhD
 
[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...
[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...
[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...Jihwan Bang
 
Continual Learning: why, how, and when
Continual Learning: why, how, and whenContinual Learning: why, how, and when
Continual Learning: why, how, and whenGabriele Graffieti
 
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-2: Language Models are Unsupervised Multitask LearnersGPT-2: Language Models are Unsupervised Multitask Learners
GPT-2: Language Models are Unsupervised Multitask LearnersYoung Seok Kim
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You NeedDaiki Tanaka
 
INTRODUCTION TO NLP, RNN, LSTM, GRU
INTRODUCTION TO NLP, RNN, LSTM, GRUINTRODUCTION TO NLP, RNN, LSTM, GRU
INTRODUCTION TO NLP, RNN, LSTM, GRUSri Geetha
 
Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)Yuta Niki
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM健程 杨
 
Database Searching Basics
Database Searching BasicsDatabase Searching Basics
Database Searching Basicszhang48
 
Natural language processing and transformer models
Natural language processing and transformer modelsNatural language processing and transformer models
Natural language processing and transformer modelsDing Li
 
Chain-of-thought Prompting.pptx
Chain-of-thought Prompting.pptxChain-of-thought Prompting.pptx
Chain-of-thought Prompting.pptxNeethaSherra1
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...VHIR Vall d’Hebron Institut de Recerca
 
RNN and its applications
RNN and its applicationsRNN and its applications
RNN and its applicationsSungjoon Choi
 
[Mmlab seminar 2016] deep learning for human pose estimation
[Mmlab seminar 2016] deep learning for human pose estimation[Mmlab seminar 2016] deep learning for human pose estimation
[Mmlab seminar 2016] deep learning for human pose estimationWei Yang
 
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio SynthesisDeep Learning JP
 

What's hot (20)

Image Restoration for 3D Computer Vision
Image Restoration for 3D Computer VisionImage Restoration for 3D Computer Vision
Image Restoration for 3D Computer Vision
 
[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...
[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...
[CVPR2022, LongVersion] Online Continual Learning on a Contaminated Data Stre...
 
5. bleu
5. bleu5. bleu
5. bleu
 
Continual Learning: why, how, and when
Continual Learning: why, how, and whenContinual Learning: why, how, and when
Continual Learning: why, how, and when
 
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-2: Language Models are Unsupervised Multitask LearnersGPT-2: Language Models are Unsupervised Multitask Learners
GPT-2: Language Models are Unsupervised Multitask Learners
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need
 
INTRODUCTION TO NLP, RNN, LSTM, GRU
INTRODUCTION TO NLP, RNN, LSTM, GRUINTRODUCTION TO NLP, RNN, LSTM, GRU
INTRODUCTION TO NLP, RNN, LSTM, GRU
 
Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)Transformer Introduction (Seminar Material)
Transformer Introduction (Seminar Material)
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM
 
Database Searching Basics
Database Searching BasicsDatabase Searching Basics
Database Searching Basics
 
Natural language processing and transformer models
Natural language processing and transformer modelsNatural language processing and transformer models
Natural language processing and transformer models
 
Demystifying OAuth2 for PHP
Demystifying OAuth2 for PHPDemystifying OAuth2 for PHP
Demystifying OAuth2 for PHP
 
Chain-of-thought Prompting.pptx
Chain-of-thought Prompting.pptxChain-of-thought Prompting.pptx
Chain-of-thought Prompting.pptx
 
1 Introduction.ppt
1 Introduction.ppt1 Introduction.ppt
1 Introduction.ppt
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
 
Graph Databases at Netflix
Graph Databases at NetflixGraph Databases at Netflix
Graph Databases at Netflix
 
RNN and its applications
RNN and its applicationsRNN and its applications
RNN and its applications
 
[Mmlab seminar 2016] deep learning for human pose estimation
[Mmlab seminar 2016] deep learning for human pose estimation[Mmlab seminar 2016] deep learning for human pose estimation
[Mmlab seminar 2016] deep learning for human pose estimation
 
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
[DL輪読会]GANSynth: Adversarial Neural Audio Synthesis
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 

Viewers also liked

Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...Yusuke Oda
 
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...Yusuke Oda
 
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)Yusuke Oda
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳Yusuke Oda
 
Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3Yusuke Oda
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Yusuke Oda
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
Algorithmique
AlgorithmiqueAlgorithmique
Algorithmiqueelharraj
 

Viewers also liked (11)

Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
Learning to Generate Pseudo-code from Source Code using Statistical Machine T...
 
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
 
Test
TestTest
Test
 
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)Tree-based Translation Models (『機械翻訳』§6.2-6.3)
Tree-based Translation Models (『機械翻訳』§6.2-6.3)
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
 
Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3Pattern Recognition and Machine Learning: Section 3.3
Pattern Recognition and Machine Learning: Section 3.3
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
Algorithmique
AlgorithmiqueAlgorithmique
Algorithmique
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 

Similar to 翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)

英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチKosuke Sugai
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳奈良先端大 情報科学研究科
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上奈良先端大 情報科学研究科
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 

Similar to 翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014) (7)

英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)

  • 1. 翻訳精度の最大化による 同時音声翻訳のための文分割法 小田 悠介 (@odashi_t) Graham Neubig 清水 宏晃 Sakriani Sakti 戸田 智基 中村 哲 情報科学研究科, NAIST 2014/3/18 (NLP2014) 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 1
  • 2. 1. 研究背景 2. 関連研究 3. 提案手法 4. 実験と結果 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 2
  • 3. 同時音声翻訳 ― 機械翻訳の応用 ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST2014/3/18 (NLP2014) 3 • 講義・スピーチの同時音声翻訳 (Simultaneous Speech Translation: SST) – 原発話を連続的に音声認識、翻訳(、音声合成) – 同時性(訳出時間の短さ)を重視 同時音声翻訳システム(English → Japanese) 今から18分間で 皆様を旅にご案内します 可能な限り 短時間で訳出 In the next 18 minutes I'm going to take you on a journey
  • 4. 従来の音声翻訳と文分割法 • 従来の音声翻訳 … 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 4 しかし… 同時性が大きく損失• 講義など 「文が長い」 「文末が曖昧」 EN JA in the next 18 minutes I 'm going to take you on a journey and it 's a journey that you and i have been on for many years now and ... 翻訳単位 = 文末推定 [Matusov+ 2006] in the next 18 minutes I 'm going to take you on a journey 文分割 より短い単位の翻訳が必要 文分割法の適用 今から18分間で あなたを連れていきます 旅に 翻訳 翻訳単位を細分化 高速な訳出を実現 (翻訳精度も低下:トレードオフ)
  • 5. 1. 研究背景 2. 関連研究 3. 提案手法 4. 実験と結果 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 5
  • 6. 関連研究 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 6 • [Rangarajan-Sridhar+ 2013] – 予測された句読点の挿入位置 (コンマ、ピリオド、その他) を使用 • 線型SVMで学習 (素性: word 1,2,3-gram / POS 1, 2, 3-gram) • 数種類の手法を比較検討 … 句読点による手法が最高性能 • [Fujita+ 2013] – 分割位置の右確率 (Right Probability: RP) を使用 • 右確率 … ある位置の前後で語順が同じになる確率 • [Bangalore+ 2012] – 音声認識の無音区間(=発話の休止)を用いて文を分割
  • 7. すべてヒューリスティクスに基づく手法 音韻的情報、言語的情報 … 関連研究の問題点 • 分割位置が翻訳精度に与える影響を考慮せず • 翻訳器に対して分割位置が最適化されていない 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 7
  • 8. 1. 研究背景 2. 関連研究 3. 提案手法 4. 実験と結果 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 8
  • 9. 提案手法への要件 • 提案手法が満たすべき要件 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 9 機械翻訳の評価尺度に基づいて 最適な分割位置を決定 1. 定式化 2. 文分割アルゴリズムの提案
  • 10. 文ごとの評価値の総和: 文分割 →個別に翻訳 →結合 定式化 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 10 学習データ中の 文分割位置集合 機械翻訳の 評価尺度 学習済み 翻訳器 対訳文 (学習データ) • 対訳文・翻訳器・評価尺度が与えられたとき、 文ごとの評価尺度の合計を最大化する文分割位置を探索
  • 11. 文分割 モデル モデル化 S* 分割位置の 選択 アルゴリズムの概要 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 11 3. 分割位置を素性でモデル化 2. 個の分割位置を学習データから選択 翻訳器 MT対訳 𝒇 𝑗, 𝒆𝑗 評価尺度 EV K 今回メインの話題 3種類の手法 1. 学習データ(対訳コーパス)全体で分割する数 を決定 (=分割頻度の制約)
  • 12. 例 I ate lunch but she left 手法 1: 貪欲法に基づく探索 • 次の分割位置を決めるとき、今までに選んだ分割位置を保持 (=貪欲法: greedy search) 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 12 最初の分割位置 ω = 0.7 ω = 0.5 ω = 0.8 ω = 0.6 ω = 0.6 2番目の分割位置 ω = 0.7 ω = 0.5 ω = 0.7 ω = 0.8 3番目の分割位置 ω = 0.5 ω = 0.8ω = 0.9 I ate lunch but she left I ate lunch but she left 選ばれた分割位置の素性をSVMで学習
  • 13. I ate lunch but she left 代名詞 動詞 名詞 接続詞 代名詞 動詞 I ate an apple and an orange 代名詞 動詞 限定詞 名詞 接続詞 限定詞 名詞 例 (素性:前後の品詞) 手法 2: 素性によるグループ化 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 13 • 翻訳器・評価尺度 … 複雑な関数 ノイズが多い – 学習データの性能が偶然良くなる分割位置で過学習 • 解決策 … 同じ素性を持つ分割位置をグループ化、同時に分割 グループ(代名詞+動詞) グループ(名詞+接続詞) グループ(限定詞+名詞) • 動的計画法(DP)で探索、 探索で素性が得られるので モデル化は不要
  • 14. 手法 3: 正則化の追加 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 14 • 素性によるグループ化を行っても、 滅多に現れない素性に対して過学習してしまう可能性 正則化項 • 素性の数に対する正則化項を導入 • 大きな α … 最終的に選択される素性の数が減少 – α = 0 のときはグループ化のみの場合と等価
  • 15. 1. 研究背景 2. 関連研究 3. 提案手法 4. 実験と結果 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 15
  • 16. 実験設定 • テストデータのドメイン … TED翻訳タスク [WIT3: Cettolo+ 2012] • 言語対 ... 英語→ドイツ語 ・ 英語→日本語 • トークン化・品詞推定 ... Stanford POS Tagger, KyTea • ... BLEU+1 • ... Moses(PBMT) • テストデータの評価 ... BLEU, RIBES 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 16 言語対 用途 形態素数(英) 形態素数(独/日) 英語→ドイツ語 PBMT 学習 21.8M 20.3M 文分割 学習 424k 390k テスト 27.6k 25.4k 英語→日本語 PBMT 学習 13.7M 19.7M 文分割 学習 401k 550k テスト 8.20k 11.9k
  • 17. 比較対象 手法名 概要 従来手法 Punct-Predict 句読点位置の予測 [Rangarajan+ 2013] RP 右確率 [Fujita+ 2013] 提案手法 Greedy 手法1: 貪欲法(+SVMによるモデル化) Greedy+DP 手法2: 貪欲法+素性によるグループ化 Greedy+DP (α = 0.5) 手法3: 貪欲法+素性によるグループ化+正則化 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 17
  • 18. 実験結果 - BLEU 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 18 翻訳単位の平均単語数 BLEU Greedyは性能が低い (過学習?) Greedy+DPは RPよりも高性能 (英→独:1程度向上) 翻訳性能を維持して 未分割より3~5倍、 句読点予測より2~3倍 の分割頻度を実現
  • 19. 実験結果 - RIBES 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 19 翻訳単位の平均単語数 RIBES 英→独、英→日 両方でRPより高性能 (英→独:1程度向上) (英→日:3程度向上)
  • 20. 実験結果 - 学習データのBLEU 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 20 翻訳単位の平均単語数 BLEU Greedyは 学習データに対し 非常に高い性能 しかし テスト結果は悪い 過学習 Greedy+DP グループ化制約 過学習を抑制
  • 21. 学習結果 (Greedy+GP) (高頻度順) 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 21 1 NN / CC 7 NN / RB 2 NN / VBZ 8 NNS / VBP 3 CC / PRP 9 NN / VBD 4 NN / PRP 10 CC / IN 5 CC / DT 11 CC / NN 6 CC / RB 12 CC / LS
  • 22. まとめ • 同時音声翻訳の実現には文分割法が必要 • 従来手法 = ヒューリスティクス • 提案手法 = 翻訳精度を直接最適化 – 貪欲法 – 動的計画法 – 素性の数による正則化 • 実験結果 – BLEU 英→独 で性能向上 – RIBES 英→独、英→日 で性能向上 – 分割頻度 未適用より3~5倍、従来手法(句読点予測)より2~3倍 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 22
  • 23. 今後の課題 • Greedy+DPアルゴリズムの改良 – 多数の素性を使用できるようにする – 学習データの大規模化 (要:高速化・省メモリ化) • 履歴を考慮した翻訳[Rangarajan-Sridhar+ 2013]の適用 – 翻訳精度が向上することが既知 • 文末推定・品詞推定のオンライン化 • 人手評価による検証 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 23
  • 24. References • [Matusov+ 2006] Evgeny Matusov, Arne Mauser, and Hermann Ney. Automatic sentence segmentation and punctuation prediction for spoken language translation. In Proc. IWSLT, pages 158-165, 2006. • [Bangalore+ 2012] Srinivas Bangalore, Vivek Kumar Rangarajan Sridhar, Prakash Kolan, Ladan Golipour, and Aura Jimenez. Real-time incremental speech-to-speech translation of dialogs. In Proc. NAACL HLT, pages 437-445, 2012. • [Rangarajan-Sridhar+ 2013] Vivek Kumar Rangarajan Sridhar, John Chen, Srinivas Bangalore, Andrej Ljolje, and Rathinavelu Chengalvarayan. Segmentation strategies for streaming speech translation. In Proc. NAACL HLT, pages 230-238, 2013. • [Fujita+ 2013] Tomoki Fujita, Graham Neubig, Sakriani Sakti, Tomoki Toda, and Satoshi Nakamura. Simple, lexicalized choice of translation timing for simultaneous speech translation. In InterSpeech, 2013. • [WIT3: Cettolo+ 2012] Mauro Cettolo, Christian Girardi, and Marcello Federico.2012. Wit3: Web inventory of transcribed and translated talks. In Proc. EAMT, pages 261–268. 2014/3/18 (NLP2014) ©2014 by Yusuke Oda, AHC-Lab, IS, NAIST 24