SlideShare a Scribd company logo
1 of 23
深層ガウス過程音声合成における
sequence-to-sequence学習の
初期検討
日本音響学会 2020年秋季研究発表会 1-2-25
☆ 中村泰貴,郡山知樹,猿渡洋(東大院・情報理工)
1
/17
概要
2
‣ Sequence-to-Sequence 学習を用いた音声合成
‣ 言語モデルと音響モデルの統合により特に韻律の品質が改善
‣ 深層ガウス過程 (DGP)を用いた音声合成
‣ DNN に比べ自然性の高い音声を生成可能
‣ Sequence-to-Sequence 学習の適用は未だ未提案
‣ Sequence-to-Sequence 学習を用いた DGP 音声合成
‣ 入出力系列間の対応のためLength Regulator を採用
‣ Sequence-to-Sequence 学習による DNN 音声合成より品質が向上
/17
背景:DGP 音声合成
3
‣ 深層ガウス過程を用いた音声合成[1]
‣ 複数のガウス過程回帰 (Gaussian Process Regression: GPR) で
構成される 深層ガウス過程 (Deep Gaussian Process: DGP)を使用
‣ フレーム単位で言語特徴量から
音素継続長と音響特徴量への対応関係をモデル化
‣ Feedforward DNNより合成音声の品質が向上
‣ SRU-DGP による音声合成[2]
‣ DGP 音声合成において
リカレント機構 (Simple Recurrent Unit: SRU)の導入による
系列モデリングを提案
‣ Feedforward DGP,LSTM-RNN より合成音声の品質が向上
[1] Koriyama et al., IEEE/ACM Trans. Audio, Speech, Language Process., 27(5), pp. 948–959, 2019.
[2] Koriyama et al., Proc. ICASSP, pp. 7244–7248, 2020.
/17
DNNとDGPの比較
4
Input Sequence
𝒉1
𝑞(𝒉1
)
変分下限
𝒚
GPR
GPR
サンプリング
サンプリング
𝒉2
𝑞(𝒉2
)
𝑞(𝒇)
Input Sequence
1層目の出力: 𝒈 𝟏
𝒈 𝟐
𝒈 𝟑
損失関数
𝒚
線形変換行列: 𝑊1
𝑊2
𝑊3
𝑊4
‣ 各層の関数を線形変換行列と
活性化関数で明示的に表現
‣ 各層の関数がガウス過程に従うと
仮定しガウス過程回帰により予測
‣ 周辺尤度の変分下限を最大化
/17
背景:Seq-to-Seq 音声合成
5
‣ パイプライン型音声合成
‣ テキスト → 言語特徴量 → 音響特徴量 → 波形
‣ Seq-to-Seq DNN 音声合成
‣ 音素単位系列 → 音響特徴量 → 波形
‣ 異なる系列長間の変換を行うため入出力の対応関係を取る必要あり
‣ 代表的なものとしてTacotron2[3],FastSpeech[4] がある
‣ 本研究の目的
‣ Seq-to-Seq 音声合成におけるDNNをDGPに置き換えることにより
さらに高品質な音声を合成できる可能性
→ Seq-to-Seq 学習を用いた DGP 音声合成 を提案 & 有効性を検証
[3] Shen et al., Proc. ICASSP, pp.4779—4783, 2018. [4] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019.
/17
Seq-to-Seqモデルへの拡張
6
‣ Seq-to-Seq 学習における入出力系列間の対応
‣ Attention機構を用いる方法
‣ FastSpeechの Length Regulator を用いる方法
‣ DGP 音声合成は学習・推論速度が遅い
→ Length Regulatorを採用
[5] Okamoto et al., Proc. ASRU, pp. 214–221, 2019.
Attention機構 Length Regulator
学習・推論速度 遅い 速い
安定性 ごくたまに不安定[5] 安定
アラインメント 不要 必要
/17
Length Regulator
7
LR
音素継続長予測器
各音素に対する音素継続長を予測
音素単位の中間特徴量
フレーム単位の中間特徴量
中間特徴量を複製
/17
音素継続長予測器の学習
8
‣ 音素継続長予測器の教師データ
‣ 教師モデルのTransformerから得られる音素列を使用[3]
‣ 混合密度ネットワークを用いて得られる音素列を使用[5]
‣ 隠れマルコフモデルから自動アラインメントされたものを使用
[3] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019. [5] Zeng et al., Proc. ICASSP, pp.6729--6733, 2020.
/17
提案法アーキテクチャ
9
GPR + SRU
Length Regulator
GPR + SRU
𝐄𝐋𝐁𝐎 𝐚𝐜𝐨
N x
Input Sequence
Acoustic Feature Sequence
LR
𝓓 = [𝟐, 𝟑, 𝟏]
𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
Duration Sequence
ℋ𝒑𝒉𝒐
ℋ𝒂𝒄𝒐
Duration Predictor
N x
/17
提案法アーキテクチャ
10
GPR + SRU
Length Regulator
GPR + SRU
𝐄𝐋𝐁𝐎 𝐚𝐜𝐨
4 x
Input Sequence
Acoustic Feature Sequence
LR
𝓓 = [𝟐, 𝟑, 𝟏]
𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
Duration Sequence
ℋ𝒑𝒉𝒐
ℋ𝒂𝒄𝒐
‣ 損失関数 = 𝐄𝐋𝐁𝐎 𝐚𝐜𝐨 + 𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
音素継続長予測器
/17
実験
11
‣ パイプライン型であるSRU-DGPとの比較
‣ 深層ガウス過程をSeq-to-Seqに拡張したことにより
合成音の自然性は向上するか
‣ Seq-to-Seq DNNとの比較
‣ Seq-to-SeqモデルにおいてもDNNによる合成音より
DGPによる合成音の自然性が向上する傾向が見られるか
/17
各アーキテクチャの比較
12
GPR
フルコンテキストラベル
音素継続長
4 x
GPR + SRU
Length Regulator
GPR + SRU
音響特徴量
フルコンテキストラベル
GPR + SRU
フルコンテキストラベル
音響特徴量
Linear + ReLU + SRU
Linear + ReLU + SRU
フルコンテキストラベル
SRU-DGP Seq-to-Seq DGPSeq-to-Seq DNN
Length Regulator
GPR + SRULinear + ReLU + SRU
GPR + SRULinear + ReLU + SRU
GPR + SRULinear + ReLU + SRU
音響特徴量
/17
実験条件
13
項目 設定値
データセット JSUTコーパス[Sonobe+, 2017]
学習データ 女性1話者 x (学習用4500文, 検証用250文)
テストデータ 女性1話者 x 250文
入力特徴量 フルコンテキストラベル(531次元)
出力特徴量 mgc, 対数𝑓o , V/UV, bapからなる199次元の音響特徴量
モデル構造 入力層 – (SRU+GPR) – LR – (SRU+GPR)×4 – 出力層
カーネル関数 1層のArcCos kernel [Y. Cho+, 2009]
最適化手法 学習率0.01のAdam [DP. Kingma+, 2014]
音素継続長予測器の
学習方法
隠れマルコフモデルを用いて
自動アラインメントされたものを教師データとして使用
比較手法 (1)SRU-DGP: 4層のGPR
(2)Seq-to-Seq DNN: 提案法と同層数・同構造
/17
主観評価結果
14
SRU-DGP Seq2Seq-DNN Seq2Seq-DGP
SRU-DGP Seq-to-Seq
DNN
Seq-to-Seq
DGP
99.6 % 0.4 %
28.6 % 71.4 %
音質に関するプリファレンススコア
各手法における合成音声
/17
主観評価結果
15
SRU-DGP Seq2Seq-DNN Seq2Seq-DGP
SRU-DGP Seq-to-Seq
DNN
Seq-to-Seq
DGP
99.6 % 0.4 %
28.6 % 71.4 %
音質に関するプリファレンススコア
各手法における合成音声
‣ SRU-DGP による合成音声と比べ自然性は向上しなかった
/17
主観評価結果
16
SRU-DGP Seq2Seq-DNN Seq2Seq-DGP
SRU-DGP Seq-to-Seq
DNN
Seq-to-Seq
DGP
99.6 % 0.4 %
28.6 % 71.4 %
音質に関するプリファレンススコア
各手法における合成音声
→ Seq-to-Seq DNN による合成音声と比べ自然性が向上した
/17
総括
17
‣ Sequence-to-Sequence 学習を用いた DGP 音声合成
‣ Attention 機構ではなく Length Regulator を採用
‣ パイプライン型と比較し合成音声の品質が劣化
‣ Sequence-to-Sequence 学習による DNN 音声合成より品質が向上
‣ 今後の課題
‣ Tacotron2, FastSpeech による合成音声との比較
‣ パイプライン型の合成音声に対しSeq-to-Seq DGP合成音声の
劣化した原因の調査
/17
ガウス過程回帰
18
‣ ガウス過程回帰の概要
‣ 入力特徴量と出力特徴量間の関係をモデリング
‣ 多変量ガウス分布に従う𝒇 = 𝑓1, … , 𝑓𝑁 を用いると
→
/17
深層ガウス過程
19
‣ 深層ガウス過程の概要
‣ 1層のガウス過程回帰モデルを𝐿層に拡張する
‣ 関数𝑓: ℝ 𝐷 𝑜 → ℝ 𝐷 𝐿が複数の合成関数で表される
‣ 層𝑙の次元𝑑を出力する関数𝑓 𝑙,𝑑: ℝ 𝐷 𝑙 → ℝがそれぞれ
ガウス過程に従うとすると,中間層の系列は
/17
深層ガウス過程に基づくモデルの学習
20
‣ 深層ガウス過程の学習基準
‣ 確率的変分推論を各層のガウス過程回帰に使用
‣ 1層の場合と同様にして,下式を最大化
ℒ =
1
𝑆
𝑠=1
𝑆
𝑖=1
𝑁
𝑑=1
𝐷 𝐿
𝐸 𝑞 ℎ 𝑖,𝑠
𝐿,𝑑 𝑙𝑜𝑔𝑝 𝑦𝑖
𝑑
ℎ𝑖,𝑠
𝐿,𝑑
−
𝑙=1
𝐿
𝑑=1
𝐷 𝐿
𝐾𝐿(𝑞(𝒖𝑙,𝑑)||𝑝(𝒖𝑙,𝑑))
学習データへの
当てはまり
モデルの複雑さ
/17
可視化
21
/17
Seq-to-Seqモデルへの拡張
22
‣ 音素継続長を予測する機構
‣ FastSpeech[4] の Length Regulator
‣ Length Regulator によるアラインメント
‣ 音響モデル内の音素継続長予測モデルを教師モデルからの
音素継続長を用いて学習
‣ 言語特徴量を複製することで出力系列長との長さを調整
‣ 音素スキップなどの失敗が起こりにくく,学習が安定
[4] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019.
/17
Seq-to-Seqモデル
23
こんにちは
テキスト解析
継続長モデル
音響モデル
ボコーダ
こんにちは
統合

More Related Content

Featured

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 

Featured (20)

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 

深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討

Editor's Notes

  1. ご紹介ありがとうございます. "題名"と題しまして,東京大学の中村が発表させていただきます.
  2. スライドの通り
  3. DGP音声合成についての背景です.深層ガウス過程を用いた音声合成が郡山らにより提案されています. 同じく,郡山らによりSRU-DGPによる音声合成が提案されています.これはDGP音声合成においてリカレント機構を導入することにより系列モデリングを可能としたものです.
  4. DNNとDGPの比較です.DNNでは各層の出力は線形変換を行う重み行列と活性化関数により得られます.最終的に特徴量yとの損失関数が計算される流れです. 一方,DGPでは,各層の関数がガウス過程に従うと過程し,ガウス過程回帰により予測します.各層でGPRによる予測分布の推定と予測分布からのサンプリングを繰り返して順でんぱし,周辺尤度の変分下限を最大化するよう学習を行います.
  5. 次に,Seq-to-Seq音声合成の背景です. パイプライン型音声合成では,テキスト,言語特徴量,音響特徴量,波形と逐次的に処理を行っています. 一方,Seq-to-Seq DNN 音声合成では言語特徴量抽出を音響モデル内に内包しており,音素単位系列から音響特徴量,波形と処理を行います.
  6. Seq-to-Seq学習では,入力系列と出力系列の長さが合っていないため対応をとる必要があります.これには,Attention ~ を用いる方法,~を用いる方法があります. Attentionは自己回帰を有するため計算量が多く速度が遅いことや,まれに学習に失敗するなどの欠点が存在します. そこで本研究では,DGP音声合成の学習・推論速度が遅いことから,相性の良いLength Regulatorを採用いたします.
  7. Length Regulatorでは,まず,音素単位の中間特徴量から各音素に対する音素継続長を予測します.さらに,予測された音素継続長に基づき,中間特徴量を複製し,フレーム単位の中間特徴量を生成します. この音素継続長予測器の学習にはいくつかの方法がありまして,
  8. こちらが提案するSeq-to-Seq DGP音声合成のアーキテクチャになります. こちらの右の図は,左のLength Regulatorを拡大したものであり, 入力された特徴量は,GPR + SRU層からなる層を経て,Length Regulatorに入力されます.入力された中間特徴量はガウス過程一層からなる音素継続長予測器へ入力され対応する音素継続長列が出力されます.出力された音素継続長列を用いて中間特徴量列を複製し,フレーム単位の音響特徴量列へ変換されます.最後に,GPR + SRU層からなる層を経て,音響特徴量列へ変換されます.
  9. 損失関数は,音響特徴量に関する変分下限,音素継続長に関する変分下限の和で表します.
  10. 提案法の有効性を確かめるために2つの比較を確かめました. まず,パイプライン型であるSRU-DGPとの比較です.深層がうす過程をSeq-to-Seqに拡張したことにより合成音の自然性は向上するかを検証いたします. さらに,Seq-to-Seq DNNとの比較を行い,~を検証いたします.
  11. 各アーキテクチャの比較です. パイプライン型であるSRU-DGPは,音素継続長予測器と音響モデルを別々に学習します. Seq-to-Seq DGPでは,Length Regulatorの前段にGPR1層,後段に4層のGPRを使用しました. Seq-to-Seq DNNでは,Seq-to-Seq DGPのGPRを線形層および活性化関数へ置き換えたものを使用します.
  12. 実験条件はこちらです. データセットはJSUTコーパスを使用し,入力特徴量はフルコンテキストラベルを用いました.出力特徴量はメルケプストラむ,などからなる199次元の音響特徴量とし,音素継続長予測器の学習方法は隠れマルコフモデルを用いて自動Alignmentをされたものを教師データとして使用します. 比較手法は,パイプライン型である,SRU-DGPとの比較,さらにSeq-to-Seq DNNとの比較を行います.
  13. こちらが合成音声の自然性に関する主観評価結果を行った結果になります.
  14. パイプライン型であるSRU-DGPとseq2seq DGPの比較では,パイプライン型のスコアが99.6%,Seq-to-Seq DGPのスコアが0.4 %となっており,パイプライン型であるSRU-DGPによる合成音声と比べ自然性は向上しませんでした.
  15. 対して,Seq2Seq DNNとseq2seq DGPの比較では,Seq-to-Seq DNNが28.6 %,Seq-to-Seq DGPのスコアが 71.4%となっており,Seq-to-Seq DNNによる合成音声と比べ自然性が向上しました. 次に音声を流します.まず,パイプライン型のSRU-DGPの音声を聴いていただきます.
  16. まとめです.