深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
- 2. /17
概要
2
‣ Sequence-to-Sequence 学習を用いた音声合成
‣ 言語モデルと音響モデルの統合により特に韻律の品質が改善
‣ 深層ガウス過程 (DGP)を用いた音声合成
‣ DNN に比べ自然性の高い音声を生成可能
‣ Sequence-to-Sequence 学習の適用は未だ未提案
‣ Sequence-to-Sequence 学習を用いた DGP 音声合成
‣ 入出力系列間の対応のためLength Regulator を採用
‣ Sequence-to-Sequence 学習による DNN 音声合成より品質が向上
- 3. /17
背景:DGP 音声合成
3
‣ 深層ガウス過程を用いた音声合成[1]
‣ 複数のガウス過程回帰 (Gaussian Process Regression: GPR) で
構成される 深層ガウス過程 (Deep Gaussian Process: DGP)を使用
‣ フレーム単位で言語特徴量から
音素継続長と音響特徴量への対応関係をモデル化
‣ Feedforward DNNより合成音声の品質が向上
‣ SRU-DGP による音声合成[2]
‣ DGP 音声合成において
リカレント機構 (Simple Recurrent Unit: SRU)の導入による
系列モデリングを提案
‣ Feedforward DGP,LSTM-RNN より合成音声の品質が向上
[1] Koriyama et al., IEEE/ACM Trans. Audio, Speech, Language Process., 27(5), pp. 948–959, 2019.
[2] Koriyama et al., Proc. ICASSP, pp. 7244–7248, 2020.
- 5. /17
背景:Seq-to-Seq 音声合成
5
‣ パイプライン型音声合成
‣ テキスト → 言語特徴量 → 音響特徴量 → 波形
‣ Seq-to-Seq DNN 音声合成
‣ 音素単位系列 → 音響特徴量 → 波形
‣ 異なる系列長間の変換を行うため入出力の対応関係を取る必要あり
‣ 代表的なものとしてTacotron2[3],FastSpeech[4] がある
‣ 本研究の目的
‣ Seq-to-Seq 音声合成におけるDNNをDGPに置き換えることにより
さらに高品質な音声を合成できる可能性
→ Seq-to-Seq 学習を用いた DGP 音声合成 を提案 & 有効性を検証
[3] Shen et al., Proc. ICASSP, pp.4779—4783, 2018. [4] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019.
- 6. /17
Seq-to-Seqモデルへの拡張
6
‣ Seq-to-Seq 学習における入出力系列間の対応
‣ Attention機構を用いる方法
‣ FastSpeechの Length Regulator を用いる方法
‣ DGP 音声合成は学習・推論速度が遅い
→ Length Regulatorを採用
[5] Okamoto et al., Proc. ASRU, pp. 214–221, 2019.
Attention機構 Length Regulator
学習・推論速度 遅い 速い
安定性 ごくたまに不安定[5] 安定
アラインメント 不要 必要
- 9. /17
提案法アーキテクチャ
9
GPR + SRU
Length Regulator
GPR + SRU
𝐄𝐋𝐁𝐎 𝐚𝐜𝐨
N x
Input Sequence
Acoustic Feature Sequence
LR
𝓓 = [𝟐, 𝟑, 𝟏]
𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
Duration Sequence
ℋ𝒑𝒉𝒐
ℋ𝒂𝒄𝒐
Duration Predictor
N x
- 10. /17
提案法アーキテクチャ
10
GPR + SRU
Length Regulator
GPR + SRU
𝐄𝐋𝐁𝐎 𝐚𝐜𝐨
4 x
Input Sequence
Acoustic Feature Sequence
LR
𝓓 = [𝟐, 𝟑, 𝟏]
𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
Duration Sequence
ℋ𝒑𝒉𝒐
ℋ𝒂𝒄𝒐
‣ 損失関数 = 𝐄𝐋𝐁𝐎 𝐚𝐜𝐨 + 𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
音素継続長予測器
- 12. /17
各アーキテクチャの比較
12
GPR
フルコンテキストラベル
音素継続長
4 x
GPR + SRU
Length Regulator
GPR + SRU
音響特徴量
フルコンテキストラベル
GPR + SRU
フルコンテキストラベル
音響特徴量
Linear + ReLU + SRU
Linear + ReLU + SRU
フルコンテキストラベル
SRU-DGP Seq-to-Seq DGPSeq-to-Seq DNN
Length Regulator
GPR + SRULinear + ReLU + SRU
GPR + SRULinear + ReLU + SRU
GPR + SRULinear + ReLU + SRU
音響特徴量
- 13. /17
実験条件
13
項目 設定値
データセット JSUTコーパス[Sonobe+, 2017]
学習データ 女性1話者 x (学習用4500文, 検証用250文)
テストデータ 女性1話者 x 250文
入力特徴量 フルコンテキストラベル(531次元)
出力特徴量 mgc, 対数𝑓o , V/UV, bapからなる199次元の音響特徴量
モデル構造 入力層 – (SRU+GPR) – LR – (SRU+GPR)×4 – 出力層
カーネル関数 1層のArcCos kernel [Y. Cho+, 2009]
最適化手法 学習率0.01のAdam [DP. Kingma+, 2014]
音素継続長予測器の
学習方法
隠れマルコフモデルを用いて
自動アラインメントされたものを教師データとして使用
比較手法 (1)SRU-DGP: 4層のGPR
(2)Seq-to-Seq DNN: 提案法と同層数・同構造
- 17. /17
総括
17
‣ Sequence-to-Sequence 学習を用いた DGP 音声合成
‣ Attention 機構ではなく Length Regulator を採用
‣ パイプライン型と比較し合成音声の品質が劣化
‣ Sequence-to-Sequence 学習による DNN 音声合成より品質が向上
‣ 今後の課題
‣ Tacotron2, FastSpeech による合成音声との比較
‣ パイプライン型の合成音声に対しSeq-to-Seq DGP合成音声の
劣化した原因の調査
Editor's Notes
- ご紹介ありがとうございます.
"題名"と題しまして,東京大学の中村が発表させていただきます.
- スライドの通り
- DGP音声合成についての背景です.深層ガウス過程を用いた音声合成が郡山らにより提案されています.
同じく,郡山らによりSRU-DGPによる音声合成が提案されています.これはDGP音声合成においてリカレント機構を導入することにより系列モデリングを可能としたものです.
- DNNとDGPの比較です.DNNでは各層の出力は線形変換を行う重み行列と活性化関数により得られます.最終的に特徴量yとの損失関数が計算される流れです.
一方,DGPでは,各層の関数がガウス過程に従うと過程し,ガウス過程回帰により予測します.各層でGPRによる予測分布の推定と予測分布からのサンプリングを繰り返して順でんぱし,周辺尤度の変分下限を最大化するよう学習を行います.
- 次に,Seq-to-Seq音声合成の背景です.
パイプライン型音声合成では,テキスト,言語特徴量,音響特徴量,波形と逐次的に処理を行っています.
一方,Seq-to-Seq DNN 音声合成では言語特徴量抽出を音響モデル内に内包しており,音素単位系列から音響特徴量,波形と処理を行います.
- Seq-to-Seq学習では,入力系列と出力系列の長さが合っていないため対応をとる必要があります.これには,Attention ~ を用いる方法,~を用いる方法があります.
Attentionは自己回帰を有するため計算量が多く速度が遅いことや,まれに学習に失敗するなどの欠点が存在します.
そこで本研究では,DGP音声合成の学習・推論速度が遅いことから,相性の良いLength Regulatorを採用いたします.
- Length Regulatorでは,まず,音素単位の中間特徴量から各音素に対する音素継続長を予測します.さらに,予測された音素継続長に基づき,中間特徴量を複製し,フレーム単位の中間特徴量を生成します.
この音素継続長予測器の学習にはいくつかの方法がありまして,
- こちらが提案するSeq-to-Seq DGP音声合成のアーキテクチャになります.
こちらの右の図は,左のLength Regulatorを拡大したものであり,
入力された特徴量は,GPR + SRU層からなる層を経て,Length Regulatorに入力されます.入力された中間特徴量はガウス過程一層からなる音素継続長予測器へ入力され対応する音素継続長列が出力されます.出力された音素継続長列を用いて中間特徴量列を複製し,フレーム単位の音響特徴量列へ変換されます.最後に,GPR + SRU層からなる層を経て,音響特徴量列へ変換されます.
- 損失関数は,音響特徴量に関する変分下限,音素継続長に関する変分下限の和で表します.
- 提案法の有効性を確かめるために2つの比較を確かめました.
まず,パイプライン型であるSRU-DGPとの比較です.深層がうす過程をSeq-to-Seqに拡張したことにより合成音の自然性は向上するかを検証いたします.
さらに,Seq-to-Seq DNNとの比較を行い,~を検証いたします.
- 各アーキテクチャの比較です.
パイプライン型であるSRU-DGPは,音素継続長予測器と音響モデルを別々に学習します.
Seq-to-Seq DGPでは,Length Regulatorの前段にGPR1層,後段に4層のGPRを使用しました.
Seq-to-Seq DNNでは,Seq-to-Seq DGPのGPRを線形層および活性化関数へ置き換えたものを使用します.
- 実験条件はこちらです.
データセットはJSUTコーパスを使用し,入力特徴量はフルコンテキストラベルを用いました.出力特徴量はメルケプストラむ,などからなる199次元の音響特徴量とし,音素継続長予測器の学習方法は隠れマルコフモデルを用いて自動Alignmentをされたものを教師データとして使用します.
比較手法は,パイプライン型である,SRU-DGPとの比較,さらにSeq-to-Seq DNNとの比較を行います.
- こちらが合成音声の自然性に関する主観評価結果を行った結果になります.
- パイプライン型であるSRU-DGPとseq2seq DGPの比較では,パイプライン型のスコアが99.6%,Seq-to-Seq DGPのスコアが0.4 %となっており,パイプライン型であるSRU-DGPによる合成音声と比べ自然性は向上しませんでした.
- 対して,Seq2Seq DNNとseq2seq DGPの比較では,Seq-to-Seq DNNが28.6 %,Seq-to-Seq DGPのスコアが 71.4%となっており,Seq-to-Seq DNNによる合成音声と比べ自然性が向上しました.
次に音声を流します.まず,パイプライン型のSRU-DGPの音声を聴いていただきます.
- まとめです.