深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討

深層ガウス過程音声合成における
sequence-to-sequence学習の
初期検討
日本音響学会 2020年秋季研究発表会 1-2-25
☆ 中村泰貴，郡山知樹，猿渡洋（東大院・情報理工）
1

/17
概要
2
‣ Sequence-to-Sequence 学習を用いた音声合成
‣ 言語モデルと音響モデルの統合により特に韻律の品質が改善
‣ 深層ガウス過程 (DGP)を用いた音声合成
‣ DNN に比べ自然性の高い音声を生成可能
‣ Sequence-to-Sequence 学習の適用は未だ未提案
‣ Sequence-to-Sequence 学習を用いた DGP 音声合成
‣ 入出力系列間の対応のためLength Regulator を採用
‣ Sequence-to-Sequence 学習による DNN 音声合成より品質が向上

/17
背景：DGP 音声合成
3
‣ 深層ガウス過程を用いた音声合成[1]
‣ 複数のガウス過程回帰 (Gaussian Process Regression: GPR) で
構成される深層ガウス過程 (Deep Gaussian Process: DGP)を使用
‣ フレーム単位で言語特徴量から
音素継続長と音響特徴量への対応関係をモデル化
‣ Feedforward DNNより合成音声の品質が向上
‣ SRU-DGP による音声合成[2]
‣ DGP 音声合成において
リカレント機構 (Simple Recurrent Unit: SRU)の導入による
系列モデリングを提案
‣ Feedforward DGP，LSTM-RNN より合成音声の品質が向上
[1] Koriyama et al., IEEE/ACM Trans. Audio, Speech, Language Process., 27(5), pp. 948–959, 2019.
[2] Koriyama et al., Proc. ICASSP, pp. 7244–7248, 2020.

/17
DNNとDGPの比較
4
Input Sequence
𝒉1
𝑞(𝒉1
)
変分下限
𝒚
GPR
GPR
サンプリング
サンプリング
𝒉2
𝑞(𝒉2
)
𝑞(𝒇)
Input Sequence
1層目の出力: 𝒈 𝟏
𝒈 𝟐
𝒈 𝟑
損失関数
𝒚
線形変換行列: 𝑊1
𝑊2
𝑊3
𝑊4
‣ 各層の関数を線形変換行列と
活性化関数で明示的に表現
‣ 各層の関数がガウス過程に従うと
仮定しガウス過程回帰により予測
‣ 周辺尤度の変分下限を最大化

/17
背景：Seq-to-Seq 音声合成
5
‣ パイプライン型音声合成
‣ テキスト → 言語特徴量 → 音響特徴量 → 波形
‣ Seq-to-Seq DNN 音声合成
‣ 音素単位系列 → 音響特徴量 → 波形
‣ 異なる系列長間の変換を行うため入出力の対応関係を取る必要あり
‣ 代表的なものとしてTacotron2[3]，FastSpeech[4] がある
‣ 本研究の目的
‣ Seq-to-Seq 音声合成におけるDNNをDGPに置き換えることにより
さらに高品質な音声を合成できる可能性
→ Seq-to-Seq 学習を用いた DGP 音声合成を提案 & 有効性を検証
[3] Shen et al., Proc. ICASSP, pp.4779—4783, 2018. [4] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019.

/17
Seq-to-Seqモデルへの拡張
6
‣ Seq-to-Seq 学習における入出力系列間の対応
‣ Attention機構を用いる方法
‣ FastSpeechの Length Regulator を用いる方法
‣ DGP 音声合成は学習・推論速度が遅い
→ Length Regulatorを採用
[5] Okamoto et al., Proc. ASRU, pp. 214–221, 2019.
Attention機構 Length Regulator
学習・推論速度遅い速い
安定性ごくたまに不安定[5] 安定
アラインメント不要必要

/17
Length Regulator
7
LR
音素継続長予測器
各音素に対する音素継続長を予測
音素単位の中間特徴量
フレーム単位の中間特徴量
中間特徴量を複製

/17
音素継続長予測器の学習
8
‣ 音素継続長予測器の教師データ
‣ 教師モデルのTransformerから得られる音素列を使用[3]
‣ 混合密度ネットワークを用いて得られる音素列を使用[5]
‣ 隠れマルコフモデルから自動アラインメントされたものを使用
[3] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019. [5] Zeng et al., Proc. ICASSP, pp.6729--6733, 2020.

/17
提案法アーキテクチャ
9
GPR + SRU
Length Regulator
GPR + SRU
𝐄𝐋𝐁𝐎 𝐚𝐜𝐨
N x
Input Sequence
Acoustic Feature Sequence
LR
𝓓 = [𝟐, 𝟑, 𝟏]
𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
Duration Sequence
ℋ𝒑𝒉𝒐
ℋ𝒂𝒄𝒐
Duration Predictor
N x

/17
提案法アーキテクチャ
10
GPR + SRU
Length Regulator
GPR + SRU
𝐄𝐋𝐁𝐎 𝐚𝐜𝐨
4 x
Input Sequence
Acoustic Feature Sequence
LR
𝓓 = [𝟐, 𝟑, 𝟏]
𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
Duration Sequence
ℋ𝒑𝒉𝒐
ℋ𝒂𝒄𝒐
‣ 損失関数 = 𝐄𝐋𝐁𝐎 𝐚𝐜𝐨 + 𝐄𝐋𝐁𝐎 𝐝𝐮𝐫
音素継続長予測器

/17
実験
11
‣ パイプライン型であるSRU-DGPとの比較
‣ 深層ガウス過程をSeq-to-Seqに拡張したことにより
合成音の自然性は向上するか
‣ Seq-to-Seq DNNとの比較
‣ Seq-to-SeqモデルにおいてもDNNによる合成音より
DGPによる合成音の自然性が向上する傾向が見られるか

/17
各アーキテクチャの比較
12
GPR
フルコンテキストラベル
音素継続長
4 x
GPR + SRU
Length Regulator
GPR + SRU
音響特徴量
GPR + SRU
音響特徴量
Linear + ReLU + SRU
Linear + ReLU + SRU
SRU-DGP Seq-to-Seq DGPSeq-to-Seq DNN
Length Regulator
GPR + SRULinear + ReLU + SRU
音響特徴量

/17
実験条件
13
項目設定値
データセット JSUTコーパス[Sonobe+, 2017]
学習データ女性1話者 x (学習用4500文, 検証用250文)
テストデータ女性1話者 x 250文
入力特徴量フルコンテキストラベル(531次元)
出力特徴量 mgc, 対数𝑓o , V/UV, bapからなる199次元の音響特徴量
モデル構造入力層 – (SRU+GPR) – LR – (SRU+GPR)×4 – 出力層
カーネル関数 1層のArcCos kernel [Y. Cho+, 2009]
最適化手法学習率0.01のAdam [DP. Kingma+, 2014]
音素継続長予測器の
学習方法
隠れマルコフモデルを用いて
自動アラインメントされたものを教師データとして使用
比較手法 (1)SRU-DGP: 4層のGPR
(2)Seq-to-Seq DNN: 提案法と同層数・同構造

/17
主観評価結果
14
SRU-DGP Seq2Seq-DNN Seq2Seq-DGP
SRU-DGP Seq-to-Seq
DNN
Seq-to-Seq
DGP
99.6 % 0.4 %
28.6 % 71.4 %
音質に関するプリファレンススコア
各手法における合成音声

/17
主観評価結果
15
SRU-DGP Seq-to-Seq
DNN
Seq-to-Seq
DGP
99.6 % 0.4 %
28.6 % 71.4 %
‣ SRU-DGP による合成音声と比べ自然性は向上しなかった

/17
主観評価結果
16
SRU-DGP Seq-to-Seq
DNN
Seq-to-Seq
DGP
99.6 % 0.4 %
28.6 % 71.4 %
→ Seq-to-Seq DNN による合成音声と比べ自然性が向上した

/17
総括
17
‣ Sequence-to-Sequence 学習を用いた DGP 音声合成
‣ Attention 機構ではなく Length Regulator を採用
‣ パイプライン型と比較し合成音声の品質が劣化
‣ Sequence-to-Sequence 学習による DNN 音声合成より品質が向上
‣ 今後の課題
‣ Tacotron2, FastSpeech による合成音声との比較
‣ パイプライン型の合成音声に対しSeq-to-Seq DGP合成音声の
劣化した原因の調査

/17
ガウス過程回帰
18
‣ ガウス過程回帰の概要
‣ 入力特徴量と出力特徴量間の関係をモデリング
‣ 多変量ガウス分布に従う𝒇 = 𝑓1, … , 𝑓𝑁 を用いると
→

/17
深層ガウス過程
19
‣ 深層ガウス過程の概要
‣ 1層のガウス過程回帰モデルを𝐿層に拡張する
‣ 関数𝑓: ℝ 𝐷 𝑜 → ℝ 𝐷 𝐿が複数の合成関数で表される
‣ 層𝑙の次元𝑑を出力する関数𝑓 𝑙,𝑑: ℝ 𝐷 𝑙 → ℝがそれぞれ
ガウス過程に従うとすると，中間層の系列は

/17
深層ガウス過程に基づくモデルの学習
20
‣ 深層ガウス過程の学習基準
‣ 確率的変分推論を各層のガウス過程回帰に使用
‣ 1層の場合と同様にして，下式を最大化
ℒ =
1
𝑆
𝑠=1
𝑆
𝑖=1
𝑁
𝑑=1
𝐷 𝐿
𝐸 𝑞 ℎ 𝑖,𝑠
𝐿,𝑑 𝑙𝑜𝑔𝑝 𝑦𝑖
𝑑
ℎ𝑖,𝑠
𝐿,𝑑
−
𝑙=1
𝐿
𝑑=1
𝐷 𝐿
𝐾𝐿(𝑞(𝒖𝑙,𝑑)||𝑝(𝒖𝑙,𝑑))
学習データへの
当てはまり
モデルの複雑さ

/17
Seq-to-Seqモデルへの拡張
22
‣ 音素継続長を予測する機構
‣ FastSpeech[4] の Length Regulator
‣ Length Regulator によるアラインメント
‣ 音響モデル内の音素継続長予測モデルを教師モデルからの
音素継続長を用いて学習
‣ 言語特徴量を複製することで出力系列長との長さを調整
‣ 音素スキップなどの失敗が起こりにくく，学習が安定
[4] Ren et al., Proc. NeurIPS, pp. 3165–3174, 2019.

/17
Seq-to-Seqモデル
23
こんにちは
テキスト解析
継続長モデル
音響モデル
ボコーダ
こんにちは
統合

深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討

Recommended

Recommended

More Related Content

Featured

Featured (20)

深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討

Editor's Notes