Saito17asjA
- 2. /13
従来法: 敵対的DNN音声合成 [Saito et al., 2017]
– Generative Adversarial Nets (GAN) を用いた音響モデル学習
• 画像生成で有効なGAN [Goodfellow et al., 2014] を音声合成に導入
– 自然/合成音声特徴量の分布間のダイバージェンス最小化
• 分布間の距離規範 = 近似 Jensen-Shannon (JS) ダイバージェンス
本発表: 音声合成で有効なダイバージェンス/GANの調査
– 音声信号処理との関連性が高いダイバージェンス
• Kullback-Leibler (KL) ダイバージェンス
• JSダイバージェンス
– 画像生成において有効なGAN
• Wasserstein GAN (W-GAN) → Earth Mover 距離最小化
• Least Squares GAN (LS-GAN)
結果: W-GANが最も合成音声の音質を改善
1
本発表の概要
- 3. /13
敵対的DNN音声合成の音響モデル学習 [Saito et al., 2017]
2
𝜔D: 重み, 𝐸𝐿MGE
, 𝐸𝐿ADV
: 𝐿MGE 𝒚, 𝒚 , 𝐿ADV 𝒚 の期待値
合成音声を
自然音声と識別させる
𝐿G 𝒚, 𝒚 = 𝐿MGE 𝒚, 𝒚
𝐿MGE 𝒚, 𝒚
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
𝒚
Acoustic models
𝒙
⋯
𝒀
⋯
⋯
𝒙1
𝒙 𝑇
𝐿ADV
GAN
𝒚
1: natural
Discriminative models
𝐷 ⋅
特徴量間の
二乗誤差を最小化する
+𝜔D
𝐸𝐿MGE
𝐸𝐿ADV
𝐿ADV
GAN
𝒚
- 4. /13
① 音響モデルの更新
② 識別モデルの更新
音響モデルと識別モデルの交互最適化
3
自然/合成音声特徴量の分布間の近似JSダイバージェンスを最小化
fixedupdate
updatefixed
𝐿MGE 𝒚, 𝒚
𝒚
ML-based
parameter
generation
𝒚𝒙
⋯
𝒀
⋯
⋯𝒙1
𝒙 𝑇
𝐿ADV 𝒚
1: natural
𝒚
ML-based
parameter
generation
𝒚𝒙
⋯
𝒀
⋯
⋯
𝒙1
𝒙 𝑇
𝐿D 𝒚, 𝒚
1: natural
0: generated
or
- 6. /135
𝑓-GAN: GoodfellowらのGANの一般化
分布間の距離規範: 𝑓ダイバージェンス
関数 𝑓 ⋅ の選択 → 様々なダイバージェンスを表現
– 本発表では, 音声信号処理との関連性が高いものを採用
• KLダイバージェンス
– 非負値行列因子分解のコスト関数 [Lee et al., 2000]
• Reversed KL (RKL) ダイバージェンス
• JSダイバージェンス
– KL (RKL) ダイバージェンスを対称にしたもの
𝒟𝑓 𝒚|| 𝒚 = 𝑞 𝒚 𝑓
𝑝 𝒚
𝑞 𝒚
𝑑𝒚
𝑝 𝒚 , 𝑞 𝒚 : 𝒚 と 𝒚 の確率密度, 𝑓 ⋅ : 𝑓 1 = 0 を満たす凸関数
[Nowozin et al., 2016]
- 8. /137
W-GAN: GoodfellowらのGANの学習の安定化
分布間の距離規範: Earth Mover 距離
利点
– 密度比 𝑝 𝒚 /𝑞 𝒚 を含まない距離指標 → 発散しない
– 識別モデルから生成モデルに送られる勾配の消失を回避
実装上の注意
– 識別モデルのリプシッツ連続性を保証する必要あり
• 識別モデルパラメータの絶対値を一定値に収まるように clipping
𝒟EM 𝒚, 𝒚 = inf
𝛾
𝔼 𝒚, 𝒚 ~𝛾 𝒚, 𝒚 𝒚 − 𝒚
𝛾 𝒚, 𝒚 : 周辺分布がそれぞれ 𝒚 と 𝒚 の分布になる結合分布
[Arjovsky et al., 2017]
- 9. /138
LS-GAN: sigmoid 関数に起因する勾配消失を回避
分布間の距離規範
𝑏 − 𝑐 = 1 かつ 𝑏 − 𝑎 = 2 を満たすとき
– 𝑝 𝒚 + 𝑞 𝒚 と 2𝑞 𝒚 間のPearson 𝒳2ダイバージェンス最小化
– 予備実験により, 合成音声の音質劣化を確認
𝒟LS 𝒚, 𝒚 =
1
2
𝑏 − 𝑐 𝑝 𝒚 + 𝑏 − 𝑎 𝑞 𝒚
2
𝑝 𝒚 + 𝑞 𝒚
𝑑𝒚
𝑎: 識別モデルに合成音声を合成音声と識別させる定数
𝑏: 識別モデルに自然音声を自然音声と識別させる定数
𝑐: 識別モデルに合成音声を自然音声と識別させる定数
[Mao et al., 2017]
本発表では 𝑎 = 0, 𝑏 = 1, 𝑐 = 1 を使用
- 11. /13
実験条件
10
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ
スペクトル: 25次元のメルケプストラム係数
音源: 連続対数 𝐹0, 5帯域の非周期成分, U/V
コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など)
前処理 Trajectory smoothing [Takamichi et al., 2015]
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.001)
音響モデル Feed-Forward 442 – 3x512 (ReLU) – 94 (linear)
識別モデル
Feed-Forward 26 – 3x256 (ReLU) – 1 (linear)
(メルケプ25次元 + 連続対数 𝐹0 1次元を入力)
敵対損失の重み 𝜔D 全てのGANで1.0に設定
- 14. /1313
まとめ
従来法: 敵対的DNN音声合成
– 自然/合成音声特徴量の分布間のダイバージェンスを最小化
本発表: 音声合成で有効なダイバージェンス/GANの調査
– (Reversed) Kullback-Leibler ダイバージェンス
– Jensen-Shannon ダイバージェンス
– Wasserstein GAN (Earth Mover 距離最小化)
– Least Squares GAN
結果: W-GANが最も合成音声の音質を改善
今後: スペクトログラム生成に有効なダイバージェンスの調査
これまでの研究内容 (preprint を arXiv で公開済み)
– “Statistical Parametric Speech Synthesis Incorporating
Generative Adversarial Networks,” IEEE/ACM TASLP
- 19. /1318
W-GANを用いた敵対的DNN音声合成
(Earth Mover 距離最小化)
識別モデル学習時の識別損失
音響モデル学習時の敵対損失
𝐿D
W−GAN
𝒚, 𝒚 = 𝐿D,1
W−GAN
𝒚 + 𝐿D,0
W−GAN
𝒚
𝐿ADV
W−GAN
𝒚 = 𝐿D,1
W−GAN
𝒚 = −
1
𝑇 𝑡=1
𝑇
𝐷 𝒚 𝑡
1
𝑇 𝑡=1
𝑇
𝐷 𝒚 𝑡−
1
𝑇 𝑡=1
𝑇
𝐷 𝒚 𝑡
(自然音声に対する損失) (合成音声に対する損失)
[Arjovsky et al., 2017]