Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Saito17asjA

189 views

Published on

日本音響学会 2017年秋季研究発表会

Published in: Science
  • Be the first to comment

  • Be the first to like this

Saito17asjA

  1. 1. ©Yuki Saito, 2017/09/25 敵対的DNN音声合成における ダイバージェンスの影響の調査 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年秋季研究発表会 1-8-7
  2. 2. /13  従来法: 敵対的DNN音声合成 [Saito et al., 2017] – Generative Adversarial Nets (GAN) を用いた音響モデル学習 • 画像生成で有効なGAN [Goodfellow et al., 2014] を音声合成に導入 – 自然/合成音声特徴量の分布間のダイバージェンス最小化 • 分布間の距離規範 = 近似 Jensen-Shannon (JS) ダイバージェンス  本発表: 音声合成で有効なダイバージェンス/GANの調査 – 音声信号処理との関連性が高いダイバージェンス • Kullback-Leibler (KL) ダイバージェンス • JSダイバージェンス – 画像生成において有効なGAN • Wasserstein GAN (W-GAN) → Earth Mover 距離最小化 • Least Squares GAN (LS-GAN)  結果: W-GANが最も合成音声の音質を改善 1 本発表の概要
  3. 3. /13 敵対的DNN音声合成の音響モデル学習 [Saito et al., 2017] 2 𝜔D: 重み, 𝐸𝐿MGE , 𝐸𝐿ADV : 𝐿MGE 𝒚, 𝒚 , 𝐿ADV 𝒚 の期待値 合成音声を 自然音声と識別させる 𝐿G 𝒚, 𝒚 = 𝐿MGE 𝒚, 𝒚 𝐿MGE 𝒚, 𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿ADV GAN 𝒚 1: natural Discriminative models 𝐷 ⋅ 特徴量間の 二乗誤差を最小化する +𝜔D 𝐸𝐿MGE 𝐸𝐿ADV 𝐿ADV GAN 𝒚
  4. 4. /13  ① 音響モデルの更新  ② 識別モデルの更新 音響モデルと識別モデルの交互最適化 3 自然/合成音声特徴量の分布間の近似JSダイバージェンスを最小化 fixedupdate updatefixed 𝐿MGE 𝒚, 𝒚 𝒚 ML-based parameter generation 𝒚𝒙 ⋯ 𝒀 ⋯ ⋯𝒙1 𝒙 𝑇 𝐿ADV 𝒚 1: natural 𝒚 ML-based parameter generation 𝒚𝒙 ⋯ 𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D 𝒚, 𝒚 1: natural 0: generated or
  5. 5. /134 本発表: 種々のGANを用いた敵対的DNN音声合成 (𝑓-GAN, W-GAN, LS-GAN)
  6. 6. /135 𝑓-GAN: GoodfellowらのGANの一般化  分布間の距離規範: 𝑓ダイバージェンス  関数 𝑓 ⋅ の選択 → 様々なダイバージェンスを表現 – 本発表では, 音声信号処理との関連性が高いものを採用 • KLダイバージェンス – 非負値行列因子分解のコスト関数 [Lee et al., 2000] • Reversed KL (RKL) ダイバージェンス • JSダイバージェンス – KL (RKL) ダイバージェンスを対称にしたもの 𝒟𝑓 𝒚|| 𝒚 = 𝑞 𝒚 𝑓 𝑝 𝒚 𝑞 𝒚 𝑑𝒚 𝑝 𝒚 , 𝑞 𝒚 : 𝒚 と 𝒚 の確率密度, 𝑓 ⋅ : 𝑓 1 = 0 を満たす凸関数 [Nowozin et al., 2016]
  7. 7. /136 音声信号処理との関連性が高い𝑓ダイバージェンス  KLダイバージェンス  RKLダイバージェンス  JSダイバージェンス 𝒟KL 𝒚|| 𝒚 = 𝑝 𝒚 log 𝑝 𝒚 𝑞 𝒚 𝑑𝒚 𝒟RKL 𝒚|| 𝒚 = 𝑞 𝒚 log 𝑞 𝒚 𝑝 𝒚 𝑑𝒚 𝒟JS 𝒚|| 𝒚 = 1 2 𝑝 𝒚 log 2𝑝 𝒚 𝑝 𝒚 + 𝑞 𝒚 + 𝑞 𝒚 log 2𝑞( 𝒚) 𝑝 𝒚 + 𝑞 𝒚 𝑑𝒚
  8. 8. /137 W-GAN: GoodfellowらのGANの学習の安定化  分布間の距離規範: Earth Mover 距離  利点 – 密度比 𝑝 𝒚 /𝑞 𝒚 を含まない距離指標 → 発散しない – 識別モデルから生成モデルに送られる勾配の消失を回避  実装上の注意 – 識別モデルのリプシッツ連続性を保証する必要あり • 識別モデルパラメータの絶対値を一定値に収まるように clipping 𝒟EM 𝒚, 𝒚 = inf 𝛾 𝔼 𝒚, 𝒚 ~𝛾 𝒚, 𝒚 𝒚 − 𝒚 𝛾 𝒚, 𝒚 : 周辺分布がそれぞれ 𝒚 と 𝒚 の分布になる結合分布 [Arjovsky et al., 2017]
  9. 9. /138 LS-GAN: sigmoid 関数に起因する勾配消失を回避  分布間の距離規範  𝑏 − 𝑐 = 1 かつ 𝑏 − 𝑎 = 2 を満たすとき – 𝑝 𝒚 + 𝑞 𝒚 と 2𝑞 𝒚 間のPearson 𝒳2ダイバージェンス最小化 – 予備実験により, 合成音声の音質劣化を確認 𝒟LS 𝒚, 𝒚 = 1 2 𝑏 − 𝑐 𝑝 𝒚 + 𝑏 − 𝑎 𝑞 𝒚 2 𝑝 𝒚 + 𝑞 𝒚 𝑑𝒚 𝑎: 識別モデルに合成音声を合成音声と識別させる定数 𝑏: 識別モデルに自然音声を自然音声と識別させる定数 𝑐: 識別モデルに合成音声を自然音声と識別させる定数 [Mao et al., 2017] 本発表では 𝑎 = 0, 𝑏 = 1, 𝑐 = 1 を使用
  10. 10. /139 実験的評価
  11. 11. /13 実験条件 10 データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ スペクトル: 25次元のメルケプストラム係数 音源: 連続対数 𝐹0, 5帯域の非周期成分, U/V コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015] 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.001) 音響モデル Feed-Forward 442 – 3x512 (ReLU) – 94 (linear) 識別モデル Feed-Forward 26 – 3x256 (ReLU) – 1 (linear) (メルケプ25次元 + 連続対数 𝐹0 1次元を入力) 敵対損失の重み 𝜔D 全てのGANで1.0に設定
  12. 12. /1311 合成音声の音質に関する主観評価結果 LS-GAN W-GAN GAN RKL-GAN JS-GAN KL-GAN 音質に関するMOSスコア (評価者数55人, 18回答/人) 1.0 2.0 3.0 4.0 5.0 エラーバーは95%信頼区間
  13. 13. /1312 考察: メルケプストラム係数の散布図 (横軸: 11次, 縦軸: 13次) LS-GAN W-GAN JS-GAN GANRKL-GAN KL-GANNatural MGE
  14. 14. /1313 まとめ  従来法: 敵対的DNN音声合成 – 自然/合成音声特徴量の分布間のダイバージェンスを最小化  本発表: 音声合成で有効なダイバージェンス/GANの調査 – (Reversed) Kullback-Leibler ダイバージェンス – Jensen-Shannon ダイバージェンス – Wasserstein GAN (Earth Mover 距離最小化) – Least Squares GAN  結果: W-GANが最も合成音声の音質を改善  今後: スペクトログラム生成に有効なダイバージェンスの調査  これまでの研究内容 (preprint を arXiv で公開済み) – “Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks,” IEEE/ACM TASLP
  15. 15. /1314 従来法: GoodfellowらのGANを用いた敵対的DNN音声合成  識別モデル学習時の識別損失 (sigmoid cross-entropy)  音響モデル学習時の敵対損失 [Goodfellow et al., 2014] 𝐿D GAN 𝒚, 𝒚 = 𝐿D,1 GAN 𝒚 + 𝐿D,0 GAN 𝒚 − 1 𝑇 𝑡=1 𝑇 log exp −𝐷 𝒚 𝑡 1+exp −𝐷 𝒚 𝑡 − 1 𝑇 𝑡=1 𝑇 log 1 1+exp −𝐷 𝒚 𝑡 (自然音声に対する損失) (合成音声に対する損失) 𝐿ADV GAN 𝒚 = 𝐿D,1 GAN 𝒚 = − 1 𝑇 𝑡=1 𝑇 log 1 1+exp −𝐷 𝒚 𝑡
  16. 16. /1315 KL-GANを用いた敵対的DNN音声合成 (KLダイバージェンス最小化)  識別モデル学習時の識別損失  音響モデル学習時の敵対損失 𝐿D KL‐GAN 𝒚, 𝒚 = 𝐿D,1 KL−GAN 𝒚 + 𝐿D,0 KL−GAN 𝒚 𝐿ADV KL−GAN 𝒚 = 𝐿D,1 KL−GAN 𝒚 = − 1 𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 1 𝑇 𝑡=1 𝑇 exp 𝐷 𝒚 𝑡 − 1− 1 𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 (自然音声に対する損失) (合成音声に対する損失) [Nowozin et al., 2016]
  17. 17. /1316 RKL-GANを用いた敵対的DNN音声合成 (Reversed KLダイバージェンス最小化)  識別モデル学習時の識別損失  音響モデル学習時の敵対損失 𝐿ADV RKL−GAN 𝒚 = 𝐿D,1 RKL−GAN 𝒚 = 1 𝑇 𝑡=1 𝑇 exp −𝐷 𝒚 𝑡 𝐿D RKL‐GAN 𝒚, 𝒚 = 𝐿D,1 RKL−GAN 𝒚 + 𝐿D,0 RKL−GAN 𝒚 1 𝑇 𝑡=1 𝑇 −1 + 𝐷 𝒚 𝑡 1 𝑇 𝑡=1 𝑇 exp −𝐷 𝒚 𝑡 (自然音声に対する損失) (合成音声に対する損失) [Nowozin et al., 2016]
  18. 18. /1317 JS-GANを用いた敵対的DNN音声合成 (JSダイバージェンス最小化)  識別モデル学習時の識別損失  音響モデル学習時の敵対損失 𝐿D JS−GAN 𝒚, 𝒚 = 𝐿D,1 JS−GAN 𝒚 + 𝐿D,0 JS−GAN 𝒚 𝐿ADV JS−GAN 𝒚 = 𝐿D,1 JS−GAN 𝒚 = − 1 𝑇 𝑡=1 𝑇 log 2 1+exp −𝐷 𝒚 𝑡 − 1 𝑇 𝑡=1 𝑇 log 2exp −𝐷 𝒚 𝑡 1+exp −𝐷 𝒚 𝑡 − 1 𝑇 𝑡=1 𝑇 log 2 1+exp −𝐷 𝒚 𝑡 (自然音声に対する損失) (合成音声に対する損失) [Nowozin et al., 2016]
  19. 19. /1318 W-GANを用いた敵対的DNN音声合成 (Earth Mover 距離最小化)  識別モデル学習時の識別損失  音響モデル学習時の敵対損失 𝐿D W−GAN 𝒚, 𝒚 = 𝐿D,1 W−GAN 𝒚 + 𝐿D,0 W−GAN 𝒚 𝐿ADV W−GAN 𝒚 = 𝐿D,1 W−GAN 𝒚 = − 1 𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 1 𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡− 1 𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 (自然音声に対する損失) (合成音声に対する損失) [Arjovsky et al., 2017]
  20. 20. /1319 LS-GANを用いた敵対的DNN音声合成  識別モデル学習時の識別損失  音響モデル学習時の敵対損失 1 2𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 − 𝑏 2 (自然音声に対する損失) (合成音声に対する損失) 𝐿D LS−GAN 𝒚, 𝒚 = 𝐿D,1 LS−GAN 𝒚 + 𝐿D,0 LS−GAN 𝒚 1 2𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 − 𝑎 2 𝐿ADV LS−GAN 𝒚 = 1 2𝑇 𝑡=1 𝑇 𝐷 𝒚 𝑡 − 𝑐 2 [Mao et al., 2017]

×