Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Saito18asj_s

61 views

Published on

Talk at ASJ 2018 (spring meeting)

Published in: Science
  • Be the first to comment

  • Be the first to like this

Saito18asj_s

  1. 1. ©Yuki Saito, 2018/03/15 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2018年春季研究発表会 3-8-14
  2. 2. /13  従来法1: ボコーダを用いた敵対的DNN音声合成 [Saito et al., 2018] – GAN* に基づく音響モデル学習により,過剰な平滑化を緩和 – ボコーダ由来の音声パラメータ化により音質が劣化  従来法2: STFTスペクトルを用いた音声合成 [Takaki et al., 2017] – 振幅スペクトルを直接生成し,ボコーダ処理を回避 – 過剰な平滑化 & 音響モデル学習の困難性により音質が劣化  本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度のスペクトルを用いた学習 • 元解像度での二乗誤差最小化: スペクトル全体の平均的な違いを補償 • 低解像度での分布間距離最小化: スペクトル包絡成分の違いを補償  結果: 提案法による合成音声の音質改善 1 本発表の概要 *Generative Adversarial Network [Goodfellow et al., 2014]
  3. 3. /13 敵対的DNN音声合成の音響モデル学習 [Saito et al., 2018] 2 STFTスペクトルを用いた音声合成 [Takaki et al., 2017] にも適用可能 音声パラメータの 分布間距離を最小化 𝐿MSE 𝒚, 𝒚 Linguistic feats. Natural speech params. 𝒚 ML-based parameter generation Generated speech params. 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 1: natural Discriminative models 音声パラメータの 二乗誤差を最小化 𝐿G 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚
  4. 4. /133 STFTスペクトルを用いたDNN音声合成の問題点: スペクトルの過剰な平滑化 & 音響モデル学習の困難性 Frequencybin(e.g.,513dim.) Frame Natural (highly random) MSE (over-smoothing) ADV* (discontinuous) 振幅スペクトルの音響モデルのための効率的な学習法を提案 *元周波数解像度の振幅スペクトルを用いた敵対的DNN音声合成
  5. 5. /134 本発表: 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成
  6. 6. /135 提案法の動機: スペクトル包絡成分を補償する学習  振幅スペクトル: 複雑な分布を持つ高次元特徴量 – スペクトル微細構造と包絡成分の両方によって構成 – 従来法 [Saito et al., 2018] は,包絡成分の補償で有効  本研究の仮定: 低周波数解像度のスペクトル ≒ 包絡成分 – スペクトルを低周波数解像度に圧縮し,分布間距離を補償 Average pooling Average pooling Natural Generated 分布間距離 最小化
  7. 7. /13 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成の音響モデル学習 6 𝐿MSE 𝒚, 𝒚 Linguistic feats. + Log F0 Natural amplitude spectra 𝒚 ML-based parameter generation Generated amplitude spectra 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 L 1: natural Low-res. discriminative models 𝐿G (Low) 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D L 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚 L Average pooling 𝝓 ⋅ 𝝓 ⋅𝒚 𝒚 L 𝒚 L Average pooling 幅の変更 → 低解像度スペクトルの次元数の変更
  8. 8. /137 考察  提案法の損失関数: 元解像度のMSE + 低解像度のGAN – 元解像度のMSE: スペクトル全体の平均的な違いを補償 – 低解像度のGAN: スペクトル包絡成分の分布の違いを補償  Average pooling 幅: フィルタバンク抽出時の窓幅に対応 – Pooling 幅をより広く設定 → スペクトルをより低次元に圧縮  敵対的DNN音声合成の将来展望 – ボコーダ特徴量の音響モデル学習 [Saito et al., 2018] – STFT振幅スペクトルの音響モデル学習 (本発表) – 音声波形の音響モデル学習
  9. 9. /138 提案法の効果: スペクトル包絡成分の違いを補償 Natural MSE ADV ADV-Low (Proposed) スペクトル全体の構造を保持しつつ,ピークでの違いを補償!
  10. 10. /139 実験的評価
  11. 11. /13 実験条件 10 データセット 女性話者の日本語音声4,007文 (JSUTコーパス*の一部, 16 kHz サンプリング) 学習/評価データ 3,808文/199文 STFT分析条件 フレーム長: 400 (25 ms) シフト長: 80 (5 ms) FFT長: 1,024 分析窓: Hamming Average pooling の パラメータ Zero-padding サイズ: 6 Pooling 幅 𝑤: 14/30/70 ストライド幅: pooling 幅の半分 敵対損失の重み 1.0 音響モデルへの入力 444次元 (コンテキストラベル, 継続長, 対数𝐹0, U/V) 識別モデルへの入力 元周波数解像度: 513次元 低周波数解像度: 74/34/14次元 DNNアーキテクチャ 全て Feed-Forward (詳細は原稿参照) *[Sonobe et al., 2017]
  12. 12. /1311 元周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト)  比較手法 – MSE: 二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV: 元解像度を用いた敵対的DNN音声合成 [Saito et al., 2018] 元周波数解像度を用いた敵対的DNN音声合成による音質劣化を確認 ADVMSE 0.720 vs. 0.280 (𝑝 = 1.2 × 10−3 ) 評価者数25 (各評価者につき10サンプルを評価)
  13. 13. /1312 低周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト)  比較手法 – MSE: 二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV-Low: 低解像度を用いた敵対的DNN音声合成 (提案法) 低周波数解像度を用いた敵対的DNN音声合成による音質改善を確認 ADV-Low (𝑤 = 14) ADV-Low (𝑤 = 30) ADV-Low (𝑤 = 70) MSE 0.432 vs. 0.568 (𝑝 = 2.3 × 10−3) 0.428 vs. 0.572 (𝑝 = 1.2 × 10−3 ) 0.472 vs. 0.528 (𝑝 = 2.1 × 10−1) 評価者数25 (各評価者につき10サンプルを評価)
  14. 14. /1313 まとめ  従来法 – ボコーダを用いた敵対的DNN音声合成 • 音声パラメータの過剰な平滑化による音質劣化を改善 • ボコーダ由来のパラメータ化に起因して音質が劣化 – STFTスペクトルを用いたDNN音声合成 • ボコーダ由来のパラメータ化に起因する音質劣化を改善 • 過剰な平滑化 & 学習の困難性に起因して音質が劣化  本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度の利用による効率的な学習法 – 低周波数解像度 (≒スペクトル包絡成分) での分布の違いを補償  結果: 従来法と比較して合成音声の音質を改善  今後: 元周波数解像度の効果的な利用法を検討

×