Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

変調スペクトルを考慮したHMM音声合成

5,226 views

Published on

Published in: Technology
  • Be the first to comment

変調スペクトルを考慮したHMM音声合成

  1. 1. 日本音響学会 2013年 秋季研究発表会 2-7-10 変調スペクトルを考慮したHMM音声合成 高道 慎之介 戸田 智基 Graham Neubig Sakriani Sakti 中村 哲 (奈良先端大) 2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST 09/26/2013
  2. 2. 発表概要  問題: HMM音声合成 [Zen et al., 2009.] の音質劣化 – HMMの平滑化処理により発生 – 平滑化の影響を定量的に表現する特徴量とは?  平滑化を表現する特徴量とは?: – パラメータ系列の分散 (GV: Global Variance) [Toda et al., 2007.] – 系列の変調スペクトル (MS: Modulation Spectrum)を本発表で導入  提案法: 変調スペクトルを補償するポストフィルタ – 生成パラメータ系列に対して、事前学習したフィルタを適用 HMM音声合成およびGVと比較して、合成音声の音質を改善 2/15
  3. 3. HMM音声合成の枠組み [Zen et al., 2009.] 自然音声のパラメータ系列 freq Time HMM学習 HMM パラメータ 生成 freq Time 合成音声のパラメータ系列 ある次元のパラメータ系列を見てみると・・・? 3/15
  4. 4. 4th mel-cepstral coefficient 自然/合成音声のパラメータ系列 Natural speech HMM [Zen et al., 2009.] HMM+GV [Toda et al., 2007.] Time 自然/合成音声のパラメータ系列の違いとは? 4/15
  5. 5. 変調スペクトル(MS: Modulation Spectrum) 離散フーリエ変換 & 対数振幅の計算 変調スペクトル (MS)  変調スペクトルを、パラメータ系列の対数振幅スペクトルと定義 – 系列の周波数変動を表現するパラメータ – 先行研究における有効性 • 音声知覚におけるスペクトルキュー [Rob et al., 1993.] • HMMによる音声認識技術の精度向上 [Sriram et al., 2009.] – 本研究では、系列毎に変調スペクトルを計算 5/15
  6. 6. Modulation spectrum (MS) 自然/合成音声のパラメータ系列のMS “Natural speech”のMS “HMM”のMS “HMM+GV”のMS Modulation frequency 変調スペクトルの直接補償により、音質改善が期待 6/15
  7. 7. 提案法 7
  8. 8. 提案法の処理手順 学習部 学習 MS 自然音声 確率密度関数 確率密度 関数を推定 MSを 計算 生成 生成部 MS MSを 計算 生成 ポスト フィルタ 位相を 計算 フィルタ後のMS 位相 8/15
  9. 9. MS of d-th parameter sequence Sd(m) 学習部: MSの確率密度関数を推定 “Natural speech”のMSの 確率密度関数 N sd m   d( Nm) ,  d( Nm)  , , “HMM”のMSの 確率密度関数  ( ( N sd m   dGm) ,  dGm) , ,  Modulation frequency m 自然/合成音声のパラメータ系列のMSを正規分布でモデル化 9/15
  10. 10. MS of d-th parameter sequence Sd(m) 生成部: 生成パラメータのMSを線形変換 フィルタ後のMS  ( ( N sd m   d Nm) ,  d Nm) , ,  変換 “HMM”のMS  ( ( N sd m   dGm) ,  dGm) , ,  Modulation frequency m (  d Nm) (G ) ( N)  , s 'd m   1  k sd m   k  s m    d ,m   d ,m  (  dGm) d ,    フィルタ後のMS  フィルタ強度係数 “HMM”のMS 10/15
  11. 11. 4th mel-cepstral coefficient 自然音声、従来法/提案法のパラメータ系列 HMM+MS:”HMM”に フィルタリング Natural speech HMM [Zen et al., 2009.] HMM+GV [Toda et al., 2007.] Time 11/15
  12. 12. 実験条件  評価: – 適切なフィルタ強度係数の決定 (客観評価) – 音質改善効果の確認 (主観評価)  手法: – – – – “HMM”: HMM音声合成 [Zen et al., 2009.] “HMM+MS”: “HMM”に提案法を適用 “HMM+GV”: GVを考慮 [Toda et al., 2007.] “HMM+GV+MS”: “HMM+GV”に提案法を適用 実験条件 学習データ ATR音素バランス文450文、女性 テストデータ 同53文 スペクトルパラメータ 0~24次のメルケプストラム (提案法を適用) 音源パラメータ 対数F0、5周波数帯域の非周期成分 MSのFFT長 4096 (全データの系列の長さを超える値) 12/15
  13. 13. 客観評価:適切なフィルタ強度係数 ポストフィルタ後のパラメータ系列のHMM・GV・MS尤度を計算 90 85 80 75 HMM+GV+MS 70 65 60 Log MS likelihood (x0.001) 100 HMM+MS Log GV likelihood Log HMM likelihood 95 50 0 -50 -100 Natural speech 55 -150 -2 -4 -6 -8 -10 -12 -14 -16 0 0.25 0.5 0.75 1 0 0.250.5 0.75 1 0 0.25 0.5 0.75 1 Filter coefficient Filter coefficient Filter coefficient 主観評価に用いるフィルタ強度係数を0.85に決定 13/15
  14. 14. Preference score for speech quality 主観評価:音質改善効果 7人に対するプリファレンステストを実施 1 0.8 0.6 0.4 0.2 0 HMM HMM+MS HMM+GV HMM+GV+MS 提案法による音質改善を確認 14/15
  15. 15. まとめ  目的 – HMM音声合成による合成音声の音質改善  変調スペクトル(MS)を考慮した提案法 – 合成音声のMSは、自然音声のMSと比較して大きく劣化 – MSを補償するポストフィルタを提案  評価結果 – 従来法と比較して音質改善を確認  今後の予定 – HMM尤度・GV尤度・MS尤度を考慮したパラメータ生成法 15/15
  16. 16. HMM HMM+MS HMM+GV HMM+GV+MS 16/15

×