Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定

音響学会 2019秋

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定

  1. 1. /16 本発表の概要 Ø 研究⽬的: – ⾼品質・低遅延な声質変換の実現 Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18] – ⾼品質だが,変換時の畳み込みの計算コストが増⼤ – 単にフィルタ打ち切りで計算量を削減した場合,品質が劣化 Ø 提案法: フィルタ打ち切りを考慮したリフタ学習 – DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習 Ø 実験的評価: – 提案法により,品質を劣化させずにタップ⻑を1/8まで短縮可能 2
  2. 2. /16 差分スペクトル法による声質変換 [Kobayashi14][Suda18] Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤ – ボコーダによる⾳質劣化を回避 – 最⼩位相フィルタによる⼿法は,MLSAフィルタより⾼品質 3 X Y-X Filter ⊗
  3. 3. /16 従来法の学習プロセス 4 𝐹($) ⊕ 𝐿 変換元話者の低次 実ケプストラム 差分フィルタの低次 実ケプストラム Ø DNNで差分フィルタのケプストラム系列を推定 Ø と との⼆乗誤差を最⼩化するようにDNNを学習 変換先話者の低次 実ケプストラム 変換⾳声の低次 実ケプストラム STFT* (𝐶(*) 𝐶(*) DNN 𝐶($) 𝐶(+) (𝐶(*) 𝐶(*) * 短時間フーリエ変換
  4. 4. /16 従来法の変換プロセス 5 Ø 最⼩位相化・ヒルベルト変換を⾏うことで差分フィルタを推定 Ø 計算量削減のためにタップ⻑𝑙で打ち切り,畳み込み演算を⾏う STFT ヒルベルト変換 𝒖./0 畳み込み 最⼩位相化の リフタ係数 (定数) DNN タップ⻑𝑙で 打ち切り 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) ⊗ 逆フーリエ 変換 𝑓(2)
  5. 5. /16 提案法 フィルタ打ち切りを考慮した リフタ学習 6
  6. 6. /16 Ø 最⼩位相フィルタは,⾼品質な反⾯,計算量が⼤きい. – MLSAフィルタと⽐較して必ずしもタップ⻑の短さが保証されない. Ø フィルタをあるタップ⻑で打ち切ることで,計算量削減 – 単に打ち切っただけでは,品質が劣化してしまう. Ø 提案法: フィルタの打ち切りタップ⻑を条件として,DNNの パラメータとヒルベルト変換のリフタを同時に学習 提案法: フィルタ打ち切りを考慮したリフタ学習 7 打ち切り タップ⻑𝑙 タップ⻑𝑙
  7. 7. /16 提案法の学習プロセス 8 Ø フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 Ø 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 学習により更新する リフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 DNN 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) 4𝐹(*) (𝐶(*) 𝐶(*)
  8. 8. /16 提案法の変換プロセス 9 学習したDNNとリフタ係数により差分フィルタを求める. フィルタを時間領域で畳み込むことにより変換. 逆フーリエ変換 𝒖 学習済みリフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り DNN 畳み込み 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) 𝑓(2) ⊗
  9. 9. /16 実験的評価 10
  10. 10. /16 実験条件 11 データセット 変換元話者: JSUT corpus [Sonobe17] 変換先話者: 声優統計 corpus [y_benjo17] (100⽂,約12分からなるパラレルデータ) Train/Valid/Test 80⽂/10⽂/10⽂ サンプリングレート 16 kHz DNN 隠れ層2層のMulti Layer Perceptron FFT⻑ 512 窓⻑ 25 ms 低次ケプストラム次数 40次 提案法と従来法でフィルタ打ち切りを⾏い,品質を評価 タップ⻑が512(打ち切りなし),256,128,64の4ケースを⽐較
  11. 11. /16 客観評価結果: TestデータでのRMSE⽐較 Ø 全ケースで提案法のRMSE < 従来法のRMSE –提案法は従来法よりも,フィルタ打ち切りの影響を低減 12 0.96 0.95 0.94 0.93 0.92 100 200 300 400 5000 従来法 提案法 タップ⻑ *RMSE * Rooted Mean Squared Error
  12. 12. /16 主観評価結果: 提案法と従来法の⽐較 13 Ø タップ⻑64の場合で,有意に提案法 > 従来法 – 提案法により,フィルタを打ち切ったときの品質の劣化を低減 256 128 64 256 128 64 256 128 64 256 128 64 話者類似性 ⾳質 0 0.5 1.0 0 0.5 1.0 Preference score * * Preference score 従来法提案法 提案法 従来法
  13. 13. /16 主観評価結果: 提案法と打ち切りなしの場合との⽐較 14 Ø 打ち切りなし(512)・打ち切った場合との間に有意差なし – 話者類似性・⾳質を劣化させずにタップ⻑を1/8まで短縮可能 256 128 64 0 0.5 1.0 Preference score 0 0.5 1.0 Preference score 512 512 512 256 128 64 512 512 512 話者類似性 ⾳質提案法 提案法従来法 従来法
  14. 14. /16 サンプル⾳源 15 タップ⻑: 512 タップ⻑: 64 従来法 提案法 変換元話者 変換先話者
  15. 15. /16 まとめ Ø 研究⽬的: – ⾼品質・低遅延な声質変換の実現 Ø 提案: – 差分スペクトル法に基づくDNN声質変換の計算量削減法 – フィルタの打ち切りタップ⻑を条件として,DNNの パラメータとヒルベルト変換のリフタを同時に学習 Ø 実験結果: – 提案法により,品質を劣化させずにタップ⻑を1/8まで短縮 Ø 今後の課題: – 様々な話者データでの実験的評価の実施 – 提案法に基づく,リアルタイム・広帯域な声質変換の実現 16
  16. 16. /16 付録 17
  17. 17. /16 実験条件の詳細 18 サンプリングパラメータ サンプリングレート 16kHz STFTパラメータ 窓⻑ 25ms FFT⻑ 512 点 低次ケプストラム次数 40次元 フレームシフト 5ms DNNパラメータ DNNの種類 Multi Layer Perceptron loss Mean squared error optimizer Adam バッチサイズ 1000 活性化関数 Gated Linear Unit (sigmoid, tanh) 隠れ層の数 2層 (280次元,100次元) BatchNorm 隠れ層全てに適⽤

×