Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

375 views

Published on

SLP研究会 2020/02/13

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

  1. 1. 差分スペクトル法に基づくDNN声質変換の ためのリフタ学習及びサブバンド処理 佐伯⾼明, 齋藤佑樹, ⾼道慎之介, 猿渡洋 東⼤院・情報理⼯ SLP研究会 2020/02/13 2020/02/13©Takaaki Saeki The University of Tokyo
  2. 2. /31 研究背景: 統計的声質変換 統計的声質変換 – ある⼈の声を,別の⼈の声に⾔語情報を変えずに変換 – 変換元話者と変換先話者のデータから,変換の統計モデルを学習 2 Iʼm a university student. I study physics. You are an engineer. I study physics. Iʼm a university student. You are an engineer. データから変換の関数を推定 パラ・⾮⾔語情報のみ変換
  3. 3. /31 研究背景: 声質変換の実応⽤先 Ø 物理的制約を超えた⾳声コミュニケーションの実現 – エンタメ⽤途や医療福祉⽤途など,様々な応⽤先 – 実応⽤上は,品質だけでなくリアルタイム性が必要 3 バーチャル配信 歌声変換 発話・発声補助
  4. 4. /31 研究背景: リアルタイム声質変換 従来のリアルタイム声質変換 – ボコーダベースのリアルタイム声質変換 [Toda12][Arakawa19] • 16 kHzサンプリング⾳声を遅延50 ms程度で変換可能 • ボコーダによる品質劣化・計算コストが⾼いなどの問題 本研究でのアプローチ –差分スペクトル法に基づく⾼品質・計算効率の⾼い声質変換 • 波形ドメインでのフィルタリングに基づく⼿法 • Deep Neural Network (DNN)により⾳響特徴量を変換 • フィルタリングの計算量を削減し,広帯域⾳声に適⽤ 4
  5. 5. /31 本発表の概要 Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18] – ⾼品質だが,変換時の畳み込みの計算コストが増⼤ – 帯域拡張した際に変換⾳声の品質が劣化 Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習 – DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習 Ø 提案法2: サブバンド処理による帯域ごとの変換 – 変換元話者の⾳声波形を帯域ごとに別々に変換 Ø 実験的評価: – リフタ学習により,品質を劣化させずに計算量を削減 – サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上 5
  6. 6. /31 差分スペクトル法による声質変換 [Kobayashi14][Suda18] Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤ – ボコーダによる⾳質劣化を回避 – 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質 6 X Filter ⊗ 話者X 話者Y Y-X
  7. 7. /31 差分スペクトル法による声質変換 [Kobayashi14][Suda18] Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤ – ボコーダによる⾳質劣化を回避 – 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質 7 X Filter ⊗ 実ケプストラムを変換 位相復元話者X 話者Y Y-X
  8. 8. /31 従来法の学習プロセス 8 𝐹($) ⊕ 𝐿 Ø DNNで差分フィルタの低次実ケプストラムを推定 Ø と との⼆乗誤差を最⼩化するようにDNNを学習 変換⾳声の低次 実ケプストラム STFT* (𝐶(*) 𝐶(*) DNN 𝐶($) 𝐶(+) (𝐶(*) 𝐶(*) 変換元話者の低次 実ケプストラム 差分フィルタの低次 実ケプストラム 変換先話者の低次 実ケプストラム 変換元話者の 複素スペクトル * Short time Fourier transform
  9. 9. /31 従来法の学習プロセス 9 𝐹($) ⊕ 𝐿 𝐶($) 𝐶(+) (𝐶(*) 𝐶(*) ⼆乗誤差Lを最⼩化 Ø DNNで差分フィルタの低次実ケプストラムを推定 Ø と との⼆乗誤差を最⼩化するようにDNNを学習(𝐶(*) 𝐶(*) DNN
  10. 10. /31 従来法の変換プロセス 10 学習したDNNと最⼩位相復元により差分フィルタを構成 計算量削減のためにタップ⻑𝑙で打ち切り,畳み込み演算を⾏う STFT ヒルベルト変換 𝒖./0 畳み込み 最⼩位相化のための リフタ係数 (定数) [Pei2006] タップ⻑𝑙で 打ち切り 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) ⊗ 逆フーリエ 変換 𝑓(2) DNN
  11. 11. /31 従来法の変換プロセスの詳細 11 𝐶(+) 𝒖./0 𝐹(+) DNN 𝒖./0 = 4 1 (𝑛 = 0, 𝑛 = 𝑁/2) 2 (0 < 𝑛 < 𝑁/2) 0 (𝑛 > 𝑁/2) 𝑓(+) 𝑓(2) ⊗ ヒルベルト変換 打ち切り タップ⻑𝑙 逆フーリエ変換 最⼩位相化のための リフタ係数 (定数) [Pei2006]
  12. 12. /31 提案法 12
  13. 13. /31 提案する2⼿法の概要 13 最⼩位相 16 kHz 品質 (話者類似性,⾳質) 計 算 効 率 最⼩位相 48 kHz 帯域拡張 広帯域化で品質は上がるが ⾼域のランダム性により 変換⾳声の品質は低下 リフタ学習 16 kHz サブバンド 48 kHz 提案法1 リフタ学習 提案法2 サブバンド処理 Better
  14. 14. /31 提案する2⼿法の概要 14 最⼩位相 16 kHz 品質 (話者類似性,⾳質) 計 算 効 率 リフタ学習 16 kHz 提案法1 リフタ学習 Better
  15. 15. /31 Ø 最⼩位相フィルタは,⾼品質な反⾯,計算量が⼤きい Ø フィルタをあるタップ⻑で打ち切ることで,計算量削減 – 単に打ち切っただけでは,品質が劣化してしまう Ø 提案法1: フィルタの打ち切り過程を学習に含め,DNNの パラメータとヒルベルト変換のリフタを同時に学習 提案法1: フィルタ打ち切りを考慮したリフタ学習 15 打ち切り タップ⻑𝑙 𝑓(+) 𝑓(2)
  16. 16. /31 提案法1: リフタ学習法の学習プロセス 16 フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 学習により更新する リフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) ?𝐹(*) (𝐶(*) 𝐶(*) 𝐶(+) DNN
  17. 17. /31 提案法1: リフタ学習法の学習プロセス 17 フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 学習により更新する リフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) ?𝐹(*) (𝐶(*) 𝐶(*) 𝐶(+) DNN 打ち切り過程
  18. 18. /31 提案法1: リフタ学習法の学習プロセス 18 フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) ?𝐹(*) (𝐶(*) 𝐶(*) 𝐶(+) DNN ⼆乗誤差Lを最⼩化
  19. 19. /31 提案法1: リフタ学習法の変換プロセス 19 学習したDNNとリフタ係数により差分フィルタを求める フィルタを時間領域で畳み込むことにより変換 逆フーリエ変換𝒖 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 畳み込み ⊗ 𝐶(+) DNN 学習済みリフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り
  20. 20. /31 提案する2⼿法の概要 20 最⼩位相 16 kHz 品質 (話者類似性,⾳質) 計 算 効 率 最⼩位相 48 kHz 帯域拡張 広帯域化で品質は上がるが ⾼域のランダム性により 変換⾳声の品質は低下 サブバンド 48 kHz 提案法2 サブバンド処理 Better
  21. 21. /31 従来法を帯域拡張した時の問題点 Ø 差分スペクトル法を48 kHz⾳声の変換に適⽤ – 帯域拡張しても⼤きく品質が上がらない – ランダムな⾼域成分を変換することにより品質劣化が⽣じる 21 Time Source speech Filter Converted speech⊗ 𝐹(+) ?𝐹(*)𝐹($) Frequency (log amp.)
  22. 22. /31 提案法2: サブバンド処理による変換 Ø サブバンド処理による帯域ごとの変換 – 低域のみに差分フィルタを適⽤し,⾼域は⼊⼒をそのまま通す – ⾼域の変換を回避し,変換⾳声の品質を向上させる 22 Time Frequency Source speech Filter Converted speech⊗ Frequency (log amp.) 𝐹@(+) ?𝐹(*)𝐹($)
  23. 23. /31 提案法2: サブバンド処理による変換 23 8 kHz未満の低域成分のみに差分フィルタを適⽤する 8 kHz以上の⾼域成分は⼊⼒をそのまま通す 23 𝒖./0 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) ⊗ 𝑓(2) 𝐹@(+) ⾼域をそのまま通すための処理 DNN
  24. 24. /31 実験的評価 24
  25. 25. /31 実験条件 25 データ データセット 男性話者: JVS corpus [Takamichi19] ⼥性話者: JSUT corpus [Sonobe17] 声優統計 corpus [y_benjo17] Train / Valid / Test 80⽂ / 10⽂ / 10⽂ サンプリングレート 16 kHzと48 kHzの2条件 STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点 低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次 窓⻑ 25 ms フレームシフト 5 ms 学習条件 DNNアーキテクチャ 隠れ層2層のfeedforward型 Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価 Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価
  26. 26. /31 実験的評価の概要 Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価 –16 kHzサンプリング⾳声に対する客観評価 • Testデータに対するRoot Mean Squared Error (RMSE) –16 kHzサンプリング⾳声に対する主観評価 • 話者性に関するXABテスト・⾳質に関するABテスト • 各ケースにつき30⼈の評価者が10個の⾳声を評価 Ø 提案法2: サブバンド処理による変換の評価 –48 kHzサンプリング⾳声に対する主観評価 • 話者性に関するXABテスト・⾳質に関するABテスト • 各ケースにつき30⼈の評価者が10個の⾳声を評価 26
  27. 27. /31 リフタ学習法の客観評価結果 (16 kHz) 27 Ø 全ケースでリフタ学習法のRMSE < 従来法のRMSE – リフタ学習法は従来法よりも,フィルタ打ち切りの影響を低減
  28. 28. /31 リフタ学習法の主観評価結果 (16 kHz) 28 リフタ学習法 Score 従来法 𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f) 𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f) 𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f) 𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f) Ø 話者性に関するpreference score Ø - リフタ学習法で打ち切り > 従来法で打ち切り Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない Ø リフタ学習により,話者性を損なわずに計算量削減
  29. 29. /31 リフタ学習法の主観評価結果 (16 kHz) 29 Ø ⾳質に関するPreference score Ø - リフタ学習法で打ち切り > 従来法で打ち切り Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない Ø リフタ学習により,⾳質を損なわずに計算量削減 リフタ学習法 Score 従来法 𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f) 𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f) 𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f) 𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)
  30. 30. /31 サブバンド処理の主観評価結果 (48 kHz) 30 サブバンド処理 Score 従来法 m2m 0.519 0.481 m2m f2f 0.603 0.397 f2f サブバンド処理 Score 従来法 m2m 0.721 0.279 m2m f2f 0.700 0.300 f2f Ø 話者性に関するPreference score Ø ⾳質に関するPreference score Ø サブバンド処理により変換⾳声の品質が向上 Ø 特に⾳質に対する効果が顕著
  31. 31. /31 まとめ Ø 研究⽬的: – 広帯域リアルタイム声質変換に向けた品質・計算効率の向上 Ø 提案法: – フィルタ打ち切りを考慮したリフタ学習 – サブバンド処理による帯域ごとの変換 Ø 実験結果: – リフタ学習により,品質を劣化させずにタップ⻑を1/16まで削減可能 – サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上 Ø 今後の課題: – リフタ学習とサブバンド処理を組み合わせた⼿法の評価 – 提案法に基づく,広帯域リアルタイム声質変換の実装・評価 31

×