Successfully reported this slideshow.

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

0

Share

Upcoming SlideShare
What to Upload to SlideShare
What to Upload to SlideShare
Loading in …3
×
1 of 31
1 of 31

More Related Content

Related Books

Free with a 14 day trial from Scribd

See all

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

  1. 1. 差分スペクトル法に基づくDNN声質変換の ためのリフタ学習及びサブバンド処理 佐伯⾼明, 齋藤佑樹, ⾼道慎之介, 猿渡洋 東⼤院・情報理⼯ SLP研究会 2020/02/13 2020/02/13©Takaaki Saeki The University of Tokyo
  2. 2. /31 研究背景: 統計的声質変換 統計的声質変換 – ある⼈の声を,別の⼈の声に⾔語情報を変えずに変換 – 変換元話者と変換先話者のデータから,変換の統計モデルを学習 2 Iʼm a university student. I study physics. You are an engineer. I study physics. Iʼm a university student. You are an engineer. データから変換の関数を推定 パラ・⾮⾔語情報のみ変換
  3. 3. /31 研究背景: 声質変換の実応⽤先 Ø 物理的制約を超えた⾳声コミュニケーションの実現 – エンタメ⽤途や医療福祉⽤途など,様々な応⽤先 – 実応⽤上は,品質だけでなくリアルタイム性が必要 3 バーチャル配信 歌声変換 発話・発声補助
  4. 4. /31 研究背景: リアルタイム声質変換 従来のリアルタイム声質変換 – ボコーダベースのリアルタイム声質変換 [Toda12][Arakawa19] • 16 kHzサンプリング⾳声を遅延50 ms程度で変換可能 • ボコーダによる品質劣化・計算コストが⾼いなどの問題 本研究でのアプローチ –差分スペクトル法に基づく⾼品質・計算効率の⾼い声質変換 • 波形ドメインでのフィルタリングに基づく⼿法 • Deep Neural Network (DNN)により⾳響特徴量を変換 • フィルタリングの計算量を削減し,広帯域⾳声に適⽤ 4
  5. 5. /31 本発表の概要 Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18] – ⾼品質だが,変換時の畳み込みの計算コストが増⼤ – 帯域拡張した際に変換⾳声の品質が劣化 Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習 – DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習 Ø 提案法2: サブバンド処理による帯域ごとの変換 – 変換元話者の⾳声波形を帯域ごとに別々に変換 Ø 実験的評価: – リフタ学習により,品質を劣化させずに計算量を削減 – サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上 5
  6. 6. /31 差分スペクトル法による声質変換 [Kobayashi14][Suda18] Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤ – ボコーダによる⾳質劣化を回避 – 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質 6 X Filter ⊗ 話者X 話者Y Y-X
  7. 7. /31 差分スペクトル法による声質変換 [Kobayashi14][Suda18] Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤ – ボコーダによる⾳質劣化を回避 – 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質 7 X Filter ⊗ 実ケプストラムを変換 位相復元話者X 話者Y Y-X
  8. 8. /31 従来法の学習プロセス 8 𝐹($) ⊕ 𝐿 Ø DNNで差分フィルタの低次実ケプストラムを推定 Ø と との⼆乗誤差を最⼩化するようにDNNを学習 変換⾳声の低次 実ケプストラム STFT* (𝐶(*) 𝐶(*) DNN 𝐶($) 𝐶(+) (𝐶(*) 𝐶(*) 変換元話者の低次 実ケプストラム 差分フィルタの低次 実ケプストラム 変換先話者の低次 実ケプストラム 変換元話者の 複素スペクトル * Short time Fourier transform
  9. 9. /31 従来法の学習プロセス 9 𝐹($) ⊕ 𝐿 𝐶($) 𝐶(+) (𝐶(*) 𝐶(*) ⼆乗誤差Lを最⼩化 Ø DNNで差分フィルタの低次実ケプストラムを推定 Ø と との⼆乗誤差を最⼩化するようにDNNを学習(𝐶(*) 𝐶(*) DNN
  10. 10. /31 従来法の変換プロセス 10 学習したDNNと最⼩位相復元により差分フィルタを構成 計算量削減のためにタップ⻑𝑙で打ち切り,畳み込み演算を⾏う STFT ヒルベルト変換 𝒖./0 畳み込み 最⼩位相化のための リフタ係数 (定数) [Pei2006] タップ⻑𝑙で 打ち切り 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) ⊗ 逆フーリエ 変換 𝑓(2) DNN
  11. 11. /31 従来法の変換プロセスの詳細 11 𝐶(+) 𝒖./0 𝐹(+) DNN 𝒖./0 = 4 1 (𝑛 = 0, 𝑛 = 𝑁/2) 2 (0 < 𝑛 < 𝑁/2) 0 (𝑛 > 𝑁/2) 𝑓(+) 𝑓(2) ⊗ ヒルベルト変換 打ち切り タップ⻑𝑙 逆フーリエ変換 最⼩位相化のための リフタ係数 (定数) [Pei2006]
  12. 12. /31 提案法 12
  13. 13. /31 提案する2⼿法の概要 13 最⼩位相 16 kHz 品質 (話者類似性,⾳質) 計 算 効 率 最⼩位相 48 kHz 帯域拡張 広帯域化で品質は上がるが ⾼域のランダム性により 変換⾳声の品質は低下 リフタ学習 16 kHz サブバンド 48 kHz 提案法1 リフタ学習 提案法2 サブバンド処理 Better
  14. 14. /31 提案する2⼿法の概要 14 最⼩位相 16 kHz 品質 (話者類似性,⾳質) 計 算 効 率 リフタ学習 16 kHz 提案法1 リフタ学習 Better
  15. 15. /31 Ø 最⼩位相フィルタは,⾼品質な反⾯,計算量が⼤きい Ø フィルタをあるタップ⻑で打ち切ることで,計算量削減 – 単に打ち切っただけでは,品質が劣化してしまう Ø 提案法1: フィルタの打ち切り過程を学習に含め,DNNの パラメータとヒルベルト変換のリフタを同時に学習 提案法1: フィルタ打ち切りを考慮したリフタ学習 15 打ち切り タップ⻑𝑙 𝑓(+) 𝑓(2)
  16. 16. /31 提案法1: リフタ学習法の学習プロセス 16 フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 学習により更新する リフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) ?𝐹(*) (𝐶(*) 𝐶(*) 𝐶(+) DNN
  17. 17. /31 提案法1: リフタ学習法の学習プロセス 17 フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 学習により更新する リフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) ?𝐹(*) (𝐶(*) 𝐶(*) 𝐶(+) DNN 打ち切り過程
  18. 18. /31 提案法1: リフタ学習法の学習プロセス 18 フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習 全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能 逆フーリエ変換𝒖 ヒルベルト変換 タップ⻑𝑙で 打ち切り フーリエ変換 ⨀ 𝐿 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 𝐹(2) ?𝐹(*) (𝐶(*) 𝐶(*) 𝐶(+) DNN ⼆乗誤差Lを最⼩化
  19. 19. /31 提案法1: リフタ学習法の変換プロセス 19 学習したDNNとリフタ係数により差分フィルタを求める フィルタを時間領域で畳み込むことにより変換 逆フーリエ変換𝒖 𝐹($) 𝐶($) 𝐹(+) 𝑓(+) 𝑓(2) 畳み込み ⊗ 𝐶(+) DNN 学習済みリフタ係数 ヒルベルト変換 タップ⻑𝑙で 打ち切り
  20. 20. /31 提案する2⼿法の概要 20 最⼩位相 16 kHz 品質 (話者類似性,⾳質) 計 算 効 率 最⼩位相 48 kHz 帯域拡張 広帯域化で品質は上がるが ⾼域のランダム性により 変換⾳声の品質は低下 サブバンド 48 kHz 提案法2 サブバンド処理 Better
  21. 21. /31 従来法を帯域拡張した時の問題点 Ø 差分スペクトル法を48 kHz⾳声の変換に適⽤ – 帯域拡張しても⼤きく品質が上がらない – ランダムな⾼域成分を変換することにより品質劣化が⽣じる 21 Time Source speech Filter Converted speech⊗ 𝐹(+) ?𝐹(*)𝐹($) Frequency (log amp.)
  22. 22. /31 提案法2: サブバンド処理による変換 Ø サブバンド処理による帯域ごとの変換 – 低域のみに差分フィルタを適⽤し,⾼域は⼊⼒をそのまま通す – ⾼域の変換を回避し,変換⾳声の品質を向上させる 22 Time Frequency Source speech Filter Converted speech⊗ Frequency (log amp.) 𝐹@(+) ?𝐹(*)𝐹($)
  23. 23. /31 提案法2: サブバンド処理による変換 23 8 kHz未満の低域成分のみに差分フィルタを適⽤する 8 kHz以上の⾼域成分は⼊⼒をそのまま通す 23 𝒖./0 𝐹($) 𝐶($) 𝐶(+) 𝐹(+) 𝑓(+) ⊗ 𝑓(2) 𝐹@(+) ⾼域をそのまま通すための処理 DNN
  24. 24. /31 実験的評価 24
  25. 25. /31 実験条件 25 データ データセット 男性話者: JVS corpus [Takamichi19] ⼥性話者: JSUT corpus [Sonobe17] 声優統計 corpus [y_benjo17] Train / Valid / Test 80⽂ / 10⽂ / 10⽂ サンプリングレート 16 kHzと48 kHzの2条件 STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点 低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次 窓⻑ 25 ms フレームシフト 5 ms 学習条件 DNNアーキテクチャ 隠れ層2層のfeedforward型 Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価 Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価
  26. 26. /31 実験的評価の概要 Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価 –16 kHzサンプリング⾳声に対する客観評価 • Testデータに対するRoot Mean Squared Error (RMSE) –16 kHzサンプリング⾳声に対する主観評価 • 話者性に関するXABテスト・⾳質に関するABテスト • 各ケースにつき30⼈の評価者が10個の⾳声を評価 Ø 提案法2: サブバンド処理による変換の評価 –48 kHzサンプリング⾳声に対する主観評価 • 話者性に関するXABテスト・⾳質に関するABテスト • 各ケースにつき30⼈の評価者が10個の⾳声を評価 26
  27. 27. /31 リフタ学習法の客観評価結果 (16 kHz) 27 Ø 全ケースでリフタ学習法のRMSE < 従来法のRMSE – リフタ学習法は従来法よりも,フィルタ打ち切りの影響を低減
  28. 28. /31 リフタ学習法の主観評価結果 (16 kHz) 28 リフタ学習法 Score 従来法 𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f) 𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f) 𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f) 𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f) Ø 話者性に関するpreference score Ø - リフタ学習法で打ち切り > 従来法で打ち切り Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない Ø リフタ学習により,話者性を損なわずに計算量削減
  29. 29. /31 リフタ学習法の主観評価結果 (16 kHz) 29 Ø ⾳質に関するPreference score Ø - リフタ学習法で打ち切り > 従来法で打ち切り Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない Ø リフタ学習により,⾳質を損なわずに計算量削減 リフタ学習法 Score 従来法 𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f) 𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f) 𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f) 𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)
  30. 30. /31 サブバンド処理の主観評価結果 (48 kHz) 30 サブバンド処理 Score 従来法 m2m 0.519 0.481 m2m f2f 0.603 0.397 f2f サブバンド処理 Score 従来法 m2m 0.721 0.279 m2m f2f 0.700 0.300 f2f Ø 話者性に関するPreference score Ø ⾳質に関するPreference score Ø サブバンド処理により変換⾳声の品質が向上 Ø 特に⾳質に対する効果が顕著
  31. 31. /31 まとめ Ø 研究⽬的: – 広帯域リアルタイム声質変換に向けた品質・計算効率の向上 Ø 提案法: – フィルタ打ち切りを考慮したリフタ学習 – サブバンド処理による帯域ごとの変換 Ø 実験結果: – リフタ学習により,品質を劣化させずにタップ⻑を1/16まで削減可能 – サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上 Ø 今後の課題: – リフタ学習とサブバンド処理を組み合わせた⼿法の評価 – 提案法に基づく,広帯域リアルタイム声質変換の実装・評価 31

×