More Related Content Similar to 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理 Similar to 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理(11) 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理5. /31
本発表の概要
Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18]
– ⾼品質だが,変換時の畳み込みの計算コストが増⼤
– 帯域拡張した際に変換⾳声の品質が劣化
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習
– DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習
Ø 提案法2: サブバンド処理による帯域ごとの変換
– 変換元話者の⾳声波形を帯域ごとに別々に変換
Ø 実験的評価:
– リフタ学習により,品質を劣化させずに計算量を削減
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
5
25. /31
実験条件
25
データ データセット 男性話者: JVS corpus [Takamichi19]
⼥性話者: JSUT corpus [Sonobe17]
声優統計 corpus [y_benjo17]
Train / Valid / Test 80⽂ / 10⽂ / 10⽂
サンプリングレート 16 kHzと48 kHzの2条件
STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点
低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次
窓⻑ 25 ms
フレームシフト 5 ms
学習条件 DNNアーキテクチャ 隠れ層2層のfeedforward型
Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価
Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価
26. /31
実験的評価の概要
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価
–16 kHzサンプリング⾳声に対する客観評価
• Testデータに対するRoot Mean Squared Error (RMSE)
–16 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
Ø 提案法2: サブバンド処理による変換の評価
–48 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
26
28. /31
リフタ学習法の主観評価結果 (16 kHz)
28
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f)
Ø 話者性に関するpreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,話者性を損なわずに計算量削減
29. /31
リフタ学習法の主観評価結果 (16 kHz)
29
Ø ⾳質に関するPreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,⾳質を損なわずに計算量削減
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)
30. /31
サブバンド処理の主観評価結果 (48 kHz)
30
サブバンド処理 Score 従来法
m2m 0.519 0.481 m2m
f2f 0.603 0.397 f2f
サブバンド処理 Score 従来法
m2m 0.721 0.279 m2m
f2f 0.700 0.300 f2f
Ø 話者性に関するPreference score
Ø ⾳質に関するPreference score
Ø サブバンド処理により変換⾳声の品質が向上
Ø 特に⾳質に対する効果が顕著
31. /31
まとめ
Ø 研究⽬的:
– 広帯域リアルタイム声質変換に向けた品質・計算効率の向上
Ø 提案法:
– フィルタ打ち切りを考慮したリフタ学習
– サブバンド処理による帯域ごとの変換
Ø 実験結果:
– リフタ学習により,品質を劣化させずにタップ⻑を1/16まで削減可能
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
Ø 今後の課題:
– リフタ学習とサブバンド処理を組み合わせた⼿法の評価
– 提案法に基づく,広帯域リアルタイム声質変換の実装・評価
31