差分スペクトル法に基づくDNN声質変換の
ためのリフタ学習及びサブバンド処理
佐伯⾼明, 齋藤佑樹, ⾼道慎之介, 猿渡洋
東⼤院・情報理⼯
SLP研究会 2020/02/13
2020/02/13©Takaaki Saeki
The University of Tokyo
/31
研究背景: 統計的声質変換
統計的声質変換
– ある⼈の声を,別の⼈の声に⾔語情報を変えずに変換
– 変換元話者と変換先話者のデータから,変換の統計モデルを学習
2
Iʼm a university student.
I study physics.
You are an engineer.
I study physics.
Iʼm a university student.
You are an engineer.
データから変換の関数を推定
パラ・⾮⾔語情報のみ変換
/31
研究背景: 声質変換の実応⽤先
Ø 物理的制約を超えた⾳声コミュニケーションの実現
– エンタメ⽤途や医療福祉⽤途など,様々な応⽤先
– 実応⽤上は,品質だけでなくリアルタイム性が必要
3
バーチャル配信 歌声変換 発話・発声補助
/31
研究背景: リアルタイム声質変換
従来のリアルタイム声質変換
– ボコーダベースのリアルタイム声質変換 [Toda12][Arakawa19]
• 16 kHzサンプリング⾳声を遅延50 ms程度で変換可能
• ボコーダによる品質劣化・計算コストが⾼いなどの問題
本研究でのアプローチ
–差分スペクトル法に基づく⾼品質・計算効率の⾼い声質変換
• 波形ドメインでのフィルタリングに基づく⼿法
• Deep Neural Network (DNN)により⾳響特徴量を変換
• フィルタリングの計算量を削減し,広帯域⾳声に適⽤
4
/31
本発表の概要
Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18]
– ⾼品質だが,変換時の畳み込みの計算コストが増⼤
– 帯域拡張した際に変換⾳声の品質が劣化
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習
– DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習
Ø 提案法2: サブバンド処理による帯域ごとの変換
– 変換元話者の⾳声波形を帯域ごとに別々に変換
Ø 実験的評価:
– リフタ学習により,品質を劣化させずに計算量を削減
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
5
/31
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質
6
X
Filter
⊗
話者X 話者Y
Y-X
/31
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し,変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質
7
X
Filter
⊗
実ケプストラムを変換
位相復元話者X 話者Y
Y-X
/31
従来法の学習プロセス
8
𝐹($)
⊕
𝐿
Ø DNNで差分フィルタの低次実ケプストラムを推定
Ø と との⼆乗誤差を最⼩化するようにDNNを学習
変換⾳声の低次
実ケプストラム
STFT*
(𝐶(*)
𝐶(*)
DNN
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
変換元話者の低次
実ケプストラム
差分フィルタの低次
実ケプストラム
変換先話者の低次
実ケプストラム
変換元話者の
複素スペクトル
* Short time Fourier transform
/31
従来法の学習プロセス
9
𝐹($)
⊕
𝐿
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
⼆乗誤差Lを最⼩化
Ø DNNで差分フィルタの低次実ケプストラムを推定
Ø と との⼆乗誤差を最⼩化するようにDNNを学習(𝐶(*)
𝐶(*)
DNN
/31
従来法の変換プロセス
10
学習したDNNと最⼩位相復元により差分フィルタを構成
計算量削減のためにタップ⻑𝑙で打ち切り,畳み込み演算を⾏う
STFT
ヒルベルト変換
𝒖./0
畳み込み
最⼩位相化のための
リフタ係数 (定数) [Pei2006]
タップ⻑𝑙で
打ち切り
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
逆フーリエ
変換
𝑓(2)
DNN
/31
従来法の変換プロセスの詳細
11
𝐶(+)
𝒖./0
𝐹(+)
DNN
𝒖./0 = 4
1 (𝑛 = 0, 𝑛 = 𝑁/2)
2 (0 < 𝑛 < 𝑁/2)
0 (𝑛 > 𝑁/2)
𝑓(+)
𝑓(2)
⊗
ヒルベルト変換
打ち切り
タップ⻑𝑙 逆フーリエ変換
最⼩位相化のための
リフタ係数 (定数) [Pei2006]
/31
提案法
12
/31
提案する2⼿法の概要
13
最⼩位相
16 kHz
品質 (話者類似性,⾳質)
計
算
効
率
最⼩位相
48 kHz
帯域拡張
広帯域化で品質は上がるが
⾼域のランダム性により
変換⾳声の品質は低下
リフタ学習
16 kHz
サブバンド
48 kHz
提案法1
リフタ学習
提案法2
サブバンド処理
Better
/31
提案する2⼿法の概要
14
最⼩位相
16 kHz
品質 (話者類似性,⾳質)
計
算
効
率
リフタ学習
16 kHz
提案法1
リフタ学習 Better
/31
Ø 最⼩位相フィルタは,⾼品質な反⾯,計算量が⼤きい
Ø フィルタをあるタップ⻑で打ち切ることで,計算量削減
– 単に打ち切っただけでは,品質が劣化してしまう
Ø 提案法1:
フィルタの打ち切り過程を学習に含め,DNNの
パラメータとヒルベルト変換のリフタを同時に学習
提案法1: フィルタ打ち切りを考慮したリフタ学習
15
打ち切り
タップ⻑𝑙
𝑓(+)
𝑓(2)
/31
提案法1: リフタ学習法の学習プロセス
16
フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習
全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
学習により更新する
リフタ係数
ヒルベルト変換
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN
/31
提案法1: リフタ学習法の学習プロセス
17
フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習
全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
学習により更新する
リフタ係数
ヒルベルト変換
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN 打ち切り過程
/31
提案法1: リフタ学習法の学習プロセス
18
フィルタ打ち切りを学習に含め,DNNとリフタ係数を同時に学習
全過程で微分可能であり,誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
ヒルベルト変換
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN ⼆乗誤差Lを最⼩化
/31
提案法1: リフタ学習法の変換プロセス
19
学習したDNNとリフタ係数により差分フィルタを求める
フィルタを時間領域で畳み込むことにより変換
逆フーリエ変換𝒖
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
畳み込み
⊗
𝐶(+)
DNN
学習済みリフタ係数
ヒルベルト変換
タップ⻑𝑙で
打ち切り
/31
提案する2⼿法の概要
20
最⼩位相
16 kHz
品質 (話者類似性,⾳質)
計
算
効
率
最⼩位相
48 kHz
帯域拡張
広帯域化で品質は上がるが
⾼域のランダム性により
変換⾳声の品質は低下 サブバンド
48 kHz
提案法2
サブバンド処理
Better
/31
従来法を帯域拡張した時の問題点
Ø 差分スペクトル法を48 kHz⾳声の変換に適⽤
– 帯域拡張しても⼤きく品質が上がらない
– ランダムな⾼域成分を変換することにより品質劣化が⽣じる
21
Time
Source speech Filter Converted speech⊗
𝐹(+) ?𝐹(*)𝐹($)
Frequency
(log amp.)
/31
提案法2: サブバンド処理による変換
Ø サブバンド処理による帯域ごとの変換
– 低域のみに差分フィルタを適⽤し,⾼域は⼊⼒をそのまま通す
– ⾼域の変換を回避し,変換⾳声の品質を向上させる
22
Time
Frequency
Source speech Filter Converted speech⊗
Frequency
(log amp.)
𝐹@(+) ?𝐹(*)𝐹($)
/31
提案法2: サブバンド処理による変換
23
8 kHz未満の低域成分のみに差分フィルタを適⽤する
8 kHz以上の⾼域成分は⼊⼒をそのまま通す
23
𝒖./0
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
𝑓(2)
𝐹@(+)
⾼域をそのまま通すための処理
DNN
/31
実験的評価
24
/31
実験条件
25
データ データセット 男性話者: JVS corpus [Takamichi19]
⼥性話者: JSUT corpus [Sonobe17]
声優統計 corpus [y_benjo17]
Train / Valid / Test 80⽂ / 10⽂ / 10⽂
サンプリングレート 16 kHzと48 kHzの2条件
STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点
低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次
窓⻑ 25 ms
フレームシフト 5 ms
学習条件 DNNアーキテクチャ 隠れ層2層のfeedforward型
Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価
Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価
/31
実験的評価の概要
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価
–16 kHzサンプリング⾳声に対する客観評価
• Testデータに対するRoot Mean Squared Error (RMSE)
–16 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
Ø 提案法2: サブバンド処理による変換の評価
–48 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
26
/31
リフタ学習法の客観評価結果 (16 kHz)
27
Ø 全ケースでリフタ学習法のRMSE < 従来法のRMSE
– リフタ学習法は従来法よりも,フィルタ打ち切りの影響を低減
/31
リフタ学習法の主観評価結果 (16 kHz)
28
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f)
Ø 話者性に関するpreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,話者性を損なわずに計算量削減
/31
リフタ学習法の主観評価結果 (16 kHz)
29
Ø ⾳質に関するPreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により,⾳質を損なわずに計算量削減
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)
/31
サブバンド処理の主観評価結果 (48 kHz)
30
サブバンド処理 Score 従来法
m2m 0.519 0.481 m2m
f2f 0.603 0.397 f2f
サブバンド処理 Score 従来法
m2m 0.721 0.279 m2m
f2f 0.700 0.300 f2f
Ø 話者性に関するPreference score
Ø ⾳質に関するPreference score
Ø サブバンド処理により変換⾳声の品質が向上
Ø 特に⾳質に対する効果が顕著
/31
まとめ
Ø 研究⽬的:
– 広帯域リアルタイム声質変換に向けた品質・計算効率の向上
Ø 提案法:
– フィルタ打ち切りを考慮したリフタ学習
– サブバンド処理による帯域ごとの変換
Ø 実験結果:
– リフタ学習により,品質を劣化させずにタップ⻑を1/16まで削減可能
– サブバンド処理により,広帯域変換⾳声の品質を⼤幅に向上
Ø 今後の課題:
– リフタ学習とサブバンド処理を組み合わせた⼿法の評価
– 提案法に基づく,広帯域リアルタイム声質変換の実装・評価
31

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理