差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

差分スペクトル法に基づくDNN声質変換の
ためのリフタ学習及びサブバンド処理
佐伯⾼明, 齋藤佑樹, ⾼道慎之介, 猿渡洋
東⼤院・情報理⼯
SLP研究会 2020/02/13
2020/02/13©Takaaki Saeki
The University of Tokyo

/31
研究背景: 統計的声質変換
統計的声質変換
– ある⼈の声を，別の⼈の声に⾔語情報を変えずに変換
– 変換元話者と変換先話者のデータから，変換の統計モデルを学習
2
Iʼm a university student.
I study physics.
You are an engineer.
I study physics.
Iʼm a university student.
You are an engineer.
データから変換の関数を推定
パラ・⾮⾔語情報のみ変換

/31
研究背景: 声質変換の実応⽤先
Ø 物理的制約を超えた⾳声コミュニケーションの実現
– エンタメ⽤途や医療福祉⽤途など，様々な応⽤先
– 実応⽤上は，品質だけでなくリアルタイム性が必要
3
バーチャル配信歌声変換発話・発声補助

/31
研究背景: リアルタイム声質変換
従来のリアルタイム声質変換
– ボコーダベースのリアルタイム声質変換 [Toda12][Arakawa19]
• 16 kHzサンプリング⾳声を遅延50 ms程度で変換可能
• ボコーダによる品質劣化・計算コストが⾼いなどの問題
本研究でのアプローチ
–差分スペクトル法に基づく⾼品質・計算効率の⾼い声質変換
• 波形ドメインでのフィルタリングに基づく⼿法
• Deep Neural Network (DNN)により⾳響特徴量を変換
• フィルタリングの計算量を削減し，広帯域⾳声に適⽤
4

/31
本発表の概要
Ø 従来法: 最⼩位相フィルタを⽤いた差分スペクトル法 [Suda18]
– ⾼品質だが，変換時の畳み込みの計算コストが増⼤
– 帯域拡張した際に変換⾳声の品質が劣化
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習
– DNNのパラメータとヒルベルト変換のリフタ係数を同時に学習
Ø 提案法2: サブバンド処理による帯域ごとの変換
– 変換元話者の⾳声波形を帯域ごとに別々に変換
Ø 実験的評価:
– リフタ学習により，品質を劣化させずに計算量を削減
– サブバンド処理により，広帯域変換⾳声の品質を⼤幅に向上
5

/31
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し，変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質
6
X
Filter
⊗
話者X 話者Y
Y-X

/31
差分スペクトル法による声質変換 [Kobayashi14][Suda18]
Ø 差分フィルタを推定し，変換元話者の⾳声波形に直接適⽤
– ボコーダによる⾳質劣化を回避
– 最⼩位相フィルタによる⼿法はMLSAフィルタ [Imai83]より⾼品質
7
X
Filter
⊗
実ケプストラムを変換
位相復元話者X 話者Y
Y-X

/31
従来法の学習プロセス
8
𝐹($)
⊕
𝐿
Ø DNNで差分フィルタの低次実ケプストラムを推定
Ø ととの⼆乗誤差を最⼩化するようにDNNを学習
変換⾳声の低次
実ケプストラム
STFT*
(𝐶(*)
𝐶(*)
DNN
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
変換元話者の低次
差分フィルタの低次
変換先話者の低次
変換元話者の
複素スペクトル
* Short time Fourier transform

/31
従来法の学習プロセス
9
𝐹($)
⊕
𝐿
𝐶($)
𝐶(+)
(𝐶(*)
𝐶(*)
⼆乗誤差Lを最⼩化
Ø DNNで差分フィルタの低次実ケプストラムを推定
Ø ととの⼆乗誤差を最⼩化するようにDNNを学習(𝐶(*)
𝐶(*)
DNN

/31
従来法の変換プロセス
10
学習したDNNと最⼩位相復元により差分フィルタを構成
計算量削減のためにタップ⻑𝑙で打ち切り，畳み込み演算を⾏う
STFT
ヒルベルト変換
𝒖./0
畳み込み
最⼩位相化のための
リフタ係数 (定数) [Pei2006]
タップ⻑𝑙で
打ち切り
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
逆フーリエ
変換
𝑓(2)
DNN

/31
従来法の変換プロセスの詳細
11
𝐶(+)
𝒖./0
𝐹(+)
DNN
𝒖./0 = 4
1 (𝑛 = 0, 𝑛 = 𝑁/2)
2 (0 < 𝑛 < 𝑁/2)
0 (𝑛 > 𝑁/2)
𝑓(+)
𝑓(2)
⊗
打ち切り
タップ⻑𝑙 逆フーリエ変換
最⼩位相化のための
リフタ係数 (定数) [Pei2006]

/31
提案する2⼿法の概要
13
最⼩位相
16 kHz
品質 (話者類似性，⾳質)
計
算
効
率
最⼩位相
48 kHz
帯域拡張
広帯域化で品質は上がるが
⾼域のランダム性により
変換⾳声の品質は低下
リフタ学習
16 kHz
サブバンド
48 kHz
提案法1
リフタ学習
提案法2
サブバンド処理
Better

/31
14
最⼩位相
16 kHz
計
算
効
率
リフタ学習
16 kHz
提案法1
リフタ学習 Better

/31
Ø 最⼩位相フィルタは，⾼品質な反⾯，計算量が⼤きい
Ø フィルタをあるタップ⻑で打ち切ることで，計算量削減
– 単に打ち切っただけでは，品質が劣化してしまう
Ø 提案法1:
フィルタの打ち切り過程を学習に含め，DNNの
パラメータとヒルベルト変換のリフタを同時に学習
提案法1: フィルタ打ち切りを考慮したリフタ学習
15
打ち切り
タップ⻑𝑙
𝑓(+)
𝑓(2)

/31
提案法1: リフタ学習法の学習プロセス
16
フィルタ打ち切りを学習に含め，DNNとリフタ係数を同時に学習
全過程で微分可能であり，誤差逆伝播によりパラメータ更新可能
逆フーリエ変換𝒖
学習により更新する
リフタ係数
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN

/31
17
学習により更新する
リフタ係数
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN 打ち切り過程

/31
18
タップ⻑𝑙で
打ち切り
フーリエ変換
⨀
𝐿
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
𝐹(2)
?𝐹(*) (𝐶(*)
𝐶(*)
𝐶(+)
DNN ⼆乗誤差Lを最⼩化

/31
提案法1: リフタ学習法の変換プロセス
19
学習したDNNとリフタ係数により差分フィルタを求める
フィルタを時間領域で畳み込むことにより変換
𝐹($)
𝐶($)
𝐹(+) 𝑓(+)
𝑓(2)
畳み込み
⊗
𝐶(+)
DNN
学習済みリフタ係数
タップ⻑𝑙で
打ち切り

/31
20
最⼩位相
16 kHz
計
算
効
率
最⼩位相
48 kHz
帯域拡張
広帯域化で品質は上がるが
⾼域のランダム性により
変換⾳声の品質は低下サブバンド
48 kHz
提案法2
サブバンド処理
Better

/31
従来法を帯域拡張した時の問題点
Ø 差分スペクトル法を48 kHz⾳声の変換に適⽤
– 帯域拡張しても⼤きく品質が上がらない
– ランダムな⾼域成分を変換することにより品質劣化が⽣じる
21
Time
Source speech Filter Converted speech⊗
𝐹(+) ?𝐹(*)𝐹($)
Frequency
(log amp.)

/31
提案法2: サブバンド処理による変換
Ø サブバンド処理による帯域ごとの変換
– 低域のみに差分フィルタを適⽤し，⾼域は⼊⼒をそのまま通す
– ⾼域の変換を回避し，変換⾳声の品質を向上させる
22
Time
Frequency
Source speech Filter Converted speech⊗
Frequency
(log amp.)
𝐹@(+) ?𝐹(*)𝐹($)

/31
提案法2: サブバンド処理による変換
23
8 kHz未満の低域成分のみに差分フィルタを適⽤する
8 kHz以上の⾼域成分は⼊⼒をそのまま通す
23
𝒖./0
𝐹($)
𝐶($)
𝐶(+)
𝐹(+)
𝑓(+)
⊗
𝑓(2)
𝐹@(+)
⾼域をそのまま通すための処理
DNN

/31
実験条件
25
データデータセット男性話者: JVS corpus [Takamichi19]
⼥性話者: JSUT corpus [Sonobe17]
声優統計 corpus [y_benjo17]
Train / Valid / Test 80⽂ / 10⽂ / 10⽂
サンプリングレート 16 kHzと48 kHzの2条件
STFT条件 FFT⻑ 16 kHz: 512点, 48 kHz: 2048点
低次ケプストラム次数 16 kHz: 40次, 48 kHz: 120次
窓⻑ 25 ms
フレームシフト 5 ms
学習条件 DNNアーキテクチャ隠れ層2層のfeedforward型
Ø 男性から男性 (m2m)・⼥性から⼥性 (f2f)の変換を評価
Ø 16 kHz・48 kHzサンプリングの⾳声を⽤いて評価

/31
実験的評価の概要
Ø 提案法1: フィルタ打ち切りを考慮したリフタ学習の評価
–16 kHzサンプリング⾳声に対する客観評価
• Testデータに対するRoot Mean Squared Error (RMSE)
–16 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
Ø 提案法2: サブバンド処理による変換の評価
–48 kHzサンプリング⾳声に対する主観評価
• 話者性に関するXABテスト・⾳質に関するABテスト
• 各ケースにつき30⼈の評価者が10個の⾳声を評価
26

/31
リフタ学習法の客観評価結果 (16 kHz)
27
Ø 全ケースでリフタ学習法のRMSE < 従来法のRMSE
– リフタ学習法は従来法よりも，フィルタ打ち切りの影響を低減

/31
リフタ学習法の主観評価結果 (16 kHz)
28
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.642 0.358 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.543 0.457 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.613 0.387 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.548 0.452 𝑙 = 512 (f2f)
Ø 話者性に関するpreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により，話者性を損なわずに計算量削減

/31
リフタ学習法の主観評価結果 (16 kHz)
29
Ø ⾳質に関するPreference score
Ø - リフタ学習法で打ち切り > 従来法で打ち切り
Ø - リフタ学習法で打ち切り >= 従来法で打ち切らない
Ø リフタ学習により，⾳質を損なわずに計算量削減
リフタ学習法 Score 従来法
𝑙 = 32 (f2f) 0.807 0.193 𝑙 = 32 (f2f)
𝑙 = 32 (f2f) 0.742 0.258 𝑙 = 512 (f2f)
𝑙 = 48 (f2f) 0.581 0.419 𝑙 = 48 (f2f)
𝑙 = 48 (f2f) 0.513 0.487 𝑙 = 512 (f2f)

/31
サブバンド処理の主観評価結果 (48 kHz)
30
サブバンド処理 Score 従来法
m2m 0.519 0.481 m2m
f2f 0.603 0.397 f2f
サブバンド処理 Score 従来法
m2m 0.721 0.279 m2m
f2f 0.700 0.300 f2f
Ø 話者性に関するPreference score
Ø ⾳質に関するPreference score
Ø サブバンド処理により変換⾳声の品質が向上
Ø 特に⾳質に対する効果が顕著

/31
まとめ
Ø 研究⽬的:
– 広帯域リアルタイム声質変換に向けた品質・計算効率の向上
Ø 提案法:
– フィルタ打ち切りを考慮したリフタ学習
– サブバンド処理による帯域ごとの変換
Ø 実験結果:
– リフタ学習により，品質を劣化させずにタップ⻑を1/16まで削減可能
– サブバンド処理により，広帯域変換⾳声の品質を⼤幅に向上
Ø 今後の課題:
– リフタ学習とサブバンド処理を組み合わせた⼿法の評価
– 提案法に基づく，広帯域リアルタイム声質変換の実装・評価
31

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

More Related Content

What's hot

Similar to 差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理

差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理