©Yuki Saito, 2017/03/16
敵対的DNN音声合成における 𝐹0・継続長の生成
◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
日本音響学会 2017年春季研究発表会
講演番号 2-6-6
/16
 問題点: 統計的パラメトリック音声合成の音質劣化
– 生成される音声特徴量系列の過剰な平滑化が一因
 従来法: 敵対的DNN音声合成 [Saito et al., 2017.]
– 声のなりすましを防ぐ anti-spoofing を詐称するように学習
– 自然 / 合成音声特徴量の分布の違いを補償
– スペクトル特徴量のみに関して有効性を確認
 本発表: 敵対的DNN音声合成による 𝐹0・継続長の生成
– スペクトル特徴量と 𝐹0 の同時分布を補償
– 言語依存の等時性を考慮した継続長の生成法を提案
 結果: 𝐹0の生成に関して提案法による音質改善を確認
1
本発表の概要
/16
Minimum Generation Error (MGE) 学習
2
Generation
error
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
[Wu et al., 2016.]
Natural
speech
params.
𝐿G 𝒚, ෝ𝒚 =
1
𝑇
ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize
𝒚
ML-based
parameter
generation
Generated
speech
params.ෝ𝒚
Acoustic models
⋯
⋯
⋯
Frame
𝑡 = 1
Static-dynamic
mean vectors
Frame
𝑡 = 𝑇
音素継続長も同様の枠組みで生成可能 [Zen et al., 2013.]
/16
Anti-Spoofing: 声のなりすましを防ぐ識別器
3
[Wu et al., 2016.] [Chen et al., 2015.]
𝐿D 𝒚, ෝ𝒚 = → Minimize−
1
𝑇
෍
𝑡=1
𝑇
log 𝐷 𝒚 𝑡 −
1
𝑇
෍
𝑡=1
𝑇
log 1 − 𝐷 ෝ𝒚 𝑡
ෝ𝒚
Cross entropy
𝐿D 𝒚, ෝ𝒚
1: natural
0: generated
Generated
speech params.
𝒚Natural
speech params.
Feature
function
𝝓 ⋅
本発表では
𝝓 𝒚 𝑡 = 𝒚 𝑡
Anti-spoofing
𝐷 ⋅
or
𝐿D,1 𝒚 𝐿D,0 ෝ𝒚
合成音声を
合成音声と識別させる
自然音声を
自然音声と識別させる
/144
𝜔D: 重み, 𝐸 𝐿G
, 𝐸 𝐿D
: 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値
𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D
𝐸 𝐿G
𝐸 𝐿D
𝐿D,1 ෝ𝒚 → Minimize
敵対的DNN音声合成 [Saito et al., 2017.]
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
Natural
𝒚
ML-based
parameter
generation
Generated
ෝ𝒚
Acoustic models
⋯
⋯
⋯
𝐿D,1 ෝ𝒚
1: natural
Feature
function
𝝓 ⋅
Anti-spoofing
合成音声を
自然音声と識別させる
/145
敵対的学習 [Goodfellow et al., 2014.] による
分布補償効果
21st mel-cepstral coefficient
23rdmel-cepstral
coefficient
Natural MGE Proposed
分布の違いを補償し, 過剰な平滑化を緩和!
/166
提案法:
敵対的DNN音声合成による
スペクトル・𝐹0・継続長の生成
従来法:
敵対的DNN音声合成による
スペクトル特徴量の生成
/167
敵対的DNN音声合成によるスペクトル・𝐹0 の生成
 従来法の予測パラメータ:
– メルケプストラムのみ
 本発表の予測パラメータ:
– メルケプストラム, 連続対数 𝐹0, 非周期成分, U/V
– メルケプストラムと連続対数 𝐹0 を anti-spoofing に入力
Generated
speech params.
Mel-cepstral
coefficients
Continuous log 𝐹0
U/V
Band
aperiodicity
Natural
speech params.
𝒚ෝ𝒚
𝐿G 𝒚, ෝ𝒚
Input to anti-spoofing
/16
言語依存の等時性を考慮した継続長生成
෡𝒅p
...
sil
a
r
a
y
u
sil
෡𝒅p
Generated
phoneme durations
𝒅pNatural
phoneme durations
𝐿G 𝒅p, ෡𝒅p
𝐿D,1
෡𝒅p
1: natural
Anti-spoofing
8
音素継続長分布の補償 ⇏ モーラ継続長分布の補償
/16
言語依存の等時性を考慮した継続長生成
sil
a
ra
yu
...
sil
...
+
+
Language-dependent
pooling
෡𝒅p
...
sil
a
r
a
y
u
sil
Generated
mora durations෡𝒅m
෡𝒅p
Generated
phoneme durations
𝒅pNatural
phoneme durations
𝐿G 𝒅p, ෡𝒅p
𝐿D,1
෡𝒅m
1: natural
Anti-spoofing
9
/1610
考察
 𝐹0 の生成:
– スペクトルと 𝐹0 の同時分布を補償可能
• 異なる特徴量の相関を考慮した学習 [Tanaka et al., 2014.]
• 特徴量の次元数を考慮した学習 [Kang et al., 2014.] も可能
 継続長の生成:
– 多重解像度に基づく敵対的学習 [Zhang et al., 2016.] に類似
• 高い時間解像度における生成誤差最小化
• 低い時間解像度における敵対的学習
– スペクトル・ 𝐹0・継続長の同時分布も補償可能
• Un-pooling により音素継続長をフレームレベルに展開可能
/1611
実験的評価
/16
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ
25次元のメルケプストラム, 連続対数 𝐹0,
5帯域の非周期成分, U/V
コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など)
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)
DNNアーキテクチャ
Feed-Forward, ReLU nonlinearity
(詳細は原稿参照)
12
𝐹0 生成, 継続長生成それぞれに関して提案法の有効性を検証
/1613
𝐹0 生成に関する主観評価結果
 比較手法:
– MGE: 従来のMGE学習
– ADV (sp): 敵対的DNN音声合成 (スペクトルのみ)
– ADV (sp+F0): 同上 (スペクトル & 𝐹0)
ADV (SP+F0)
ADV (SP)
エラーバーは95%信頼区間
MGE
0.0 0.2 0.4
改善
 プリファレンススコア (評価者数8名)
更に改善
0.6 0.8 1.0
/1614
継続長生成に関する主観評価結果
エラーバーは95%信頼区間
 比較手法:
– MGE: 従来のMGE学習
– ADV (phoneme): 敵対的DNN音声合成 (音素継続長)
– ADV (mora): 同上 (モーラ継続長)
ADV (phoneme)
ADV (mora)
MGE
0.0
 プリファレンススコア (評価者数8名)
有意差なし
0.2 0.4 0.6 0.8 1.0
/16
 MGE学習後の特徴量を用いて anti-spoofing を構築
– Anti-spoofing に有効な特徴量 → 自然音声との違いが大きい
• スペクトル & 𝐹0 → 有効
• 音素/モーラ継続長 → 有効でない
15
Anti-spoofing における特徴量の有効性
継続長を用いた anti-spoofing は困難 → 提案法の効果小
スペクトル & 𝐹0
音素継続長
モーラ継続長
0.0
Anti-spoofing の accuracy
0.2 0.4 0.6 0.8 1.0
/1616
まとめ
 目的: 統計的パラメトリック音声合成の音質改善
 提案手法:
– (1) 敵対的DNN音声合成によるスペクトル・ 𝐹0 の生成
• 主観評価により音質改善を確認
– (2) モーラ等時性を考慮した継続長生成 + 敵対的DNN音声合成
• 主観評価において有意差は確認できず
• 継続長を用いた anti-spoofing の難しさに起因
 今後の予定:
• 他言語・オーディオブックのタスクへの適用

saito2017asj_tts