©Yuki Saito, 2017/02/17
DNNテキスト音声合成のための
Anti-spoofing に敵対する学習アルゴリズム
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学)
第115回 音声言語情報処理研究会(SIG-SLP)
音声合成・応用(1)
/21
 音声合成:
– 入力情報から音声を人工的に合成する技術
 統計的パラメトリック音声合成:
– 音声特徴量を統計モデルによりモデル化 & 生成
• Deep Neural Network (DNN) 音声合成 [Zen et al., 2013.]
– 利点: 高い汎用性 & 容易な応用
• アミューズメント応用 [Doi et al., 2013.] や 言語教育 [高道 他, 2015.] など
– 欠点: 合成音声の音質劣化
• 生成される特徴量系列の過剰な平滑化が一因
1
研究分野: 統計的パラメトリック音声合成
テキスト音声合成:
Text-To-Speech (TTS)
Text Speech
/21
 改善策: 自然 / 合成音声特徴量の分布の違いを補償
– 分布の2次モーメント (系列内変動など) [Toda et al., 2007.]
– ヒストグラム [Ohtani et al., 2012.]
 本発表: Anti-spoofing に敵対するDNNテキスト音声合成
– 声のなりすましを防ぐ anti-spoofing を詐称するように学習
– 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償
• 従来の補償手法の拡張に相当 [Goodfellow et al., 2014.]
 結果:
– 従来のDNN音響モデル学習と比較して音質が改善
– 提案手法におけるハイパーパラメータ設定の頑健性を確認
2
本発表の概要
/213
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/214
DNNを音響モデルとして用いたTTSの枠組み
𝒙
⋯
෡𝒀
Acoustic models
⋯
⋯
𝒙1
𝒙 𝑇
෡𝒀1
෡𝒀 𝑇
Spectrum
Continuous F0
Voiced / unvoiced
Band
aperiodicity
Linguistic
feats.
Static-dynamic
mean vectors
(generated speech feats.)
[Zen et al., 2013.]
⋯⋯
0
0
1
1
a
i
u
1
2
3
Phoneme
Accent
Mora
position
Frame
position
etc.
0
/21
従来のDNN音響モデル学習:
Minimum Generation Error (MGE) 学習
5
Generation
error
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
[Wu et al., 2016.]
Natural
speech
feats.
𝐿G 𝒚, ෝ𝒚 =
1
𝑇
ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚
Acoustic models
𝒙
⋯
෡𝒀
⋯
⋯
𝒙1
𝒙 𝑇
/216
MGE学習の問題点: 自然音声と異なる特徴量の分布
Natural MGE
21st mel-cepstral coefficient
23rdmel-cepstral
coefficient
自然音声と比較して特徴量の分布が縮小...
(系列内変動[Toda et al., 2007.] は分布の2次モーメントを明示的に補償)
/217
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/21
Anti-spoofing:
合成音声による声のなりすましを防ぐ識別器
8
[Wu et al., 2016.] [Chen et al., 2015.]
𝐿D,1 𝒚 𝐿D,0 ෝ𝒚
𝐿D 𝒚, ෝ𝒚 = → Minimize−
1
𝑇
෍
𝑡=1
𝑇
log 𝐷 𝒚 𝑡 −
1
𝑇
෍
𝑡=1
𝑇
log 1 − 𝐷 ෝ𝒚 𝑡
合成音声を
合成音声と識別させる
自然音声を
自然音声と識別させる
ෝ𝒚
Cross entropy
𝐿D 𝒚, ෝ𝒚
1: natural
0: generated
Generated
speech feats.
𝒚Natural
speech feats.
Feature
function
𝝓 ⋅
本発表では
𝝓 𝒚 𝑡 = 𝒚 𝑡
Anti-spoofing
𝐷 ⋅
or
/21
Anti-spoofing に敵対する音響モデル学習
9
𝜔D: 重み, 𝐸 𝐿G
, 𝐸 𝐿D
: 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値
合成音声を
自然音声と識別させる
𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D
𝐸 𝐿G
𝐸 𝐿D
𝐿D,1 ෝ𝒚 → Minimize
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚
Acoustic models
𝒙
⋯
෡𝒀
⋯
⋯
𝒙1
𝒙 𝑇
𝐿D,1 ෝ𝒚
1: natural
Feature
function
𝝓 ⋅
Anti-spoofing
𝐷 ⋅
/21
 ① 音響モデルの更新
 ② Anti-spoofing の更新
音響モデルと Anti-spoofing の交互最適化
10
①と②の反復により最終的な音響モデルを構築!
FixedUpdated
UpdatedFixed
𝐿G 𝒚, ෝ𝒚
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚𝒙
⋯
෡𝒀
⋯
⋯𝒙1
𝒙 𝑇
𝐿D,1 ෝ𝒚
1: natural
Feature
function
𝝓 ⋅
Linguistic
feats.
Natural
speech
feats.
𝒚
ML-based
parameter
generation
Generated
speech
feats.
ෝ𝒚𝒙
⋯
෡𝒀
⋯
⋯
𝒙1
𝒙 𝑇
𝐿D 𝒚, ෝ𝒚
1: natural
0: generated
Feature
function
𝝓 ⋅
or
/21
 音響モデル学習の損失関数:
– 敵対的学習 [Goodfellow et al., 2014.] と生成誤差最小化の組合せ
• 所望の入出力間対応関係を持った敵対的学習 [Reed et al., 2016.]
– 敵対的学習 = 真のデータ分布と生成分布間の距離最小化
• 分布間の距離 = Jensen-Shannon ダイバージェンス
• 自然 / 合成音声特徴量の分布の違いを補償
11
提案手法に関する考察: 敵対的学習に基づく分布補償
⋯
𝒚
𝒙
𝒚 の分布𝐷 𝒚
ෝ𝒚 の分布
学習の進行
/2112
自然音声に近づくような合成音声特徴量の生成
自然 / 合成音声特徴量の分布の違いを補償!
21st mel-cepstral coefficient
23rdmel-cepstral
coefficient
Natural MGE Proposed
/21
 系列内変動 (global variance): [Toda et al., 2007.]
– 特徴量分布の2次モーメント = 分布の広がり
13
系列内変動の補償
明示的に使用していないにもかかわらず,
anti-spoofing が系列内変動を自動的に補償!
Feature index
0 5 10 15 20
10-3
10-1
101
Globalvariance
Proposed
Natural
MGE
10-2
100
10-4
大
小
/21
 Maximal Information Coefficient (MIC): [Reshef et al., 2011.]
– 2変量間の非線形な相関を定量化する指標
– 自然音声の特徴量間の相関は弱まる傾向 [Ijima et al., 2016.]
14
提案手法による副次的効果: 不自然な相関の緩和
Natural MGE
0
6
12
18
24
0 6 12 18 24
0.0
0.2
0.4
0.6
0.8
1.0
強
弱
Proposed
特徴量の分布や系列内変動のみならず,
特徴量間の相関も補償!
0 6 12 18 24 0 6 12 18 24
/2115
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/21
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分
コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など)
前処理 Trajectory smoothing [Takamichi et al., 2015.]
予測パラメータ
メルケプストラム
(𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用)
最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)
音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear)
Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid)
16
/21
提案手法の初期化・学習および客観評価
17
 初期化:
– 音響モデル: MGE学習
– Anti-spoofing: 自然音声とMGE学習後の合成音声を識別
 学習時:
– 音響モデル: Anti-spoofing に敵対する学習
– Anti-spoofing: 自然音声と当該学習時点での合成音声を識別
 客観評価指標:
– 特徴量の生成誤差 𝐿G 𝒚, ෝ𝒚
– Anti-spoofing における詐称率
• 詐称率: 合成音声を自然音声と誤識別した割合
• ここでの anti-spoofing はMGE学習後の合成音声を用いて構築
提案手法の重み 𝜔D の変化に伴う客観評価指標の変化を調査
/21
客観評価結果
18
生成誤差 詐称率
0.0 0.2 0.4 0.6 0.8 1.0
重み 𝜔D
0.45
0.50
0.55
0.60
0.65
0.70
0.75
1.0
0.8
0.6
0.4
0.2
0.0
0.8
1.0
良
良
0.0 0.2 0.4 0.6 0.8 1.0
重み 𝜔D
悪化
改善
𝜔D ≥ 0.3 で 詐称率 ≥ 99%
/21
音質に関する主観評価結果
19
エラーバーは95%信頼区間
音声サンプル: http://sython.org/demo/icassp2017advtts/demo.html
Proposed
𝜔D = 1.0
Proposed
𝜔D = 0.3
MGE
𝜔D = 0.0
音質に関するプリファレンススコア (評価者数8名)
0.0 0.2 0.4 0.6 0.8 1.0
改善
有意差なし
音質の改善 & ハイパーパラメータ設定に対する頑健性を確認!
/2120
目次
 研究背景
 従来のDNN音響モデル学習
 Anti-spoofing に敵対するDNN音響モデル学習
 実験的評価
 まとめ
/21
まとめ
 目的: 統計的パラメトリック音声合成の音質改善
 提案手法: Anti-spoofing に敵対するDNNテキスト音声合成
• 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償
• 系列内変動だけでなく, 特徴量間の相関も補償
 結果:
– 従来のDNN音響モデル学習と比較して音質が改善
– 提案手法におけるハイパーパラメータ設定の頑健性を確認
 今後の検討事項:
– 時間・言語依存の anti-spoofing の導入
– 提案手法の 𝐹0・継続長生成への拡張
• → 2017年春季ASJ (3/16(木) 16:15 ~) で発表予定
21

Slp201702

  • 1.
    ©Yuki Saito, 2017/02/17 DNNテキスト音声合成のための Anti-spoofingに敵対する学習アルゴリズム 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 第115回 音声言語情報処理研究会(SIG-SLP) 音声合成・応用(1)
  • 2.
    /21  音声合成: – 入力情報から音声を人工的に合成する技術 統計的パラメトリック音声合成: – 音声特徴量を統計モデルによりモデル化 & 生成 • Deep Neural Network (DNN) 音声合成 [Zen et al., 2013.] – 利点: 高い汎用性 & 容易な応用 • アミューズメント応用 [Doi et al., 2013.] や 言語教育 [高道 他, 2015.] など – 欠点: 合成音声の音質劣化 • 生成される特徴量系列の過剰な平滑化が一因 1 研究分野: 統計的パラメトリック音声合成 テキスト音声合成: Text-To-Speech (TTS) Text Speech
  • 3.
    /21  改善策: 自然/ 合成音声特徴量の分布の違いを補償 – 分布の2次モーメント (系列内変動など) [Toda et al., 2007.] – ヒストグラム [Ohtani et al., 2012.]  本発表: Anti-spoofing に敵対するDNNテキスト音声合成 – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 従来の補償手法の拡張に相当 [Goodfellow et al., 2014.]  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認 2 本発表の概要
  • 4.
    /213 目次  研究背景  従来のDNN音響モデル学習 Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 5.
    /214 DNNを音響モデルとして用いたTTSの枠組み 𝒙 ⋯ ෡𝒀 Acoustic models ⋯ ⋯ 𝒙1 𝒙 𝑇 ෡𝒀1 ෡𝒀𝑇 Spectrum Continuous F0 Voiced / unvoiced Band aperiodicity Linguistic feats. Static-dynamic mean vectors (generated speech feats.) [Zen et al., 2013.] ⋯⋯ 0 0 1 1 a i u 1 2 3 Phoneme Accent Mora position Frame position etc. 0
  • 6.
    /21 従来のDNN音響モデル学習: Minimum Generation Error(MGE) 学習 5 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech feats. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇
  • 7.
    /216 MGE学習の問題点: 自然音声と異なる特徴量の分布 Natural MGE 21stmel-cepstral coefficient 23rdmel-cepstral coefficient 自然音声と比較して特徴量の分布が縮小... (系列内変動[Toda et al., 2007.] は分布の2次モーメントを明示的に補償)
  • 8.
    /217 目次  研究背景  従来のDNN音響モデル学習 Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 9.
    /21 Anti-spoofing: 合成音声による声のなりすましを防ぐ識別器 8 [Wu et al.,2016.] [Chen et al., 2015.] 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 ෍ 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 ෍ 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech feats. 𝒚Natural speech feats. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or
  • 10.
    /21 Anti-spoofing に敵対する音響モデル学習 9 𝜔D: 重み,𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 合成音声を 自然音声と識別させる 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 𝐷 ⋅
  • 11.
    /21  ① 音響モデルの更新 ② Anti-spoofing の更新 音響モデルと Anti-spoofing の交互最適化 10 ①と②の反復により最終的な音響モデルを構築! FixedUpdated UpdatedFixed 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Feature function 𝝓 ⋅ or
  • 12.
    /21  音響モデル学習の損失関数: – 敵対的学習[Goodfellow et al., 2014.] と生成誤差最小化の組合せ • 所望の入出力間対応関係を持った敵対的学習 [Reed et al., 2016.] – 敵対的学習 = 真のデータ分布と生成分布間の距離最小化 • 分布間の距離 = Jensen-Shannon ダイバージェンス • 自然 / 合成音声特徴量の分布の違いを補償 11 提案手法に関する考察: 敵対的学習に基づく分布補償 ⋯ 𝒚 𝒙 𝒚 の分布𝐷 𝒚 ෝ𝒚 の分布 学習の進行
  • 13.
  • 14.
    /21  系列内変動 (globalvariance): [Toda et al., 2007.] – 特徴量分布の2次モーメント = 分布の広がり 13 系列内変動の補償 明示的に使用していないにもかかわらず, anti-spoofing が系列内変動を自動的に補償! Feature index 0 5 10 15 20 10-3 10-1 101 Globalvariance Proposed Natural MGE 10-2 100 10-4 大 小
  • 15.
    /21  Maximal InformationCoefficient (MIC): [Reshef et al., 2011.] – 2変量間の非線形な相関を定量化する指標 – 自然音声の特徴量間の相関は弱まる傾向 [Ijima et al., 2016.] 14 提案手法による副次的効果: 不自然な相関の緩和 Natural MGE 0 6 12 18 24 0 6 12 18 24 0.0 0.2 0.4 0.6 0.8 1.0 強 弱 Proposed 特徴量の分布や系列内変動のみならず, 特徴量間の相関も補償! 0 6 12 18 24 0 6 12 18 24
  • 16.
    /2115 目次  研究背景  従来のDNN音響モデル学習 Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 17.
    /21 実験条件 データセット ATR 音素バランス503文(16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分 コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015.] 予測パラメータ メルケプストラム (𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear) Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid) 16
  • 18.
    /21 提案手法の初期化・学習および客観評価 17  初期化: – 音響モデル:MGE学習 – Anti-spoofing: 自然音声とMGE学習後の合成音声を識別  学習時: – 音響モデル: Anti-spoofing に敵対する学習 – Anti-spoofing: 自然音声と当該学習時点での合成音声を識別  客観評価指標: – 特徴量の生成誤差 𝐿G 𝒚, ෝ𝒚 – Anti-spoofing における詐称率 • 詐称率: 合成音声を自然音声と誤識別した割合 • ここでの anti-spoofing はMGE学習後の合成音声を用いて構築 提案手法の重み 𝜔D の変化に伴う客観評価指標の変化を調査
  • 19.
    /21 客観評価結果 18 生成誤差 詐称率 0.0 0.20.4 0.6 0.8 1.0 重み 𝜔D 0.45 0.50 0.55 0.60 0.65 0.70 0.75 1.0 0.8 0.6 0.4 0.2 0.0 0.8 1.0 良 良 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 悪化 改善 𝜔D ≥ 0.3 で 詐称率 ≥ 99%
  • 20.
    /21 音質に関する主観評価結果 19 エラーバーは95%信頼区間 音声サンプル: http://sython.org/demo/icassp2017advtts/demo.html Proposed 𝜔D =1.0 Proposed 𝜔D = 0.3 MGE 𝜔D = 0.0 音質に関するプリファレンススコア (評価者数8名) 0.0 0.2 0.4 0.6 0.8 1.0 改善 有意差なし 音質の改善 & ハイパーパラメータ設定に対する頑健性を確認!
  • 21.
    /2120 目次  研究背景  従来のDNN音響モデル学習 Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  • 22.
    /21 まとめ  目的: 統計的パラメトリック音声合成の音質改善 提案手法: Anti-spoofing に敵対するDNNテキスト音声合成 • 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 系列内変動だけでなく, 特徴量間の相関も補償  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認  今後の検討事項: – 時間・言語依存の anti-spoofing の導入 – 提案手法の 𝐹0・継続長生成への拡張 • → 2017年春季ASJ (3/16(木) 16:15 ~) で発表予定 21