Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
©Yuki Saito, 2016/09/16
DNN音声合成のための
Anti-spoofing を考慮した学習アルゴリズム
☆ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
日本音響学会 2016年秋季発表会
講演番号 3-...
/14
問題点: 統計的パラメトリック音声合成の音質劣化
• 生成される音声パラメータ系列の過剰な平滑化が一因
改善策: 自然 / 合成音声を識別できる解析的特徴量の分布を補償
• 例: 変調スペクトルの正規分布 [Takamichi et a...
/14
従来の音響モデル学習:
Minimum Generation Error (MGE) 学習
2
Generation
error
𝐿G 𝒄, ො𝒄
Linguistic
feats.
𝒄
[Wu et al., 2016.]
Stati...
/143
MGE学習の問題点: 自然音声と異なるパラメータ分布
分布の違いを補償する音響モデル学習法を提案
分布が縮小
Natural MGE
20th mel-cepstral coefficient
23rdmel-cepstral
coe...
/144
提案手法:
Anti-spoofing と敵対する
音響モデル学習
/14
Anti-spoofing:
合成音声による声のなりすましを防ぐ識別器
5
ො𝒄 Cross entropy
𝐿D 𝒄, ො𝒄
0: generated
1: natural
[Wu et al., 2016.] [Chen et al...
/14
Anti-spoofing と敵対する音響モデル学習
6
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
Linguistic
feats.
Parameter
generation
𝐿G 𝒄, ො𝒄
𝐿D,1 ො𝒄Feature
functi...
/147
自然音声パラメータの分布に近づくような
合成音声パラメータの生成
合成音声パラメータの分布が拡大
→ 過剰な平滑化の緩和!
20th mel-cepstral coefficient
23rdmel-cepstral
coeffici...
/14
素性関数 𝝓 ⋅ の設計を通じた特徴量の補償
• 音声合成や Anti-spoofing において既知の解析的特徴量
• DNNにより自動設計された特徴量
提案手法における学習手順
• 敵対的学習 [Goodfellow et al.,...
/149
実験的評価
/14
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文 / Jセット 53文
音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分
コンテ...
/14
提案手法の初期化・学習および客観評価
11
初期化
• 音響モデル: MGE学習
• Anti-spoofing: 自然音声とMGE学習後の合成音声を識別
学習 (𝜔D = 0.5 とする)
• 音響モデル: Anti-spoofing...
/14
客観評価結果
12
生成誤差は悪化したが, 詐称率は大幅に改善
悪化MGE
Proposed
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
生成誤差
改善MGE
Proposed
0.0 0.2 0.4 0.6...
/14
音質に関する主観評価結果
プリファレンススコア (評価者数8名)
13
提案手法による音質の改善を確認
*エラーバーは 95% 信頼区間
MGE
Proposed
0.0 0.2 0.4 0.6 1.00.8
改善
エラーバーは95%信...
/14
まとめ
目的: 統計的パラメトリック音声合成の音質改善
提案手法: Anti-spoofing を考慮したDNN音声合成
• 自然 / 合成音声パラメータの分布の違いを補償
• 従来のMGE学習と比較して音質改善を確認
今後の検討事項
...
Upcoming SlideShare
Loading in …5
×

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム

1,634 views

Published on

日本音響学会 2016年秋季研究発表会の発表資料です.

Published in: Technology
  • Be the first to comment

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム

  1. 1. ©Yuki Saito, 2016/09/16 DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム ☆ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2016年秋季発表会 講演番号 3-5-1
  2. 2. /14 問題点: 統計的パラメトリック音声合成の音質劣化 • 生成される音声パラメータ系列の過剰な平滑化が一因 改善策: 自然 / 合成音声を識別できる解析的特徴量の分布を補償 • 例: 変調スペクトルの正規分布 [Takamichi et al., 2016.] • 例: Mel-LSP のヒストグラム [Ohtani et al., 2012.] 本発表: Anti-spoofing を考慮したDNN音声合成の学習法 • 自然 / 合成音声パラメータの分布の違いを補償 • 従来の補償手法の拡張 1 本発表の概要 DNN音声合成における従来の学習法よりも高音質を達成
  3. 3. /14 従来の音響モデル学習: Minimum Generation Error (MGE) 学習 2 Generation error 𝐿G 𝒄, ො𝒄 Linguistic feats. 𝒄 [Wu et al., 2016.] Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ ො𝒄 time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation 𝐿G 𝒄, ො𝒄 = 1 𝑇 ො𝒄 − 𝒄 T ො𝒄 − 𝒄 → Minimize ⋯
  4. 4. /143 MGE学習の問題点: 自然音声と異なるパラメータ分布 分布の違いを補償する音響モデル学習法を提案 分布が縮小 Natural MGE 20th mel-cepstral coefficient 23rdmel-cepstral coefficient
  5. 5. /144 提案手法: Anti-spoofing と敵対する 音響モデル学習
  6. 6. /14 Anti-spoofing: 合成音声による声のなりすましを防ぐ識別器 5 ො𝒄 Cross entropy 𝐿D 𝒄, ො𝒄 0: generated 1: natural [Wu et al., 2016.] [Chen et al., 2015.] 𝐷 𝝓 ⋅ Generated speech params. 𝒄 Natural speech params. Feature function 𝝓 ⋅ 本発表では𝝓 𝒄 𝑡 = 𝒄 𝑡 𝐿D,1 𝒄 𝐿D,0 ො𝒄 𝐿D 𝒄, ො𝒄 = → Minimize− 1 𝑇 ෍ 𝑡=1 𝑇 log 𝐷 𝒄 𝑡 − 1 𝑇 ෍ 𝑡=1 𝑇 log 1 − 𝐷 ො𝒄 𝑡 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる
  7. 7. /14 Anti-spoofing と敵対する音響モデル学習 6 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Linguistic feats. Parameter generation 𝐿G 𝒄, ො𝒄 𝐿D,1 ො𝒄Feature function 1: natural 𝜔D: 重み, 𝐸𝐿G , 𝐸𝐿D : 𝐿G 𝒄, ො𝒄 , 𝐿D,1 ො𝒄 の期待値 合成音声を 自然音声と識別させる 𝐿 𝒄, ො𝒄 = 𝐿G 𝒄, ො𝒄 + 𝜔D 𝐸𝐿G 𝐸𝐿D 𝐿D,1 ො𝒄 → Minimize ⋯ ො𝒄 𝒄 Generated speech params. Natural speech params.
  8. 8. /147 自然音声パラメータの分布に近づくような 合成音声パラメータの生成 合成音声パラメータの分布が拡大 → 過剰な平滑化の緩和! 20th mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE Proposed
  9. 9. /14 素性関数 𝝓 ⋅ の設計を通じた特徴量の補償 • 音声合成や Anti-spoofing において既知の解析的特徴量 • DNNにより自動設計された特徴量 提案手法における学習手順 • 敵対的学習 [Goodfellow et al., 2014.] と, • 識別器を含むマルチタスク学習 [Huang et al., 2015.] の組合せ • DNNに基づく敵対的学習 → 複雑な分布を利用可能 学習は全て backpropagation で完結 • LSTMなどの任意のDNNアーキテクチャを利用可能 8 提案手法の特徴
  10. 10. /149 実験的評価
  11. 11. /14 実験条件 データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分 コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015.] 予測パラメータ メルケプストラム (𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear) Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid) 10
  12. 12. /14 提案手法の初期化・学習および客観評価 11 初期化 • 音響モデル: MGE学習 • Anti-spoofing: 自然音声とMGE学習後の合成音声を識別 学習 (𝜔D = 0.5 とする) • 音響モデル: Anti-spoofing に敵対する学習 • Anti-spoofing: 自然音声と当該学習時点での合成音声を識別 客観評価指標 • パラメータの生成誤差 • Anti-spoofing における詐称率 • 詐称率: 合成音声を自然音声と誤識別した割合 • この際に用いる Anti-spoofing はMGE学習後の合成音声を用いて構築
  13. 13. /14 客観評価結果 12 生成誤差は悪化したが, 詐称率は大幅に改善 悪化MGE Proposed 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 生成誤差 改善MGE Proposed 0.0 0.2 0.4 0.6 1.00.8 < 0.001 詐称率
  14. 14. /14 音質に関する主観評価結果 プリファレンススコア (評価者数8名) 13 提案手法による音質の改善を確認 *エラーバーは 95% 信頼区間 MGE Proposed 0.0 0.2 0.4 0.6 1.00.8 改善 エラーバーは95%信頼区間
  15. 15. /14 まとめ 目的: 統計的パラメトリック音声合成の音質改善 提案手法: Anti-spoofing を考慮したDNN音声合成 • 自然 / 合成音声パラメータの分布の違いを補償 • 従来のMGE学習と比較して音質改善を確認 今後の検討事項 • ハイパーパラメータ 𝜔D の設定 • Anti-spoofing において有効な特徴量の利用 14

×