Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Slp201702

5,153 views

Published on

第115回 音声言語情報処理研究会(SIG-SLP)での発表です.

Published in: Science
  • Be the first to comment

  • Be the first to like this

Slp201702

  1. 1. ©Yuki Saito, 2017/02/17 DNNテキスト音声合成のための Anti-spoofing に敵対する学習アルゴリズム 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 第115回 音声言語情報処理研究会(SIG-SLP) 音声合成・応用(1)
  2. 2. /21  音声合成: – 入力情報から音声を人工的に合成する技術  統計的パラメトリック音声合成: – 音声特徴量を統計モデルによりモデル化 & 生成 • Deep Neural Network (DNN) 音声合成 [Zen et al., 2013.] – 利点: 高い汎用性 & 容易な応用 • アミューズメント応用 [Doi et al., 2013.] や 言語教育 [高道 他, 2015.] など – 欠点: 合成音声の音質劣化 • 生成される特徴量系列の過剰な平滑化が一因 1 研究分野: 統計的パラメトリック音声合成 テキスト音声合成: Text-To-Speech (TTS) Text Speech
  3. 3. /21  改善策: 自然 / 合成音声特徴量の分布の違いを補償 – 分布の2次モーメント (系列内変動など) [Toda et al., 2007.] – ヒストグラム [Ohtani et al., 2012.]  本発表: Anti-spoofing に敵対するDNNテキスト音声合成 – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 従来の補償手法の拡張に相当 [Goodfellow et al., 2014.]  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認 2 本発表の概要
  4. 4. /213 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  5. 5. /214 DNNを音響モデルとして用いたTTSの枠組み 𝒙 ⋯ ෡𝒀 Acoustic models ⋯ ⋯ 𝒙1 𝒙 𝑇 ෡𝒀1 ෡𝒀 𝑇 Spectrum Continuous F0 Voiced / unvoiced Band aperiodicity Linguistic feats. Static-dynamic mean vectors (generated speech feats.) [Zen et al., 2013.] ⋯⋯ 0 0 1 1 a i u 1 2 3 Phoneme Accent Mora position Frame position etc. 0
  6. 6. /21 従来のDNN音響モデル学習: Minimum Generation Error (MGE) 学習 5 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech feats. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇
  7. 7. /216 MGE学習の問題点: 自然音声と異なる特徴量の分布 Natural MGE 21st mel-cepstral coefficient 23rdmel-cepstral coefficient 自然音声と比較して特徴量の分布が縮小... (系列内変動[Toda et al., 2007.] は分布の2次モーメントを明示的に補償)
  8. 8. /217 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  9. 9. /21 Anti-spoofing: 合成音声による声のなりすましを防ぐ識別器 8 [Wu et al., 2016.] [Chen et al., 2015.] 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 ෍ 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 ෍ 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech feats. 𝒚Natural speech feats. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or
  10. 10. /21 Anti-spoofing に敵対する音響モデル学習 9 𝜔D: 重み, 𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 合成音声を 自然音声と識別させる 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 𝐷 ⋅
  11. 11. /21  ① 音響モデルの更新  ② Anti-spoofing の更新 音響モデルと Anti-spoofing の交互最適化 10 ①と②の反復により最終的な音響モデルを構築! FixedUpdated UpdatedFixed 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Feature function 𝝓 ⋅ or
  12. 12. /21  音響モデル学習の損失関数: – 敵対的学習 [Goodfellow et al., 2014.] と生成誤差最小化の組合せ • 所望の入出力間対応関係を持った敵対的学習 [Reed et al., 2016.] – 敵対的学習 = 真のデータ分布と生成分布間の距離最小化 • 分布間の距離 = Jensen-Shannon ダイバージェンス • 自然 / 合成音声特徴量の分布の違いを補償 11 提案手法に関する考察: 敵対的学習に基づく分布補償 ⋯ 𝒚 𝒙 𝒚 の分布𝐷 𝒚 ෝ𝒚 の分布 学習の進行
  13. 13. /2112 自然音声に近づくような合成音声特徴量の生成 自然 / 合成音声特徴量の分布の違いを補償! 21st mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE Proposed
  14. 14. /21  系列内変動 (global variance): [Toda et al., 2007.] – 特徴量分布の2次モーメント = 分布の広がり 13 系列内変動の補償 明示的に使用していないにもかかわらず, anti-spoofing が系列内変動を自動的に補償! Feature index 0 5 10 15 20 10-3 10-1 101 Globalvariance Proposed Natural MGE 10-2 100 10-4 大 小
  15. 15. /21  Maximal Information Coefficient (MIC): [Reshef et al., 2011.] – 2変量間の非線形な相関を定量化する指標 – 自然音声の特徴量間の相関は弱まる傾向 [Ijima et al., 2016.] 14 提案手法による副次的効果: 不自然な相関の緩和 Natural MGE 0 6 12 18 24 0 6 12 18 24 0.0 0.2 0.4 0.6 0.8 1.0 強 弱 Proposed 特徴量の分布や系列内変動のみならず, 特徴量間の相関も補償! 0 6 12 18 24 0 6 12 18 24
  16. 16. /2115 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  17. 17. /21 実験条件 データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分 コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015.] 予測パラメータ メルケプストラム (𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear) Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid) 16
  18. 18. /21 提案手法の初期化・学習および客観評価 17  初期化: – 音響モデル: MGE学習 – Anti-spoofing: 自然音声とMGE学習後の合成音声を識別  学習時: – 音響モデル: Anti-spoofing に敵対する学習 – Anti-spoofing: 自然音声と当該学習時点での合成音声を識別  客観評価指標: – 特徴量の生成誤差 𝐿G 𝒚, ෝ𝒚 – Anti-spoofing における詐称率 • 詐称率: 合成音声を自然音声と誤識別した割合 • ここでの anti-spoofing はMGE学習後の合成音声を用いて構築 提案手法の重み 𝜔D の変化に伴う客観評価指標の変化を調査
  19. 19. /21 客観評価結果 18 生成誤差 詐称率 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 0.45 0.50 0.55 0.60 0.65 0.70 0.75 1.0 0.8 0.6 0.4 0.2 0.0 0.8 1.0 良 良 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 悪化 改善 𝜔D ≥ 0.3 で 詐称率 ≥ 99%
  20. 20. /21 音質に関する主観評価結果 19 エラーバーは95%信頼区間 音声サンプル: http://sython.org/demo/icassp2017advtts/demo.html Proposed 𝜔D = 1.0 Proposed 𝜔D = 0.3 MGE 𝜔D = 0.0 音質に関するプリファレンススコア (評価者数8名) 0.0 0.2 0.4 0.6 0.8 1.0 改善 有意差なし 音質の改善 & ハイパーパラメータ設定に対する頑健性を確認!
  21. 21. /2120 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  22. 22. /21 まとめ  目的: 統計的パラメトリック音声合成の音質改善  提案手法: Anti-spoofing に敵対するDNNテキスト音声合成 • 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 系列内変動だけでなく, 特徴量間の相関も補償  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認  今後の検討事項: – 時間・言語依存の anti-spoofing の導入 – 提案手法の 𝐹0・継続長生成への拡張 • → 2017年春季ASJ (3/16(木) 16:15 ~) で発表予定 21

×