Advertisement

More Related Content

Slideshows for you(20)

Similar to Slp201702(20)

Advertisement

Recently uploaded(20)

Advertisement

Slp201702

  1. ©Yuki Saito, 2017/02/17 DNNテキスト音声合成のための Anti-spoofing に敵対する学習アルゴリズム 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 第115回 音声言語情報処理研究会(SIG-SLP) 音声合成・応用(1)
  2. /21  音声合成: – 入力情報から音声を人工的に合成する技術  統計的パラメトリック音声合成: – 音声特徴量を統計モデルによりモデル化 & 生成 • Deep Neural Network (DNN) 音声合成 [Zen et al., 2013.] – 利点: 高い汎用性 & 容易な応用 • アミューズメント応用 [Doi et al., 2013.] や 言語教育 [高道 他, 2015.] など – 欠点: 合成音声の音質劣化 • 生成される特徴量系列の過剰な平滑化が一因 1 研究分野: 統計的パラメトリック音声合成 テキスト音声合成: Text-To-Speech (TTS) Text Speech
  3. /21  改善策: 自然 / 合成音声特徴量の分布の違いを補償 – 分布の2次モーメント (系列内変動など) [Toda et al., 2007.] – ヒストグラム [Ohtani et al., 2012.]  本発表: Anti-spoofing に敵対するDNNテキスト音声合成 – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 従来の補償手法の拡張に相当 [Goodfellow et al., 2014.]  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認 2 本発表の概要
  4. /213 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  5. /214 DNNを音響モデルとして用いたTTSの枠組み 𝒙 ⋯ ෡𝒀 Acoustic models ⋯ ⋯ 𝒙1 𝒙 𝑇 ෡𝒀1 ෡𝒀 𝑇 Spectrum Continuous F0 Voiced / unvoiced Band aperiodicity Linguistic feats. Static-dynamic mean vectors (generated speech feats.) [Zen et al., 2013.] ⋯⋯ 0 0 1 1 a i u 1 2 3 Phoneme Accent Mora position Frame position etc. 0
  6. /21 従来のDNN音響モデル学習: Minimum Generation Error (MGE) 学習 5 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech feats. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇
  7. /216 MGE学習の問題点: 自然音声と異なる特徴量の分布 Natural MGE 21st mel-cepstral coefficient 23rdmel-cepstral coefficient 自然音声と比較して特徴量の分布が縮小... (系列内変動[Toda et al., 2007.] は分布の2次モーメントを明示的に補償)
  8. /217 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  9. /21 Anti-spoofing: 合成音声による声のなりすましを防ぐ識別器 8 [Wu et al., 2016.] [Chen et al., 2015.] 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 ෍ 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 ෍ 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech feats. 𝒚Natural speech feats. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or
  10. /21 Anti-spoofing に敵対する音響モデル学習 9 𝜔D: 重み, 𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 合成音声を 自然音声と識別させる 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚 Acoustic models 𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 𝐷 ⋅
  11. /21  ① 音響モデルの更新  ② Anti-spoofing の更新 音響モデルと Anti-spoofing の交互最適化 10 ①と②の反復により最終的な音響モデルを構築! FixedUpdated UpdatedFixed 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯𝒙1 𝒙 𝑇 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Linguistic feats. Natural speech feats. 𝒚 ML-based parameter generation Generated speech feats. ෝ𝒚𝒙 ⋯ ෡𝒀 ⋯ ⋯ 𝒙1 𝒙 𝑇 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Feature function 𝝓 ⋅ or
  12. /21  音響モデル学習の損失関数: – 敵対的学習 [Goodfellow et al., 2014.] と生成誤差最小化の組合せ • 所望の入出力間対応関係を持った敵対的学習 [Reed et al., 2016.] – 敵対的学習 = 真のデータ分布と生成分布間の距離最小化 • 分布間の距離 = Jensen-Shannon ダイバージェンス • 自然 / 合成音声特徴量の分布の違いを補償 11 提案手法に関する考察: 敵対的学習に基づく分布補償 ⋯ 𝒚 𝒙 𝒚 の分布𝐷 𝒚 ෝ𝒚 の分布 学習の進行
  13. /2112 自然音声に近づくような合成音声特徴量の生成 自然 / 合成音声特徴量の分布の違いを補償! 21st mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE Proposed
  14. /21  系列内変動 (global variance): [Toda et al., 2007.] – 特徴量分布の2次モーメント = 分布の広がり 13 系列内変動の補償 明示的に使用していないにもかかわらず, anti-spoofing が系列内変動を自動的に補償! Feature index 0 5 10 15 20 10-3 10-1 101 Globalvariance Proposed Natural MGE 10-2 100 10-4 大 小
  15. /21  Maximal Information Coefficient (MIC): [Reshef et al., 2011.] – 2変量間の非線形な相関を定量化する指標 – 自然音声の特徴量間の相関は弱まる傾向 [Ijima et al., 2016.] 14 提案手法による副次的効果: 不自然な相関の緩和 Natural MGE 0 6 12 18 24 0 6 12 18 24 0.0 0.2 0.4 0.6 0.8 1.0 強 弱 Proposed 特徴量の分布や系列内変動のみならず, 特徴量間の相関も補償! 0 6 12 18 24 0 6 12 18 24
  16. /2115 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  17. /21 実験条件 データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分 コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015.] 予測パラメータ メルケプストラム (𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear) Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid) 16
  18. /21 提案手法の初期化・学習および客観評価 17  初期化: – 音響モデル: MGE学習 – Anti-spoofing: 自然音声とMGE学習後の合成音声を識別  学習時: – 音響モデル: Anti-spoofing に敵対する学習 – Anti-spoofing: 自然音声と当該学習時点での合成音声を識別  客観評価指標: – 特徴量の生成誤差 𝐿G 𝒚, ෝ𝒚 – Anti-spoofing における詐称率 • 詐称率: 合成音声を自然音声と誤識別した割合 • ここでの anti-spoofing はMGE学習後の合成音声を用いて構築 提案手法の重み 𝜔D の変化に伴う客観評価指標の変化を調査
  19. /21 客観評価結果 18 生成誤差 詐称率 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 0.45 0.50 0.55 0.60 0.65 0.70 0.75 1.0 0.8 0.6 0.4 0.2 0.0 0.8 1.0 良 良 0.0 0.2 0.4 0.6 0.8 1.0 重み 𝜔D 悪化 改善 𝜔D ≥ 0.3 で 詐称率 ≥ 99%
  20. /21 音質に関する主観評価結果 19 エラーバーは95%信頼区間 音声サンプル: http://sython.org/demo/icassp2017advtts/demo.html Proposed 𝜔D = 1.0 Proposed 𝜔D = 0.3 MGE 𝜔D = 0.0 音質に関するプリファレンススコア (評価者数8名) 0.0 0.2 0.4 0.6 0.8 1.0 改善 有意差なし 音質の改善 & ハイパーパラメータ設定に対する頑健性を確認!
  21. /2120 目次  研究背景  従来のDNN音響モデル学習  Anti-spoofing に敵対するDNN音響モデル学習  実験的評価  まとめ
  22. /21 まとめ  目的: 統計的パラメトリック音声合成の音質改善  提案手法: Anti-spoofing に敵対するDNNテキスト音声合成 • 自然 / 合成音声特徴量の分布の違いを敵対的学習で補償 • 系列内変動だけでなく, 特徴量間の相関も補償  結果: – 従来のDNN音響モデル学習と比較して音質が改善 – 提案手法におけるハイパーパラメータ設定の頑健性を確認  今後の検討事項: – 時間・言語依存の anti-spoofing の導入 – 提案手法の 𝐹0・継続長生成への拡張 • → 2017年春季ASJ (3/16(木) 16:15 ~) で発表予定 21
Advertisement