Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

saito2017asj_tts

215 views

Published on

ASJ 2017 Text-to-Speech

Published in: Science
  • Be the first to comment

  • Be the first to like this

saito2017asj_tts

  1. 1. ©Yuki Saito, 2017/03/16 敵対的DNN音声合成における 𝐹0・継続長の生成 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年春季研究発表会 講演番号 2-6-6
  2. 2. /16  問題点: 統計的パラメトリック音声合成の音質劣化 – 生成される音声特徴量系列の過剰な平滑化が一因  従来法: 敵対的DNN音声合成 [Saito et al., 2017.] – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを補償 – スペクトル特徴量のみに関して有効性を確認  本発表: 敵対的DNN音声合成による 𝐹0・継続長の生成 – スペクトル特徴量と 𝐹0 の同時分布を補償 – 言語依存の等時性を考慮した継続長の生成法を提案  結果: 𝐹0の生成に関して提案法による音質改善を確認 1 本発表の概要
  3. 3. /16 Minimum Generation Error (MGE) 学習 2 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech params. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech params.ෝ𝒚 Acoustic models ⋯ ⋯ ⋯ Frame 𝑡 = 1 Static-dynamic mean vectors Frame 𝑡 = 𝑇 音素継続長も同様の枠組みで生成可能 [Zen et al., 2013.]
  4. 4. /16 Anti-Spoofing: 声のなりすましを防ぐ識別器 3 [Wu et al., 2016.] [Chen et al., 2015.] 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 ෍ 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 ෍ 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech params. 𝒚Natural speech params. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる
  5. 5. /144 𝜔D: 重み, 𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 敵対的DNN音声合成 [Saito et al., 2017.] 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural 𝒚 ML-based parameter generation Generated ෝ𝒚 Acoustic models ⋯ ⋯ ⋯ 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 合成音声を 自然音声と識別させる
  6. 6. /145 敵対的学習 [Goodfellow et al., 2014.] による 分布補償効果 21st mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE Proposed 分布の違いを補償し, 過剰な平滑化を緩和!
  7. 7. /166 提案法: 敵対的DNN音声合成による スペクトル・𝐹0・継続長の生成 従来法: 敵対的DNN音声合成による スペクトル特徴量の生成
  8. 8. /167 敵対的DNN音声合成によるスペクトル・𝐹0 の生成  従来法の予測パラメータ: – メルケプストラムのみ  本発表の予測パラメータ: – メルケプストラム, 連続対数 𝐹0, 非周期成分, U/V – メルケプストラムと連続対数 𝐹0 を anti-spoofing に入力 Generated speech params. Mel-cepstral coefficients Continuous log 𝐹0 U/V Band aperiodicity Natural speech params. 𝒚ෝ𝒚 𝐿G 𝒚, ෝ𝒚 Input to anti-spoofing
  9. 9. /16 言語依存の等時性を考慮した継続長生成 ෡𝒅p ... sil a r a y u sil ෡𝒅p Generated phoneme durations 𝒅pNatural phoneme durations 𝐿G 𝒅p, ෡𝒅p 𝐿D,1 ෡𝒅p 1: natural Anti-spoofing 8 音素継続長分布の補償 ⇏ モーラ継続長分布の補償
  10. 10. /16 言語依存の等時性を考慮した継続長生成 sil a ra yu ... sil ... + + Language-dependent pooling ෡𝒅p ... sil a r a y u sil Generated mora durations෡𝒅m ෡𝒅p Generated phoneme durations 𝒅pNatural phoneme durations 𝐿G 𝒅p, ෡𝒅p 𝐿D,1 ෡𝒅m 1: natural Anti-spoofing 9
  11. 11. /1610 考察  𝐹0 の生成: – スペクトルと 𝐹0 の同時分布を補償可能 • 異なる特徴量の相関を考慮した学習 [Tanaka et al., 2014.] • 特徴量の次元数を考慮した学習 [Kang et al., 2014.] も可能  継続長の生成: – 多重解像度に基づく敵対的学習 [Zhang et al., 2016.] に類似 • 高い時間解像度における生成誤差最小化 • 低い時間解像度における敵対的学習 – スペクトル・ 𝐹0・継続長の同時分布も補償可能 • Un-pooling により音素継続長をフレームレベルに展開可能
  12. 12. /1611 実験的評価
  13. 13. /16 実験条件 データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 連続対数 𝐹0, 5帯域の非周期成分, U/V コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) DNNアーキテクチャ Feed-Forward, ReLU nonlinearity (詳細は原稿参照) 12 𝐹0 生成, 継続長生成それぞれに関して提案法の有効性を検証
  14. 14. /1613 𝐹0 生成に関する主観評価結果  比較手法: – MGE: 従来のMGE学習 – ADV (sp): 敵対的DNN音声合成 (スペクトルのみ) – ADV (sp+F0): 同上 (スペクトル & 𝐹0) ADV (SP+F0) ADV (SP) エラーバーは95%信頼区間 MGE 0.0 0.2 0.4 改善  プリファレンススコア (評価者数8名) 更に改善 0.6 0.8 1.0
  15. 15. /1614 継続長生成に関する主観評価結果 エラーバーは95%信頼区間  比較手法: – MGE: 従来のMGE学習 – ADV (phoneme): 敵対的DNN音声合成 (音素継続長) – ADV (mora): 同上 (モーラ継続長) ADV (phoneme) ADV (mora) MGE 0.0  プリファレンススコア (評価者数8名) 有意差なし 0.2 0.4 0.6 0.8 1.0
  16. 16. /16  MGE学習後の特徴量を用いて anti-spoofing を構築 – Anti-spoofing に有効な特徴量 → 自然音声との違いが大きい • スペクトル & 𝐹0 → 有効 • 音素/モーラ継続長 → 有効でない 15 Anti-spoofing における特徴量の有効性 継続長を用いた anti-spoofing は困難 → 提案法の効果小 スペクトル & 𝐹0 音素継続長 モーラ継続長 0.0 Anti-spoofing の accuracy 0.2 0.4 0.6 0.8 1.0
  17. 17. /1616 まとめ  目的: 統計的パラメトリック音声合成の音質改善  提案手法: – (1) 敵対的DNN音声合成によるスペクトル・ 𝐹0 の生成 • 主観評価により音質改善を確認 – (2) モーラ等時性を考慮した継続長生成 + 敵対的DNN音声合成 • 主観評価において有意差は確認できず • 継続長を用いた anti-spoofing の難しさに起因  今後の予定: • 他言語・オーディオブックのタスクへの適用

×