Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Saito18sp03

297 views

Published on

3月SP研究会

Published in: Science
  • Be the first to comment

  • Be the first to like this

Saito18sp03

  1. 1. ©Yuki Saito, 2018/03/19 2018年3月 音声 (SP) 研究会 3月19日 (月) SP-4 ○ 齋藤 佑樹 (NTT/東大), 井島 勇祐, 西田 京介 (NTT), 高道 慎之介 (東大) 音素事後確率と 𝑑-vector を用いた Variational Autoencoder による ノンパラレル多対多音声変換
  2. 2. /24  音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換  統計的パラメトリックVC [Stylianou et al., 1988] – 音声パラメータを統計モデルによりモデル化 (学習) & 変換 – パラレルVC: 学習に変換元/変換先話者の同一発話音声を使用 • 高品質な変換が可能だが, 学習データの収集は困難 – ノンパラレルVC: 同一発話以外の音声の利用が可能 • 学習データの収集が容易だが, 変換音声の品質は劣化 1 研究分野: 音声変換 (Voice Conversion: VC) 音声変換: Voice Conversion (VC) Target speech Source speech
  3. 3. /242 本発表の概要  従来法: VAE*を用いた一対一VC (VAE-VC) – 話者表現で条件付けされたVAEを用いて音声パラメータを変換 – 音韻を表す潜在変数の過剰な正則化により, 音声の品質が劣化 – 特定話者対の変換のみが可能 (未知話者の変換は困難)  提案法 – (1) 音素事後確率を用いたVAE-VC • 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与 – (2) ノンパラレル多対多VAE-VC • 未知話者から未知話者への変換が可能 • 未知話者にも対応する話者表現法 (話者コード適応, 𝑑-vector)  結果: VAE-VCの大幅な品質改善 & 多対多VAE-VCを実現 [Hsu et al., 2016] *Variational AutoEncoder [Kingma et al., 2013]
  4. 4. /243 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  5. 5. /244 Variational AutoEncoder (VAE) ℒ 𝜽, 𝝓; 𝒙 = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙 log 𝑝 𝜽 𝒙|𝒛 [Kingma et al., 2013] 潜在変数 𝒛 に対する正則化項 Latent variables Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 特徴量 𝒙 の再構築誤差 Input features Generated features
  6. 6. /245 話者コードを用いた従来のVAE-VCの学習フェーズ (一対一VC) ℒ 𝜽, 𝝓; 𝒙, 𝒚s = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙 log 𝑝 𝜽 𝒙|𝒛, 𝒚s 潜在変数 𝒛 に対する正則化項 VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016] 音声パラメータ 𝒙 の再構築誤差 Input speech params. Generated speech params. Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛, 𝒚s Latent variables 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 𝒚s Speaker codes
  7. 7. /246 話者コードを用いた従来のVAE-VCの変換フェーズ (一対一VC)  潜在変数 𝒛 は話者表現 𝒚s に対して独立であると仮定 – 話者に依存しない音韻の情報を表現することを期待 Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛, 𝒚s VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016] Latent variables 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 Input speech params. Generated speech params. 𝒚s Speaker codes
  8. 8. /247 従来のVAE-VCにおける問題点  問題点1: 𝒛 の分布の過剰な正則化 – 音韻の消失により品質が劣化 Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛, 𝒚s Latent variables 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 Input speech params. Generated speech params.  問題点2: 変換可能な話者対の制約 – 離散的な話者コードの利用に起因 [Bowman et al., 2016] 𝒚s Speaker codes
  9. 9. /248 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  10. 10. /249 提案法の概要  前提: 不特定多数話者音声を含む大規模コーパスが利用可能 – 音声認識/話者認証モデル構築用 (e.g., 男女200名以上)  提案法 – (1) 音素事後確率を用いたVAE-VC • 音素事後確率 (PPG*): 音声認識モデルの予測結果 • 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与 – (2) 未知話者対の変換も可能なVAE-VC • 未知話者にも対応する話者表現法を提案 – 話者コード適応: 離散的な話者コードを未知話者に適応 – 𝑑-vector: 話者認証モデルのボトルネック特徴量 (連続値) [Variani et al., 2014] [Luong et al., 2017] *Phonetic PosteriorGrams [Sun et al., 2016]
  11. 11. /2410 音素事後確率 (PPG) を用いたVAE-VC 𝒙 𝒙 𝒛 Encoder Decoder 𝒚s Pre-trained speech recognition あ a i u 𝒛p PPGs Speaker codes
  12. 12. /2411 ノンパラレル多対多VAE-VCへの拡張 𝒙 𝒙 𝒛 Encoder Decoder 𝒚s Pre-trained speech recognition あ a i u 𝒛p PPGs Speaker codes 未知話者に対する 話者表現推定法を提案
  13. 13. /2412 𝒙 𝒙 𝒛 Encoder 𝒚s Pre-trained speech recognition あ a i u 𝒛p PPGs Speaker codes (1) 未知話者に対する話者コードの適応* 𝐿MSE = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝜕𝐿MSE 𝜕𝒚s Decoder *テキスト音声合成で提案 [Luong et al., 2017] 0.7 0.3
  14. 14. /2413 𝒙 𝒙 𝒛 Encoder Decoder Pre-trained speaker verification Pre-trained speech recognition あ a i u 𝒛p PPGs (2) 音素事後確率 (PPG) と 𝑑-vector を用いたVAE-VC 𝑑-vectors 𝒛s𝒙∗ 未知話者の 𝑑-vector も 同様に利用可能
  15. 15. /2414 考察  音声認識/話者認証モデル学習時のラベリング – 音声認識: 音素ラベルの付与,話者認証: 話者コードの付与 • → Conditional VAEの枠組みに基づく半教師あり学習が可能  音声変換/音声認識/話者認証の統合 – 提案法における音声認識/話者認証モデル: 事前学習後は固定 • → End-to-End 学習による同時最適化も可能  言語非依存の音声変換への拡張 – 提案法におけるPPGの単位: 日本語音素 • → 識別単位の変更により言語非依存の音声変換も実現可能 [Kingma et al., 2014] [Zhang et al., 2017] [Heigold et al., 2016]
  16. 16. /2415 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  17. 17. /24 実験条件 音声コーパス 音声認識/話者認証モデル構築用 260名 (男性130, 女性130, 約31時間) 音声変換モデル (男性 → 男性, 男性 → 女性) 構築用 同一発話内容の425データを3分割 (1—200: 変換元, 201—400: 変換先, 401—425: 評価) 音声特徴量 (動的特徴量も含む) スペクトル特徴量 40次元のメルケプストラム (0次は変換せず) 音源特徴量 対数F0, U/V, 10帯域の非周期成分 DNNアーキテクチャ すべて Feed-Forward 型ネットワーク (アーキテクチャの詳細は原稿を参照) PPGの音素数 56 (当該フレームの音素のみ予測) 𝑑-vector 16次元 VAEの潜在変数 64次元 16
  18. 18. /2417 客観評価  比較手法 – リファレンス: Feed-Forward DNN [Desai et al., 2009] • DNNの学習データ: 同一発話音声 – 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016] – 提案法 (話者コード): 話者コードとPPGを用いたVAE – 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE • VAEの学習データ: 非同一発話音声 • 提案法は多対多VCでも評価 – 音声認識/話者認証用コーパスで音声変換モデルを学習 – 評価用の話者対は学習データから除外  評価基準: 変換音声の mel-cepstral distortion – 学習/適応 (話者推定) 時に用いるデータ量の影響を調査
  19. 19. /2418 客観評価結果 (一対一VC) (a) Male-to-male (b) Male-to-female Mel-cepstraldistortion[dB] 6.0 7.0 8.0 9.0 5 10 25 50 100 200 5 10 25 50 100 200 Number of training data 良 悪 従来法と比較して歪みを大幅に改善 リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector) リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector)
  20. 20. /2419 客観評価結果 (多対多VC) (a) Male-to-male (b) Male-to-female Mel-cepstraldistortion[dB] 6.0 7.0 8.0 9.0 5 10 25 50 100 200 5 10 25 50 100 200 Number of adaptation data 良 悪 話者表現としての 𝑑-vector の有効性を確認 提案法 (話者コード) 提案法 (𝑑-vector) 提案法 (話者コード) 提案法 (𝑑-vector)
  21. 21. /2420 主観評価  比較手法 – リファレンス: Feed-Forward DNN [Desai et al., 2009] • DNNの学習データ数: 400 (同一発話音声) – 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016] – 提案法 (話者コード): 話者コードとPPGを用いたVAE – 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE • VAEの学習データ数: 200 (非同一発話音声) • 提案法は一対一と多対多の両方で音声サンプルを生成 – 多対多VCの適応データ数: 100  評価基準 – 変換音声の自然性 (MOSスコア) & 話者類似性 (DMOSスコア)
  22. 22. /2421 主観評価結果 (変換音声の自然性に関するMOSスコア) エラーバーは95%信頼区間, 評価者数8名 リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector) 提案法 (話者コード) 提案法 (𝑑-vector) M2M M2F 悪 変換音声の自然性に関するMOSスコア 良 1.0 2.0 3.0 4.0 5.0 大きく改善 一対一 多対多
  23. 23. /2422 主観評価結果 (変換音声の話者類似性に関するDMOSスコア) エラーバーは95%信頼区間, 評価者数8名 リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector) 提案法 (話者コード) 提案法 (𝑑-vector) M2M M2F 悪 変換音声の話者類似性に関するDMOSスコア 良 1.0 2.0 3.0 4.0 5.0 大きく改善 提案法による品質改善 & ノンパラレル多対多VAE-VCを実現 一対一 多対多
  24. 24. /2423 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  25. 25. /24 まとめ 24  目的 – VAEを用いたノンパラレルVCの品質改善 & 多対多VCへの拡張  提案 – (1) 音素事後確率を用いたVAE-VCの学習/変換法 • 音韻の消失に起因する品質劣化を緩和 – (2) 多対多VAE-VCのための話者表現 • (a) 話者コードの適応, (b) 𝑑-vector の利用  結果 – (1) 音素事後確率の導入による大幅な品質改善 – (2) ノンパラレル多対多VAE-VCの実現 • 𝑑-vector は同性間のVCにおける品質改善に有効  今後 – 𝑑-vector の次元数への依存性に関する調査

×