Successfully reported this slideshow.
Your SlideShare is downloading. ×

Saito18sp03

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Loading in …3
×

Check these out next

1 of 25 Ad
Advertisement

More Related Content

Slideshows for you (20)

Advertisement

Recently uploaded (20)

Saito18sp03

  1. 1. ©Yuki Saito, 2018/03/19 2018年3月 音声 (SP) 研究会 3月19日 (月) SP-4 ○ 齋藤 佑樹 (NTT/東大), 井島 勇祐, 西田 京介 (NTT), 高道 慎之介 (東大) 音素事後確率と 𝑑-vector を用いた Variational Autoencoder による ノンパラレル多対多音声変換
  2. 2. /24  音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換  統計的パラメトリックVC [Stylianou et al., 1988] – 音声パラメータを統計モデルによりモデル化 (学習) & 変換 – パラレルVC: 学習に変換元/変換先話者の同一発話音声を使用 • 高品質な変換が可能だが, 学習データの収集は困難 – ノンパラレルVC: 同一発話以外の音声の利用が可能 • 学習データの収集が容易だが, 変換音声の品質は劣化 1 研究分野: 音声変換 (Voice Conversion: VC) 音声変換: Voice Conversion (VC) Target speech Source speech
  3. 3. /242 本発表の概要  従来法: VAE*を用いた一対一VC (VAE-VC) – 話者表現で条件付けされたVAEを用いて音声パラメータを変換 – 音韻を表す潜在変数の過剰な正則化により, 音声の品質が劣化 – 特定話者対の変換のみが可能 (未知話者の変換は困難)  提案法 – (1) 音素事後確率を用いたVAE-VC • 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与 – (2) ノンパラレル多対多VAE-VC • 未知話者から未知話者への変換が可能 • 未知話者にも対応する話者表現法 (話者コード適応, 𝑑-vector)  結果: VAE-VCの大幅な品質改善 & 多対多VAE-VCを実現 [Hsu et al., 2016] *Variational AutoEncoder [Kingma et al., 2013]
  4. 4. /243 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  5. 5. /244 Variational AutoEncoder (VAE) ℒ 𝜽, 𝝓; 𝒙 = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙 log 𝑝 𝜽 𝒙|𝒛 [Kingma et al., 2013] 潜在変数 𝒛 に対する正則化項 Latent variables Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 特徴量 𝒙 の再構築誤差 Input features Generated features
  6. 6. /245 話者コードを用いた従来のVAE-VCの学習フェーズ (一対一VC) ℒ 𝜽, 𝝓; 𝒙, 𝒚s = −𝐷KL 𝑞 𝝓 𝒛|𝒙 || 𝒩 𝒛; 𝟎, 𝑰 + 𝔼 𝑞 𝝓 𝒛|𝒙 log 𝑝 𝜽 𝒙|𝒛, 𝒚s 潜在変数 𝒛 に対する正則化項 VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016] 音声パラメータ 𝒙 の再構築誤差 Input speech params. Generated speech params. Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛, 𝒚s Latent variables 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 𝒚s Speaker codes
  7. 7. /246 話者コードを用いた従来のVAE-VCの変換フェーズ (一対一VC)  潜在変数 𝒛 は話者表現 𝒚s に対して独立であると仮定 – 話者に依存しない音韻の情報を表現することを期待 Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛, 𝒚s VAE-VC [Hsu et al., 2016], speaker codes [Hojo et al., 2016] Latent variables 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 Input speech params. Generated speech params. 𝒚s Speaker codes
  8. 8. /247 従来のVAE-VCにおける問題点  問題点1: 𝒛 の分布の過剰な正則化 – 音韻の消失により品質が劣化 Encoder 𝑞 𝜙 𝒛|𝒙 Decoder 𝑝 𝜃 𝒙|𝒛, 𝒚s Latent variables 𝒙 𝒙 𝒛 𝒩 𝒛; 𝟎, 𝑰 Input speech params. Generated speech params.  問題点2: 変換可能な話者対の制約 – 離散的な話者コードの利用に起因 [Bowman et al., 2016] 𝒚s Speaker codes
  9. 9. /248 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  10. 10. /249 提案法の概要  前提: 不特定多数話者音声を含む大規模コーパスが利用可能 – 音声認識/話者認証モデル構築用 (e.g., 男女200名以上)  提案法 – (1) 音素事後確率を用いたVAE-VC • 音素事後確率 (PPG*): 音声認識モデルの予測結果 • 音韻情報を潜在変数として扱うのではなく, 学習/変換時に付与 – (2) 未知話者対の変換も可能なVAE-VC • 未知話者にも対応する話者表現法を提案 – 話者コード適応: 離散的な話者コードを未知話者に適応 – 𝑑-vector: 話者認証モデルのボトルネック特徴量 (連続値) [Variani et al., 2014] [Luong et al., 2017] *Phonetic PosteriorGrams [Sun et al., 2016]
  11. 11. /2410 音素事後確率 (PPG) を用いたVAE-VC 𝒙 𝒙 𝒛 Encoder Decoder 𝒚s Pre-trained speech recognition あ a i u 𝒛p PPGs Speaker codes
  12. 12. /2411 ノンパラレル多対多VAE-VCへの拡張 𝒙 𝒙 𝒛 Encoder Decoder 𝒚s Pre-trained speech recognition あ a i u 𝒛p PPGs Speaker codes 未知話者に対する 話者表現推定法を提案
  13. 13. /2412 𝒙 𝒙 𝒛 Encoder 𝒚s Pre-trained speech recognition あ a i u 𝒛p PPGs Speaker codes (1) 未知話者に対する話者コードの適応* 𝐿MSE = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝜕𝐿MSE 𝜕𝒚s Decoder *テキスト音声合成で提案 [Luong et al., 2017] 0.7 0.3
  14. 14. /2413 𝒙 𝒙 𝒛 Encoder Decoder Pre-trained speaker verification Pre-trained speech recognition あ a i u 𝒛p PPGs (2) 音素事後確率 (PPG) と 𝑑-vector を用いたVAE-VC 𝑑-vectors 𝒛s𝒙∗ 未知話者の 𝑑-vector も 同様に利用可能
  15. 15. /2414 考察  音声認識/話者認証モデル学習時のラベリング – 音声認識: 音素ラベルの付与,話者認証: 話者コードの付与 • → Conditional VAEの枠組みに基づく半教師あり学習が可能  音声変換/音声認識/話者認証の統合 – 提案法における音声認識/話者認証モデル: 事前学習後は固定 • → End-to-End 学習による同時最適化も可能  言語非依存の音声変換への拡張 – 提案法におけるPPGの単位: 日本語音素 • → 識別単位の変更により言語非依存の音声変換も実現可能 [Kingma et al., 2014] [Zhang et al., 2017] [Heigold et al., 2016]
  16. 16. /2415 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  17. 17. /24 実験条件 音声コーパス 音声認識/話者認証モデル構築用 260名 (男性130, 女性130, 約31時間) 音声変換モデル (男性 → 男性, 男性 → 女性) 構築用 同一発話内容の425データを3分割 (1—200: 変換元, 201—400: 変換先, 401—425: 評価) 音声特徴量 (動的特徴量も含む) スペクトル特徴量 40次元のメルケプストラム (0次は変換せず) 音源特徴量 対数F0, U/V, 10帯域の非周期成分 DNNアーキテクチャ すべて Feed-Forward 型ネットワーク (アーキテクチャの詳細は原稿を参照) PPGの音素数 56 (当該フレームの音素のみ予測) 𝑑-vector 16次元 VAEの潜在変数 64次元 16
  18. 18. /2417 客観評価  比較手法 – リファレンス: Feed-Forward DNN [Desai et al., 2009] • DNNの学習データ: 同一発話音声 – 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016] – 提案法 (話者コード): 話者コードとPPGを用いたVAE – 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE • VAEの学習データ: 非同一発話音声 • 提案法は多対多VCでも評価 – 音声認識/話者認証用コーパスで音声変換モデルを学習 – 評価用の話者対は学習データから除外  評価基準: 変換音声の mel-cepstral distortion – 学習/適応 (話者推定) 時に用いるデータ量の影響を調査
  19. 19. /2418 客観評価結果 (一対一VC) (a) Male-to-male (b) Male-to-female Mel-cepstraldistortion[dB] 6.0 7.0 8.0 9.0 5 10 25 50 100 200 5 10 25 50 100 200 Number of training data 良 悪 従来法と比較して歪みを大幅に改善 リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector) リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector)
  20. 20. /2419 客観評価結果 (多対多VC) (a) Male-to-male (b) Male-to-female Mel-cepstraldistortion[dB] 6.0 7.0 8.0 9.0 5 10 25 50 100 200 5 10 25 50 100 200 Number of adaptation data 良 悪 話者表現としての 𝑑-vector の有効性を確認 提案法 (話者コード) 提案法 (𝑑-vector) 提案法 (話者コード) 提案法 (𝑑-vector)
  21. 21. /2420 主観評価  比較手法 – リファレンス: Feed-Forward DNN [Desai et al., 2009] • DNNの学習データ数: 400 (同一発話音声) – 従来法: 話者コードのみを用いたVAE [Hsu et al., 2016] – 提案法 (話者コード): 話者コードとPPGを用いたVAE – 提案法 (𝑑-vector): 𝑑-vector とPPGを用いたVAE • VAEの学習データ数: 200 (非同一発話音声) • 提案法は一対一と多対多の両方で音声サンプルを生成 – 多対多VCの適応データ数: 100  評価基準 – 変換音声の自然性 (MOSスコア) & 話者類似性 (DMOSスコア)
  22. 22. /2421 主観評価結果 (変換音声の自然性に関するMOSスコア) エラーバーは95%信頼区間, 評価者数8名 リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector) 提案法 (話者コード) 提案法 (𝑑-vector) M2M M2F 悪 変換音声の自然性に関するMOSスコア 良 1.0 2.0 3.0 4.0 5.0 大きく改善 一対一 多対多
  23. 23. /2422 主観評価結果 (変換音声の話者類似性に関するDMOSスコア) エラーバーは95%信頼区間, 評価者数8名 リファレンス 従来法 提案法 (話者コード) 提案法 (𝑑-vector) 提案法 (話者コード) 提案法 (𝑑-vector) M2M M2F 悪 変換音声の話者類似性に関するDMOSスコア 良 1.0 2.0 3.0 4.0 5.0 大きく改善 提案法による品質改善 & ノンパラレル多対多VAE-VCを実現 一対一 多対多
  24. 24. /2423 目次  研究背景  従来のVAE音声変換  提案法 – 音素事後確率を用いたVAE音声変換 – 多対多VAE音声変換への拡張  実験的評価  まとめ
  25. 25. /24 まとめ 24  目的 – VAEを用いたノンパラレルVCの品質改善 & 多対多VCへの拡張  提案 – (1) 音素事後確率を用いたVAE-VCの学習/変換法 • 音韻の消失に起因する品質劣化を緩和 – (2) 多対多VAE-VCのための話者表現 • (a) 話者コードの適応, (b) 𝑑-vector の利用  結果 – (1) 音素事後確率の導入による大幅な品質改善 – (2) ノンパラレル多対多VAE-VCの実現 • 𝑑-vector は同性間のVCにおける品質改善に有効  今後 – 𝑑-vector の次元数への依存性に関する調査

×