Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

miyoshi17sp07

540 views

Published on

Presentation at IEICE-SP 201707

Published in: Science
  • Be the first to comment

miyoshi17sp07

  1. 1. ©Yuki Saito, 2017/07/27 コンテキスト事後確率の Sequence-to-Sequence 学習を用いた音声変換と Dual Learning の評価 三好 裕之, ○ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 2017年7月 音声(SP)研究会 7月27日(木)SP-3
  2. 2. /22  音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換  統計的パラメトリック音声変換 – 音声特徴量を統計モデルによりモデル化 & 変換 • Deep Neural Network (DNN) 音声変換 [Desai et al., 2009]  テキスト依存音声変換 [Kain et al., 1998] – 入力音声 → テキスト → 出力音声 – 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech) – ノンパラレルデータを用いた学習も可能 – テキストへのマッピングにより音声特徴量の時間解像度が低下 1 研究分野: テキスト依存音声変換 音声変換: Voice Conversion (VC) Output speech Input speech
  3. 3. /22  従来法: コンテキスト事後確率の複写に基づく音声変換 – コンテキスト事後確率を利用し, フレーム単位での変換を実現 – 話者性の再現精度が低下 • 入力音声のコンテキスト事後確率の複写が原因  本発表 – (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習 • 事後確率の可変長変換により, 話者性の変換精度を改善 – (2) 音声認識・合成モデルの dual learning • 音声合成時の誤差を考慮し, 複数のモデルを同時に学習  結果 – Seq2Seq 学習により話者性が改善 – Dual learning により音質・話者性が改善 2 本発表の概要
  4. 4. /223 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  5. 5. /224 テキスト依存音声変換における 話者非依存の音声認識モデル学習 Linguistic feats. 𝒍 𝑥 Cross-entropy (認識誤差) 最小化 ASR [Kain et al., 1998] Posterior probs. 𝒑 𝑥 a i u 継続長の異なる様々な音声特徴量を用いて学習 Frame Source speech feats. 𝒙
  6. 6. /225 テキスト依存音声変換における 目的話者依存の音声合成モデル学習 [Kain et al., 1998]Mean squared error 最小化 Generated speech feats.𝒚 Frame Target speech feats. 𝒚 𝒑 𝑦 TTSASR (fixed) 𝒑 𝑦 Posterior probs.
  7. 7. /226 コンテキスト事後確率の複写に基づく音声変換 [Sun et al., 2016] Frame Source speech feats. 𝒙 COPY Converted speech feats.𝒚 TTSASR Posterior probs. 𝒑 𝑥 入力音声特徴量のコンテキスト事後確率を複写し, 合成音声特徴量を推定 𝒑 𝑥
  8. 8. /227 従来法の問題点  ① 事後確率に含まれる話速・音韻性の違いを無視した変換  ② 音声認識・合成モデルの個別学習 – 認識精度の改善 ≠ 合成音声の品質改善 a r a y a r a y 0 1 話速の違い 音韻性の違い Frame y r y raa
  9. 9. /228 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  10. 10. /229 Sequence-to-Sequence (Seq2Seq) 学習  Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習  コンテキスト事後確率の Seq2Seq 学習における問題点 – 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016] – 継続長 (フレーム数) の決定が困難  本発表における制約 – 事後確率変換の単位は音素ごと – 事後確率の継続長は既知 雨 が 降る It rains 入力系列 出力系列 Encoder Decoder
  11. 11. /2210 事後確率変換モデル学習 Frame 𝑪 𝒑 𝑥 Posterior conversion 𝑪 ⋅ 𝒍 𝑦 Mean squared error (変換誤差) 最小化 Cross-entropy 最小化 (事後確率推定誤差の影響を軽減) Source posterior probs. 𝒑 𝑦𝒑 𝑥
  12. 12. /2211 コンテキスト事後確率の Seq2Seq 学習を用いた音声変換 FrameSource speech feats. 𝒙 ASR 𝒚 Converted speech feats. TTS Posterior probs. 𝒑 𝑥 𝑪 ⋅ CONVERSION 𝒑 𝑦
  13. 13. /2212 Seq2Seq 学習の効果: 事後確率の違いを考慮した変換 Estimated (Seq2Seq)Target speakerSource speaker 0 1 コンテキスト事後確率の可変長変換を実現!
  14. 14. /2213 𝒍 𝑥 Cross-entropy 最小化 ASR 𝒑 𝑥 Frame Source speech feats. 𝒙 音声認識・合成モデルの Dual Learning Generated speech feats.𝒙 TTS [He et al., 2016] Input to TTS Mean squared error 最小化 音声合成時の誤差も考慮しつつ, 認識モデルを学習!
  15. 15. /2214 考察  系列のアライメント単位に関する考察 – テキスト依存音声変換: コンテキスト単位 • 可変長の系列変換が可能だが, 時間の量子化が発生 – 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位 • 時間の量子化は緩和されるが, 系列長が固定 – 提案法: フレーム単位 • Seq2Seq 学習により, 可変長の系列変換を実現  Dual learning に関する考察 – 所望のクラスラベルを用いた自己符号化に類似 – 潜在変数を用いた variational auto-encoder に拡張可能 [Kingma et al., 2014]
  16. 16. /2215 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  17. 17. /22 実験条件 入出力話者 女性話者 → 男性話者 (話速が大きく異なる話者の組を選択) データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文×8名 / Jセット 53文 スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元) コンテキスト 224次元 (quin-phone) 音声認識モデルのコスト関数: 音素グループ毎の識別誤差の和 音声認識モデル Bi-directional LSTM (output activation: softmax) 音声合成モデル Bi-directional LSTM (output activation: linear) 事後確率変換モデル Encoder: Bi-directional LSTM Decoder: Uni-directional LSTM 16
  18. 18. /2217 Seq2Seq 学習の有効性に関する客観評価  評価指標: 自然音声 / 合成音声のメルケプストラム歪み – アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法) – 提案法において継続長は既知 → 理想条件の下での評価値 Proposed Conventional 4.0 4.5 5.0 6.0 6.55.5 改善 Seq2Seq 学習により, DTWに起因する歪みの増加を回避! メルケプストラム歪み [dB]
  19. 19. /22 Seq2Seq 学習の有効性に関する主観評価結果 (音声変換の品質)  プリファレンススコア (評価者数7名) 18 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 改善 改善 0.0 0.2 0.4 0.6 1.00.8 Proposed Conventional (b) 音質 (a) 話者性 Proposed Conventional 改善 劣化
  20. 20. /2219 音声認識・合成モデルの Dual Learning に関する客観評価  評価指標: 認識・合成を通じた特徴量復元による歪み – (1) 音声認識・合成モデルを通じて入力音声特徴量を復元 – (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算 Dual learning 個別学習 4.0 4.5 5.0 6.0 6.55.5 改善 メルケプストラム歪み [dB] Dual learning により, 歪みの軽減した音声特徴量を生成!
  21. 21. /22  プリファレンススコア (評価者数7名) 20 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 0.0 0.2 0.4 0.6 1.00.8 Dual learning 個別学習 Dual learning 個別学習 音声認識・合成モデルの Dual Learning に関する主観評価 (音声変換の品質) 改善 改善 (a) 話者性 (b) 音質
  22. 22. /2221 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  23. 23. /22 まとめ  目的: テキスト依存音声変換の品質改善  提案法 – (1) コンテキスト事後確率の Seq2Seq 学習 – (2) 音声認識・合成モデルの dual learning  結果 – Seq2Seq 学習による話者性の改善 – Dual learning による音質・話者性の改善 • 事後確率モデルも含めた dual learning による改善は見られず  今後の予定 – Seq2Seq 学習を行う場合の系列長決定法に関する調査 22

×