Successfully reported this slideshow.
Your SlideShare is downloading. ×

miyoshi17sp07

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
miyoshi2017asj
miyoshi2017asj
Loading in …3
×

Check these out next

1 of 23 Ad
Advertisement

More Related Content

Slideshows for you (20)

Similar to miyoshi17sp07 (15)

Advertisement
Advertisement

Recently uploaded (20)

miyoshi17sp07

  1. 1. ©Yuki Saito, 2017/07/27 コンテキスト事後確率の Sequence-to-Sequence 学習を用いた音声変換と Dual Learning の評価 三好 裕之, ○ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 2017年7月 音声(SP)研究会 7月27日(木)SP-3
  2. 2. /22  音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換  統計的パラメトリック音声変換 – 音声特徴量を統計モデルによりモデル化 & 変換 • Deep Neural Network (DNN) 音声変換 [Desai et al., 2009]  テキスト依存音声変換 [Kain et al., 1998] – 入力音声 → テキスト → 出力音声 – 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech) – ノンパラレルデータを用いた学習も可能 – テキストへのマッピングにより音声特徴量の時間解像度が低下 1 研究分野: テキスト依存音声変換 音声変換: Voice Conversion (VC) Output speech Input speech
  3. 3. /22  従来法: コンテキスト事後確率の複写に基づく音声変換 – コンテキスト事後確率を利用し, フレーム単位での変換を実現 – 話者性の再現精度が低下 • 入力音声のコンテキスト事後確率の複写が原因  本発表 – (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習 • 事後確率の可変長変換により, 話者性の変換精度を改善 – (2) 音声認識・合成モデルの dual learning • 音声合成時の誤差を考慮し, 複数のモデルを同時に学習  結果 – Seq2Seq 学習により話者性が改善 – Dual learning により音質・話者性が改善 2 本発表の概要
  4. 4. /223 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  5. 5. /224 テキスト依存音声変換における 話者非依存の音声認識モデル学習 Linguistic feats. 𝒍 𝑥 Cross-entropy (認識誤差) 最小化 ASR [Kain et al., 1998] Posterior probs. 𝒑 𝑥 a i u 継続長の異なる様々な音声特徴量を用いて学習 Frame Source speech feats. 𝒙
  6. 6. /225 テキスト依存音声変換における 目的話者依存の音声合成モデル学習 [Kain et al., 1998]Mean squared error 最小化 Generated speech feats.𝒚 Frame Target speech feats. 𝒚 𝒑 𝑦 TTSASR (fixed) 𝒑 𝑦 Posterior probs.
  7. 7. /226 コンテキスト事後確率の複写に基づく音声変換 [Sun et al., 2016] Frame Source speech feats. 𝒙 COPY Converted speech feats.𝒚 TTSASR Posterior probs. 𝒑 𝑥 入力音声特徴量のコンテキスト事後確率を複写し, 合成音声特徴量を推定 𝒑 𝑥
  8. 8. /227 従来法の問題点  ① 事後確率に含まれる話速・音韻性の違いを無視した変換  ② 音声認識・合成モデルの個別学習 – 認識精度の改善 ≠ 合成音声の品質改善 a r a y a r a y 0 1 話速の違い 音韻性の違い Frame y r y raa
  9. 9. /228 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  10. 10. /229 Sequence-to-Sequence (Seq2Seq) 学習  Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習  コンテキスト事後確率の Seq2Seq 学習における問題点 – 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016] – 継続長 (フレーム数) の決定が困難  本発表における制約 – 事後確率変換の単位は音素ごと – 事後確率の継続長は既知 雨 が 降る It rains 入力系列 出力系列 Encoder Decoder
  11. 11. /2210 事後確率変換モデル学習 Frame 𝑪 𝒑 𝑥 Posterior conversion 𝑪 ⋅ 𝒍 𝑦 Mean squared error (変換誤差) 最小化 Cross-entropy 最小化 (事後確率推定誤差の影響を軽減) Source posterior probs. 𝒑 𝑦𝒑 𝑥
  12. 12. /2211 コンテキスト事後確率の Seq2Seq 学習を用いた音声変換 FrameSource speech feats. 𝒙 ASR 𝒚 Converted speech feats. TTS Posterior probs. 𝒑 𝑥 𝑪 ⋅ CONVERSION 𝒑 𝑦
  13. 13. /2212 Seq2Seq 学習の効果: 事後確率の違いを考慮した変換 Estimated (Seq2Seq)Target speakerSource speaker 0 1 コンテキスト事後確率の可変長変換を実現!
  14. 14. /2213 𝒍 𝑥 Cross-entropy 最小化 ASR 𝒑 𝑥 Frame Source speech feats. 𝒙 音声認識・合成モデルの Dual Learning Generated speech feats.𝒙 TTS [He et al., 2016] Input to TTS Mean squared error 最小化 音声合成時の誤差も考慮しつつ, 認識モデルを学習!
  15. 15. /2214 考察  系列のアライメント単位に関する考察 – テキスト依存音声変換: コンテキスト単位 • 可変長の系列変換が可能だが, 時間の量子化が発生 – 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位 • 時間の量子化は緩和されるが, 系列長が固定 – 提案法: フレーム単位 • Seq2Seq 学習により, 可変長の系列変換を実現  Dual learning に関する考察 – 所望のクラスラベルを用いた自己符号化に類似 – 潜在変数を用いた variational auto-encoder に拡張可能 [Kingma et al., 2014]
  16. 16. /2215 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  17. 17. /22 実験条件 入出力話者 女性話者 → 男性話者 (話速が大きく異なる話者の組を選択) データセット ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文×8名 / Jセット 53文 スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元) コンテキスト 224次元 (quin-phone) 音声認識モデルのコスト関数: 音素グループ毎の識別誤差の和 音声認識モデル Bi-directional LSTM (output activation: softmax) 音声合成モデル Bi-directional LSTM (output activation: linear) 事後確率変換モデル Encoder: Bi-directional LSTM Decoder: Uni-directional LSTM 16
  18. 18. /2217 Seq2Seq 学習の有効性に関する客観評価  評価指標: 自然音声 / 合成音声のメルケプストラム歪み – アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法) – 提案法において継続長は既知 → 理想条件の下での評価値 Proposed Conventional 4.0 4.5 5.0 6.0 6.55.5 改善 Seq2Seq 学習により, DTWに起因する歪みの増加を回避! メルケプストラム歪み [dB]
  19. 19. /22 Seq2Seq 学習の有効性に関する主観評価結果 (音声変換の品質)  プリファレンススコア (評価者数7名) 18 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 改善 改善 0.0 0.2 0.4 0.6 1.00.8 Proposed Conventional (b) 音質 (a) 話者性 Proposed Conventional 改善 劣化
  20. 20. /2219 音声認識・合成モデルの Dual Learning に関する客観評価  評価指標: 認識・合成を通じた特徴量復元による歪み – (1) 音声認識・合成モデルを通じて入力音声特徴量を復元 – (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算 Dual learning 個別学習 4.0 4.5 5.0 6.0 6.55.5 改善 メルケプストラム歪み [dB] Dual learning により, 歪みの軽減した音声特徴量を生成!
  21. 21. /22  プリファレンススコア (評価者数7名) 20 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 0.0 0.2 0.4 0.6 1.00.8 Dual learning 個別学習 Dual learning 個別学習 音声認識・合成モデルの Dual Learning に関する主観評価 (音声変換の品質) 改善 改善 (a) 話者性 (b) 音質
  22. 22. /2221 目次  研究背景  従来のテキスト依存音声変換  提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning  実験的評価  まとめ
  23. 23. /22 まとめ  目的: テキスト依存音声変換の品質改善  提案法 – (1) コンテキスト事後確率の Seq2Seq 学習 – (2) 音声認識・合成モデルの dual learning  結果 – Seq2Seq 学習による話者性の改善 – Dual learning による音質・話者性の改善 • 事後確率モデルも含めた dual learning による改善は見られず  今後の予定 – Seq2Seq 学習を行う場合の系列長決定法に関する調査 22

×