Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応

669 views

Published on

音響学会201703

Published in: Science
  • Be the first to comment

  • Be the first to like this

GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応

  1. 1. GMMに基づく固有声変換のための 変調スペクトル制約付き トラジェクトリ学習・適応 ○高道 慎之介 (東大院・情報理工) 中村 哲 (奈良先端大) 日本音響学会 2017年 春季研究発表会 1-6-9
  2. 2. /15 あらすじ  音声翻訳に向けた音声変換の利用 – 低遅延変換・発話内容非依存・高音質な音声変換が必要  従来法:GMM固有声変換 [Toda et al., 2006.] – 利点:発話内容非依存のモデル適応・低遅延音声変換 – 欠点:合成音声の低い音質  関連研究:GMM音声変換における変調スペクトル (MS) 制約 付きトラジェクトリ学習 [Takamichi et al., 2015.] – MS補償により,通常のGMM音声変換の合成音声を高品質化  提案法:GMM固有声変換のためのMS制約付きトラジェクトリ 学習・適応アルゴリズム – MS制約付き学習を適応アルゴリズムに拡張 – 従来のGMM固有声変換の利点を保ちつつ,高品質化 2
  3. 3. /15 GMM音声変換 3 [Toda et al., 2007.] Source feats. Target feats. 𝒚 𝒙 𝑾 𝑡: frame index Delta calculation Delta calculation 𝑿 𝑡 𝒀 𝑡 GMM 𝛌 静的・動的特徴量に対する尤度を最大化するように GMMパラメータ(重み,平均,共分散)を学習
  4. 4. /15 一対多固有声変換(特定話者から 任意話者への変換)の学習 4 Source speaker 𝒚(1) 𝒙 𝑾 Delta Delta 1st target 2nd s-th Delta Delta 𝑿 𝑡 𝒀 𝑡 𝝁(𝑠) = argmax 𝑃 𝑾𝒚(𝑠), 𝑾𝒙|𝝀(𝑠) = argmax 𝑃 𝒀 𝑡 𝑠 , 𝑾𝒙|𝝀(𝑠) 𝑡 GMM 𝛌 1 GMM 𝛌 2 GMM 𝛌 𝑠 各時間で独立 -> 時間遷移を無視 𝒀1 𝑠 ⋯ 𝒀 𝑇 𝑠 𝝁(𝑠) Mean vec.
  5. 5. /15 固有声GMMの構築 (スーパーベクトルに対して主成分分析) 5 𝑿 𝑡 𝒀 𝑡 𝝎ev 𝝁(𝑠) = 𝑩𝝎ev + 𝒃 固有声重み(GMMパラメータを低次元のベクトルで表現) 固有声GMM 𝝀ev
  6. 6. /15 固有声重み推定による教師なし話者適応 6 𝑿 𝑡 𝒀 𝑡 𝝎ev new speaker 𝒚 𝑛 𝑾 𝝎ev = argmax 𝑃 𝑾𝒚(𝑛) |𝝀ev , 𝝎ev = argmax 𝑃 𝒀 𝑡 n |𝝀ev , 𝝎ev 𝑡 各時間で独立 -> 時間遷移を無視 Delta
  7. 7. 提案法 変調スペクトル制約付きトラジェクトリ学習・適応 7
  8. 8. /15 トラジェクトリモデルと変調スペクトル 8 [Zen et al., 2007.][Takamichi et al., 2015.][Takamichi et al., 2016.]  トラジェクトリモデル (単一分布近似・周辺化GMMに対して) – 動的特徴量の行列 𝑾 を制約とした確率密度関数 – パラメータの時間遷移を考慮するモデル  変調スペクトル (MS) … パラメータの振動を表す特徴量 – 音声パラメータ系列 𝒚 のパワースペクトル 𝒔 𝒚 – 変調スペクトルの復元 → 合成音声の音質改善 𝑃 𝑾𝒚|𝝀 = 𝑃 𝒀 𝑡|𝝀 𝑡 𝑃 𝒚|𝑾, 𝝀 𝑾 Delta 𝒚 𝒔 𝒚MS Fourier transform & pow.
  9. 9. /15 変調スペクトル制約付き トラジェクトリ学習 9 𝝁 s = argmax 𝑁 𝒚(𝑠) ; 𝑨𝝁(𝑠) , 𝜮 ⋅ 𝑁 𝒔 𝒚(𝑠) ; 𝒔 𝑨𝝁 𝑠 , 𝜮ms 𝜔ms 時間遷移を考慮 変調スペクトルを復元 Source speaker 𝒚(1) 𝒙 𝑾 Delta Delta 1st target 2nd s-th Delta 𝑿 𝑡 𝒀 𝑡 GMM 𝛌 1 GMM 𝛌 2 GMM 𝛌 𝑠 𝝁(𝑠)Delta MS 𝑨:𝑾を含む行列, 𝜮:共分散行列
  10. 10. /15 変調スペクトル制約付き トラジェクトリ適応 10 𝝎ev = argmax 𝑁 𝒚(𝑛) ; 𝑨 𝑩𝝎ev + 𝒃 , 𝜮 ⋅ 𝑁 𝒔 𝒚(𝑛) ; 𝒔 𝑨 𝑩𝝎ev + 𝒃 , 𝜮ms 𝜔ms 時間遷移を考慮 変調スペクトルを復元 𝑿 𝑡 𝒀 𝑡 𝝎ev new speaker 𝒚 𝑛 Delta MS 𝑨:𝑾を含む行列, 𝜮:共分散行列 𝑾
  11. 11. /15 考察  提案法の効果 – MS制約付きトラジェクトリ学習・適応でパラメータを更新 – → 短遅延生成・言語非依存適応を可能にしつつ高品質化  整合性のとれた学習・適応基準 – 学習と適応で異なる基準を使うと,音質が極端に低下 – (例えば,従来学習&MS制約付きトラジェクトリ適応) 11
  12. 12. 実験的評価 英日間クロスリンガル音声変換 (英語音声の声色を日本語音声の声色に変換) 12
  13. 13. /15 実験条件 13 音響モデル 256混合 固有声GMM 学習話者 (source / target) VCTKコーパス (英語) 女性 1名 / 55名 適応話者・適応文数 ATR音素バランス (日本語) 女性 5名 Aセット20文からランダムに1文を選択 評価データ VCTKコーパスから 30文 話者適応学習及びMAP推定 なし 評価対象 Basic:従来の学習・適応 TRJ:トラジェクトリ学習・適応 MSTRJ:MS制約付きトラジェクトリ学習・ 適応 評価法 音質に関するABテスト 話者性に関するXABテスト (Xは日本語音声) * トラジェクトリ学習・適応: 提案法から 変調スペクトル (MS) に関する項を除いたアルゴリズム
  14. 14. /15 評価結果 14 Basic TRJ MSTRJ 1.0 0.8 0.6 0.4 0.2 0.0 Preferencescore Basic TRJ MSTRJ 1.0 0.8 0.6 0.4 0.2 0.0 Preferencescore Speech quality Speaker similarity 提案アルゴリズムによる品質改善を確認
  15. 15. /15 まとめ  従来法:GMM固有声変換 – 低遅延音声変換 – 発話内容非依存適応  提案法:MS制約付きトラジェクトリ学習・適応 – トラジェクトリモデル(時間制約)と変調スペクトルを考慮  実験結果: – 従来の利点を保ちつつ,変換音声を高品質化  今後の予定: – 適応データ量の調査 15

×