Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Deep learning for acoustic modeling in parametric speech generation

研究室内の論文紹介資料(当時M2)

  • Login to see the comments

  • Be the first to like this

Deep learning for acoustic modeling in parametric speech generation

  1. 1. ©Yuki Saito, 2017/05/10 Deep Learning for Acoustic Modeling in Parametric Speech Generation A Systematic Review of Existing Techniques and Future Trends [Z.-H. Ling et al., 2015.] 創造情報学専攻 修士2年 齋藤 佑樹
  2. 2. /401 Outline of This Paper  Statistical Parametric Speech Generation (SPSG) – 入力特徴量と音声特徴量の対応関係を音響モデルにより表現 – 従来の音響モデル • Hidden Markov Models (HMMs) • Gaussian Mixture Models (GMMs)  Deep Neural Networks (DNNs) の導入 – Automatic Speech Recognition (ASR) での成功に基づく – 人間の階層的な音声生成過程をモデル化  本稿の目的: DNNsを用いたSPSGの系統的な review – 既存の技術 → DNNs を用いたSPSG へ 複雑な対応関係を 表現しにくい
  3. 3. /402 Introduction  音声信号処理における機械学習 – ASR: 音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類) – Speech generation: 入力から音声信号を予測 (回帰) • Text-To-Speech (TTS): 入力テキストから音声を生成 • Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換 • Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減) • Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換  SPSG = 統計的な音響モデリング + Vocoder による音声波形生成 – (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築 – (2) 上記の確率分布に従い音声特徴量を生成 • Spectral features (e.g., Mel-Cepstral Coefficients: MCCs) • Excitation features (e.g., fundamental frequency, aperiodicity) – (3) Vocoder による音声波形生成
  4. 4. /403 HMM-Based Speech Synthesis  HMM: 離散的な隠れ状態系列を用いて観測の系列を生成  HMM音声合成: コンテキスト依存のHMMを構築 – 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在  状態間の遷移 – 遷移確率により表現  観測の生成分布 – State-Output PDFs により表現 – 個々の分布は Gaussian  各状態の継続長 – 別途推定 (継続長HMMを利用)  利点: 声質の制御が容易 – モデル適応や補間など
  5. 5. /404 Block Diagram of Typical HMM-Based Speech Synthesis System
  6. 6. /405 Model Parameter Estimation Based on Maximum Likelihood (ML) Criterion  音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁  フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1 ⊤ , … , 𝒚 𝑇 ⊤ ⊤ – フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡 ⊤ , Δ𝒚 𝑠 𝑡 ⊤ , Δ2 𝒚 𝑠 𝑡 ⊤ ⊤ • 𝒚 𝑠 𝑡 ∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡 , Δ2 𝒚 𝑠 𝑡 : 動的特徴量 – 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1 ⊤ , … , 𝒚 𝑠 𝑇 ⊤ ⊤ とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠  コンテキスト依存HMMのモデルパラメータ 𝜆∗ のML推定 – 𝜆∗ = arg max 𝜆 𝑝 𝒚 𝒙, 𝜆 – HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると • 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆 • = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆 • = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1 𝑇 𝑝 𝒚 𝑡 𝑞𝑡, 𝜆 静的特徴量から 動的特徴量を 計算する行列
  7. 7. /406 Decision Tree-Based Clustering  問題点: コンテキストの組み合わせが膨大 – 同じコンテキストの発生は非常に稀 → overfitting  解決策: 類似したコンテキストをクラスタリング – クラスタ毎にHMMの State-Output PDFs を割り当て  決定木 (Decision Tree): – データの集合をいくつかの質問により 分割 – 質問の設定は対象とする言語に依存 • English, Chinese, Japanese, ...
  8. 8. /407 Block Diagram of Typical HMM-Based Speech Synthesis System
  9. 9. /408 Speech Synthesis Stage  1. 入力テキストからテキスト特徴量 𝒙 を取得  2. HMMの状態系列 𝒒∗ を決定 – 𝒒∗ = arg max 𝒒 𝑃(𝒒| 𝒙, 𝜆∗ )  3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成 – 𝒚 𝑠 ∗ = arg max 𝒚 𝑠 𝑡=1 𝑇 𝑝(𝒚 𝑡|𝑞𝑡 ∗ , 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡  4. Vocoder により音声波形を生成
  10. 10. /409 GMM-Based Voice Conversion  入力話者の音声特徴量系列: 𝒙 = 𝒙1 ⊤ , … , 𝒙 𝑇 ⊤ ⊤  目的話者の音声特徴量系列: 𝒚 = 𝒚1 ⊤ , … , 𝒚 𝑇 ⊤ ⊤  Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡 ⊤ , 𝒚 𝑡 ⊤ ⊤ の生成をモデル化 – モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚 𝑧 , 𝚺 𝑚 𝑧 𝑚=1 𝑀 • 𝛼 𝑚: 混合重み,𝝁 𝑚 (𝑧) : 平均,𝚺 𝑚 𝑧 : 分散 • 𝝁 𝑚 𝑧 = 𝝁 𝑚 𝑥 𝝁 𝑚 𝑦 , 𝚺 𝑚 𝑧 = 𝚺 𝑚 𝑥𝑥 𝚺 𝑚 𝑥𝑦 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑦𝑦  モデルパラメータのML推定 – 𝜆∗ = arg max 𝜆 𝑝 𝒙, 𝒚 𝜆 – = arg max 𝜆 𝑡=1 𝑇 𝑝 𝒛 𝑡 𝜆 Aligned by using Dynamic Time Warping
  11. 11. /4010 Block Diagram of Typical GMM-Based Voice Conversion System
  12. 12. /4011 Acoustic Feature Prediction Using Conditional PDF  入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列) – 𝑝 𝒚 𝒙, 𝜆∗ = ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗ – = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1 𝑇 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ • 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1 𝑇 𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は • 𝛼 𝑚, 𝝁 𝑚 𝑥 , 𝚺 𝑚 𝑥 𝑚=1 𝑀 • をパラメータとするGMMを用いて決定 • 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は • 平均: 𝝁 𝑚,𝑡 𝑦|𝑥 = 𝝁 𝑚 (𝑦) + 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑥𝑥 −1 𝒙 𝑡 − 𝝁 𝑚 𝑥 • 分散: 𝚺 𝑚 𝑦|𝑥 = 𝚺 𝑚 (𝑦𝑦) − 𝚺 𝑚 𝑦𝑥 𝚺 𝑚 𝑥𝑥 −1 𝚺 𝑚 (𝑥𝑦) • とする Gaussian
  13. 13. /4012 Voice Conversion Stage  1. 入力音声波形から音声特徴量 𝒙 を取得  2. GMMの混合成分系列 𝒎∗ を決定 – 𝑚 𝑡 ∗ = arg max 𝑚 𝑡 𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗ )  3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成 – 𝒚 𝑠 ∗ = arg max 𝒚 𝑠 𝑡=1 𝑇 𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡 ∗ , 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠  4. Vocoder により音声波形を生成
  14. 14. /4013 Common Structure: Two-Step Mapping  HMM音声合成とGMM音声変換の共通点: 2段階のモデル化 – (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング • HMM: 状態 𝑞𝑡 ∗ , GMM: 混合成分 𝑚 𝑡 ∗ – (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング • HMM: 𝑝 𝒚 𝑡|𝑞𝑡 ∗ , 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡 ∗ , 𝜆∗  Limitations – 決定木に基づくコンテキストクラスタリング • → コンテキストの複雑な依存関係 (XORなど) を表現できない – Single Gaussian with diagonal covariance matrices の仮定 • 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき) • フレーム内の音声特徴量は独立 • → 音声特徴量の over-smoothing & 合成音声の品質劣化
  15. 15. /4014 Deep Learning Technique for Acoustic Modeling  Motivations – 従来手法よりも高い表現力 • 入力間, 出力間, さらに入出力間の対応関係 – 人間の音声生成に基づくモデリング • 階層型のネットワーク構造を利用  本稿では – Restricted Boltzmann Machines (RBMs) – Deep Belief Networks (DBNs) – Deep Neural Networks (DNNs) → conditional modeling  を紹介 Joint modeling
  16. 16. /4015 Restricted Boltzmann Machines (RBMs)  可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル – 𝒗 = 𝑣1, … , 𝑣 𝑉 ⊤ : 可視素子 (素子数 𝑉) – 𝒉 = ℎ1, … , ℎ 𝐻 ⊤: 隠れ素子 (素子数 𝐻) – 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ • 𝒂 = 𝑎1, … , 𝑎 𝑉 ⊤: 可視素子のバイアス • 𝒃 = 𝑏1, … , 𝑏 𝐻 ⊤: 隠れ素子のバイアス • 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み  Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合) – 𝑃 𝒗, 𝒉 𝜆 = 1 𝒵 𝜆 exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1) • 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1 𝑉 𝑎𝑖 𝑣𝑖 − 𝑗=1 𝐻 𝑏𝑗ℎ𝑗 − 𝑖=1 𝑉 𝑗=1 𝐻 𝑤𝑖𝑗 𝑣𝑖ℎ𝑗 • → エネルギー関数 • 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆 • → 分配関数
  17. 17. /4016 Training RBMs  可視素子 𝒗 の marginal PDF – 𝑃 𝒗 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆  確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗) – 𝜕 log 𝑃 𝒗 𝜆 𝜕𝑤 𝑖𝑗 = E 𝑃data 𝑣𝑖ℎ𝑗 − E 𝑃model 𝑣𝑖ℎ𝑗 • E 𝑃data ⋅ : 学習データの分布に関する期待値 • E 𝑃model ⋅ : 𝑃 𝒗 𝜆 に関する期待値 • → 計算が困難なので, Contrastive Divergence (CD) 法で近似
  18. 18. /4017 Gaussian-Bernoulli RBM: RBM for Real-Valued Visible Units  エネルギー関数 – 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2𝜎𝑖 2 − 𝑗=1 𝐻 𝑏𝑗ℎ𝑗 − 𝑖=1 𝑉 𝑗=1 𝐻 𝑤𝑖𝑗ℎ𝑗 𝑣 𝑖 𝜎 𝑖  Conditional PDFs – 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇 𝚺− 1 2 𝒘⋅𝑗 – 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺 • 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数 • 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル • 𝝁 = 𝑾𝒉 + 𝒂: 平均 • 𝚺 = diag{𝜎1 2 , … , 𝜎 𝑉 2 }: 分散共分散行列 • 各成分は定数 (以降, 表記を簡単化するために全て1とする)
  19. 19. /4018 Marginal PDF of Gaussian-Bernoulli RBM  𝑝 𝒗 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆  = 1 𝒵 𝜆 ∀𝒉 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 + 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉  = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤ 𝒘⋅𝑗ℎ𝑗)  = 1 𝒵 𝜆 𝑖=1 𝑉 exp − 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 1 + exp(𝑏𝑗 + 𝒗⊤ 𝒘⋅𝑗)  この 𝑝 𝒗 𝜆 は – Product of Experts (PoEs) – GMM  として解釈可能
  20. 20. /4019 Gaussian-Bernoulli RBM as Product of Experts (PoEs)  PoE: 複数の単純な分布の積により1つの確率分布を表現 – 個々の分布よりも鋭い分布を生成可能 – 高次元空間における混合モデルよりも効率的 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 𝑖=1 𝑉 exp − 𝑣 𝑖−𝑎 𝑖 2 2 𝑗=1 𝐻 1 + exp(𝑏𝑗 + 𝒗⊤ 𝒘⋅𝑗)  First products – 可視素子間の相関は考慮せず, 単変量のみでのモデル化  Second products – 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化
  21. 21. /4020 Gaussian-Bernoulli RBM as GMM  Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM – 𝐻 = 0 のとき... • 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 → 平均 𝒂 の Gaussian – 𝐻 = 1 のとき... • 𝑝 𝒗 𝜆 = 1 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖 2 2 + 𝜅 𝒵 𝜆 exp − 𝑖=1 𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1 2 2 • 𝜅: モデルパラメータによって決まる定数 – 一般的に... • 隠れ素子数の増加 → 混合成分数が2倍に • Structured mean vectors & tied covariance matrices • → robust towards data sparsity problem
  22. 22. /4021 Conditional RBM (CRBM)  𝑝 𝒚 𝒙, 𝜆 をモデル化 – 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき • 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1 𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘 2 2𝜎𝑖 2 • − 𝑗=1 𝐻 𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1 𝐷 𝑌 𝑗=1 𝐻 𝑤𝑖𝑗ℎ𝑗 𝑦 𝑖 𝜎 𝑖 • 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ • 𝑝 𝒚 𝒙, 𝜆 = 1 𝒵 𝜆 ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 • 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚  モデルパラメータの推定はRBMと同様 (CD法)
  23. 23. /4022 Deep Belief Networks (DBNs)  隠れ素子を多層化 (𝐿層) – 𝒉 𝑙 = ℎ1 𝑙 , … , ℎ 𝐻 𝑙 𝑙 ⊤ : 𝑙番目の隠れ層 (素子数 𝐻𝑙) – 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ – 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2 𝐿−1 𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆) • 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰 • 𝑃 ℎ𝑖 𝑙−1 = 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖 𝑙 + 𝑗 𝑤𝑖𝑗 𝑙 ℎ𝑗 𝑙  Marginal PDF – 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 • → 𝜆 の直接的な推定は困難
  24. 24. /4023 Greedy Layer-wise Training Estimate 𝒂 1 , 𝒃(1), 𝑾 1 (train 1st RBM) Estimate 𝒂 2 , 𝒃(2), 𝑾 2 (train 2nd RBM) Estimate 𝒂 3 , 𝒃(3) , 𝑾 3 (train 3rd RBM)
  25. 25. /4024 Deep Neural Networks (DNNs)  教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化 – 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ – ℎ𝑗 𝑙 = 𝑔 𝑏𝑗 𝑙 + 𝑖 ℎ𝑖 𝑙−1 𝑤𝑖𝑗 𝑙 : 𝑙 番目の隠れ層の第 𝑗 成分 • ℎ𝑖 0 = 𝑥𝑖 (入力特徴量の第 𝑖 成分) • 𝑏𝑗 (𝑙) : バイアス成分,𝑤𝑖𝑗 𝑙 : 結合重み  出力層の活性化関数はタスク依存 – Classification → softmax 関数 • 𝑦𝑗 = exp 𝑏 𝑗 (𝐿+1) + 𝑖 ℎ 𝑖 (𝐿) 𝑤𝑖𝑗 𝐿+1 𝑘 exp 𝑏 𝑘 (𝐿+1) + 𝑖 ℎ 𝑖 (𝐿) 𝑤𝑖𝑘 𝐿+1 – Regression → linear 関数 • 𝑦𝑗 = 𝑏𝑗 (𝐿+1) + 𝑖 ℎ𝑖 (𝐿) 𝑤𝑖𝑗 (𝐿+1)
  26. 26. /4025 Loss Function for Training DNN  Backpropagation アルゴリズムを用いた学習 – 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新 • Classification → cross-entropy 関数 • ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦) • Regression → mean squared error • ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗 2 » → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価  DNNの学習における問題 – 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題) – 表現力が非常に高いので over-fitting しやすい • → DBNによる pre-training • (1) 𝐿 層のDBNを教師なし学習 • (2) 出力層を追加して全体を fine-tuning
  27. 27. /4026 Another Way to Pre-train DNN: AutoEncoders (AEs)  入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習 – (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮 – (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい) – (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習  Denoising AE (DAE): 入力にノイズを加えて復元 – RBMsの代わりにDAEsを多層化させてDNNを構築 • ニューラルネットワークの学習として • DNNの pre-training が可能 ̃
  28. 28. /4027 Cluster-to-Feature Mapping Using Deep Generative Models  RBMsを用いたHMM音声合成 – MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化 – HMM音声合成における Gaussian をRBMsで置換  実験条件 – 音声特徴量 (MCCs,F0,スペクトル包絡) の抽出: STRAIGHT法 • MCCsとF0のモデル化: HMM音声合成 (全手法で共通) 予測特徴量 生成分布 Baseline MCCs Gaussian GMM スペクトル包絡 GMM (𝑀 = 8) RBM スペクトル包絡 RBM (𝐻 = 50)
  29. 29. /4028 Experimental Results  RBMによる品質改善を確認  VCにおいても品質改善を確認 (Mean Opinion Score: MOS での評価) – 目的話者との類似度: 2.83 → 3.13 – 合成音声の自然性: 2.90 → 3.45
  30. 30. /4029 Spectrograms of Synthetic Speech RBM Baseline
  31. 31. /4030 Input-to-Feature Mapping Using Deep Joint Models  MultiDistribution DBN (MD-DBN) によるモデリング – 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現 – 音節単位での複数フレームの音声特徴量をモデル化 • Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V • 異なる音声特徴量の相関もモデル化可能 – 連続変数 (U/V以外) のモデル化 • → Gaussian – 2値変数 (U/V) のモデル化 • → Bernoulli
  32. 32. /4031 Training/Synthesis Using MD-DBN  学習時 – (1) 𝒉 𝐿−1 までを教師なし学習 (通常のDBNの学習と同様) – (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習  生成時 – (1) テキスト特徴量 𝒙 を決定 – (2) 𝒉 𝐿−1 の推定 – (3) 𝒉(1) までを再帰的に推定 – (4) 音声特徴量 𝒚 を推定 – (5) 波形生成
  33. 33. /4032 Comparison between HMM and MD-DBN  生成分布の表現方法 – HMM: 複数の single Gaussian – MD-DBN: 1つのネットワーク  音声特徴量モデル化の単位 – HMM: 状態単位でのモデル化 – MD-DBN: 音節単位 (複数フレーム) でのモデル化  同一フレーム内での音声特徴量のモデル化 – HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance) – MD-DBN: 独立性の仮定なし
  34. 34. /4033 Experimental Results  比較手法 – HMM: HMM音声合成 – DBN (MGCs): スペクトルのみをMD-DBNで予測 – DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測  結果 – スペクトル特徴量のみの予測では品質改善を確認 – F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題?
  35. 35. /4034 Input-to-Feature Mapping Using Deep Conditional Models  𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化 – DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換 • テキスト特徴量: 2値変数と実数変数の混合 • 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V – 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均 • 分散は学習データを用いて別途推定 – 結果: HMM音声合成と比較して品質改善
  36. 36. /4035 Comparisons among Three Approaches  Cluster-to-Feature w/ RBM – 従来技術と類似した枠組み + 生成分布の表現方法を修正  Input-to-Feature w/ MD-DBN or DNN – 2段階のモデル化を統合 (クラスターへのマッピングが不要) • 音声特徴量への複雑なマッピングをより効率的に表現可能 – MD-DBN: サンプリングベースの音声特徴量生成 – DNN: 入力特徴量から音声特徴量を straightforward に生成 • 生成分布の表現力は弱い (単位行列を仮定した Gaussian)  タスクに応じてさまざまなアプローチが存在 – DNN + Gaussian Process を用いたlogF0の生成 (TTS) – Mixture of RBMs を用いたVC – DAEを用いた speech enhancement – etc...
  37. 37. /4036 Performance of RBMs as Density Models  HMM音声合成におけるスペクトル 特徴量のモデル化 – GMM: モデルが複雑になるほど over-fitting しやすい – RBM: モデルを複雑にしたときの over-fitting の影響が比較的小さい → good generalization  RBMを用いることにで, 生のスペク トル包絡からの特徴抽出が可能に – → 包絡モデリング時の誤差を軽減
  38. 38. /4037 Input and Target Features  入力特徴量はタスク依存で決定 – TTS: rich linguistic context, 入力テキストのベクトル表現 – VC: 入力音声のスペクトル特徴量 – Enhancement: noisy speech のパワースペクトル  出力特徴量 (音声) の表現方法も多数存在 – Deep generative models が持つ高い表現力を利用 • 生のスペクトル包絡,パワースペクトルからの特徴抽出 • 多数の音声特徴量を連結させた特徴量 – TTSでは, F0に関する特徴量の予測も重要 • これまで紹介した手法では, logF0の予測精度は今ひとつ...
  39. 39. /4038 Model Structures and Model Training  音声生成のアプローチに応じたモデルの設定 – RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature – DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature  モデルの深さも重要 (だが, 深ければよいというわけでもない) – ASRに比べると学習データの数が少ないので,学習が困難  モデルの初期化法も多数存在 – Random initialization (TTS) – DBNsを用いた初期化 (VC) – AEs, RBMs を用いた初期化 (enhancement)  計算コスト削減にGPUを用いた高速化も有効
  40. 40. /4039 Comparison between Speech Synthesis and Recognition both Using DNN-HMMs  DNN-HMM: ASRにおいて主流となっている手法 – (1) DNNにより音声特徴量を決定木の葉ノードにマッピング – (2) HMMにより言語特徴量を decoding  SPSGでは,ASRに比べてモデルの構造が多様 – DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似 • 主な違いは出力層の活性化関数 • ASR (classification): softmax 関数 • SPSG (regression): linear 関数  音声特徴量の役割 – ASR: 発話内容の予測 (exicitation, power spectra は使わない) – SPSG: 音声波形の生成 (spectra, excitation の両方が必要)
  41. 41. /4040 Conclusions  概要: deep learning を用いたSPSGのための音響モデリング – 入出力間の複雑な対応関係を表現可能 • Deep joint models (RBMs, DBNs) • Deep conditional models (CRBMs, DNNs) – 従来手法と比較して合成音声の品質改善  将来展望 – F0の高精度な予測を実現するモデルが必要 • スペクトルの予測とは別途行うべき? • 時系列単位での依存性を考慮したモデル

×