Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Moment matching networkを用いた
音声パラメータのランダム生成の検討
○高道 慎之介 (東大院・情報理工)
郡山 知樹 (東工大)
猿渡 洋 (東大院・情報理工)
日本音響学会 2017年 春季研究発表会
2-6-9
/13
概要
 目的: 自然音声のように「同一テキストでも発話毎に
音声特徴量が異なる」音声合成システム
– 同一テキストでも発話毎にスペクトルは違う [Inukai et al., 2013.]
– この音声のランダム性(発話間変動)を合成...
/13
通常の音声合成
(Mean squared errorの最小化)
3
Mean squared
error
Linguistic
feats.
Static-delta
mean vectors
⋯
⋯
⋯
⋯
time
𝑡 = 1
⋯...
/13
提案法
(条件付きMMDの最小化)
4
Conditional
MMD
Linguistic
feats.
𝒚
Static-delta
mean vectors
𝒚
⋯
Generated
speech
params.
Natural...
/13
MMD (Maximum Mean Discrepancy)
5
 2つのデータセットの統計量の不一致指標

 Moment-matching network [Li et al., 2015.]
– MMDを最小化するように、ノ...
/13
条件付きMMD (CMMD: Conditional MMD)
 条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]
 Conditional moment-matching network [Ren et ...
/13
音声合成への適用
 グラム行列のカーネル関数をどう設計する?
– 𝒚(音声パラメータ):ガウスカーネルなど
– 𝒙(コンテキストラベル):ガウスカーネル?
• ほとんどの要素は1-of-K hotベクトル,非常にスパース…
 Bot...
/13
生成パラメータのサンプル
8
/13
従来手法との比較
9
項目 従来法 提案法
確率密度関数 Gaussian or GMM
(mixture density nets)
より複雑な分布
サンプリング 全共分散の正規分布
(trajectory model)
単純な事前分...
実験的評価
10
従来の生成と比較して,音質劣化なしでサンプリングできるか?
/13
実験条件
11
項目 値・設定
学習データ 音素バランス450文/話者 × 5話者
評価データ 53文/話者 × 1話者
入力特徴量 274次元コンテキスト + 5次元話者ID
出力特徴量 40次元メルケプストラム+動的特徴量(計120...
/13
主観評価指標
(音質に関するABテスト)
12
サンプリングによる音質劣化なし&従来法を上回る音質を達成
* エラーバーは95%信頼区間
/13
まとめ
 目的:ランダム性を持つ音声合成を作りたい!
 提案法:Moment-matching networkを用いた音声合成法
– 自然音声と合成音声のモーメントを揃えるようにDNNを学習
– サンプリングによる音声パラメータ生成...
Upcoming SlideShare
Loading in …5
×

Moment matching networkを用いた音声パラメータのランダム生成の検討

5,377 views

Published on

音響学会201703

Published in: Science
  • Be the first to comment

Moment matching networkを用いた音声パラメータのランダム生成の検討

  1. 1. Moment matching networkを用いた 音声パラメータのランダム生成の検討 ○高道 慎之介 (東大院・情報理工) 郡山 知樹 (東工大) 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年 春季研究発表会 2-6-9
  2. 2. /13 概要  目的: 自然音声のように「同一テキストでも発話毎に 音声特徴量が異なる」音声合成システム – 同一テキストでも発話毎にスペクトルは違う [Inukai et al., 2013.] – この音声のランダム性(発話間変動)を合成音声に持たせたい  提案:Moment-matching networkを用いた音声合成法 – 自然音声と合成音声のモーメントを揃えるようにDNNを学習 – サンプリングによる音声パラメータ生成 2 最尤生成と比較して音質劣化なしで,サンプリング生成を可能に
  3. 3. /13 通常の音声合成 (Mean squared errorの最小化) 3 Mean squared error Linguistic feats. Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ [Wu et al., 2016.] 𝒚𝒚 𝒙 条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
  4. 4. /13 提案法 (条件付きMMDの最小化) 4 Conditional MMD Linguistic feats. 𝒚 Static-delta mean vectors 𝒚 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ 𝑁 𝟎, 𝑰 Frame-wise noise generator time 𝑡 = 1 time 𝑡 = 𝑇 𝒙 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ モーメントマッチングによる経験分布表現に基づくサンプリング
  5. 5. /13 MMD (Maximum Mean Discrepancy) 5  2つのデータセットの統計量の不一致指標   Moment-matching network [Li et al., 2015.] – MMDを最小化するように、ノイズ入力のDNNを学習 𝑁 𝟎, 𝑰 𝒚 𝒚 MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯
  6. 6. /13 条件付きMMD (CMMD: Conditional MMD)  条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]  Conditional moment-matching network [Ren et al., 2016.] – CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習 6 𝒙, 𝒙 のグラム行列の逆行列を含む行列 𝑁 𝟎, 𝑰 𝒚 𝒙 ⋯ ⋯ ⋯ ⋯ 𝒚 CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 𝒙
  7. 7. /13 音声合成への適用  グラム行列のカーネル関数をどう設計する? – 𝒚(音声パラメータ):ガウスカーネルなど – 𝒙(コンテキストラベル):ガウスカーネル? • ほとんどの要素は1-of-K hotベクトル,非常にスパース…  Bottleneck特徴量を用いたカーネル計算 – 連続空間に写像したコンテキストでカーネルを計算 7 Context Speech feats. Squared error 最小化で学習 Conditional MMD 最小化で学習 Speech feats. ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Noise
  8. 8. /13 生成パラメータのサンプル 8
  9. 9. /13 従来手法との比較 9 項目 従来法 提案法 確率密度関数 Gaussian or GMM (mixture density nets) より複雑な分布 サンプリング 全共分散の正規分布 (trajectory model) 単純な事前分布 最適化問題 ミニマックス問題 (GAN [敵対的学習] ) 最小化問題 従来法との関連 Divergenceに関連 (尤度比) (GAN: Jensen-Shannon div.) GV/MSに関連 (モーメント差) Anti-spoofingの詐称 Replay-attack検出技術で検出 (最尤生成) ランダム生成で 検出を緩和 [スペースの都合により引用を省略] * GV/MS: 系列内変動/変調スペクトル * GMM: 混合正規分布モデル
  10. 10. 実験的評価 10 従来の生成と比較して,音質劣化なしでサンプリングできるか?
  11. 11. /13 実験条件 11 項目 値・設定 学習データ 音素バランス450文/話者 × 5話者 評価データ 53文/話者 × 1話者 入力特徴量 274次元コンテキスト + 5次元話者ID 出力特徴量 40次元メルケプストラム+動的特徴量(計120次元) Bottleneck特徴量 128次元 入力ノイズ 3次元/フレーム.正規分布からランダム生成 ネットワーク構造 Feed-Forward, 131 – 512×3 (ReLU) – 120 (Linear) 評価対象 conv:従来のdeep neural network音声合成で最尤生成 [Zen et al., 2013.] pro (w/ rand): 提案法(ランダム生成) pro (w/o rand): 提案法(ノイズ項を最尤推定で固定して生成)
  12. 12. /13 主観評価指標 (音質に関するABテスト) 12 サンプリングによる音質劣化なし&従来法を上回る音質を達成 * エラーバーは95%信頼区間
  13. 13. /13 まとめ  目的:ランダム性を持つ音声合成を作りたい!  提案法:Moment-matching networkを用いた音声合成法 – 自然音声と合成音声のモーメントを揃えるようにDNNを学習 – サンプリングによる音声パラメータ生成  実験結果: – サンプリングによる音質劣化なし  今後の予定: – 動的特徴量の必要性 – 学習データ数の影響 – 自然音声の持つランダム性との比較 – 継続長決定・波形生成への応用 13

×