Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

474 views

Published on

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Published in: Technology
  • Be the first to comment

  • Be the first to like this

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

  1. 1. Moment-matching networkに基づく 一期一会音声合成における発話間変動の評価 ○高道 慎之介†1,郡山 知樹†2,齋藤 佑樹†1,猿渡 洋†1 日本音響学会 2017年 秋季研究発表会 1-8-9 (†1:東大院・情報理工,†2:東工大)
  2. 2. /12 概要  発話間変動 – 同一コンテキストに対する音声の変動  一期一会音声合成 [Takamichi et al., INTERSPEECH2017.] – Moment-matching networkに基づく音響モデリング – 音質を劣化させずに,音声パラメータをランダム生成可能  本報告:一期一会音声合成の発話間変動を定量的に評価 – 繰り返し発話された自然音声と比較 2 “Hello” “Hello”
  3. 3. /12 通常のDNN音声合成 (Mean squared errorの最小化) 3 Mean squared error Linguistic feats. Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ [Wu et al., 2016.] 𝒚𝒚 𝒙 条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
  4. 4. /12 一期一会音声合成 (条件付きMMDの最小化) 4 Conditional MMD Linguistic feats. 𝒚 Static-delta mean vectors 𝒚 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ 𝑁 𝟎, 𝑰 Frame-wise noise generator time 𝑡 = 1 time 𝑡 = 𝑇 𝒙 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ モーメントマッチングによる経験分布表現に基づくサンプリング
  5. 5. /12 MMD (Maximum Mean Discrepancy) 5  2つのデータセットの統計量の不一致指標   Moment-matching network [Li et al., 2015.] – MMDを最小化するように、ノイズ入力のDNNを学習 𝑁 𝟎, 𝑰 𝒚 𝒚 MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯
  6. 6. /12 条件付きMMD (CMMD: Conditional MMD)  条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]  Conditional moment-matching network [Ren et al., 2016.] – CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習 6 𝒙, 𝒙 のグラム行列の逆行列を含む行列 𝑁 𝟎, 𝑰 𝒚 𝒙 ⋯ ⋯ ⋯ ⋯ 𝒚 CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 𝒙
  7. 7. /12 前回までの報告と今回の報告  前回までの報告:音質評価 – 1. 通常のDNN音声合成より,一期一会音声合成は高品質 – 2. スペクトルのランダム生成は,最尤生成と同程度の音質  今回の報告 – そのランダム性 (発話間変動) を定量評価 – 繰り返し音声を新たに収録 7
  8. 8. 実験的評価 8
  9. 9. /12 実験条件 9 項目 値・設定 学習データ 女性1名,日本語4000文 評価データ ATR音素バランスJセット53文 (後述) 入力特徴量 442次元コンテキスト 出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声 ラベル,5帯域非周期性指標 入力ノイズ 5次元/フレーム.正規分布からランダム生成 ネットワーク構造 Feed-Forward グラム行列の カーネル ガウスカーネル (予備実験で線形カーネル・多項式 カーネルも使用したが,大きな変化はなし)
  10. 10. /12 発話間変動の評価法  評価用データセットの作成 – 自然音声:評価データ (Jセット53文) を5回ずつ繰り返し収録 – 合成音声:各文に対して100回ランダム生成  評価対象手法 – 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし • なしの場合は,静的特徴量を直接推定 – スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成  評価法 – 自然音声同士,合成音声同士で発話間変動を計算 • スペクトル:メルケプストラム歪み • 連続対数F0・継続長:二乗誤差 • 有声/無声ラベル:誤りフレーム数 10
  11. 11. /12 評価結果 11 パラメータ パラメータ生成 発話間変動 自然音声の発話 間変動との比 スペクトル あり 0.095 1.6 [%] なし 0.202 3.4 [%] 連続対数F0 あり 0.60e-5 0.014 [%] なし 1.85e-5 0.042 [%] 有声/無声 - 4.02e-3 2.7 [%] 音素継続長 - 0.557 17.3 [%] ・生成した音素継続長は,自然音声と比較して17%程度の発話間変動 - 他のパラメータは数%程度 ・パラメータ生成を入れない方が,発話間変動は改善
  12. 12. /12 まとめ  一期一会音声合成 – 合成するごとに異なる音声パラメータを生成 – → 発話間変動を有する合成音声  実験的評価・結果 – 合成音声パラメータの発話間変動を定量的に評価 – → 自然音声と比較して,音素継続長は17%程度の変動 – → それ以外の特徴量は数%程度  今後の予定 – 発話間変動の主観評価 – 発話間変動の改善 12

×