Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
©Yuki Saito, 2017/03/15
Highway network を用いた
差分スペクトル法に基づく敵対的DNN音声変換
◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
日本音響学会 2017年春季研究発表会
講...
/12
➢ 問題点: 統計的パラメトリック音声変換の音質劣化
• 生成される音声特徴量系列の過剰な平滑化が一因
➢ 改善案:
– (1) 入力音声特徴量の直接的な利用
• 入出力のドメインが同じ → 入力音声特徴量の自然性を利用可能
– (2)...
/12
従来の枠組み: 特徴量変換に基づくDNN音声変換
2
𝒙, 𝒚, ෝ𝒚: { input, output, converted } speech features
𝑿, ෡𝒀: { input, converted } static-d...
/123
従来手法の問題点: 自然音声と異なる特徴量分布
分布の違いを緩和・補償する
DNNアーキテクチャと音響モデル学習法を提案
分布が縮小
Natural
Feed-Forward
w/ MGE
11th mel-cepstral coef...
/124
提案手法:
重み付き差分スペクトルを推定する
Input-to-Output Highway Net
+
Anti-spoofing に敵対する音響モデル学習
(敵対的DNN音声変換)
/125
重み付き差分スペクトルを推定する
Input-to-Output Highway Net
Spectral
differentials
estimation
Transform
gate
𝑻 ⋅
𝑮 ⋅𝒙
⋯
𝑮 𝒙
⋯
𝒙1
𝒙 𝑇...
/126
Transform Gate の値の例
(男性話者 → 男性話者への変換)
入力特徴量に応じた柔軟な特徴量変換を実現!
Frame index
Indexofmel-cepstral
coefficient
Indexofmel-fi...
/12
Anti-spoofing に敵対する音響モデル学習
(敵対的DNN音声変換)
7
𝜔D: 重み, 𝐸 𝐿G
, 𝐸 𝐿D
: 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値
Anti-spoofing に
自然音声と識別させる損失
𝐿...
/12
HW w/ MGE
8
合成音声特徴量の分布
Natural
11th mel-cepstral coefficient
13thmel-cepstral
coefficient
分布の縮小を緩和し, 自然音声との違いも補償!
HW w...
/129
実験的評価
/12
実験条件
データセット ATR 音素バランス503文 (16 kHz サンプリング)
入出力話者 男性 → 男性
学習 / 評価データ A-I セット 450文 / Jセット 53文
波形生成 差分スペクトル法 [Kobayashi e...
/12
音質・話者性に関する主観評価結果
➢ プリファレンススコア (評価者数8名)
11
敵対的DNN音声変換による音質・話者性の改善を確認
MGE
ADV
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
(a) 音...
/12
まとめ
➢ 目的: 統計的パラメトリック音声変換の品質改善
➢ 提案手法:
– (1) Input-to-output highway net による差分スペクトル推定
• 入力特徴量の直接的な利用 & 柔軟な特徴量変換
– (2) 敵...
Upcoming SlideShare
Loading in …5
×

saito2017asj_vc

385 views

Published on

ASJ 2017 Voice Conversion

Published in: Science
  • Be the first to comment

saito2017asj_vc

  1. 1. ©Yuki Saito, 2017/03/15 Highway network を用いた 差分スペクトル法に基づく敵対的DNN音声変換 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年春季研究発表会 講演番号 1-6-14
  2. 2. /12 ➢ 問題点: 統計的パラメトリック音声変換の音質劣化 • 生成される音声特徴量系列の過剰な平滑化が一因 ➢ 改善案: – (1) 入力音声特徴量の直接的な利用 • 入出力のドメインが同じ → 入力音声特徴量の自然性を利用可能 – (2) Anti-spoofing に敵対する音響モデル学習  自然 / 合成音声特徴量の分布の違いを補償  テキスト音声合成において有効性を確認 ➢ 本発表: – (1) Input-to-output highway net を用いた差分スペクトル推定 – (2) 音声変換のための anti-spoofing に敵対する音響モデル学習 ➢ 結果: 提案手法による品質改善効果を確認 1 本発表の概要 [Saito et al., 2017.]
  3. 3. /12 従来の枠組み: 特徴量変換に基づくDNN音声変換 2 𝒙, 𝒚, ෝ𝒚: { input, output, converted } speech features 𝑿, ෡𝒀: { input, converted } static-dynamic speech features Delta calculation 𝑾 ⋯ 𝑿 ⋯ ⋯ ෡𝒀 ML-based parameter gen. ⋯ ⋯ ⋯ ⋯ Acoustic models 𝑮 ⋅ ⋯ ⋯ ⋯ ⋯ 𝒙1 𝒙 𝑇 𝒙 ⋯ 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize Minimum Generation Error (MGE) 学習 [Wu et al., 2016.] Generation error 𝐿G 𝒚, ෝ𝒚 𝒚1 𝒚 𝑇 𝒚 ⋯ ෝ𝒚 ⋯
  4. 4. /123 従来手法の問題点: 自然音声と異なる特徴量分布 分布の違いを緩和・補償する DNNアーキテクチャと音響モデル学習法を提案 分布が縮小 Natural Feed-Forward w/ MGE 11th mel-cepstral coefficient 13thmel-cepstral coefficient 分布が縮小
  5. 5. /124 提案手法: 重み付き差分スペクトルを推定する Input-to-Output Highway Net + Anti-spoofing に敵対する音響モデル学習 (敵対的DNN音声変換)
  6. 6. /125 重み付き差分スペクトルを推定する Input-to-Output Highway Net Spectral differentials estimation Transform gate 𝑻 ⋅ 𝑮 ⋅𝒙 ⋯ 𝑮 𝒙 ⋯ 𝒙1 𝒙 𝑇 𝒙 ⋯ ෝ𝒚 ෝ𝒚1 ෝ𝒚 𝑇 ⋯ 𝒙 ⋯ 𝑻 𝒙 ⋯ ෝ𝒚 = 𝒙 + 𝑻 𝒙 ∘ 𝑮 𝒙 入力特徴量に応じて 推定結果を重み付け (0 ~ 1) 入力特徴量を 直接的に利用 [Srivastava et al., 2015.]
  7. 7. /126 Transform Gate の値の例 (男性話者 → 男性話者への変換) 入力特徴量に応じた柔軟な特徴量変換を実現! Frame index Indexofmel-cepstral coefficient Indexofmel-filterbank 100 200 300 400 10 20 30 40 50 100 200 300 400 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0
  8. 8. /12 Anti-spoofing に敵対する音響モデル学習 (敵対的DNN音声変換) 7 𝜔D: 重み, 𝐸 𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 Anti-spoofing に 自然音声と識別させる損失 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 入力音声特徴量に基づき 自然音声と合成音声を識別 𝐿G 𝒚, ෝ𝒚 𝒚 Acoustic models & parameter generation ෝ𝒚𝒙 ⋯ 𝒙1 𝒙 𝑇 1: natural 0: generated Anti-spoofing Cross-entropy or 𝑮 ⋅
  9. 9. /12 HW w/ MGE 8 合成音声特徴量の分布 Natural 11th mel-cepstral coefficient 13thmel-cepstral coefficient 分布の縮小を緩和し, 自然音声との違いも補償! HW w/ ADVFF w/ MGE FF: Feed-Forward, HW: Input-to-output highway net MGE: Minimum Generation Error, ADV: Adversarial training
  10. 10. /129 実験的評価
  11. 11. /12 実験条件 データセット ATR 音素バランス503文 (16 kHz サンプリング) 入出力話者 男性 → 男性 学習 / 評価データ A-I セット 450文 / Jセット 53文 波形生成 差分スペクトル法 [Kobayashi et al., 2014.] 音声パラメータ 60次元のメルケプストラム (0次のメルケプストラムは入力話者のものを利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 118 – 3x512 (ReLU) – 118 (linear) Anti-spoofing Feed-Forward 59 – 3x256 (ReLU) – 1 (sigmoid) 重み 𝜔D 1.0 比較手法 MGE: 提案アーキテクチャ w/ MGE学習 ADV: 提案アーキテクチャ w/ 敵対的DNN音声変換 10
  12. 12. /12 音質・話者性に関する主観評価結果 ➢ プリファレンススコア (評価者数8名) 11 敵対的DNN音声変換による音質・話者性の改善を確認 MGE ADV 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 (a) 音質 (b) 話者性 MGE ADV 改善 改善 0.0 0.2 0.4 0.6 1.00.8
  13. 13. /12 まとめ ➢ 目的: 統計的パラメトリック音声変換の品質改善 ➢ 提案手法: – (1) Input-to-output highway net による差分スペクトル推定 • 入力特徴量の直接的な利用 & 柔軟な特徴量変換 – (2) 敵対的DNN音声変換 • 自然 / 合成音声特徴量の分布の違いを補償 ➢ 今後の予定: • Input-to-output highway net の話者対への依存性の調査 12

×