Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Saito19asjAutumn_DeNA

19 views

Published on

Research talk @ ASJ2019 Autumn Meeting

Published in: Science
  • Be the first to comment

  • Be the first to like this

Saito19asjAutumn_DeNA

  1. 1. 音素事後確率を用いた 多対一音声変換のための 音声認識・生成モデルの同時敵対学習 ◎ 齋藤 佑樹, △ 阿久澤 圭 (ディー・エヌ・エー/東大), 橘 健太郎 (ディー・エヌ・エー) 日本音響学会 2019年秋季研究発表会 2-4-2
  2. 2. 2/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 多対一VC: 任意話者の音声を所望の目的話者の音声に変換 • DeNA の VTuber 向け配信事業サービスへの応用展開 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 本発表の概要 *PPG: Phonetic PosteriorGram
  3. 3. • 1. 多数話者の音声を用いた音声認識モデルの学習 • ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! " ! , 潜在変数 -. " -. , PPG /0 " /0 , 音素 ラベル $ " 1234 音声認識 合成音声 特徴量 /5 , 目的音声 特徴量 5 , 1624 1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
  4. 4. • 2. 目的話者の音声を用いた音声生成モデルの学習 • ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! , ! " 潜在変数 -. , -. " PPG /0 , /0 " 音素 ラベル 1 , 2345 音声認識 合成音声 特徴量 /$ " 目的音声 特徴量 $ " 2635 2635 $ " , /$ " : 音声生成損失の mean squared error
  5. 5. 従来法の問題点1: 合成音声特徴量の過剰な平滑化 • 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小 4/17 25次メルケプ フレーム 目的話者の自然音声 目的話者の合成音声 (従来法) 23次メルケプ
  6. 6. 従来法の問題点2: PPG の話者依存性 • 音素識別損失のみの最小化 → PPG の話者独立性の保証なし • 異なる話者の同一発話音声から異なる PPG を予測する可能性 5/17 変換元話者 A 変換元話者 B 音素 インデックス フレーム
  7. 7. 6/17 提案法 音声認識・生成モデルの 同時敵対学習
  8. 8. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 1. !"# の更新: $"# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 %& ⋅ ( ⋅ ) * ) + ,- * ,- + $"./ 01 + $2"/%3 ⋅ !"# ⋅ 1 + 自然 合成 04 * 04 + 5 * $"#話者 認証器 $"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失 [Goodfellow+, 2014]
  9. 9. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 2. $ の更新: %& = %(") + +&%,-# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 ./ ⋅ $ ⋅ 1 2 1 3 45 2 45 3 %"6) 78 3 %(").9 ⋅ !"# ⋅ 8 3 自然 合成 7: 2 7: 3 ; 2 %,-#話者 認証器 [Goodfellow+, 2014] %,-# 78 3 : 合成音声を自然音声と誤識別させる損失 (8 3 , 78 3 の分布間距離最小化を考慮した学習)
  10. 10. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 1. !"# の更新: *"# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 +, ⋅ . ⋅ / ' / ( $% ' $% ( *0#1 23 ( +4 ⋅ !"# ⋅ !05 ⋅ 3 ( 自然 合成 26 ' 26 ( 7 ' & ( & ' *05*"#ドメイン 識別器 *"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失 *901 話者 認証器
  11. 11. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 *+ ⋅ 6 ⋅ 7 ' 7 ( $% ' $% ( .1#2 89 ( *- ⋅ !"# ⋅ !1: ⋅ 9 ( 自然 合成 8; ' 8; ( < ' & ( & ' .1:−."#ドメイン 識別器 .=12 −."# $% ' , $% ( : $% を用いてドメインを誤まって識別させる損失 (潜在変数のドメイン不変性を制約とした学習) 話者 認証器
  12. 12. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  13. 13. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  14. 14. 提案法の効果1: 過剰な平滑化の緩和 10/17 25次メルケプ 目的話者の自然音声 従来法 23次メルケプ 提案法 (GAN) 提案法 (DAT-GAN) GAN により, 合成 / 自然音声の分布の違いを補償! 目的話者の合成音声
  15. 15. 提案法の効果2: PPG の話者依存性緩和 11/17 従来法 提案法 (GAN) 提案法 (DAT-GAN) 変換元話者 A 変換元話者 B 音素インデックス フレーム DAT により, 話者の違いに対して頑健な PPG を学習!
  16. 16. 12/17 実験的評価
  17. 17. 実験条件 学習データ ! " : CSJ コーパス [Maekawa+, 2000] ! # : NICT 声優対話コーパス [Sugiura+, 2015] 変換元話者 (パラレル1発話) ATR デジタル音声データベース C セット (男性10名, 女性10名) [Kurematsu+, 1990] DNNの入出力 (詳細は原稿参照) 音声認識: 13次 MFCC (+ Δ) → 43次元 PPG 音声生成: 43次元 PPG → 1—39次メルケプ 話者認証: 1—39次メルケプ → 認証結果 ドメイン識別: 256次元潜在変数 → 識別結果 初期化 CSJ コーパスの全学習データを用いた 音声認識モデルの事前学習 (1エポック) 比較手法 従来法: 個別学習 [Sun+, 2016] 提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0 提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25 最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011] 13/17
  18. 18. 変換音声の自然性に関する MOS スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル 14/17 評価結果 ± 95%信頼区間 女 → 女 男 → 女 従来法 2.703 ± 0.124 2.510 ± 0.113 提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116 提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119 提案法 (DAT-GAN) により, 同性/異性間VC両方で有意に自然性を改善
  19. 19. 変換音声の話者類似性に関する XAB スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル • リファレンス音声: 目的話者の学習に用いていない1発話 15/17 提案法 (DAT-GAN) により, 従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善 Method A 評価結果 (女 → 女) Method B 従来法 0.317 vs. 0.683 提案法 (DAT-GAN) 提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN) Method A 評価結果 (男 → 女) Method B 従来法 0.283 vs. 0.717 提案法 (DAT-GAN) 提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
  20. 20. 変換音声サンプル (抜粋) 女1 女2 女3 男1 男2 男3 従来法 提案法 (GAN) 提案法 (DAT-GAN) 16/17 リファレンス:
  21. 21. まとめ 17/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, 多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 • 今後: 提案法のハイパーパラメータが与える影響を調査

×