Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

Share

Saito19asjAutumn_DeNA

Download to read offline

Research talk @ ASJ2019 Autumn Meeting

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Saito19asjAutumn_DeNA

  1. 1. 音素事後確率を用いた 多対一音声変換のための 音声認識・生成モデルの同時敵対学習 ◎ 齋藤 佑樹, △ 阿久澤 圭 (ディー・エヌ・エー/東大), 橘 健太郎 (ディー・エヌ・エー) 日本音響学会 2019年秋季研究発表会 2-4-2
  2. 2. 2/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 多対一VC: 任意話者の音声を所望の目的話者の音声に変換 • DeNA の VTuber 向け配信事業サービスへの応用展開 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 本発表の概要 *PPG: Phonetic PosteriorGram
  3. 3. • 1. 多数話者の音声を用いた音声認識モデルの学習 • ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! " ! , 潜在変数 -. " -. , PPG /0 " /0 , 音素 ラベル $ " 1234 音声認識 合成音声 特徴量 /5 , 目的音声 特徴量 5 , 1624 1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
  4. 4. • 2. 目的話者の音声を用いた音声生成モデルの学習 • ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! , ! " 潜在変数 -. , -. " PPG /0 , /0 " 音素 ラベル 1 , 2345 音声認識 合成音声 特徴量 /$ " 目的音声 特徴量 $ " 2635 2635 $ " , /$ " : 音声生成損失の mean squared error
  5. 5. 従来法の問題点1: 合成音声特徴量の過剰な平滑化 • 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小 4/17 25次メルケプ フレーム 目的話者の自然音声 目的話者の合成音声 (従来法) 23次メルケプ
  6. 6. 従来法の問題点2: PPG の話者依存性 • 音素識別損失のみの最小化 → PPG の話者独立性の保証なし • 異なる話者の同一発話音声から異なる PPG を予測する可能性 5/17 変換元話者 A 変換元話者 B 音素 インデックス フレーム
  7. 7. 6/17 提案法 音声認識・生成モデルの 同時敵対学習
  8. 8. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 1. !"# の更新: $"# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 %& ⋅ ( ⋅ ) * ) + ,- * ,- + $"./ 01 + $2"/%3 ⋅ !"# ⋅ 1 + 自然 合成 04 * 04 + 5 * $"#話者 認証器 $"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失 [Goodfellow+, 2014]
  9. 9. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 2. $ の更新: %& = %(") + +&%,-# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 ./ ⋅ $ ⋅ 1 2 1 3 45 2 45 3 %"6) 78 3 %(").9 ⋅ !"# ⋅ 8 3 自然 合成 7: 2 7: 3 ; 2 %,-#話者 認証器 [Goodfellow+, 2014] %,-# 78 3 : 合成音声を自然音声と誤識別させる損失 (8 3 , 78 3 の分布間距離最小化を考慮した学習)
  10. 10. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 1. !"# の更新: *"# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 +, ⋅ . ⋅ / ' / ( $% ' $% ( *0#1 23 ( +4 ⋅ !"# ⋅ !05 ⋅ 3 ( 自然 合成 26 ' 26 ( 7 ' & ( & ' *05*"#ドメイン 識別器 *"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失 *901 話者 認証器
  11. 11. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 *+ ⋅ 6 ⋅ 7 ' 7 ( $% ' $% ( .1#2 89 ( *- ⋅ !"# ⋅ !1: ⋅ 9 ( 自然 合成 8; ' 8; ( < ' & ( & ' .1:−."#ドメイン 識別器 .=12 −."# $% ' , $% ( : $% を用いてドメインを誤まって識別させる損失 (潜在変数のドメイン不変性を制約とした学習) 話者 認証器
  12. 12. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  13. 13. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  14. 14. 提案法の効果1: 過剰な平滑化の緩和 10/17 25次メルケプ 目的話者の自然音声 従来法 23次メルケプ 提案法 (GAN) 提案法 (DAT-GAN) GAN により, 合成 / 自然音声の分布の違いを補償! 目的話者の合成音声
  15. 15. 提案法の効果2: PPG の話者依存性緩和 11/17 従来法 提案法 (GAN) 提案法 (DAT-GAN) 変換元話者 A 変換元話者 B 音素インデックス フレーム DAT により, 話者の違いに対して頑健な PPG を学習!
  16. 16. 12/17 実験的評価
  17. 17. 実験条件 学習データ ! " : CSJ コーパス [Maekawa+, 2000] ! # : NICT 声優対話コーパス [Sugiura+, 2015] 変換元話者 (パラレル1発話) ATR デジタル音声データベース C セット (男性10名, 女性10名) [Kurematsu+, 1990] DNNの入出力 (詳細は原稿参照) 音声認識: 13次 MFCC (+ Δ) → 43次元 PPG 音声生成: 43次元 PPG → 1—39次メルケプ 話者認証: 1—39次メルケプ → 認証結果 ドメイン識別: 256次元潜在変数 → 識別結果 初期化 CSJ コーパスの全学習データを用いた 音声認識モデルの事前学習 (1エポック) 比較手法 従来法: 個別学習 [Sun+, 2016] 提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0 提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25 最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011] 13/17
  18. 18. 変換音声の自然性に関する MOS スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル 14/17 評価結果 ± 95%信頼区間 女 → 女 男 → 女 従来法 2.703 ± 0.124 2.510 ± 0.113 提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116 提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119 提案法 (DAT-GAN) により, 同性/異性間VC両方で有意に自然性を改善
  19. 19. 変換音声の話者類似性に関する XAB スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル • リファレンス音声: 目的話者の学習に用いていない1発話 15/17 提案法 (DAT-GAN) により, 従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善 Method A 評価結果 (女 → 女) Method B 従来法 0.317 vs. 0.683 提案法 (DAT-GAN) 提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN) Method A 評価結果 (男 → 女) Method B 従来法 0.283 vs. 0.717 提案法 (DAT-GAN) 提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
  20. 20. 変換音声サンプル (抜粋) 女1 女2 女3 男1 男2 男3 従来法 提案法 (GAN) 提案法 (DAT-GAN) 16/17 リファレンス:
  21. 21. まとめ 17/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, 多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 • 今後: 提案法のハイパーパラメータが与える影響を調査

Research talk @ ASJ2019 Autumn Meeting

Views

Total views

1,025

On Slideshare

0

From embeds

0

Number of embeds

65

Actions

Downloads

3

Shares

0

Comments

0

Likes

0

×