Saito19asjAutumn_DeNA

音素事後確率を用いた
多対一音声変換のための
音声認識・生成モデルの同時敵対学習
◎ 齋藤佑樹, △ 阿久澤圭 (ディー・エヌ・エー/東大),
橘健太郎 (ディー・エヌ・エー)
日本音響学会 2019年秋季研究発表会 2-4-2

2/17
• 研究目的: 多対一音声変換 (VC) の高品質化
• 多対一VC: 任意話者の音声を所望の目的話者の音声に変換
• DeNA の VTuber 向け配信事業サービスへの応用展開
• 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016]
• 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現
• 問題点: 変換音声の品質劣化
• 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因
• 提案法: 音声認識・生成モデルの同時敵対学習
• 1. 話者認証器に敵対する音声生成モデル学習
• 2. ドメイン識別器に敵対する音声認識モデル学習
• 3. 音声認識・生成モデルの同時学習
• 結果: 提案法による変換音声の品質改善
本発表の概要 *PPG: Phonetic PosteriorGram

• 1. 多数話者の音声を用いた音声認識モデルの学習
• ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ
従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016]
3/17
'( ⋅
特徴
抽出
'* ⋅
音素
予測
+ ⋅
音声生成
入力音声
特徴量
! "
! ,
潜在変数
-. "
-. ,
PPG
/0 "
/0 ,
音素
ラベル
$ "
1234
音声認識
合成音声
特徴量
/5 ,
目的音声
特徴量
5 ,
1624
1234 $ " , /0 " : 音素識別損失の softmax cross-entropy

• 2. 目的話者の音声を用いた音声生成モデルの学習
• ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ
従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016]
3/17
'( ⋅
特徴
抽出
'* ⋅
音素
予測
+ ⋅
音声生成
入力音声
特徴量
! ,
! "
潜在変数
-. ,
-. "
PPG
/0 ,
/0 "
音素
ラベル
1 ,
2345
音声認識
合成音声
特徴量
/$ "
目的音声
特徴量
$ "
2635
2635 $ " , /$ " : 音声生成損失の mean squared error

従来法の問題点1: 合成音声特徴量の過剰な平滑化
• 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小
4/17
25次メルケプ
フレーム
目的話者の自然音声
目的話者の合成音声
(従来法)
23次メルケプ

従来法の問題点2: PPG の話者依存性
• 音素識別損失のみの最小化 → PPG の話者独立性の保証なし
• 異なる話者の同一発話音声から異なる PPG を予測する可能性
5/17
変換元話者 A 変換元話者 B
音素
インデックス
フレーム

6/17
提案法
音声認識・生成モデルの
同時敵対学習

• 敵対的DNN音声合成 [Saito+, 2018]
• 話者認証器 !"# : 自然/合成音声の統計的な違いを検出
• Generative Adversarial Net (GAN) に基づく分布間距離最小化
• 1. !"# の更新: $"# の最小化
話者認証器に敵対する音声生成モデル学習
7/17
%& ⋅ ( ⋅
) *
) +
,- *
,- +
$"./
01 +
$2"/%3 ⋅
!"# ⋅
1 +
自然
合成
04 *
04 +
5 *
$"#話者
認証器
$"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失
[Goodfellow+, 2014]

• 敵対的DNN音声合成 [Saito+, 2018]
• 話者認証器 !"# : 自然/合成音声の統計的な違いを検出
• Generative Adversarial Net (GAN) に基づく分布間距離最小化
• 2. $ の更新: %& = %(") + +&%,-# の最小化
話者認証器に敵対する音声生成モデル学習
7/17
./ ⋅ $ ⋅
1 2
1 3
45 2
45 3
%"6)
78 3
%(").9 ⋅
!"# ⋅
8 3
自然
合成
7: 2
7: 3
; 2
%,-#話者
認証器
[Goodfellow+, 2014]
%,-# 78 3
: 合成音声を自然音声と誤識別させる損失
(8 3
, 78 3
の分布間距離最小化を考慮した学習)

• 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016]
• ドメイン識別器 !"# : $% からドメイン & '
と & (
を識別
• 本発表では, コーパス & )
と & (
をドメインとみなして学習
• 1. !"# の更新: *"# の最小化
ドメイン識別器に敵対する音声認識モデル学習
8/17
+, ⋅ . ⋅
/ '
/ (
$% '
$% (
*0#1
23 (
+4 ⋅
!"# ⋅ !05 ⋅
3 (
自然
合成
26 '
26 (
7 '
& (
& '
*05*"#ドメイン
識別器
*"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失
*901
話者
認証器

• 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016]
• ドメイン識別器 !"# : $% からドメイン & '
と & (
を識別
• 本発表では, コーパス & )
と & (
をドメインとみなして学習
• 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化
ドメイン識別器に敵対する音声認識モデル学習
8/17
*+ ⋅ 6 ⋅
7 '
7 (
$% '
$% (
.1#2
89 (
*- ⋅
!"# ⋅ !1: ⋅
9 (
自然
合成
8; '
8; (
< '
& (
& '
.1:−."#ドメイン
識別器
.=12
−."# $% '
, $% (
: $% を用いてドメインを誤まって識別させる損失
(潜在変数のドメイン不変性を制約とした学習)
話者
認証器

• 1. !"#, !%& の更新: '"#, '%& の最小化
• 2. (), (*, + の更新: ' = '- + '/ の最小化
音声認識・生成モデルの同時敵対学習
9/17
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'%&'"#
'<%6
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'="&−'"#
'<%6

提案法の効果1: 過剰な平滑化の緩和
10/17
25次メルケプ
目的話者の自然音声従来法
23次メルケプ
提案法
(GAN)
提案法
(DAT-GAN)
GAN により, 合成 / 自然音声の分布の違いを補償！
目的話者の合成音声

提案法の効果2: PPG の話者依存性緩和
11/17
従来法
提案法
(GAN)
提案法
(DAT-GAN)
変換元話者 A 変換元話者 B
音素インデックス
フレーム
DAT により, 話者の違いに対して頑健な PPG を学習！

実験条件
学習データ
! " : CSJ コーパス [Maekawa+, 2000]
! #
: NICT 声優対話コーパス [Sugiura+, 2015]
変換元話者
(パラレル1発話)
ATR デジタル音声データベース C セット
(男性10名, 女性10名) [Kurematsu+, 1990]
DNNの入出力
(詳細は原稿参照)
音声認識: 13次 MFCC (+ Δ) → 43次元 PPG
音声生成: 43次元 PPG → 1—39次メルケプ
話者認証: 1—39次メルケプ → 認証結果
ドメイン識別: 256次元潜在変数 → 識別結果
初期化
CSJ コーパスの全学習データを用いた
音声認識モデルの事前学習 (1エポック)
比較手法
従来法: 個別学習 [Sun+, 2016]
提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0
提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25
最適化手法学習率 0.01 の AdaGrad [Duchi+, 2011]
13/17

変換音声の自然性に関する MOS スコア
• 被験者: クラウドソーシングで集めた30名
• 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル
14/17
評価結果 ± 95%信頼区間
女 → 女男 → 女
従来法 2.703 ± 0.124 2.510 ± 0.113
提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116
提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119
提案法 (DAT-GAN) により,
同性/異性間VC両方で有意に自然性を改善

変換音声の話者類似性に関する XAB スコア
• 被験者: クラウドソーシングで集めた30名
• 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル
• リファレンス音声: 目的話者の学習に用いていない1発話
15/17
提案法 (DAT-GAN) により,
従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善
Method A 評価結果 (女 → 女) Method B
従来法 0.317 vs. 0.683 提案法 (DAT-GAN)
提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN)
Method A 評価結果 (男 → 女) Method B
従来法 0.283 vs. 0.717 提案法 (DAT-GAN)
提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)

変換音声サンプル (抜粋)
女1 女2 女3 男1 男2 男3
従来法
提案法
(GAN)
提案法
(DAT-GAN)
16/17
リファレンス:

まとめ
17/17
• 研究目的: 多対一音声変換 (VC) の高品質化
• 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016]
• 音声認識・生成モデルを結合し, 多対一 VCを実現
• 問題点: 変換音声の品質劣化
• 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因
• 提案法: 音声認識・生成モデルの同時敵対学習
• 1. 話者認証器に敵対する音声生成モデル学習
• 2. ドメイン識別器に敵対する音声認識モデル学習
• 3. 音声認識・生成モデルの同時学習
• 結果: 提案法による変換音声の品質改善
• 今後: 提案法のハイパーパラメータが与える影響を調査

Saito19asjAutumn_DeNA

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Saito19asjAutumn_DeNA

Similar to Saito19asjAutumn_DeNA (10)

More from Yuki Saito

More from Yuki Saito (14)

Saito19asjAutumn_DeNA