Saito19asjAutumn_DeNA

Y
音素事後確率を用いた
多対一音声変換のための
音声認識・生成モデルの同時敵対学習
◎ 齋藤 佑樹, △ 阿久澤 圭 (ディー・エヌ・エー/東大),
橘 健太郎 (ディー・エヌ・エー)
日本音響学会 2019年秋季研究発表会 2-4-2
2/17
• 研究目的: 多対一音声変換 (VC) の高品質化
• 多対一VC: 任意話者の音声を所望の目的話者の音声に変換
• DeNA の VTuber 向け配信事業サービスへの応用展開
• 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016]
• 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現
• 問題点: 変換音声の品質劣化
• 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因
• 提案法: 音声認識・生成モデルの同時敵対学習
• 1. 話者認証器に敵対する音声生成モデル学習
• 2. ドメイン識別器に敵対する音声認識モデル学習
• 3. 音声認識・生成モデルの同時学習
• 結果: 提案法による変換音声の品質改善
本発表の概要 *PPG: Phonetic PosteriorGram
• 1. 多数話者の音声を用いた音声認識モデルの学習
• ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ
従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016]
3/17
'( ⋅
特徴
抽出
'* ⋅
音素
予測
+ ⋅
音声生成
入力音声
特徴量
! "
! ,
潜在変数
-. "
-. ,
PPG
/0 "
/0 ,
音素
ラベル
$ "
1234
音声認識
合成音声
特徴量
/5 ,
目的音声
特徴量
5 ,
1624
1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
• 2. 目的話者の音声を用いた音声生成モデルの学習
• ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ
従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016]
3/17
'( ⋅
特徴
抽出
'* ⋅
音素
予測
+ ⋅
音声生成
入力音声
特徴量
! ,
! "
潜在変数
-. ,
-. "
PPG
/0 ,
/0 "
音素
ラベル
1 ,
2345
音声認識
合成音声
特徴量
/$ "
目的音声
特徴量
$ "
2635
2635 $ " , /$ " : 音声生成損失の mean squared error
従来法の問題点1: 合成音声特徴量の過剰な平滑化
• 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小
4/17
25次メルケプ
フレーム
目的話者の自然音声
目的話者の合成音声
(従来法)
23次メルケプ
従来法の問題点2: PPG の話者依存性
• 音素識別損失のみの最小化 → PPG の話者独立性の保証なし
• 異なる話者の同一発話音声から異なる PPG を予測する可能性
5/17
変換元話者 A 変換元話者 B
音素
インデックス
フレーム
6/17
提案法
音声認識・生成モデルの
同時敵対学習
• 敵対的DNN音声合成 [Saito+, 2018]
• 話者認証器 !"# : 自然/合成音声の統計的な違いを検出
• Generative Adversarial Net (GAN) に基づく分布間距離最小化
• 1. !"# の更新: $"# の最小化
話者認証器に敵対する音声生成モデル学習
7/17
%& ⋅ ( ⋅
) *
) +
,- *
,- +
$"./
01 +
$2"/%3 ⋅
!"# ⋅
1 +
自然
合成
04 *
04 +
5 *
$"#話者
認証器
$"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失
[Goodfellow+, 2014]
• 敵対的DNN音声合成 [Saito+, 2018]
• 話者認証器 !"# : 自然/合成音声の統計的な違いを検出
• Generative Adversarial Net (GAN) に基づく分布間距離最小化
• 2. $ の更新: %& = %(") + +&%,-# の最小化
話者認証器に敵対する音声生成モデル学習
7/17
./ ⋅ $ ⋅
1 2
1 3
45 2
45 3
%"6)
78 3
%(").9 ⋅
!"# ⋅
8 3
自然
合成
7: 2
7: 3
; 2
%,-#話者
認証器
[Goodfellow+, 2014]
%,-# 78 3
: 合成音声を自然音声と誤識別させる損失
(8 3
, 78 3
の分布間距離最小化を考慮した学習)
• 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016]
• ドメイン識別器 !"# : $% からドメイン & '
と & (
を識別
• 本発表では, コーパス & )
と & (
をドメインとみなして学習
• 1. !"# の更新: *"# の最小化
ドメイン識別器に敵対する音声認識モデル学習
8/17
+, ⋅ . ⋅
/ '
/ (
$% '
$% (
*0#1
23 (
+4 ⋅
!"# ⋅ !05 ⋅
3 (
自然
合成
26 '
26 (
7 '
& (
& '
*05*"#ドメイン
識別器
*"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失
*901
話者
認証器
• 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016]
• ドメイン識別器 !"# : $% からドメイン & '
と & (
を識別
• 本発表では, コーパス & )
と & (
をドメインとみなして学習
• 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化
ドメイン識別器に敵対する音声認識モデル学習
8/17
*+ ⋅ 6 ⋅
7 '
7 (
$% '
$% (
.1#2
89 (
*- ⋅
!"# ⋅ !1: ⋅
9 (
自然
合成
8; '
8; (
< '
& (
& '
.1:−."#ドメイン
識別器
.=12
−."# $% '
, $% (
: $% を用いてドメインを誤まって識別させる損失
(潜在変数のドメイン不変性を制約とした学習)
話者
認証器
• 1. !"#, !%& の更新: '"#, '%& の最小化
• 2. (), (*, + の更新: ' = '- + '/ の最小化
音声認識・生成モデルの同時敵対学習
9/17
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'%&'"#
'<%6
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'="&−'"#
'<%6
• 1. !"#, !%& の更新: '"#, '%& の最小化
• 2. (), (*, + の更新: ' = '- + '/ の最小化
音声認識・生成モデルの同時敵対学習
9/17
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'%&'"#
'<%6
() ⋅ + ⋅
1 2
1 3
45 2
45 3
'%#6
78 3
(* ⋅
!"# ⋅ !%& ⋅
8 3
自然
合成
79 2
79 3
: 2
; 3
; 2
'="&−'"#
'<%6
提案法の効果1: 過剰な平滑化の緩和
10/17
25次メルケプ
目的話者の自然音声 従来法
23次メルケプ
提案法
(GAN)
提案法
(DAT-GAN)
GAN により, 合成 / 自然音声の分布の違いを補償!
目的話者の合成音声
提案法の効果2: PPG の話者依存性緩和
11/17
従来法
提案法
(GAN)
提案法
(DAT-GAN)
変換元話者 A 変換元話者 B
音素インデックス
フレーム
DAT により, 話者の違いに対して頑健な PPG を学習!
12/17
実験的評価
実験条件
学習データ
! " : CSJ コーパス [Maekawa+, 2000]
! #
: NICT 声優対話コーパス [Sugiura+, 2015]
変換元話者
(パラレル1発話)
ATR デジタル音声データベース C セット
(男性10名, 女性10名) [Kurematsu+, 1990]
DNNの入出力
(詳細は原稿参照)
音声認識: 13次 MFCC (+ Δ) → 43次元 PPG
音声生成: 43次元 PPG → 1—39次メルケプ
話者認証: 1—39次メルケプ → 認証結果
ドメイン識別: 256次元潜在変数 → 識別結果
初期化
CSJ コーパスの全学習データを用いた
音声認識モデルの事前学習 (1エポック)
比較手法
従来法: 個別学習 [Sun+, 2016]
提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0
提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25
最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011]
13/17
変換音声の自然性に関する MOS スコア
• 被験者: クラウドソーシングで集めた30名
• 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル
14/17
評価結果 ± 95%信頼区間
女 → 女 男 → 女
従来法 2.703 ± 0.124 2.510 ± 0.113
提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116
提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119
提案法 (DAT-GAN) により,
同性/異性間VC両方で有意に自然性を改善
変換音声の話者類似性に関する XAB スコア
• 被験者: クラウドソーシングで集めた30名
• 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル
• リファレンス音声: 目的話者の学習に用いていない1発話
15/17
提案法 (DAT-GAN) により,
従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善
Method A 評価結果 (女 → 女) Method B
従来法 0.317 vs. 0.683 提案法 (DAT-GAN)
提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN)
Method A 評価結果 (男 → 女) Method B
従来法 0.283 vs. 0.717 提案法 (DAT-GAN)
提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
変換音声サンプル (抜粋)
女1 女2 女3 男1 男2 男3
従来法
提案法
(GAN)
提案法
(DAT-GAN)
16/17
リファレンス:
まとめ
17/17
• 研究目的: 多対一音声変換 (VC) の高品質化
• 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016]
• 音声認識・生成モデルを結合し, 多対一 VCを実現
• 問題点: 変換音声の品質劣化
• 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因
• 提案法: 音声認識・生成モデルの同時敵対学習
• 1. 話者認証器に敵対する音声生成モデル学習
• 2. ドメイン識別器に敵対する音声認識モデル学習
• 3. 音声認識・生成モデルの同時学習
• 結果: 提案法による変換音声の品質改善
• 今後: 提案法のハイパーパラメータが与える影響を調査
1 of 21

Recommended

Saito18sp03 by
Saito18sp03Saito18sp03
Saito18sp03Yuki Saito
1.1K views25 slides
Nakai22sp03 presentation by
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
259 views29 slides
Saito20asj_autumn by
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
386 views14 slides
Saito19asj_s by
Saito19asj_sSaito19asj_s
Saito19asj_sYuki Saito
500 views16 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
1K views37 slides
Saito17asjA by
Saito17asjASaito17asjA
Saito17asjAYuki Saito
576 views20 slides

More Related Content

What's hot

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム by
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
2.1K views15 slides
DNN音響モデルにおける特徴量抽出の諸相 by
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
15.3K views74 slides
音情報処理における特徴表現 by
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
6.2K views39 slides
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
1.9K views47 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
1.6K views22 slides
Deep learning for acoustic modeling in parametric speech generation by
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
761 views41 slides

What's hot(20)

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム by Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito2.1K views
DNN音響モデルにおける特徴量抽出の諸相 by Takuya Yoshioka
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka15.3K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB6.2K views
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by Shinnosuke Takamichi
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Deep learning for acoustic modeling in parametric speech generation by Yuki Saito
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito761 views
miyoshi17sp07 by Yuki Saito
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito1.1K views
音声認識の基礎 by Akinori Ito
音声認識の基礎音声認識の基礎
音声認識の基礎
Akinori Ito35.9K views
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB14.1K views
Interspeech2020 reading by Yuki Saito
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
Yuki Saito172 views
複数話者WaveNetボコーダに関する調査 by Tomoki Hayashi
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi4.4K views
Moment matching networkを用いた音声パラメータのランダム生成の検討 by Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi16.1K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali... by KoueiYamaoka
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka552 views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2) by KoueiYamaoka
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka1.4K views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding by Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
saito2017asj_tts by Yuki Saito
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito519 views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
ICASSP2019音声&音響論文読み会 論文紹介(認識系) by 貴史 益子
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子2.6K views
音声の認識と合成 by Akinori Ito
音声の認識と合成音声の認識と合成
音声の認識と合成
Akinori Ito15.9K views

Similar to Saito19asjAutumn_DeNA

Interspeech2022 参加報告 by
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
665 views52 slides
NIPS2017報告 SPEECH & AUDIO by
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIOKoichiro Mori
10.8K views33 slides
Slp201702 by
Slp201702Slp201702
Slp201702Yuki Saito
14.9K views22 slides
End-to-End音声認識ためのMulti-Head Decoderネットワーク by
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
1.9K views26 slides
ICASSP2019 音声&音響読み会 テーマ発表音声生成 by
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
3K views30 slides
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援 by
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援Ryohei Suzuki
2.2K views30 slides

Similar to Saito19asjAutumn_DeNA(10)

Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito665 views
NIPS2017報告 SPEECH & AUDIO by Koichiro Mori
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori10.8K views
Slp201702 by Yuki Saito
Slp201702Slp201702
Slp201702
Yuki Saito14.9K views
End-to-End音声認識ためのMulti-Head Decoderネットワーク by NU_I_TODALAB
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB1.9K views
ICASSP2019 音声&音響読み会 テーマ発表音声生成 by Kentaro Tachibana
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援 by Ryohei Suzuki
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki2.2K views
Saito18asj_s by Yuki Saito
Saito18asj_sSaito18asj_s
Saito18asj_s
Yuki Saito345 views
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 by TaikiNakamura
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
TaikiNakamura61 views
音声感情認識の分野動向と実用化に向けたNTTの取り組み by Atsushi_Ando
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando2.1K views

More from Yuki Saito

hirai23slp03.pdf by
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
56 views21 slides
fujii22apsipa_asc by
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
45 views25 slides
nakai22apsipa_presentation.pdf by
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
51 views20 slides
saito22research_talk_at_NUS by
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
66 views52 slides
Neural text-to-speech and voice conversion by
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
1.2K views70 slides
Nishimura22slp03 presentation by
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
301 views26 slides

More from Yuki Saito(14)

hirai23slp03.pdf by Yuki Saito
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito56 views
fujii22apsipa_asc by Yuki Saito
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito45 views
nakai22apsipa_presentation.pdf by Yuki Saito
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito51 views
saito22research_talk_at_NUS by Yuki Saito
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito66 views
Neural text-to-speech and voice conversion by Yuki Saito
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito1.2K views
Nishimura22slp03 presentation by Yuki Saito
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito301 views
GAN-based statistical speech synthesis (in Japanese) by Yuki Saito
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito954 views
Saito21asj Autumn Meeting by Yuki Saito
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito242 views
Saito2103slp by Yuki Saito
Saito2103slpSaito2103slp
Saito2103slp
Yuki Saito250 views
Saito20asj s slide_published by Yuki Saito
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
Yuki Saito606 views
釧路高専情報工学科向け進学説明会 by Yuki Saito
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito948 views
miyoshi2017asj by Yuki Saito
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
Yuki Saito556 views
Saito2017icassp by Yuki Saito
Saito2017icasspSaito2017icassp
Saito2017icassp
Yuki Saito1.3K views

Saito19asjAutumn_DeNA

  • 1. 音素事後確率を用いた 多対一音声変換のための 音声認識・生成モデルの同時敵対学習 ◎ 齋藤 佑樹, △ 阿久澤 圭 (ディー・エヌ・エー/東大), 橘 健太郎 (ディー・エヌ・エー) 日本音響学会 2019年秋季研究発表会 2-4-2
  • 2. 2/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 多対一VC: 任意話者の音声を所望の目的話者の音声に変換 • DeNA の VTuber 向け配信事業サービスへの応用展開 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 本発表の概要 *PPG: Phonetic PosteriorGram
  • 3. • 1. 多数話者の音声を用いた音声認識モデルの学習 • ! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! " ! , 潜在変数 -. " -. , PPG /0 " /0 , 音素 ラベル $ " 1234 音声認識 合成音声 特徴量 /5 , 目的音声 特徴量 5 , 1624 1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
  • 4. • 2. 目的話者の音声を用いた音声生成モデルの学習 • ! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! , ! " 潜在変数 -. , -. " PPG /0 , /0 " 音素 ラベル 1 , 2345 音声認識 合成音声 特徴量 /$ " 目的音声 特徴量 $ " 2635 2635 $ " , /$ " : 音声生成損失の mean squared error
  • 5. 従来法の問題点1: 合成音声特徴量の過剰な平滑化 • 音声生成損失のみの最小化 → 合成音声特徴量の分布が縮小 4/17 25次メルケプ フレーム 目的話者の自然音声 目的話者の合成音声 (従来法) 23次メルケプ
  • 6. 従来法の問題点2: PPG の話者依存性 • 音素識別損失のみの最小化 → PPG の話者独立性の保証なし • 異なる話者の同一発話音声から異なる PPG を予測する可能性 5/17 変換元話者 A 変換元話者 B 音素 インデックス フレーム
  • 8. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 1. !"# の更新: $"# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 %& ⋅ ( ⋅ ) * ) + ,- * ,- + $"./ 01 + $2"/%3 ⋅ !"# ⋅ 1 + 自然 合成 04 * 04 + 5 * $"#話者 認証器 $"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失 [Goodfellow+, 2014]
  • 9. • 敵対的DNN音声合成 [Saito+, 2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 2. $ の更新: %& = %(") + +&%,-# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 ./ ⋅ $ ⋅ 1 2 1 3 45 2 45 3 %"6) 78 3 %(").9 ⋅ !"# ⋅ 8 3 自然 合成 7: 2 7: 3 ; 2 %,-#話者 認証器 [Goodfellow+, 2014] %,-# 78 3 : 合成音声を自然音声と誤識別させる損失 (8 3 , 78 3 の分布間距離最小化を考慮した学習)
  • 10. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 1. !"# の更新: *"# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 +, ⋅ . ⋅ / ' / ( $% ' $% ( *0#1 23 ( +4 ⋅ !"# ⋅ !05 ⋅ 3 ( 自然 合成 26 ' 26 ( 7 ' & ( & ' *05*"#ドメイン 識別器 *"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失 *901 話者 認証器
  • 11. • 認識モデルの Domain-Advarsarial Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 *+ ⋅ 6 ⋅ 7 ' 7 ( $% ' $% ( .1#2 89 ( *- ⋅ !"# ⋅ !1: ⋅ 9 ( 自然 合成 8; ' 8; ( < ' & ( & ' .1:−."#ドメイン 識別器 .=12 −."# $% ' , $% ( : $% を用いてドメインを誤まって識別させる損失 (潜在変数のドメイン不変性を制約とした学習) 話者 認証器
  • 12. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  • 13. • 1. !"#, !%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
  • 15. 提案法の効果2: PPG の話者依存性緩和 11/17 従来法 提案法 (GAN) 提案法 (DAT-GAN) 変換元話者 A 変換元話者 B 音素インデックス フレーム DAT により, 話者の違いに対して頑健な PPG を学習!
  • 17. 実験条件 学習データ ! " : CSJ コーパス [Maekawa+, 2000] ! # : NICT 声優対話コーパス [Sugiura+, 2015] 変換元話者 (パラレル1発話) ATR デジタル音声データベース C セット (男性10名, 女性10名) [Kurematsu+, 1990] DNNの入出力 (詳細は原稿参照) 音声認識: 13次 MFCC (+ Δ) → 43次元 PPG 音声生成: 43次元 PPG → 1—39次メルケプ 話者認証: 1—39次メルケプ → 認証結果 ドメイン識別: 256次元潜在変数 → 識別結果 初期化 CSJ コーパスの全学習データを用いた 音声認識モデルの事前学習 (1エポック) 比較手法 従来法: 個別学習 [Sun+, 2016] 提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0 提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25 最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011] 13/17
  • 18. 変換音声の自然性に関する MOS スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル 14/17 評価結果 ± 95%信頼区間 女 → 女 男 → 女 従来法 2.703 ± 0.124 2.510 ± 0.113 提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116 提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119 提案法 (DAT-GAN) により, 同性/異性間VC両方で有意に自然性を改善
  • 19. 変換音声の話者類似性に関する XAB スコア • 被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル • リファレンス音声: 目的話者の学習に用いていない1発話 15/17 提案法 (DAT-GAN) により, 従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善 Method A 評価結果 (女 → 女) Method B 従来法 0.317 vs. 0.683 提案法 (DAT-GAN) 提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN) Method A 評価結果 (男 → 女) Method B 従来法 0.283 vs. 0.717 提案法 (DAT-GAN) 提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
  • 20. 変換音声サンプル (抜粋) 女1 女2 女3 男1 男2 男3 従来法 提案法 (GAN) 提案法 (DAT-GAN) 16/17 リファレンス:
  • 21. まとめ 17/17 • 研究目的: 多対一音声変換 (VC) の高品質化 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, 多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 • 今後: 提案法のハイパーパラメータが与える影響を調査