SlideShare a Scribd company logo
Submit Search
Upload
Saito19asjAutumn_DeNA
Report
Share
Y
Yuki Saito
Follow
•
0 likes
•
1,157 views
1
of
21
Saito19asjAutumn_DeNA
•
0 likes
•
1,157 views
Report
Share
Download Now
Download to read offline
Science
Research talk @ ASJ2019 Autumn Meeting
Read more
Y
Yuki Saito
Follow
Recommended
Saito18sp03 by
Saito18sp03
Yuki Saito
1.1K views
•
25 slides
Nakai22sp03 presentation by
Nakai22sp03 presentation
Yuki Saito
259 views
•
29 slides
Saito20asj_autumn by
Saito20asj_autumn
Yuki Saito
386 views
•
14 slides
Saito19asj_s by
Saito19asj_s
Yuki Saito
500 views
•
16 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
1K views
•
37 slides
Saito17asjA by
Saito17asjA
Yuki Saito
576 views
•
20 slides
More Related Content
What's hot
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム by
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
2.1K views
•
15 slides
DNN音響モデルにおける特徴量抽出の諸相 by
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
15.3K views
•
74 slides
音情報処理における特徴表現 by
音情報処理における特徴表現
NU_I_TODALAB
6.2K views
•
39 slides
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
1.9K views
•
47 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
1.6K views
•
22 slides
Deep learning for acoustic modeling in parametric speech generation by
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
761 views
•
41 slides
What's hot
(20)
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム by Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
•
2.1K views
DNN音響モデルにおける特徴量抽出の諸相 by Takuya Yoshioka
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
•
15.3K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
分布あるいはモーメント間距離最小化に基づく統計的音声合成 by Shinnosuke Takamichi
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
•
1.9K views
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by Shinnosuke Takamichi
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
•
1.6K views
Deep learning for acoustic modeling in parametric speech generation by Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
761 views
miyoshi17sp07 by Yuki Saito
miyoshi17sp07
Yuki Saito
•
1.1K views
音声認識の基礎 by Akinori Ito
音声認識の基礎
Akinori Ito
•
35.9K views
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用 by Shinnosuke Takamichi
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
•
1.3K views
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
•
14.1K views
Interspeech2020 reading by Yuki Saito
Interspeech2020 reading
Yuki Saito
•
172 views
複数話者WaveNetボコーダに関する調査 by Tomoki Hayashi
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
•
4.4K views
Moment matching networkを用いた音声パラメータのランダム生成の検討 by Shinnosuke Takamichi
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
•
16.1K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali... by KoueiYamaoka
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
552 views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2) by KoueiYamaoka
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding by Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
•
1.1K views
saito2017asj_tts by Yuki Saito
saito2017asj_tts
Yuki Saito
•
519 views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築” by Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
•
1.6K views
ICASSP2019音声&音響論文読み会 論文紹介(認識系) by 貴史 益子
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
音声の認識と合成 by Akinori Ito
音声の認識と合成
Akinori Ito
•
15.9K views
Similar to Saito19asjAutumn_DeNA
Interspeech2022 参加報告 by
Interspeech2022 参加報告
Yuki Saito
665 views
•
52 slides
NIPS2017報告 SPEECH & AUDIO by
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori
10.8K views
•
33 slides
Slp201702 by
Slp201702
Yuki Saito
14.9K views
•
22 slides
End-to-End音声認識ためのMulti-Head Decoderネットワーク by
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
1.9K views
•
26 slides
ICASSP2019 音声&音響読み会 テーマ発表音声生成 by
ICASSP2019 音声&音響読み会 テーマ発表音声生成
Kentaro Tachibana
3K views
•
30 slides
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援 by
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
Ryohei Suzuki
2.2K views
•
30 slides
Similar to Saito19asjAutumn_DeNA
(10)
Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告
Yuki Saito
•
665 views
NIPS2017報告 SPEECH & AUDIO by Koichiro Mori
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori
•
10.8K views
Slp201702 by Yuki Saito
Slp201702
Yuki Saito
•
14.9K views
End-to-End音声認識ためのMulti-Head Decoderネットワーク by NU_I_TODALAB
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
•
1.9K views
ICASSP2019 音声&音響読み会 テーマ発表音声生成 by Kentaro Tachibana
ICASSP2019 音声&音響読み会 テーマ発表音声生成
Kentaro Tachibana
•
3K views
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援 by Ryohei Suzuki
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
Ryohei Suzuki
•
2.2K views
Saito18asj_s by Yuki Saito
Saito18asj_s
Yuki Saito
•
345 views
Jacet2014ykondo_final by 早稲田大学
Jacet2014ykondo_final
早稲田大学
•
646 views
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討 by TaikiNakamura
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
TaikiNakamura
•
61 views
音声感情認識の分野動向と実用化に向けたNTTの取り組み by Atsushi_Ando
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
•
2.1K views
More from Yuki Saito
hirai23slp03.pdf by
hirai23slp03.pdf
Yuki Saito
56 views
•
21 slides
fujii22apsipa_asc by
fujii22apsipa_asc
Yuki Saito
45 views
•
25 slides
nakai22apsipa_presentation.pdf by
nakai22apsipa_presentation.pdf
Yuki Saito
51 views
•
20 slides
saito22research_talk_at_NUS by
saito22research_talk_at_NUS
Yuki Saito
66 views
•
52 slides
Neural text-to-speech and voice conversion by
Neural text-to-speech and voice conversion
Yuki Saito
1.2K views
•
70 slides
Nishimura22slp03 presentation by
Nishimura22slp03 presentation
Yuki Saito
301 views
•
26 slides
More from Yuki Saito
(14)
hirai23slp03.pdf by Yuki Saito
hirai23slp03.pdf
Yuki Saito
•
56 views
fujii22apsipa_asc by Yuki Saito
fujii22apsipa_asc
Yuki Saito
•
45 views
nakai22apsipa_presentation.pdf by Yuki Saito
nakai22apsipa_presentation.pdf
Yuki Saito
•
51 views
saito22research_talk_at_NUS by Yuki Saito
saito22research_talk_at_NUS
Yuki Saito
•
66 views
Neural text-to-speech and voice conversion by Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
•
1.2K views
Nishimura22slp03 presentation by Yuki Saito
Nishimura22slp03 presentation
Yuki Saito
•
301 views
GAN-based statistical speech synthesis (in Japanese) by Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
954 views
Saito21asj Autumn Meeting by Yuki Saito
Saito21asj Autumn Meeting
Yuki Saito
•
242 views
Saito2103slp by Yuki Saito
Saito2103slp
Yuki Saito
•
250 views
Saito20asj s slide_published by Yuki Saito
Saito20asj s slide_published
Yuki Saito
•
606 views
Une18apsipa by Yuki Saito
Une18apsipa
Yuki Saito
•
427 views
釧路高専情報工学科向け進学説明会 by Yuki Saito
釧路高専情報工学科向け進学説明会
Yuki Saito
•
948 views
miyoshi2017asj by Yuki Saito
miyoshi2017asj
Yuki Saito
•
556 views
Saito2017icassp by Yuki Saito
Saito2017icassp
Yuki Saito
•
1.3K views
Saito19asjAutumn_DeNA
1.
音素事後確率を用いた 多対一音声変換のための 音声認識・生成モデルの同時敵対学習 ◎ 齋藤 佑樹,
△ 阿久澤 圭 (ディー・エヌ・エー/東大), 橘 健太郎 (ディー・エヌ・エー) 日本音響学会 2019年秋季研究発表会 2-4-2
2.
2/17 • 研究目的: 多対一音声変換
(VC) の高品質化 • 多対一VC: 任意話者の音声を所望の目的話者の音声に変換 • DeNA の VTuber 向け配信事業サービスへの応用展開 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, ノンパラレル多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPGの話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 本発表の概要 *PPG: Phonetic PosteriorGram
3.
• 1. 多数話者の音声を用いた音声認識モデルの学習 •
! " , $ " ~ & " : 多数話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! " ! , 潜在変数 -. " -. , PPG /0 " /0 , 音素 ラベル $ " 1234 音声認識 合成音声 特徴量 /5 , 目的音声 特徴量 5 , 1624 1234 $ " , /0 " : 音素識別損失の softmax cross-entropy
4.
• 2. 目的話者の音声を用いた音声生成モデルの学習 •
! " , $ " ~ & " : 目的話者コーパス & " に含まれるデータ 従来法: PPG を用いた多対一 VCの学習 [Sun+, 2016] 3/17 '( ⋅ 特徴 抽出 '* ⋅ 音素 予測 + ⋅ 音声生成 入力音声 特徴量 ! , ! " 潜在変数 -. , -. " PPG /0 , /0 " 音素 ラベル 1 , 2345 音声認識 合成音声 特徴量 /$ " 目的音声 特徴量 $ " 2635 2635 $ " , /$ " : 音声生成損失の mean squared error
5.
従来法の問題点1: 合成音声特徴量の過剰な平滑化 • 音声生成損失のみの最小化
→ 合成音声特徴量の分布が縮小 4/17 25次メルケプ フレーム 目的話者の自然音声 目的話者の合成音声 (従来法) 23次メルケプ
6.
従来法の問題点2: PPG の話者依存性 •
音素識別損失のみの最小化 → PPG の話者独立性の保証なし • 異なる話者の同一発話音声から異なる PPG を予測する可能性 5/17 変換元話者 A 変換元話者 B 音素 インデックス フレーム
7.
6/17 提案法 音声認識・生成モデルの 同時敵対学習
8.
• 敵対的DNN音声合成 [Saito+,
2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 1. !"# の更新: $"# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 %& ⋅ ( ⋅ ) * ) + ,- * ,- + $"./ 01 + $2"/%3 ⋅ !"# ⋅ 1 + 自然 合成 04 * 04 + 5 * $"#話者 認証器 $"# 1 + , 01 + : 自然/合成音声を正しく識別させる損失 [Goodfellow+, 2014]
9.
• 敵対的DNN音声合成 [Saito+,
2018] • 話者認証器 !"# : 自然/合成音声の統計的な違いを検出 • Generative Adversarial Net (GAN) に基づく分布間距離最小化 • 2. $ の更新: %& = %(") + +&%,-# の最小化 話者認証器に敵対する音声生成モデル学習 7/17 ./ ⋅ $ ⋅ 1 2 1 3 45 2 45 3 %"6) 78 3 %(").9 ⋅ !"# ⋅ 8 3 自然 合成 7: 2 7: 3 ; 2 %,-#話者 認証器 [Goodfellow+, 2014] %,-# 78 3 : 合成音声を自然音声と誤識別させる損失 (8 3 , 78 3 の分布間距離最小化を考慮した学習)
10.
• 認識モデルの Domain-Advarsarial
Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 1. !"# の更新: *"# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 +, ⋅ . ⋅ / ' / ( $% ' $% ( *0#1 23 ( +4 ⋅ !"# ⋅ !05 ⋅ 3 ( 自然 合成 26 ' 26 ( 7 ' & ( & ' *05*"#ドメイン 識別器 *"# $% ' , $% ( : $% を用いてドメインを正しく識別させる損失 *901 話者 認証器
11.
• 認識モデルの Domain-Advarsarial
Training (DAT) [Ganin+, 2016] • ドメイン識別器 !"# : $% からドメイン & ' と & ( を識別 • 本発表では, コーパス & ) と & ( をドメインとみなして学習 • 2. *+, *- の更新: ./ = .1#2 − 4/."# の最小化 ドメイン識別器に敵対する音声認識モデル学習 8/17 *+ ⋅ 6 ⋅ 7 ' 7 ( $% ' $% ( .1#2 89 ( *- ⋅ !"# ⋅ !1: ⋅ 9 ( 自然 合成 8; ' 8; ( < ' & ( & ' .1:−."#ドメイン 識別器 .=12 −."# $% ' , $% ( : $% を用いてドメインを誤まって識別させる損失 (潜在変数のドメイン不変性を制約とした学習) 話者 認証器
12.
• 1. !"#,
!%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
13.
• 1. !"#,
!%& の更新: '"#, '%& の最小化 • 2. (), (*, + の更新: ' = '- + '/ の最小化 音声認識・生成モデルの同時敵対学習 9/17 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '%&'"# '<%6 () ⋅ + ⋅ 1 2 1 3 45 2 45 3 '%#6 78 3 (* ⋅ !"# ⋅ !%& ⋅ 8 3 自然 合成 79 2 79 3 : 2 ; 3 ; 2 '="&−'"# '<%6
14.
提案法の効果1: 過剰な平滑化の緩和 10/17 25次メルケプ 目的話者の自然音声 従来法 23次メルケプ 提案法 (GAN) 提案法 (DAT-GAN) GAN
により, 合成 / 自然音声の分布の違いを補償! 目的話者の合成音声
15.
提案法の効果2: PPG の話者依存性緩和 11/17 従来法 提案法 (GAN) 提案法 (DAT-GAN) 変換元話者
A 変換元話者 B 音素インデックス フレーム DAT により, 話者の違いに対して頑健な PPG を学習!
16.
12/17 実験的評価
17.
実験条件 学習データ ! " :
CSJ コーパス [Maekawa+, 2000] ! # : NICT 声優対話コーパス [Sugiura+, 2015] 変換元話者 (パラレル1発話) ATR デジタル音声データベース C セット (男性10名, 女性10名) [Kurematsu+, 1990] DNNの入出力 (詳細は原稿参照) 音声認識: 13次 MFCC (+ Δ) → 43次元 PPG 音声生成: 43次元 PPG → 1—39次メルケプ 話者認証: 1—39次メルケプ → 認証結果 ドメイン識別: 256次元潜在変数 → 識別結果 初期化 CSJ コーパスの全学習データを用いた 音声認識モデルの事前学習 (1エポック) 比較手法 従来法: 個別学習 [Sun+, 2016] 提案法 (GAN): 同時敵対学習 ω% = 0.5, ω+ = 0.0 提案法 (DAT-GAN): 同上 ω% = 0.5, ω+ = 0.25 最適化手法 学習率 0.01 の AdaGrad [Duchi+, 2011] 13/17
18.
変換音声の自然性に関する MOS スコア •
被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 3 (手法) = 60 サンプル 14/17 評価結果 ± 95%信頼区間 女 → 女 男 → 女 従来法 2.703 ± 0.124 2.510 ± 0.113 提案法 (GAN) 2.997 ± 0.131 2.553 ± 0.116 提案法 (DAT-GAN) 2.953 ± 0.125 2.747 ± 0.119 提案法 (DAT-GAN) により, 同性/異性間VC両方で有意に自然性を改善
19.
変換音声の話者類似性に関する XAB スコア •
被験者: クラウドソーシングで集めた30名 • 10 (変換元) × 2 (女 → 女, 男 → 女) × 2 (比較) = 40 サンプル • リファレンス音声: 目的話者の学習に用いていない1発話 15/17 提案法 (DAT-GAN) により, 従来法 / 提案法 (GAN) と比較して有意に話者類似性も改善 Method A 評価結果 (女 → 女) Method B 従来法 0.317 vs. 0.683 提案法 (DAT-GAN) 提案法 (GAN) 0.387 vs. 0.623 提案法 (DAT-GAN) Method A 評価結果 (男 → 女) Method B 従来法 0.283 vs. 0.717 提案法 (DAT-GAN) 提案法 (GAN) 0.373 vs. 0.627 提案法 (DAT-GAN)
20.
変換音声サンプル (抜粋) 女1 女2
女3 男1 男2 男3 従来法 提案法 (GAN) 提案法 (DAT-GAN) 16/17 リファレンス:
21.
まとめ 17/17 • 研究目的: 多対一音声変換
(VC) の高品質化 • 従来法: 音素事後確率 (PPG*) を用いた多対一 VC [Sun+, 2016] • 音声認識・生成モデルを結合し, 多対一 VCを実現 • 問題点: 変換音声の品質劣化 • 合成音声特徴量の過剰な平滑化 & PPG の話者依存性が原因 • 提案法: 音声認識・生成モデルの同時敵対学習 • 1. 話者認証器に敵対する音声生成モデル学習 • 2. ドメイン識別器に敵対する音声認識モデル学習 • 3. 音声認識・生成モデルの同時学習 • 結果: 提案法による変換音声の品質改善 • 今後: 提案法のハイパーパラメータが与える影響を調査