SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
saito2017asj_tts
Report
Yuki Saito
Follow
Mar. 16, 2017
•
0 likes
•
516 views
1
of
17
saito2017asj_tts
Mar. 16, 2017
•
0 likes
•
516 views
Download Now
Download to read offline
Report
Science
ASJ 2017 Text-to-Speech
Yuki Saito
Follow
Recommended
saito2017asj_vc
Yuki Saito
697 views
•
13 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
16.1K views
•
13 slides
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
2.1K views
•
15 slides
miyoshi2017asj
Yuki Saito
554 views
•
13 slides
miyoshi17sp07
Yuki Saito
1.1K views
•
23 slides
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
1.2K views
•
12 slides
More Related Content
What's hot
Saito17asjA
Yuki Saito
571 views
•
20 slides
Saito21asj Autumn Meeting
Yuki Saito
238 views
•
7 slides
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
1.1K views
•
13 slides
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
1.6K views
•
14 slides
音情報処理における特徴表現
NU_I_TODALAB
6.2K views
•
39 slides
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
2.9K views
•
24 slides
What's hot
(20)
Saito17asjA
Yuki Saito
•
571 views
Saito21asj Autumn Meeting
Yuki Saito
•
238 views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
•
1.1K views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
•
1.6K views
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
•
2.9K views
Nakai22sp03 presentation
Yuki Saito
•
246 views
Saito20asj_autumn
Yuki Saito
•
382 views
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
Saito19asj_s
Yuki Saito
•
491 views
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
•
906 views
音声認識の基礎
Akinori Ito
•
35.9K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
543 views
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
•
9.2K views
Saito18asj_s
Yuki Saito
•
343 views
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
•
983 views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
Saito18sp03
Yuki Saito
•
1.1K views
日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)
Shinnosuke Takamichi
•
976 views
Viewers also liked
Eutrofización
Montserrat Mendoza
833 views
•
46 slides
Tema 4. ciencias sociales.
Marcos Rodríguez Ucedo
650 views
•
13 slides
Informe sobre el diagnostico de seguridad industrial ,
iankeneth12
168 views
•
4 slides
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Richard Johnson
338 views
•
44 slides
Dramaturgia
Romina Yépez Vásquez
6.8K views
•
37 slides
Alfonso X el Sabio
Manu Pérez
618 views
•
15 slides
Viewers also liked
(19)
Eutrofización
Montserrat Mendoza
•
833 views
Tema 4. ciencias sociales.
Marcos Rodríguez Ucedo
•
650 views
Informe sobre el diagnostico de seguridad industrial ,
iankeneth12
•
168 views
Metriplica America: “Cómo a partir de la medición, mejoramos nuestro negocio ...
Richard Johnson
•
338 views
Dramaturgia
Romina Yépez Vásquez
•
6.8K views
Alfonso X el Sabio
Manu Pérez
•
618 views
ESCUELAS DEL FUTURO
claudiatdf
•
1.9K views
Visual scaffolding
kalleykirkland
•
211 views
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
Shinnosuke Takamichi
•
1.2K views
Autyzm pezentacja
Mrtinez86
•
489 views
SENDERO ECOLIGICO
leidy tatiana sanchez cruz
•
110 views
Murat artsin storyboard
Murat ARTSIN
•
183 views
Slp201702
Yuki Saito
•
14.9K views
Saito2017icassp
Yuki Saito
•
1.3K views
Herramientas de la web 2.0
Lisbeth García
•
392 views
Interreg Europe ZEROCO2 regional policies report promoting energy efficiency ...
Damien Gatt
•
261 views
Informed Refusal: you are doing it wrong
Robert Cole
•
4.1K views
конспект остп
Мельник Наталія Володимирівна
•
992 views
Nose job
Health First
•
102 views
Similar to saito2017asj_tts
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
1.9K views
•
47 slides
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
259 views
•
13 slides
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai
2K views
•
45 slides
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
982 views
•
24 slides
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
2.1K views
•
46 slides
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
539 views
•
13 slides
Similar to saito2017asj_tts
(8)
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
•
1.9K views
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
•
259 views
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai
•
2K views
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
•
982 views
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
•
2.1K views
外国人留学生日本語の音声合成における話者性を保持した韻律補正
Shinnosuke Takamichi
•
539 views
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
•
1.5K views
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
博三 太田
•
223 views
More from Yuki Saito
hirai23slp03.pdf
Yuki Saito
51 views
•
21 slides
Interspeech2022 参加報告
Yuki Saito
530 views
•
52 slides
fujii22apsipa_asc
Yuki Saito
43 views
•
25 slides
nakai22apsipa_presentation.pdf
Yuki Saito
44 views
•
20 slides
saito22research_talk_at_NUS
Yuki Saito
51 views
•
52 slides
Neural text-to-speech and voice conversion
Yuki Saito
1.1K views
•
70 slides
More from Yuki Saito
(15)
hirai23slp03.pdf
Yuki Saito
•
51 views
Interspeech2022 参加報告
Yuki Saito
•
530 views
fujii22apsipa_asc
Yuki Saito
•
43 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
44 views
saito22research_talk_at_NUS
Yuki Saito
•
51 views
Neural text-to-speech and voice conversion
Yuki Saito
•
1.1K views
Nishimura22slp03 presentation
Yuki Saito
•
296 views
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
921 views
Saito2103slp
Yuki Saito
•
241 views
Interspeech2020 reading
Yuki Saito
•
171 views
ICASSP読み会2020
Yuki Saito
•
693 views
Saito20asj s slide_published
Yuki Saito
•
605 views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
759 views
Une18apsipa
Yuki Saito
•
425 views
釧路高専情報工学科向け進学説明会
Yuki Saito
•
933 views
Recently uploaded
JPA2023_NetworkTutorial_Part1.pdf
Jun Kashihara
81 views
•
30 slides
JPA2023_NetworkTutorial_Part5.pdf
Jun Kashihara
75 views
•
13 slides
JPA2023_NetworkTutorial_Part2.pdf
Jun Kashihara
81 views
•
17 slides
生命から見た時間の科学20230917
Koji Fukuoka
40 views
•
24 slides
フナコシニュース2023年9月15日号
fu7koshi
30 views
•
32 slides
JPA2023_NetworkTutorial_Part4.pdf
Jun Kashihara
69 views
•
19 slides
Recently uploaded
(6)
JPA2023_NetworkTutorial_Part1.pdf
Jun Kashihara
•
81 views
JPA2023_NetworkTutorial_Part5.pdf
Jun Kashihara
•
75 views
JPA2023_NetworkTutorial_Part2.pdf
Jun Kashihara
•
81 views
生命から見た時間の科学20230917
Koji Fukuoka
•
40 views
フナコシニュース2023年9月15日号
fu7koshi
•
30 views
JPA2023_NetworkTutorial_Part4.pdf
Jun Kashihara
•
69 views
saito2017asj_tts
1.
©Yuki Saito, 2017/03/16 敵対的DNN音声合成における
𝐹0・継続長の生成 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年春季研究発表会 講演番号 2-6-6
2.
/16 問題点: 統計的パラメトリック音声合成の音質劣化 –
生成される音声特徴量系列の過剰な平滑化が一因 従来法: 敵対的DNN音声合成 [Saito et al., 2017.] – 声のなりすましを防ぐ anti-spoofing を詐称するように学習 – 自然 / 合成音声特徴量の分布の違いを補償 – スペクトル特徴量のみに関して有効性を確認 本発表: 敵対的DNN音声合成による 𝐹0・継続長の生成 – スペクトル特徴量と 𝐹0 の同時分布を補償 – 言語依存の等時性を考慮した継続長の生成法を提案 結果: 𝐹0の生成に関して提案法による音質改善を確認 1 本発表の概要
3.
/16 Minimum Generation Error
(MGE) 学習 2 Generation error 𝐿G 𝒚, ෝ𝒚 Linguistic feats. [Wu et al., 2016.] Natural speech params. 𝐿G 𝒚, ෝ𝒚 = 1 𝑇 ෝ𝒚 − 𝒚 ⊤ ෝ𝒚 − 𝒚 → Minimize 𝒚 ML-based parameter generation Generated speech params.ෝ𝒚 Acoustic models ⋯ ⋯ ⋯ Frame 𝑡 = 1 Static-dynamic mean vectors Frame 𝑡 = 𝑇 音素継続長も同様の枠組みで生成可能 [Zen et al., 2013.]
4.
/16 Anti-Spoofing: 声のなりすましを防ぐ識別器 3 [Wu et
al., 2016.] [Chen et al., 2015.] 𝐿D 𝒚, ෝ𝒚 = → Minimize− 1 𝑇 𝑡=1 𝑇 log 𝐷 𝒚 𝑡 − 1 𝑇 𝑡=1 𝑇 log 1 − 𝐷 ෝ𝒚 𝑡 ෝ𝒚 Cross entropy 𝐿D 𝒚, ෝ𝒚 1: natural 0: generated Generated speech params. 𝒚Natural speech params. Feature function 𝝓 ⋅ 本発表では 𝝓 𝒚 𝑡 = 𝒚 𝑡 Anti-spoofing 𝐷 ⋅ or 𝐿D,1 𝒚 𝐿D,0 ෝ𝒚 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる
5.
/144 𝜔D: 重み, 𝐸
𝐿G , 𝐸 𝐿D : 𝐿G 𝒚, ෝ𝒚 , 𝐿D,1 ෝ𝒚 の期待値 𝐿 𝒚, ෝ𝒚 = 𝐿G 𝒚, ෝ𝒚 + 𝜔D 𝐸 𝐿G 𝐸 𝐿D 𝐿D,1 ෝ𝒚 → Minimize 敵対的DNN音声合成 [Saito et al., 2017.] 𝐿G 𝒚, ෝ𝒚 Linguistic feats. Natural 𝒚 ML-based parameter generation Generated ෝ𝒚 Acoustic models ⋯ ⋯ ⋯ 𝐿D,1 ෝ𝒚 1: natural Feature function 𝝓 ⋅ Anti-spoofing 合成音声を 自然音声と識別させる
6.
/145 敵対的学習 [Goodfellow et
al., 2014.] による 分布補償効果 21st mel-cepstral coefficient 23rdmel-cepstral coefficient Natural MGE Proposed 分布の違いを補償し, 過剰な平滑化を緩和!
7.
/166 提案法: 敵対的DNN音声合成による スペクトル・𝐹0・継続長の生成 従来法: 敵対的DNN音声合成による スペクトル特徴量の生成
8.
/167 敵対的DNN音声合成によるスペクトル・𝐹0 の生成 従来法の予測パラメータ: –
メルケプストラムのみ 本発表の予測パラメータ: – メルケプストラム, 連続対数 𝐹0, 非周期成分, U/V – メルケプストラムと連続対数 𝐹0 を anti-spoofing に入力 Generated speech params. Mel-cepstral coefficients Continuous log 𝐹0 U/V Band aperiodicity Natural speech params. 𝒚ෝ𝒚 𝐿G 𝒚, ෝ𝒚 Input to anti-spoofing
9.
/16 言語依存の等時性を考慮した継続長生成 𝒅p ... sil a r a y u sil 𝒅p Generated phoneme durations 𝒅pNatural phoneme durations 𝐿G
𝒅p, 𝒅p 𝐿D,1 𝒅p 1: natural Anti-spoofing 8 音素継続長分布の補償 ⇏ モーラ継続長分布の補償
10.
/16 言語依存の等時性を考慮した継続長生成 sil a ra yu ... sil ... + + Language-dependent pooling 𝒅p ... sil a r a y u sil Generated mora durations𝒅m 𝒅p Generated phoneme durations 𝒅pNatural phoneme
durations 𝐿G 𝒅p, 𝒅p 𝐿D,1 𝒅m 1: natural Anti-spoofing 9
11.
/1610 考察 𝐹0 の生成: –
スペクトルと 𝐹0 の同時分布を補償可能 • 異なる特徴量の相関を考慮した学習 [Tanaka et al., 2014.] • 特徴量の次元数を考慮した学習 [Kang et al., 2014.] も可能 継続長の生成: – 多重解像度に基づく敵対的学習 [Zhang et al., 2016.] に類似 • 高い時間解像度における生成誤差最小化 • 低い時間解像度における敵対的学習 – スペクトル・ 𝐹0・継続長の同時分布も補償可能 • Un-pooling により音素継続長をフレームレベルに展開可能
12.
/1611 実験的評価
13.
/16 実験条件 データセット ATR 音素バランス503文
(16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 連続対数 𝐹0, 5帯域の非周期成分, U/V コンテキストラベル 442次元 (音素, モーラ位置, アクセント型など) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) DNNアーキテクチャ Feed-Forward, ReLU nonlinearity (詳細は原稿参照) 12 𝐹0 生成, 継続長生成それぞれに関して提案法の有効性を検証
14.
/1613 𝐹0 生成に関する主観評価結果 比較手法: –
MGE: 従来のMGE学習 – ADV (sp): 敵対的DNN音声合成 (スペクトルのみ) – ADV (sp+F0): 同上 (スペクトル & 𝐹0) ADV (SP+F0) ADV (SP) エラーバーは95%信頼区間 MGE 0.0 0.2 0.4 改善 プリファレンススコア (評価者数8名) 更に改善 0.6 0.8 1.0
15.
/1614 継続長生成に関する主観評価結果 エラーバーは95%信頼区間 比較手法: – MGE:
従来のMGE学習 – ADV (phoneme): 敵対的DNN音声合成 (音素継続長) – ADV (mora): 同上 (モーラ継続長) ADV (phoneme) ADV (mora) MGE 0.0 プリファレンススコア (評価者数8名) 有意差なし 0.2 0.4 0.6 0.8 1.0
16.
/16 MGE学習後の特徴量を用いて anti-spoofing
を構築 – Anti-spoofing に有効な特徴量 → 自然音声との違いが大きい • スペクトル & 𝐹0 → 有効 • 音素/モーラ継続長 → 有効でない 15 Anti-spoofing における特徴量の有効性 継続長を用いた anti-spoofing は困難 → 提案法の効果小 スペクトル & 𝐹0 音素継続長 モーラ継続長 0.0 Anti-spoofing の accuracy 0.2 0.4 0.6 0.8 1.0
17.
/1616 まとめ 目的: 統計的パラメトリック音声合成の音質改善
提案手法: – (1) 敵対的DNN音声合成によるスペクトル・ 𝐹0 の生成 • 主観評価により音質改善を確認 – (2) モーラ等時性を考慮した継続長生成 + 敵対的DNN音声合成 • 主観評価において有意差は確認できず • 継続長を用いた anti-spoofing の難しさに起因 今後の予定: • 他言語・オーディオブックのタスクへの適用