Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Report
Yuki Saito
Follow
Sep. 16, 2016
•
0 likes
3 likes
×
Be the first to like this
Show More
•
2,110 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
Saito19asj_s
Yuki Saito
Saito20asj_autumn
Yuki Saito
Saito19asjAutumn_DeNA
Yuki Saito
音情報処理における特徴表現
NU_I_TODALAB
miyoshi17sp07
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
Saito18sp03
Yuki Saito
1
of
15
Top clipped slide
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Sep. 16, 2016
•
0 likes
3 likes
×
Be the first to like this
Show More
•
2,110 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
日本音響学会 2016年秋季研究発表会の発表資料です.
Yuki Saito
Follow
Advertisement
Advertisement
Advertisement
Recommended
saito2017asj_vc
Yuki Saito
697 views
•
13 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
1.6K views
•
22 slides
Saito17asjA
Yuki Saito
563 views
•
20 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
16K views
•
13 slides
saito2017asj_tts
Yuki Saito
516 views
•
17 slides
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
1.2K views
•
12 slides
More Related Content
Slideshows for you
(20)
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
•
1.3K views
Saito19asj_s
Yuki Saito
•
488 views
Saito20asj_autumn
Yuki Saito
•
381 views
Saito19asjAutumn_DeNA
Yuki Saito
•
1.2K views
音情報処理における特徴表現
NU_I_TODALAB
•
6.1K views
miyoshi17sp07
Yuki Saito
•
1.1K views
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
•
927 views
Saito18sp03
Yuki Saito
•
1.1K views
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
•
2.9K views
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
•
533 views
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura
•
913 views
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
•
2.6K views
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
•
1.4K views
音声認識の基礎
Akinori Ito
•
35.8K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
•
4.2K views
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
•
1.1K views
ICASSP読み会2020
Yuki Saito
•
689 views
Saito18asj_s
Yuki Saito
•
341 views
分布あるいはモーメント間距離最小化に基づく統計的音声合成
Shinnosuke Takamichi
•
1.9K views
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
•
1.6K views
Similar to DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
(11)
Slp201702
Yuki Saito
•
14.9K views
Interspeech2022 参加報告
Yuki Saito
•
414 views
Discriminative SNMF EA201603
SaruwatariLabUTokyo
•
14K views
英語リスニング研究最前線:実験音声学からのアプローチ
Kosuke Sugai
•
2K views
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
•
37 views
[DL輪読会]音声言語病理学における機械学習とDNN
Deep Learning JP
•
448 views
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
•
15.2K views
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Yuki Okamoto
•
63 views
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
•
3.8K views
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
•
669 views
Music signal separation using supervised nonnegative matrix factorization wit...
Daichi Kitamura
•
974 views
Advertisement
More from Yuki Saito
(15)
hirai23slp03.pdf
Yuki Saito
•
37 views
fujii22apsipa_asc
Yuki Saito
•
41 views
nakai22apsipa_presentation.pdf
Yuki Saito
•
38 views
saito22research_talk_at_NUS
Yuki Saito
•
43 views
Neural text-to-speech and voice conversion
Yuki Saito
•
967 views
Nishimura22slp03 presentation
Yuki Saito
•
265 views
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
•
889 views
Saito2103slp
Yuki Saito
•
236 views
Interspeech2020 reading
Yuki Saito
•
164 views
Saito20asj s slide_published
Yuki Saito
•
600 views
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
•
759 views
Une18apsipa
Yuki Saito
•
422 views
釧路高専情報工学科向け進学説明会
Yuki Saito
•
930 views
miyoshi2017asj
Yuki Saito
•
554 views
Saito2017icassp
Yuki Saito
•
1.3K views
Recently uploaded
(20)
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
643 views
SoftwareControl.pdf
ssusercd9928
•
15 views
GitHub Copilotとともに次の開発体験へ
Kazumi IWANAGA
•
15 views
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
•
10 views
①【麦吉尔大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
モバイル・クラウド・コンピューティング-データを如何に格納し、組み合わせ、情報として引き出すか
Masahiko Funaki
•
2 views
beyoben38.pdf
beyond Co., Ltd.
•
59 views
OIDC(OpenID Connect)について解説①
iPride Co., Ltd.
•
28 views
Forguncy8 製品概要 202305.pptx
フォーガンシー
•
6 views
本科/硕士《加拿大温莎大学毕业证成绩单》
1523dsa
•
2 views
《杨百翰大学毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
3 views
ChatGPT以後の時代をどう生きるか PWA Night vol.51
hedachi
•
55 views
オレオレになりがちなテスト計画を見直した話
terahide
•
24 views
留信网认证可查【拜欧拉大学文凭证书毕业证购买】
1lkjhg
•
3 views
①【戴尔豪斯大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
UAV写真・レーザー測量test.pptx
ssuserb48d2b1
•
13 views
突如登場したAzure Developer CLIでなにができるのか?検証してみる
Kazumi IWANAGA
•
27 views
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
•
25 views
留信网认证可查【皇家霍洛威学院文凭证书毕业证购买】
32lkhng
•
2 views
Advertisement
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
©Yuki Saito, 2016/09/16 DNN音声合成のための Anti-spoofing
を考慮した学習アルゴリズム ☆ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2016年秋季発表会 講演番号 3-5-1
/14 問題点: 統計的パラメトリック音声合成の音質劣化 • 生成される音声パラメータ系列の過剰な平滑化が一因 改善策:
自然 / 合成音声を識別できる解析的特徴量の分布を補償 • 例: 変調スペクトルの正規分布 [Takamichi et al., 2016.] • 例: Mel-LSP のヒストグラム [Ohtani et al., 2012.] 本発表: Anti-spoofing を考慮したDNN音声合成の学習法 • 自然 / 合成音声パラメータの分布の違いを補償 • 従来の補償手法の拡張 1 本発表の概要 DNN音声合成における従来の学習法よりも高音質を達成
/14 従来の音響モデル学習: Minimum Generation Error
(MGE) 学習 2 Generation error 𝐿G 𝒄, ො𝒄 Linguistic feats. 𝒄 [Wu et al., 2016.] Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ ො𝒄 time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation 𝐿G 𝒄, ො𝒄 = 1 𝑇 ො𝒄 − 𝒄 T ො𝒄 − 𝒄 → Minimize ⋯
/143 MGE学習の問題点: 自然音声と異なるパラメータ分布 分布の違いを補償する音響モデル学習法を提案 分布が縮小 Natural MGE 20th
mel-cepstral coefficient 23rdmel-cepstral coefficient
/144 提案手法: Anti-spoofing と敵対する 音響モデル学習
/14 Anti-spoofing: 合成音声による声のなりすましを防ぐ識別器 5 ො𝒄 Cross entropy 𝐿D
𝒄, ො𝒄 0: generated 1: natural [Wu et al., 2016.] [Chen et al., 2015.] 𝐷 𝝓 ⋅ Generated speech params. 𝒄 Natural speech params. Feature function 𝝓 ⋅ 本発表では𝝓 𝒄 𝑡 = 𝒄 𝑡 𝐿D,1 𝒄 𝐿D,0 ො𝒄 𝐿D 𝒄, ො𝒄 = → Minimize− 1 𝑇 𝑡=1 𝑇 log 𝐷 𝒄 𝑡 − 1 𝑇 𝑡=1 𝑇 log 1 − 𝐷 ො𝒄 𝑡 合成音声を 合成音声と識別させる 自然音声を 自然音声と識別させる
/14 Anti-spoofing と敵対する音響モデル学習 6 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Linguistic feats. Parameter generation 𝐿G 𝒄,
ො𝒄 𝐿D,1 ො𝒄Feature function 1: natural 𝜔D: 重み, 𝐸𝐿G , 𝐸𝐿D : 𝐿G 𝒄, ො𝒄 , 𝐿D,1 ො𝒄 の期待値 合成音声を 自然音声と識別させる 𝐿 𝒄, ො𝒄 = 𝐿G 𝒄, ො𝒄 + 𝜔D 𝐸𝐿G 𝐸𝐿D 𝐿D,1 ො𝒄 → Minimize ⋯ ො𝒄 𝒄 Generated speech params. Natural speech params.
/147 自然音声パラメータの分布に近づくような 合成音声パラメータの生成 合成音声パラメータの分布が拡大 → 過剰な平滑化の緩和! 20th mel-cepstral
coefficient 23rdmel-cepstral coefficient Natural MGE Proposed
/14 素性関数 𝝓 ⋅
の設計を通じた特徴量の補償 • 音声合成や Anti-spoofing において既知の解析的特徴量 • DNNにより自動設計された特徴量 提案手法における学習手順 • 敵対的学習 [Goodfellow et al., 2014.] と, • 識別器を含むマルチタスク学習 [Huang et al., 2015.] の組合せ • DNNに基づく敵対的学習 → 複雑な分布を利用可能 学習は全て backpropagation で完結 • LSTMなどの任意のDNNアーキテクチャを利用可能 8 提案手法の特徴
/149 実験的評価
/14 実験条件 データセット ATR 音素バランス503文
(16 kHz サンプリング) 学習 / 評価データ A-I セット 450文 / Jセット 53文 音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分 コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など) 前処理 Trajectory smoothing [Takamichi et al., 2015.] 予測パラメータ メルケプストラム (𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用) 最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01) 音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear) Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid) 10
/14 提案手法の初期化・学習および客観評価 11 初期化 • 音響モデル: MGE学習 •
Anti-spoofing: 自然音声とMGE学習後の合成音声を識別 学習 (𝜔D = 0.5 とする) • 音響モデル: Anti-spoofing に敵対する学習 • Anti-spoofing: 自然音声と当該学習時点での合成音声を識別 客観評価指標 • パラメータの生成誤差 • Anti-spoofing における詐称率 • 詐称率: 合成音声を自然音声と誤識別した割合 • この際に用いる Anti-spoofing はMGE学習後の合成音声を用いて構築
/14 客観評価結果 12 生成誤差は悪化したが, 詐称率は大幅に改善 悪化MGE Proposed 0.0 0.1
0.2 0.3 0.4 0.5 0.6 0.7 0.8 生成誤差 改善MGE Proposed 0.0 0.2 0.4 0.6 1.00.8 < 0.001 詐称率
/14 音質に関する主観評価結果 プリファレンススコア (評価者数8名) 13 提案手法による音質の改善を確認 *エラーバーは 95%
信頼区間 MGE Proposed 0.0 0.2 0.4 0.6 1.00.8 改善 エラーバーは95%信頼区間
/14 まとめ 目的: 統計的パラメトリック音声合成の音質改善 提案手法: Anti-spoofing
を考慮したDNN音声合成 • 自然 / 合成音声パラメータの分布の違いを補償 • 従来のMGE学習と比較して音質改善を確認 今後の検討事項 • ハイパーパラメータ 𝜔D の設定 • Anti-spoofing において有効な特徴量の利用 14
Advertisement