SlideShare a Scribd company logo
Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College
雑音環境下音声を用いたDNN音声合成の
ための雑音生成モデルの敵対的学習
宇根昌和(徳山高専,東大),
齋藤佑樹,高道慎之介,北村大地(東大)
宮崎亮一(徳山高専),猿渡洋(東大)
• DNNに基づく音声合成 [Zen, 2013]
 学習には理想的な環境で収録した音声データが必要
 雑音混入音声を学習に利用 → 合成音声も劣化
• 従来手法:雑音抑圧を適用
 雑音抑圧を行った音声をモデルの学習に使用
 雑音抑圧による推定誤差が音声合成部で重畳
研究背景
2/15
雑音混入音声からクリーンな音声を合成したい!
• 提案手法:雑音混入過程を考慮
 音声生成モデルと雑音生成モデルの2つのモデルを構築
 雑音生成モデルの学習方法に敵対的学習を利用
→ 観測雑音の分布を効果的に表現可能
 音声生成モデルは,その出力とランダム生成雑音の和が
雑音環境下音声に一致するように学習
• 結果
 従来法と比較して高品質な音声の合成に成功
問題に対するアプローチ
3/15
• 音声合成モデル の枠組みと学習
 本研究ではSpectral Subtraction (SS)を使用
 教師データ:SS後の対数振幅スペクトル
 出力データ:対数振幅スペクトル
 と のMean square error (MSE)を最小化
雑音抑圧による音声合成
4/15
Linguistic
feat.
Noisy
speech
①SS②MSE最小化
• 雑音分布を期待値で近似 → 推定誤差の発生
 音声成分の歪み
→ クリーン音声の分布の歪み
 ミュージカルノイズの発生 [Miyazaki, 2012]
→ 雑音の分布の歪み
SS後の音声合成における問題点
5/15
後段の音声合成モデルの学習に推定誤差が蓄積
提案手法
• 雑音の混入過程を考慮
 音声生成モデル に加え雑音生成モデル を導入
 の入力 は事前分布から生成された乱数
 :事前分布を観測雑音の分布に変形 (事前に学習)
 : + が雑音混入音声に近づくよう学習
提案手法
7/15
雑音をランダム生成
<latexitsha1_base64="r089rO8qpy3q3IiZi/BkH1LjFV8=">AAADAnichVI9T9tQFD0Y2ob0IyksSCxRA1Wn6AYh0TJFsDACIYAKCNkvL2DFsS37xSJYjCzMSAwIpFZiqDJVrGxd+gcY+AlVt1KpS4dev7hFLYI+y77X591z7jtXz/IdO1REV31G/8CDh48yg9nHT54+y+WfDy2HXjsQsiY8xwtWLTOUju3KmrKVI1f9QJoty5ErVnM22V+JZBDanrukOr7caJlbrt2whakYerseSaG8IHb3NvNFKpFehdtJOU2KSNe8l/+GddThQaCNFiRcKM4dmAj5WUMZBJ+xDcSMBZzZel9iD1nmtrlKcoXJaJO/W/y3lqIu/yeaoWYL7uLwGzCzgHG6pA90TZ+pS1/o551asdZIztLhaPW40t/MHYxUf9zDsrj67hP+Vm1xVNi+Ub3Xk0IDr7UXm735Gklcih4/2j26rk4vjscv6T19ZX/v6Io+sUM3+i7O
• 雑音生成に敵対的学習 (GAN) の導入
 雑音の分布を表現可能
 観測雑音は観測信号の非音声区間から抽出
雑音生成モデルの学習方法
8/15
:生成雑音 と観測雑音 を識別する.
[Goodfellow et al., 2014]
• 雑音生成に敵対的学習 (GAN) の導入
 雑音の分布を表現可能
 観測雑音は観測信号の非音声区間から抽出
雑音生成モデルの学習方法
9/15
:生成雑音 を観測雑音と識別させる.
[Goodfellow et al., 2014]
• 敵対的学習の役割
 観測雑音と生成雑音の分布間距離を最小化
• ガウス性雑音を観測雑音にした場合
観測雑音と生成雑音の比較
10/15
観測雑音
生成雑音
は観測雑音の分布や音色を効果的に表現できている.
• 比較手法
 SS+MSE: SSで雑音抑圧後,音声生成モデルを学習
 Proposed: 提案手法
実験条件
11/15
学習データ 日本語約3000文
テストデータ ATR音素バランス Jセット 53文
音声パラメータ 257次元のスペクトログラム
コンテキストラベル 439次元テキスト特徴量(F0を含む)
ニューラルネットワーク 全てFeed-Forward (原稿参照)
雑音生成モデルの入力 一様分布からランダム生成
観測雑音 白色ガウス雑音
SSにおける減算係数β 0.5, 1.0, 2.0, 5.0
入力SNR 0 [dB], 5 [dB], 10[dB]
• SNR = 0dBの結果
 音声の明瞭性+雑音の量の点で評価
プリファレンスABテスト
12/15
0.368 0.632
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.312 0.688
0.312 0.688
0.00 0.25 0.50 0.75 1.00
Preference score
0.253 0.747
提案法は知覚的に従来法に比べ優れている.
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
• SNR = 5dBの結果
 音声の明瞭性+雑音の量の点で評価
プリファレンスABテスト
13/15
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
提案法は知覚的に従来法に比べ優れている.
• SNR = 10dBの結果
 音声の明瞭性+雑音の量の点で評価
プリファレンスABテスト
14/15
0.268 0.732
0.292 0.707
0.256 0.744
0.00 0.25 0.50 0.75 1.00
Preference score
0.288 0.712
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
提案法は知覚的に従来法に比べ優れている.
• 目的
 雑音混入音声から高品質な音声を生成
• 提案法
 雑音混入過程を考慮したDNN音声合成モデルを構築
 雑音生成モデルに敵対的学習を導入し,観測雑音を生成
• 結果
 敵対的学習により,観測雑音の分布を効果的に表現
 主観評価実験より,従来法と比較して提案手法が有効
• 今後の課題
 当該話者以外のクリーン音声を用いた適応学習
 F0等も観測信号から推定し音質を比較
まとめ
15/15

More Related Content

What's hot

音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
ToshihiroMISHIBA
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
 
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
RYOTAETO1
 
Monta v2
Monta v2Monta v2
Monta v2
NatsukiMonta
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Shinnosuke Takamichi
 
Rikanet open int
Rikanet open intRikanet open int
Rikanet open intTakaoHirata
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
 

What's hot (20)

音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Sprint16 thesis introduction
Sprint16 thesis introduction Sprint16 thesis introduction
Sprint16 thesis introduction
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
 
Monta v2
Monta v2Monta v2
Monta v2
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
卒論発表
卒論発表卒論発表
卒論発表
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 
Rikanet open int
Rikanet open intRikanet open int
Rikanet open int
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 

Recently uploaded

論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 

Recently uploaded (9)

論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 

日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

  • 1. Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College 雑音環境下音声を用いたDNN音声合成の ための雑音生成モデルの敵対的学習 宇根昌和(徳山高専,東大), 齋藤佑樹,高道慎之介,北村大地(東大) 宮崎亮一(徳山高専),猿渡洋(東大)
  • 2. • DNNに基づく音声合成 [Zen, 2013]  学習には理想的な環境で収録した音声データが必要  雑音混入音声を学習に利用 → 合成音声も劣化 • 従来手法:雑音抑圧を適用  雑音抑圧を行った音声をモデルの学習に使用  雑音抑圧による推定誤差が音声合成部で重畳 研究背景 2/15 雑音混入音声からクリーンな音声を合成したい!
  • 3. • 提案手法:雑音混入過程を考慮  音声生成モデルと雑音生成モデルの2つのモデルを構築  雑音生成モデルの学習方法に敵対的学習を利用 → 観測雑音の分布を効果的に表現可能  音声生成モデルは,その出力とランダム生成雑音の和が 雑音環境下音声に一致するように学習 • 結果  従来法と比較して高品質な音声の合成に成功 問題に対するアプローチ 3/15
  • 4. • 音声合成モデル の枠組みと学習  本研究ではSpectral Subtraction (SS)を使用  教師データ:SS後の対数振幅スペクトル  出力データ:対数振幅スペクトル  と のMean square error (MSE)を最小化 雑音抑圧による音声合成 4/15 Linguistic feat. Noisy speech ①SS②MSE最小化
  • 5. • 雑音分布を期待値で近似 → 推定誤差の発生  音声成分の歪み → クリーン音声の分布の歪み  ミュージカルノイズの発生 [Miyazaki, 2012] → 雑音の分布の歪み SS後の音声合成における問題点 5/15 後段の音声合成モデルの学習に推定誤差が蓄積
  • 7. • 雑音の混入過程を考慮  音声生成モデル に加え雑音生成モデル を導入  の入力 は事前分布から生成された乱数  :事前分布を観測雑音の分布に変形 (事前に学習)  : + が雑音混入音声に近づくよう学習 提案手法 7/15 雑音をランダム生成 <latexitsha1_base64="r089rO8qpy3q3IiZi/BkH1LjFV8=">AAADAnichVI9T9tQFD0Y2ob0IyksSCxRA1Wn6AYh0TJFsDACIYAKCNkvL2DFsS37xSJYjCzMSAwIpFZiqDJVrGxd+gcY+AlVt1KpS4dev7hFLYI+y77X591z7jtXz/IdO1REV31G/8CDh48yg9nHT54+y+WfDy2HXjsQsiY8xwtWLTOUju3KmrKVI1f9QJoty5ErVnM22V+JZBDanrukOr7caJlbrt2whakYerseSaG8IHb3NvNFKpFehdtJOU2KSNe8l/+GddThQaCNFiRcKM4dmAj5WUMZBJ+xDcSMBZzZel9iD1nmtrlKcoXJaJO/W/y3lqIu/yeaoWYL7uLwGzCzgHG6pA90TZ+pS1/o551asdZIztLhaPW40t/MHYxUf9zDsrj67hP+Vm1xVNi+Ub3Xk0IDr7UXm735Gklcih4/2j26rk4vjscv6T19ZX/v6Io+sUM3+i7O
  • 8. • 雑音生成に敵対的学習 (GAN) の導入  雑音の分布を表現可能  観測雑音は観測信号の非音声区間から抽出 雑音生成モデルの学習方法 8/15 :生成雑音 と観測雑音 を識別する. [Goodfellow et al., 2014]
  • 9. • 雑音生成に敵対的学習 (GAN) の導入  雑音の分布を表現可能  観測雑音は観測信号の非音声区間から抽出 雑音生成モデルの学習方法 9/15 :生成雑音 を観測雑音と識別させる. [Goodfellow et al., 2014]
  • 10. • 敵対的学習の役割  観測雑音と生成雑音の分布間距離を最小化 • ガウス性雑音を観測雑音にした場合 観測雑音と生成雑音の比較 10/15 観測雑音 生成雑音 は観測雑音の分布や音色を効果的に表現できている.
  • 11. • 比較手法  SS+MSE: SSで雑音抑圧後,音声生成モデルを学習  Proposed: 提案手法 実験条件 11/15 学習データ 日本語約3000文 テストデータ ATR音素バランス Jセット 53文 音声パラメータ 257次元のスペクトログラム コンテキストラベル 439次元テキスト特徴量(F0を含む) ニューラルネットワーク 全てFeed-Forward (原稿参照) 雑音生成モデルの入力 一様分布からランダム生成 観測雑音 白色ガウス雑音 SSにおける減算係数β 0.5, 1.0, 2.0, 5.0 入力SNR 0 [dB], 5 [dB], 10[dB]
  • 12. • SNR = 0dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 12/15 0.368 0.632 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 0.312 0.688 0.312 0.688 0.00 0.25 0.50 0.75 1.00 Preference score 0.253 0.747 提案法は知覚的に従来法に比べ優れている. 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed
  • 13. • SNR = 5dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 13/15 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 提案法は知覚的に従来法に比べ優れている.
  • 14. • SNR = 10dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 14/15 0.268 0.732 0.292 0.707 0.256 0.744 0.00 0.25 0.50 0.75 1.00 Preference score 0.288 0.712 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 提案法は知覚的に従来法に比べ優れている.
  • 15. • 目的  雑音混入音声から高品質な音声を生成 • 提案法  雑音混入過程を考慮したDNN音声合成モデルを構築  雑音生成モデルに敵対的学習を導入し,観測雑音を生成 • 結果  敵対的学習により,観測雑音の分布を効果的に表現  主観評価実験より,従来法と比較して提案手法が有効 • 今後の課題  当該話者以外のクリーン音声を用いた適応学習  F0等も観測信号から推定し音質を比較 まとめ 15/15