日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

Shinnosuke Takamichi
Shinnosuke TakamichiThe University of Tokyo - Project Research Associate
Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College
雑音環境下音声を用いたDNN音声合成の
ための雑音生成モデルの敵対的学習
宇根昌和(徳山高専,東大),
齋藤佑樹,高道慎之介,北村大地(東大)
宮崎亮一(徳山高専),猿渡洋(東大)
• DNNに基づく音声合成 [Zen, 2013]
 学習には理想的な環境で収録した音声データが必要
 雑音混入音声を学習に利用 → 合成音声も劣化
• 従来手法:雑音抑圧を適用
 雑音抑圧を行った音声をモデルの学習に使用
 雑音抑圧による推定誤差が音声合成部で重畳
研究背景
2/15
雑音混入音声からクリーンな音声を合成したい!
• 提案手法:雑音混入過程を考慮
 音声生成モデルと雑音生成モデルの2つのモデルを構築
 雑音生成モデルの学習方法に敵対的学習を利用
→ 観測雑音の分布を効果的に表現可能
 音声生成モデルは,その出力とランダム生成雑音の和が
雑音環境下音声に一致するように学習
• 結果
 従来法と比較して高品質な音声の合成に成功
問題に対するアプローチ
3/15
• 音声合成モデル の枠組みと学習
 本研究ではSpectral Subtraction (SS)を使用
 教師データ:SS後の対数振幅スペクトル
 出力データ:対数振幅スペクトル
 と のMean square error (MSE)を最小化
雑音抑圧による音声合成
4/15
Linguistic
feat.
Noisy
speech
①SS②MSE最小化
• 雑音分布を期待値で近似 → 推定誤差の発生
 音声成分の歪み
→ クリーン音声の分布の歪み
 ミュージカルノイズの発生 [Miyazaki, 2012]
→ 雑音の分布の歪み
SS後の音声合成における問題点
5/15
後段の音声合成モデルの学習に推定誤差が蓄積
提案手法
• 雑音の混入過程を考慮
 音声生成モデル に加え雑音生成モデル を導入
 の入力 は事前分布から生成された乱数
 :事前分布を観測雑音の分布に変形 (事前に学習)
 : + が雑音混入音声に近づくよう学習
提案手法
7/15
雑音をランダム生成
<latexitsha1_base64="r089rO8qpy3q3IiZi/BkH1LjFV8=">AAADAnichVI9T9tQFD0Y2ob0IyksSCxRA1Wn6AYh0TJFsDACIYAKCNkvL2DFsS37xSJYjCzMSAwIpFZiqDJVrGxd+gcY+AlVt1KpS4dev7hFLYI+y77X591z7jtXz/IdO1REV31G/8CDh48yg9nHT54+y+WfDy2HXjsQsiY8xwtWLTOUju3KmrKVI1f9QJoty5ErVnM22V+JZBDanrukOr7caJlbrt2whakYerseSaG8IHb3NvNFKpFehdtJOU2KSNe8l/+GddThQaCNFiRcKM4dmAj5WUMZBJ+xDcSMBZzZel9iD1nmtrlKcoXJaJO/W/y3lqIu/yeaoWYL7uLwGzCzgHG6pA90TZ+pS1/o551asdZIztLhaPW40t/MHYxUf9zDsrj67hP+Vm1xVNi+Ub3Xk0IDr7UXm735Gklcih4/2j26rk4vjscv6T19ZX/v6Io+sUM3+i7O
• 雑音生成に敵対的学習 (GAN) の導入
 雑音の分布を表現可能
 観測雑音は観測信号の非音声区間から抽出
雑音生成モデルの学習方法
8/15
:生成雑音 と観測雑音 を識別する.
[Goodfellow et al., 2014]
• 雑音生成に敵対的学習 (GAN) の導入
 雑音の分布を表現可能
 観測雑音は観測信号の非音声区間から抽出
雑音生成モデルの学習方法
9/15
:生成雑音 を観測雑音と識別させる.
[Goodfellow et al., 2014]
• 敵対的学習の役割
 観測雑音と生成雑音の分布間距離を最小化
• ガウス性雑音を観測雑音にした場合
観測雑音と生成雑音の比較
10/15
観測雑音
生成雑音
は観測雑音の分布や音色を効果的に表現できている.
• 比較手法
 SS+MSE: SSで雑音抑圧後,音声生成モデルを学習
 Proposed: 提案手法
実験条件
11/15
学習データ 日本語約3000文
テストデータ ATR音素バランス Jセット 53文
音声パラメータ 257次元のスペクトログラム
コンテキストラベル 439次元テキスト特徴量(F0を含む)
ニューラルネットワーク 全てFeed-Forward (原稿参照)
雑音生成モデルの入力 一様分布からランダム生成
観測雑音 白色ガウス雑音
SSにおける減算係数β 0.5, 1.0, 2.0, 5.0
入力SNR 0 [dB], 5 [dB], 10[dB]
• SNR = 0dBの結果
 音声の明瞭性+雑音の量の点で評価
プリファレンスABテスト
12/15
0.368 0.632
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.312 0.688
0.312 0.688
0.00 0.25 0.50 0.75 1.00
Preference score
0.253 0.747
提案法は知覚的に従来法に比べ優れている.
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
• SNR = 5dBの結果
 音声の明瞭性+雑音の量の点で評価
プリファレンスABテスト
13/15
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
提案法は知覚的に従来法に比べ優れている.
• SNR = 10dBの結果
 音声の明瞭性+雑音の量の点で評価
プリファレンスABテスト
14/15
0.268 0.732
0.292 0.707
0.256 0.744
0.00 0.25 0.50 0.75 1.00
Preference score
0.288 0.712
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
提案法は知覚的に従来法に比べ優れている.
• 目的
 雑音混入音声から高品質な音声を生成
• 提案法
 雑音混入過程を考慮したDNN音声合成モデルを構築
 雑音生成モデルに敵対的学習を導入し,観測雑音を生成
• 結果
 敵対的学習により,観測雑音の分布を効果的に表現
 主観評価実験より,従来法と比較して提案手法が有効
• 今後の課題
 当該話者以外のクリーン音声を用いた適応学習
 F0等も観測信号から推定し音質を比較
まとめ
15/15
1 of 15

Recommended

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習 by
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習Shinnosuke Takamichi
2.9K views24 slides
Moment matching networkを用いた音声パラメータのランダム生成の検討 by
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
16.1K views13 slides
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” by
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
1.2K views12 slides
Saito21asj Autumn Meeting by
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
242 views7 slides
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen... by
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...Akira Tamamori
2.6K views36 slides
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム by
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
1.6K views22 slides

More Related Content

What's hot

音声コーパス設計と次世代音声研究に向けた提言 by
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言Shinnosuke Takamichi
1.6K views29 slides
saito2017asj_tts by
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
519 views17 slides
音声の声質を変換する技術とその応用 by
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
8.9K views28 slides
音声合成・変換の国際コンペティションへの 参加を振り返って by
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
842 views13 slides
統計的音声合成変換と近年の発展 by
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
2.1K views46 slides
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論) by
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
2K views53 slides

What's hot(20)

音声コーパス設計と次世代音声研究に向けた提言 by Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
saito2017asj_tts by Yuki Saito
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito519 views
音声の声質を変換する技術とその応用 by NU_I_TODALAB
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB8.9K views
音声合成・変換の国際コンペティションへの 参加を振り返って by Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論) by Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
音声信号の分析と加工 - 音声を自在に変換するには? by NU_I_TODALAB
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB2.8K views
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura5.9K views
深層学習を利用した音声強調 by Yuma Koizumi
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi2K views
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Inverse Filter design using smoothed L-curve method in Frequency Domain for S... by RYOTAETO1
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
Inverse Filter design using smoothed L-curve method in Frequency Domain for S...
RYOTAETO1842 views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura4.1K views
ICASSP 2019での音響信号処理分野の世界動向 by Yuma Koizumi
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi4.6K views
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用 by Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
Rikanet open int by TakaoHirata
Rikanet open intRikanet open int
Rikanet open int
TakaoHirata813 views
音源分離における音響モデリング(Acoustic modeling in audio source separation) by Daichi Kitamura
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura22.5K views

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス by
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
1.4K views15 slides
音声合成のコーパスをつくろう by
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
8.9K views20 slides
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
745 views4 slides
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
1K views37 slides
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 by
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
1.2K views44 slides
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム) by
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
1.6K views34 slides

More from Shinnosuke Takamichi(20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス by Shinnosuke Takamichi
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討 by Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 by Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム) by Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ... by Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 by Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス by Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価 by Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン by Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming by Shinnosuke Takamichi
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus by Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages by Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価 by Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス by Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定 by Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking by Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割 by Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割

Recently uploaded

Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 by
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
73 views26 slides
SSH応用編_20231129.pdf by
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
353 views13 slides
光コラボは契約してはいけない by
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
18 views17 slides
The Things Stack説明資料 by The Things Industries by
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
71 views29 slides
SNMPセキュリティ超入門 by
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門mkoda
376 views15 slides

Recently uploaded(10)

SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4353 views
光コラボは契約してはいけない by Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga18 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.71 views
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda376 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka88 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)

日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

  • 1. Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College 雑音環境下音声を用いたDNN音声合成の ための雑音生成モデルの敵対的学習 宇根昌和(徳山高専,東大), 齋藤佑樹,高道慎之介,北村大地(東大) 宮崎亮一(徳山高専),猿渡洋(東大)
  • 2. • DNNに基づく音声合成 [Zen, 2013]  学習には理想的な環境で収録した音声データが必要  雑音混入音声を学習に利用 → 合成音声も劣化 • 従来手法:雑音抑圧を適用  雑音抑圧を行った音声をモデルの学習に使用  雑音抑圧による推定誤差が音声合成部で重畳 研究背景 2/15 雑音混入音声からクリーンな音声を合成したい!
  • 3. • 提案手法:雑音混入過程を考慮  音声生成モデルと雑音生成モデルの2つのモデルを構築  雑音生成モデルの学習方法に敵対的学習を利用 → 観測雑音の分布を効果的に表現可能  音声生成モデルは,その出力とランダム生成雑音の和が 雑音環境下音声に一致するように学習 • 結果  従来法と比較して高品質な音声の合成に成功 問題に対するアプローチ 3/15
  • 4. • 音声合成モデル の枠組みと学習  本研究ではSpectral Subtraction (SS)を使用  教師データ:SS後の対数振幅スペクトル  出力データ:対数振幅スペクトル  と のMean square error (MSE)を最小化 雑音抑圧による音声合成 4/15 Linguistic feat. Noisy speech ①SS②MSE最小化
  • 5. • 雑音分布を期待値で近似 → 推定誤差の発生  音声成分の歪み → クリーン音声の分布の歪み  ミュージカルノイズの発生 [Miyazaki, 2012] → 雑音の分布の歪み SS後の音声合成における問題点 5/15 後段の音声合成モデルの学習に推定誤差が蓄積
  • 7. • 雑音の混入過程を考慮  音声生成モデル に加え雑音生成モデル を導入  の入力 は事前分布から生成された乱数  :事前分布を観測雑音の分布に変形 (事前に学習)  : + が雑音混入音声に近づくよう学習 提案手法 7/15 雑音をランダム生成 <latexitsha1_base64="r089rO8qpy3q3IiZi/BkH1LjFV8=">AAADAnichVI9T9tQFD0Y2ob0IyksSCxRA1Wn6AYh0TJFsDACIYAKCNkvL2DFsS37xSJYjCzMSAwIpFZiqDJVrGxd+gcY+AlVt1KpS4dev7hFLYI+y77X591z7jtXz/IdO1REV31G/8CDh48yg9nHT54+y+WfDy2HXjsQsiY8xwtWLTOUju3KmrKVI1f9QJoty5ErVnM22V+JZBDanrukOr7caJlbrt2whakYerseSaG8IHb3NvNFKpFehdtJOU2KSNe8l/+GddThQaCNFiRcKM4dmAj5WUMZBJ+xDcSMBZzZel9iD1nmtrlKcoXJaJO/W/y3lqIu/yeaoWYL7uLwGzCzgHG6pA90TZ+pS1/o551asdZIztLhaPW40t/MHYxUf9zDsrj67hP+Vm1xVNi+Ub3Xk0IDr7UXm735Gklcih4/2j26rk4vjscv6T19ZX/v6Io+sUM3+i7O
  • 8. • 雑音生成に敵対的学習 (GAN) の導入  雑音の分布を表現可能  観測雑音は観測信号の非音声区間から抽出 雑音生成モデルの学習方法 8/15 :生成雑音 と観測雑音 を識別する. [Goodfellow et al., 2014]
  • 9. • 雑音生成に敵対的学習 (GAN) の導入  雑音の分布を表現可能  観測雑音は観測信号の非音声区間から抽出 雑音生成モデルの学習方法 9/15 :生成雑音 を観測雑音と識別させる. [Goodfellow et al., 2014]
  • 10. • 敵対的学習の役割  観測雑音と生成雑音の分布間距離を最小化 • ガウス性雑音を観測雑音にした場合 観測雑音と生成雑音の比較 10/15 観測雑音 生成雑音 は観測雑音の分布や音色を効果的に表現できている.
  • 11. • 比較手法  SS+MSE: SSで雑音抑圧後,音声生成モデルを学習  Proposed: 提案手法 実験条件 11/15 学習データ 日本語約3000文 テストデータ ATR音素バランス Jセット 53文 音声パラメータ 257次元のスペクトログラム コンテキストラベル 439次元テキスト特徴量(F0を含む) ニューラルネットワーク 全てFeed-Forward (原稿参照) 雑音生成モデルの入力 一様分布からランダム生成 観測雑音 白色ガウス雑音 SSにおける減算係数β 0.5, 1.0, 2.0, 5.0 入力SNR 0 [dB], 5 [dB], 10[dB]
  • 12. • SNR = 0dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 12/15 0.368 0.632 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 0.312 0.688 0.312 0.688 0.00 0.25 0.50 0.75 1.00 Preference score 0.253 0.747 提案法は知覚的に従来法に比べ優れている. 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed
  • 13. • SNR = 5dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 13/15 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 提案法は知覚的に従来法に比べ優れている.
  • 14. • SNR = 10dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 14/15 0.268 0.732 0.292 0.707 0.256 0.744 0.00 0.25 0.50 0.75 1.00 Preference score 0.288 0.712 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 提案法は知覚的に従来法に比べ優れている.
  • 15. • 目的  雑音混入音声から高品質な音声を生成 • 提案法  雑音混入過程を考慮したDNN音声合成モデルを構築  雑音生成モデルに敵対的学習を導入し,観測雑音を生成 • 結果  敵対的学習により,観測雑音の分布を効果的に表現  主観評価実験より,従来法と比較して提案手法が有効 • 今後の課題  当該話者以外のクリーン音声を用いた適応学習  F0等も観測信号から推定し音質を比較 まとめ 15/15