日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College
雑音環境下音声を用いたDNN音声合成の
ための雑音生成モデルの敵対的学習
宇根昌和（徳山高専，東大），
齋藤佑樹，高道慎之介，北村大地（東大）
宮崎亮一（徳山高専），猿渡洋（東大）

• DNNに基づく音声合成 [Zen, 2013]
 学習には理想的な環境で収録した音声データが必要
 雑音混入音声を学習に利用 → 合成音声も劣化
• 従来手法：雑音抑圧を適用
 雑音抑圧を行った音声をモデルの学習に使用
 雑音抑圧による推定誤差が音声合成部で重畳
研究背景
2/15
雑音混入音声からクリーンな音声を合成したい！

• 提案手法：雑音混入過程を考慮
 音声生成モデルと雑音生成モデルの2つのモデルを構築
 雑音生成モデルの学習方法に敵対的学習を利用
→ 観測雑音の分布を効果的に表現可能
 音声生成モデルは，その出力とランダム生成雑音の和が
雑音環境下音声に一致するように学習
• 結果
 従来法と比較して高品質な音声の合成に成功
問題に対するアプローチ
3/15

• 音声合成モデルの枠組みと学習
 本研究ではSpectral Subtraction (SS)を使用
 教師データ：SS後の対数振幅スペクトル
 出力データ：対数振幅スペクトル
 とのMean square error (MSE)を最小化
雑音抑圧による音声合成
4/15
Linguistic
feat.
Noisy
speech
①SS②MSE最小化

• 雑音分布を期待値で近似 → 推定誤差の発生
 音声成分の歪み
→ クリーン音声の分布の歪み
 ミュージカルノイズの発生 [Miyazaki, 2012]
→ 雑音の分布の歪み
SS後の音声合成における問題点
5/15
後段の音声合成モデルの学習に推定誤差が蓄積

• 雑音の混入過程を考慮
 音声生成モデルに加え雑音生成モデルを導入
 の入力は事前分布から生成された乱数
 ：事前分布を観測雑音の分布に変形 (事前に学習)
 ：＋が雑音混入音声に近づくよう学習
提案手法
7/15
雑音をランダム生成
<latexitsha1_base64="r089rO8qpy3q3IiZi/BkH1LjFV8=">AAADAnichVI9T9tQFD0Y2ob0IyksSCxRA1Wn6AYh0TJFsDACIYAKCNkvL2DFsS37xSJYjCzMSAwIpFZiqDJVrGxd+gcY+AlVt1KpS4dev7hFLYI+y77X591z7jtXz/IdO1REV31G/8CDh48yg9nHT54+y+WfDy2HXjsQsiY8xwtWLTOUju3KmrKVI1f9QJoty5ErVnM22V+JZBDanrukOr7caJlbrt2whakYerseSaG8IHb3NvNFKpFehdtJOU2KSNe8l/+GddThQaCNFiRcKM4dmAj5WUMZBJ+xDcSMBZzZel9iD1nmtrlKcoXJaJO/W/y3lqIu/yeaoWYL7uLwGzCzgHG6pA90TZ+pS1/o551asdZIztLhaPW40t/MHYxUf9zDsrj67hP+Vm1xVNi+Ub3Xk0IDr7UXm735Gklcih4/2j26rk4vjscv6T19ZX/v6Io+sUM3+i7O

• 雑音生成に敵対的学習 (GAN) の導入
 雑音の分布を表現可能
 観測雑音は観測信号の非音声区間から抽出
雑音生成モデルの学習方法
8/15
：生成雑音と観測雑音を識別する．
[Goodfellow et al., 2014]

• 雑音生成に敵対的学習 (GAN) の導入
 雑音の分布を表現可能
 観測雑音は観測信号の非音声区間から抽出
雑音生成モデルの学習方法
9/15
：生成雑音を観測雑音と識別させる．
[Goodfellow et al., 2014]

• 敵対的学習の役割
 観測雑音と生成雑音の分布間距離を最小化
• ガウス性雑音を観測雑音にした場合
観測雑音と生成雑音の比較
10/15
観測雑音
生成雑音
は観測雑音の分布や音色を効果的に表現できている．

• 比較手法
 SS+MSE: SSで雑音抑圧後，音声生成モデルを学習
 Proposed: 提案手法
実験条件
11/15
学習データ日本語約3000文
テストデータ ATR音素バランス Jセット 53文
音声パラメータ 257次元のスペクトログラム
コンテキストラベル 439次元テキスト特徴量(F0を含む)
ニューラルネットワーク全てFeed-Forward (原稿参照)
雑音生成モデルの入力一様分布からランダム生成
観測雑音白色ガウス雑音
SSにおける減算係数β 0.5, 1.0, 2.0, 5.0
入力SNR 0 [dB], 5 [dB], 10[dB]

• SNR = 0dBの結果
 音声の明瞭性＋雑音の量の点で評価
プリファレンスABテスト
12/15
0.368 0.632
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.312 0.688
0.312 0.688
0.00 0.25 0.50 0.75 1.00
Preference score
0.253 0.747
提案法は知覚的に従来法に比べ優れている．
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed

13/15
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed

14/15
0.268 0.732
0.292 0.707
0.256 0.744
0.00 0.25 0.50 0.75 1.00
Preference score
0.288 0.712
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed

• 目的
 雑音混入音声から高品質な音声を生成
• 提案法
 雑音混入過程を考慮したDNN音声合成モデルを構築
 雑音生成モデルに敵対的学習を導入し，観測雑音を生成
• 結果
 敵対的学習により，観測雑音の分布を効果的に表現
 主観評価実験より，従来法と比較して提案手法が有効
• 今後の課題
 当該話者以外のクリーン音声を用いた適応学習
 F0等も観測信号から推定し音質を比較
まとめ
15/15

日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

More Related Content

What's hot

Similar to 日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

More from Shinnosuke Takamichi

Recently uploaded

日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)