Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

408 views

Published on

宇根 他,"雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習," 日本音響学会2018年春季研究発表会, 2018.
paper: https://sites.google.com/site/shinnosuketakamichi/publication

Published in: Technology
  • Be the first to comment

  • Be the first to like this

日本音響学会2018春 ”雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習” (宇根)

  1. 1. Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College 雑音環境下音声を用いたDNN音声合成の ための雑音生成モデルの敵対的学習 宇根昌和(徳山高専,東大), 齋藤佑樹,高道慎之介,北村大地(東大) 宮崎亮一(徳山高専),猿渡洋(東大)
  2. 2. • DNNに基づく音声合成 [Zen, 2013]  学習には理想的な環境で収録した音声データが必要  雑音混入音声を学習に利用 → 合成音声も劣化 • 従来手法:雑音抑圧を適用  雑音抑圧を行った音声をモデルの学習に使用  雑音抑圧による推定誤差が音声合成部で重畳 研究背景 2/15 雑音混入音声からクリーンな音声を合成したい!
  3. 3. • 提案手法:雑音混入過程を考慮  音声生成モデルと雑音生成モデルの2つのモデルを構築  雑音生成モデルの学習方法に敵対的学習を利用 → 観測雑音の分布を効果的に表現可能  音声生成モデルは,その出力とランダム生成雑音の和が 雑音環境下音声に一致するように学習 • 結果  従来法と比較して高品質な音声の合成に成功 問題に対するアプローチ 3/15
  4. 4. • 音声合成モデル の枠組みと学習  本研究ではSpectral Subtraction (SS)を使用  教師データ:SS後の対数振幅スペクトル  出力データ:対数振幅スペクトル  と のMean square error (MSE)を最小化 雑音抑圧による音声合成 4/15 Linguistic feat. Noisy speech ①SS②MSE最小化
  5. 5. • 雑音分布を期待値で近似 → 推定誤差の発生  音声成分の歪み → クリーン音声の分布の歪み  ミュージカルノイズの発生 [Miyazaki, 2012] → 雑音の分布の歪み SS後の音声合成における問題点 5/15 後段の音声合成モデルの学習に推定誤差が蓄積
  6. 6. 提案手法
  7. 7. • 雑音の混入過程を考慮  音声生成モデル に加え雑音生成モデル を導入  の入力 は事前分布から生成された乱数  :事前分布を観測雑音の分布に変形 (事前に学習)  : + が雑音混入音声に近づくよう学習 提案手法 7/15 雑音をランダム生成 <latexitsha1_base64="r089rO8qpy3q3IiZi/BkH1LjFV8=">AAADAnichVI9T9tQFD0Y2ob0IyksSCxRA1Wn6AYh0TJFsDACIYAKCNkvL2DFsS37xSJYjCzMSAwIpFZiqDJVrGxd+gcY+AlVt1KpS4dev7hFLYI+y77X591z7jtXz/IdO1REV31G/8CDh48yg9nHT54+y+WfDy2HXjsQsiY8xwtWLTOUju3KmrKVI1f9QJoty5ErVnM22V+JZBDanrukOr7caJlbrt2whakYerseSaG8IHb3NvNFKpFehdtJOU2KSNe8l/+GddThQaCNFiRcKM4dmAj5WUMZBJ+xDcSMBZzZel9iD1nmtrlKcoXJaJO/W/y3lqIu/yeaoWYL7uLwGzCzgHG6pA90TZ+pS1/o551asdZIztLhaPW40t/MHYxUf9zDsrj67hP+Vm1xVNi+Ub3Xk0IDr7UXm735Gklcih4/2j26rk4vjscv6T19ZX/v6Io+sUM3+i7O
  8. 8. • 雑音生成に敵対的学習 (GAN) の導入  雑音の分布を表現可能  観測雑音は観測信号の非音声区間から抽出 雑音生成モデルの学習方法 8/15 :生成雑音 と観測雑音 を識別する. [Goodfellow et al., 2014]
  9. 9. • 雑音生成に敵対的学習 (GAN) の導入  雑音の分布を表現可能  観測雑音は観測信号の非音声区間から抽出 雑音生成モデルの学習方法 9/15 :生成雑音 を観測雑音と識別させる. [Goodfellow et al., 2014]
  10. 10. • 敵対的学習の役割  観測雑音と生成雑音の分布間距離を最小化 • ガウス性雑音を観測雑音にした場合 観測雑音と生成雑音の比較 10/15 観測雑音 生成雑音 は観測雑音の分布や音色を効果的に表現できている.
  11. 11. • 比較手法  SS+MSE: SSで雑音抑圧後,音声生成モデルを学習  Proposed: 提案手法 実験条件 11/15 学習データ 日本語約3000文 テストデータ ATR音素バランス Jセット 53文 音声パラメータ 257次元のスペクトログラム コンテキストラベル 439次元テキスト特徴量(F0を含む) ニューラルネットワーク 全てFeed-Forward (原稿参照) 雑音生成モデルの入力 一様分布からランダム生成 観測雑音 白色ガウス雑音 SSにおける減算係数β 0.5, 1.0, 2.0, 5.0 入力SNR 0 [dB], 5 [dB], 10[dB]
  12. 12. • SNR = 0dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 12/15 0.368 0.632 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 0.312 0.688 0.312 0.688 0.00 0.25 0.50 0.75 1.00 Preference score 0.253 0.747 提案法は知覚的に従来法に比べ優れている. 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed
  13. 13. • SNR = 5dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 13/15 0.292 0.708 0.320 0.680 0.323 0.677 0.00 0.25 0.50 0.75 1.00 Preference score 0.216 0.784 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 提案法は知覚的に従来法に比べ優れている.
  14. 14. • SNR = 10dBの結果  音声の明瞭性+雑音の量の点で評価 プリファレンスABテスト 14/15 0.268 0.732 0.292 0.707 0.256 0.744 0.00 0.25 0.50 0.75 1.00 Preference score 0.288 0.712 SS+MSE (β = 0.5) SS+MSE (β = 1.0) SS+MSE (β = 2.0) SS+MSE (β = 5.0) Proposed 提案法は知覚的に従来法に比べ優れている.
  15. 15. • 目的  雑音混入音声から高品質な音声を生成 • 提案法  雑音混入過程を考慮したDNN音声合成モデルを構築  雑音生成モデルに敵対的学習を導入し,観測雑音を生成 • 結果  敵対的学習により,観測雑音の分布を効果的に表現  主観評価実験より,従来法と比較して提案手法が有効 • 今後の課題  当該話者以外のクリーン音声を用いた適応学習  F0等も観測信号から推定し音質を比較 まとめ 15/15

×