Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調

135 views

Published on

日本音響学会 2018秋 研究発表会

Published in: Technology
  • Be the first to comment

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調

  1. 1. カートシスマッチングと深層学習に基づく 低ミュージカルノイズ音声強調 東京大学大学院情報理工学系研究科 ☆溝口 聡 齋藤 佑樹 高道 慎之介 猿渡 洋 日本音響学会 2018 年 秋季研究発表会 2-1-17 9 月 13 日
  2. 2. 概要 背景:ハンズフリー音声通信 ◦ マイクと人の距離が遠く,音声に雑音が混入 ◦ マイクは単一チャネルである場合,非線形な信号処理による 音声強調が必要 目的:聴覚的に良質な音声強調 ◦ 雑音のパワー:小 ◦ 音声の歪み:小 ◦ ミュージカルノイズ発生量:小 従来法:DNN ソフトマスク音声強調 ◦ DNN を用いた教師あり音声強調 ◦ モデルの高い表現力によって高性能な雑音抑圧が可能 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 2/17
  3. 3. 概要 問題点:ミュージカルノイズの発生 ◦ 非線系処理による残存ノイズが発生し,聴覚的に不愉快 提案法:カートシスマッチングの導入 ◦ ミュージカルノイズがカートシスと相関を持つことに着目 ◦ 強調前後での非音声区間のカートシス変動に対する正則化 結果 ◦ ミュージカルノイズ発生量が低減 ◦ 雑音抑圧性能は従来法に比肩 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 3/17
  4. 4. 従来法 ソフトマスクベースの DNN 音声強調 [e.g., Chen+17] ◦ 入力:観測信号のスペクトログラム ◦ 出力:雑音抑圧のための時間周波数ソフトマスク ◦ 損失関数:ターゲットの音声 と強調後の音声 の距離 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 DNN Freq. Time T-F soft mask × Loss Noisy speech Clean speech (target) 4/17
  5. 5. 問題点:ミュージカルノイズの発生 ミュージカルノイズ [Cappe94, Goh+98] ◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ ◦ カートシス(四次統計量)と相関あり [Uemura+08] ◦ カートシス ◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが, 本発表では振幅の平均周りのカートシスを採用 ◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 音声強調 ミュージカルノイズ 5/17
  6. 6. 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 提案手法 カートシスマッチングを 考慮した DNN 音声強調 6/17
  7. 7. 提案法:overview 損失関数: 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 強調音声とターゲットの距離 7/17 カートシスの解離度(正則化項) T-F soft mask × T inverse hard mask × × Clean speechNoisy speech
  8. 8. 提案法:マスク推定部分(従来法と同様) 損失 ◦ ターゲットの音声と強調後の音声の距離 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 8/17 T inverse hard mask × × T-F soft mask × Clean speechNoisy speech
  9. 9. 提案法:非音声区間の判定 非音声区間を判定するためのハードマスクを生成 ◦ 音声成分が局在する帯域について,時間フレームごとに, ソフトマスクの周波数方向の平均値より判定 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 9/17 × × × Clean speechNoisy speech T-F soft mask T inverse hard mask
  10. 10. 提案法:非音声区間のカートシスマッチング カートシスの乖離度 ◦ 強調前後における時間周波数領域の音声のカートシスの変化の度合い ◦ は周波数について分割して適宜重み付けしたカートシス 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 10/17 T-F soft mask × Clean speechNoisy speech T inverse hard mask × ×
  11. 11. 提案法:overview(再掲) 損失関数: 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 強調音声とターゲットの距離 11/17 カートシスの解離度(正則化項) T-F soft mask × T inverse hard mask × × Clean speechNoisy speech
  12. 12. ターゲット 観測 従来法 提案法 実際の強調音声の例 音声と対数振幅スペクトログラムのサンプル 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 従来法 提案法 12/17 提案法において,まだら状が雑音が減少
  13. 13. 客観評価実験 従来手法と提案手法についての比較実験 ◦ 条件 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 学習データ JNAS より 50 文 + 非音声区間 テストデータ JSUT より 100 文+ 非音声区間 サンプルレート 16 kHz 雑音:入力 SN 比 正規乱数:0, 5, 10 dB 窓関数 Hanning FFT 長 1024 ホップ 長 80 DNN アーキテクチャ (詳細な構造) U-Net [Ronneberger+15] ([Jansson+17] に倣う) パッチ長 256 最適化手法 Adam [Kingma+14] バッチサイズ 32 13/17
  14. 14. 雑音抑圧性能と音声歪み発生量の評価 Signal-to-Distortion Ratio (SDR) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 良 提案法と従来法に優位差はほとんど見られない. 20 18 16 14 12 SDR[dB] 0 5 10 Input SNR [dB] 14/17 提 案 法 従 来 法
  15. 15. ミュージカルノイズ発生量の客観指標の評価 時間周波数領域のカートシスの解離度(非音声区間) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 良 提案法は,従来法に比べて優位に小さい. 0 5 10 Input SNR [dB] 200 150 100 50 0 Time-frequencydomain kurtosisdiscrepancy 15/17 従 来 法 提 案 法
  16. 16. 時間領域における雑音の統計的性質の評価 時間領域の尖度(非音声区間) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 提案法は,カートシスの意味で,雑音の統計的性質を保存 ガウス性雑音 における理論値 0 5 10 Input SNR [dB] 3 5 9 7 Time-domainkurtosis 16/17 提 案 法 従 来 法
  17. 17. 結論と今後の課題 結論 ◦ ミュージカルノイズの発生量が小さい音声強調を,カートシスマッ チングを反映した DNN 雑音抑圧によって定式化 ◦ 実験的評価によって提案手法がカートシス上昇を抑制させる ことを確認 ◦ 実験的評価によって提案手法が従来手法に雑音抑圧性能で 劣らないことを確認 今後の展望 ◦ 雑音の種類を増やして,入力雑音に対する頑健性を向上 ◦ より直接的なミュージカルノイズ発生量の客観指標の探求 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 17/17

×