Successfully reported this slideshow.
Your SlideShare is downloading. ×

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 17 Ad
Advertisement

More Related Content

More from Shinnosuke Takamichi (20)

Advertisement

Recently uploaded (20)

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調

  1. 1. カートシスマッチングと深層学習に基づく 低ミュージカルノイズ音声強調 東京大学大学院情報理工学系研究科 ☆溝口 聡 齋藤 佑樹 高道 慎之介 猿渡 洋 日本音響学会 2018 年 秋季研究発表会 2-1-17 9 月 13 日
  2. 2. 概要 背景:ハンズフリー音声通信 ◦ マイクと人の距離が遠く,音声に雑音が混入 ◦ マイクは単一チャネルである場合,非線形な信号処理による 音声強調が必要 目的:聴覚的に良質な音声強調 ◦ 雑音のパワー:小 ◦ 音声の歪み:小 ◦ ミュージカルノイズ発生量:小 従来法:DNN ソフトマスク音声強調 ◦ DNN を用いた教師あり音声強調 ◦ モデルの高い表現力によって高性能な雑音抑圧が可能 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 2/17
  3. 3. 概要 問題点:ミュージカルノイズの発生 ◦ 非線系処理による残存ノイズが発生し,聴覚的に不愉快 提案法:カートシスマッチングの導入 ◦ ミュージカルノイズがカートシスと相関を持つことに着目 ◦ 強調前後での非音声区間のカートシス変動に対する正則化 結果 ◦ ミュージカルノイズ発生量が低減 ◦ 雑音抑圧性能は従来法に比肩 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 3/17
  4. 4. 従来法 ソフトマスクベースの DNN 音声強調 [e.g., Chen+17] ◦ 入力:観測信号のスペクトログラム ◦ 出力:雑音抑圧のための時間周波数ソフトマスク ◦ 損失関数:ターゲットの音声 と強調後の音声 の距離 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 DNN Freq. Time T-F soft mask × Loss Noisy speech Clean speech (target) 4/17
  5. 5. 問題点:ミュージカルノイズの発生 ミュージカルノイズ [Cappe94, Goh+98] ◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ ◦ カートシス(四次統計量)と相関あり [Uemura+08] ◦ カートシス ◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが, 本発表では振幅の平均周りのカートシスを採用 ◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 音声強調 ミュージカルノイズ 5/17
  6. 6. 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 提案手法 カートシスマッチングを 考慮した DNN 音声強調 6/17
  7. 7. 提案法:overview 損失関数: 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 強調音声とターゲットの距離 7/17 カートシスの解離度(正則化項) T-F soft mask × T inverse hard mask × × Clean speechNoisy speech
  8. 8. 提案法:マスク推定部分(従来法と同様) 損失 ◦ ターゲットの音声と強調後の音声の距離 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 8/17 T inverse hard mask × × T-F soft mask × Clean speechNoisy speech
  9. 9. 提案法:非音声区間の判定 非音声区間を判定するためのハードマスクを生成 ◦ 音声成分が局在する帯域について,時間フレームごとに, ソフトマスクの周波数方向の平均値より判定 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 9/17 × × × Clean speechNoisy speech T-F soft mask T inverse hard mask
  10. 10. 提案法:非音声区間のカートシスマッチング カートシスの乖離度 ◦ 強調前後における時間周波数領域の音声のカートシスの変化の度合い ◦ は周波数について分割して適宜重み付けしたカートシス 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 10/17 T-F soft mask × Clean speechNoisy speech T inverse hard mask × ×
  11. 11. 提案法:overview(再掲) 損失関数: 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 強調音声とターゲットの距離 11/17 カートシスの解離度(正則化項) T-F soft mask × T inverse hard mask × × Clean speechNoisy speech
  12. 12. ターゲット 観測 従来法 提案法 実際の強調音声の例 音声と対数振幅スペクトログラムのサンプル 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 従来法 提案法 12/17 提案法において,まだら状が雑音が減少
  13. 13. 客観評価実験 従来手法と提案手法についての比較実験 ◦ 条件 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 学習データ JNAS より 50 文 + 非音声区間 テストデータ JSUT より 100 文+ 非音声区間 サンプルレート 16 kHz 雑音:入力 SN 比 正規乱数:0, 5, 10 dB 窓関数 Hanning FFT 長 1024 ホップ 長 80 DNN アーキテクチャ (詳細な構造) U-Net [Ronneberger+15] ([Jansson+17] に倣う) パッチ長 256 最適化手法 Adam [Kingma+14] バッチサイズ 32 13/17
  14. 14. 雑音抑圧性能と音声歪み発生量の評価 Signal-to-Distortion Ratio (SDR) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 良 提案法と従来法に優位差はほとんど見られない. 20 18 16 14 12 SDR[dB] 0 5 10 Input SNR [dB] 14/17 提 案 法 従 来 法
  15. 15. ミュージカルノイズ発生量の客観指標の評価 時間周波数領域のカートシスの解離度(非音声区間) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 良 提案法は,従来法に比べて優位に小さい. 0 5 10 Input SNR [dB] 200 150 100 50 0 Time-frequencydomain kurtosisdiscrepancy 15/17 従 来 法 提 案 法
  16. 16. 時間領域における雑音の統計的性質の評価 時間領域の尖度(非音声区間) 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 提案法は,カートシスの意味で,雑音の統計的性質を保存 ガウス性雑音 における理論値 0 5 10 Input SNR [dB] 3 5 9 7 Time-domainkurtosis 16/17 提 案 法 従 来 法
  17. 17. 結論と今後の課題 結論 ◦ ミュージカルノイズの発生量が小さい音声強調を,カートシスマッ チングを反映した DNN 雑音抑圧によって定式化 ◦ 実験的評価によって提案手法がカートシス上昇を抑制させる ことを確認 ◦ 実験的評価によって提案手法が従来手法に雑音抑圧性能で 劣らないことを確認 今後の展望 ◦ 雑音の種類を増やして,入力雑音に対する頑健性を向上 ◦ より直接的なミュージカルノイズ発生量の客観指標の探求 2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 17/17

×