多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

多様なカートシスを持つ雑音に対応した
低ミュージカルノイズDNN音声強調
東京大学大学院情報理工学系研究科
◎溝口聡齋藤佑樹高道慎之介猿渡洋
日本音響学会
2019 年春季研究発表会 1-6-6
3 月 5 日

概要
背景：ハンズフリー音声通信
◦ マイクと人の距離が遠く，音声に雑音が混入
◦ マイクは単一チャネルである場合，非線形な信号処理による
音声強調が必要
目的：聴覚的に良質な音声強調
◦ 雑音のパワー：小
◦ 音声の歪み：小
◦ ミュージカルノイズ発生量：小
従来法：低ミュージカルノイズ DNN 音声強調
◦ DNN を用いた教師あり音声強調
◦ モデルの高い表現力によって高性能な雑音抑圧が可能
◦ カートシスマッチングによってミュージカルノイズの
発生を低減
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 2/19

概要
問題点：多様な雑音への対応性
◦ 複数種類の雑音を用いて学習すると，カートシスの値が過小
評価される雑音があり，ミュージカルノイズの低減が困難
提案法：カートシスマッチングの改良
◦ カートシスの値そのものに依存しない
◦ カートシスの変動のみを多様な雑音に対して平等に評価
結果
◦ 多様な雑音音声についてミュージカルノイズ発生量が低減
◦ 雑音抑圧性能は従来法に比肩
◦ 主観評価によって残留雑音の自然性を保証

従来法
ソフトマスクベースの DNN 音声強調 [e.g., Chen+17]
◦ 入力：観測信号のスペクトログラム
◦ 出力：雑音抑圧のための時間周波数ソフトマスク
◦ 損失関数：ターゲットの音声と強調後の音声の距離
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
DNN
Freq.
Time
T-F soft mask
×
Loss
Noisy speech Clean speech (target)
4/19

問題点：ミュージカルノイズの発生
ミュージカルノイズ [Cappe94, Goh+98]
◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ
◦ カートシス（四次統計量）と相関あり [Uemura+08]
◦ カートシス
◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが，
本発表では振幅の平均周りのカートシスを採用
◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇
音声強調
ミュージカルノイズ
5/19

従来法
低ミュージカルノイズ DNN 音声強調 [溝口ら18]
◦ 損失関数：
Kurtosis discrepancy（正則化項）
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
6/19

問題点：多様な雑音への対応性
Kurtosis discrepancy
◦ 多様な雑音を学習に用いたときに，カートシスの値に
損失関数が大きく影響される
◦ ゆえに，カートシスの変動を平等に評価できない
雑音ごとに値に大きな差異がある
7/19

提案手法
多様な雑音に対応した
カートシスマッチング
8/17

提案法：改良点
Kurtosis discrepancy
Scaled kurtosis discrepancy
◦ スケールフリーにカートシスの変動を捉えることが可能
◦ カートシス比 [Uemura+08] と 1 の差の絶対値に等価
元のカートシスでスケーリング
9/19

提案法：overview
損失関数：
Scaled kurtosis discrepancy
T-F soft mask
×
T inverse
hard mask
×
×
10/19

提案法：マスク推定部分（従来法と同様）
損失
◦ ターゲットの音声と強調後の音声の距離
T inverse
hard mask
×
×
T-F soft mask
×
11/19

提案法：非音声区間の判定
非音声区間を判定するためのハードマスクを生成
◦ ターゲット音声から直接決定
×
×
×
Noisy speech
T-F soft mask T inverse
hard mask
Clean speech
12/19

提案法：非音声区間のカートシスマッチング
Scaled kurtosis discrepancy による正則化
◦ カートシスの変動を抑制
◦ 多様な雑音に対応
T-F soft mask
×
Clean speech
13/19
Noisy speech
T inverse
hard mask
×
×

比較手法
◦ ソフトマスクベース（正則化なし）
◦ 提案法（SKD による正則化）
◦ KD による正則化は予備実験 [溝口+15]で有効でないことを検証済
実験条件
学習データ JNAS より 31890 文+ 非音声区間
テストデータ JSUT [Sonobe+15] より 200 文 + 非音声区間
サンプルレート 16 kHz
雑音 DEMAND より 5 種とガウス性雑音
入力 SN 比 -5, 0 dB（5, 10 dB については原稿参照）
FFT 長 1024
ホップ長 80
DNN アーキテクチャ U-Net [Ronneberger+15]
14/19

雑音抑圧性能の評価
Signal-to-Distortion Ratio improvement [dB]
提案法と従来法に比肩する．
15/19
良
Input SNR [dB]

音声歪み発生量の評価
Cepstral Distortion [dB]
良
提案法が従来法に比べ悪くなることがある．
16/19
Input SNR [dB]

ミュージカルノイズ発生量の客観評価
Kurtosis ratio
提案法は従来法に比べて良い．
17/19
良
1
Input SNR [dB]

ミュージカルノイズ発生量の主観評価
受聴評価実験
◦ 非音声区間についてそれぞれ 24 人が受聴
◦ 「雑音としてどちらが自然か」を選択
◦ 提案法の選択率
提案法が良

結論と今後の課題
結論
◦ ミュージカルノイズの発生量が小さい音声強調を，多様な
雑音に対応できるように改良
◦ 客観評価によって提案手法がカートシス上昇を抑制させる
ことを確認
◦ 客観評価によって提案手法が従来手法に雑音抑圧性能で
劣らないことを確認
◦ 主観評価によって，提案手法の残留雑音の自然性を確認
今後の展望
◦ 恣意的でないミュージカルノイズ発生量の客観指標の探求

多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (8)

多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

Editor's Notes