SlideShare a Scribd company logo
1 of 19
多様なカートシスを持つ雑音に対応した
低ミュージカルノイズDNN音声強調
東京大学大学院情報理工学系研究科
◎溝口 聡 齋藤 佑樹 高道 慎之介 猿渡 洋
日本音響学会
2019 年 春季研究発表会 1-6-6
3 月 5 日
概要
背景:ハンズフリー音声通信
◦ マイクと人の距離が遠く,音声に雑音が混入
◦ マイクは単一チャネルである場合,非線形な信号処理による
音声強調が必要
目的:聴覚的に良質な音声強調
◦ 雑音のパワー:小
◦ 音声の歪み:小
◦ ミュージカルノイズ発生量:小
従来法:低ミュージカルノイズ DNN 音声強調
◦ DNN を用いた教師あり音声強調
◦ モデルの高い表現力によって高性能な雑音抑圧が可能
◦ カートシスマッチングによってミュージカルノイズの
発生を低減
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 2/19
概要
問題点:多様な雑音への対応性
◦ 複数種類の雑音を用いて学習すると,カートシスの値が過小
評価される雑音があり,ミュージカルノイズの低減が困難
提案法:カートシスマッチングの改良
◦ カートシスの値そのものに依存しない
◦ カートシスの変動のみを多様な雑音に対して平等に評価
結果
◦ 多様な雑音音声についてミュージカルノイズ発生量が低減
◦ 雑音抑圧性能は従来法に比肩
◦ 主観評価によって残留雑音の自然性を保証
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 3/19
従来法
ソフトマスクベースの DNN 音声強調 [e.g., Chen+17]
◦ 入力:観測信号のスペクトログラム
◦ 出力:雑音抑圧のための時間周波数ソフトマスク
◦ 損失関数:ターゲットの音声 と強調後の音声 の距離
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
DNN
Freq.
Time
T-F soft mask
×
Loss
Noisy speech Clean speech (target)
4/19
問題点:ミュージカルノイズの発生
ミュージカルノイズ [Cappe94, Goh+98]
◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ
◦ カートシス(四次統計量)と相関あり [Uemura+08]
◦ カートシス
◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが,
本発表では振幅の平均周りのカートシスを採用
◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
音声強調
ミュージカルノイズ
5/19
従来法
低ミュージカルノイズ DNN 音声強調 [溝口ら18]
◦ 損失関数:
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
Kurtosis discrepancy(正則化項)
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
6/19
問題点:多様な雑音への対応性
Kurtosis discrepancy
◦ 多様な雑音を学習に用いたときに,カートシスの値に
損失関数が大きく影響される
◦ ゆえに,カートシスの変動を平等に評価できない
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
雑音ごとに値に大きな差異がある
7/19
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
提案手法
多様な雑音に対応した
カートシスマッチング
8/17
提案法:改良点
Kurtosis discrepancy
Scaled kurtosis discrepancy
◦ スケールフリーにカートシスの変動を捉えることが可能
◦ カートシス比 [Uemura+08] と 1 の差の絶対値に等価
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
元のカートシスでスケーリング
9/19
提案法:overview
損失関数:
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
Scaled kurtosis discrepancy
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
10/19
提案法:マスク推定部分(従来法と同様)
損失
◦ ターゲットの音声と強調後の音声の距離
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
T inverse
hard mask
×
×
T-F soft mask
×
Clean speechNoisy speech
11/19
提案法:非音声区間の判定
非音声区間を判定するためのハードマスクを生成
◦ ターゲット音声から直接決定
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
×
×
×
Noisy speech
T-F soft mask T inverse
hard mask
Clean speech
12/19
提案法:非音声区間のカートシスマッチング
Scaled kurtosis discrepancy による正則化
◦ カートシスの変動を抑制
◦ 多様な雑音に対応
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
T-F soft mask
×
Clean speech
13/19
Noisy speech
T inverse
hard mask
×
×
比較手法
◦ ソフトマスクベース(正則化なし)
◦ 提案法(SKD による正則化)
◦ KD による正則化は予備実験 [溝口+15]で有効でないことを検証済
実験条件
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
学習データ JNAS より 31890 文+ 非音声区間
テストデータ JSUT [Sonobe+15] より 200 文 + 非音声区間
サンプルレート 16 kHz
雑音 DEMAND より 5 種 と ガウス性雑音
入力 SN 比 -5, 0 dB(5, 10 dB については原稿参照)
FFT 長 1024
ホップ 長 80
DNN アーキテクチャ U-Net [Ronneberger+15]
14/19
雑音抑圧性能の評価
Signal-to-Distortion Ratio improvement [dB]
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
提案法と従来法に比肩する.
15/19
良
Input SNR [dB]
音声歪み発生量の評価
Cepstral Distortion [dB]
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
良
提案法が従来法に比べ悪くなることがある.
16/19
Input SNR [dB]
ミュージカルノイズ発生量の客観評価
Kurtosis ratio
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調
提案法は従来法に比べて良い.
17/19
良
1
Input SNR [dB]
ミュージカルノイズ発生量の主観評価
受聴評価実験
◦ 非音声区間についてそれぞれ 24 人が受聴
◦ 「雑音としてどちらが自然か」を選択
◦ 提案法の選択率
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 18/19
提案法が良
結論と今後の課題
結論
◦ ミュージカルノイズの発生量が小さい音声強調を,多様な
雑音に対応できるように改良
◦ 客観評価によって提案手法がカートシス上昇を抑制させる
ことを確認
◦ 客観評価によって提案手法が従来手法に雑音抑圧性能で
劣らないことを確認
◦ 主観評価によって,提案手法の残留雑音の自然性を確認
今後の展望
◦ 恣意的でないミュージカルノイズ発生量の客観指標の探求
2019/3/5 多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調 19/19

More Related Content

What's hot

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用Kitamura Laboratory
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 

What's hot (20)

ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調

Editor's Notes

  1. 東京大学大学院の溝口と申します.標記の題目で発表いたします.
  2. まず,概要をご説明します.ハンズフリー音声通信においては,マイクと人の距離が遠いために音声に雑音が交じることがあり,聴覚的に良質な音声強調を行う必要があります.このとき,マイクが単一チャネルであれば,非線形な信号処理を行うことは避けられません.ここで,非線形な信号処理によって,ミュージカルノイズと呼ばれるアーティファクトが発生します. 聴覚的に良質な音声強調を行うためには,音声の歪みやミュージカルノイズが発生しないように,雑音を抑圧する必要があります. 例えば,強力な非線形音声強調手法の一つである DNN ソフトマスク音声強調について,我々は以前低ミュージカルノイズな改良を加えた手法を提案しました.これは,カートシスマッチングという正則化によるものでした.
  3. しかしながら,以前我々が提案した低ミュージカルノイズ DNN 音声強調は多様な雑音に対応していません.カートシスの値が元々小さいガウス性雑音などが学習データに含まれていると,抑圧後の雑音のカートシスが過小評価され,ミュージカルノイズの発生を抑圧できず,聴覚印象を損なう可能性があります. そこで,我々はカートシスマッチングを多様な雑音に対応させるための手法を考案しました. その結果として,改良されたカートシスマッチングが多様な雑音に対して雑音抑圧性能を損なわないままにミュージカルノイズの発生を低減させる効果があるということを発表します. また,主観評価による残留雑音の自然性の保証についても述べます.
  4. 改めて,大元の手法であるソフトマスクベースの DNN 音声強調について説明いたします. 観測信号のスペクトログラム X を入力,雑音抑圧のための時間周波数ソフトマスク S を出力として,出力と入力の積 SX が強調音声となるように DNN を学習します.このとき,損失関数は強調後の音声 SX とターゲットの音声 Y の距離で与えます.
  5. このとき,問題点として,ミュージカルノイズの発生が挙げられます.ミュージカルノイズとは,非線形な信号処理によって発生する音程を含んだ雑音であり,聴覚的に好ましくないことが知られています. 従来法による強調前の音声と,強調後の音声をそれぞれスペクトログラムに表示しました.強調後の音声について,高域に縞状のノイズが散見されますが,これがミュージカルノイズです. また,ミュージカルノイズの発生量は,四次統計量,すなわちカートシスと強い相関があるということが Uemura らによって知られています.ただし,本発表では,Uemura らとは異なる定義のカートシスを採用しています.
  6. つづいて,我々が以前発表した低ミュージカルノイズ DNN 音声強調について述べます. これは,カートシスの変動を抑えるために,カートシスディスクレパンシーによる正則化を行うことで,ミュージカルノイズの発生を低減させるというものです.
  7. しかしながら,カートシスディスクレパンシーには,カートシスの値そのものによって値が大きく左右されるという難点があります. 多様な雑音の含まれるような音声をもちいて学習を行った場合,雑音のカートシスがそれぞれ異なることによって,雑音ごとのカートシスの変動を損失関数に平等に加味できず,ミュージカルノイズの発生を抑制できないような雑音が現れる可能性があります.
  8. つづいて,提案手法について説明します.
  9. 提案手法では,カートシスディスクレパンシーの問題点を取り除くために,強調前のカートシスでスケーリングした,スケールドカートシスディスクレパンシーを利用しています. これによって,雑音のカートシスそのものの大きさに関係なく,カートシスの変動のみを平等に損失関数に加味できることが期待でき,多様な雑音に対応した低ミュージカルノイズ DNN 音声強調の達成が期待されます. このスケールドカートシスディスクレパンシーは,カートシス比と 1 の距離に等価であるため,以前の研究とも矛盾がありません.
  10. 提案法の学習について詳細を述べます.強調音声とターゲットの距離 L と,観測音声と強調音声の非音声区間におけるスケールドカートシスディスクレパンシー SKD の重み付き和によって損失関数を定義し,これの最小化によって学習を行います. これによって,DNN の表現力による高い雑音抑圧性能を得るとともに,カートシスの変動を抑制することによってミュージカルノイズの発生量を低減させることができます.
  11. 音声強調部分では,ソフトマスクを出力とするような DNN を用意します.入力 X が観測信号,出力 S がソフトマスクです.入力と出力の積が強調音声のターゲット Y に近づくように学習を行います.
  12. 次に,カートシスマッチングを行うために非音声区間の判定のためのハードマスクを生成します. これは,クリーンな音声から直接決定することができます.
  13. つづいて,カートシスマッチングについて説明します.先程生成したハードマスクによって得られる観測信号の非音声区間 MX と,強調信号の非音声区間 MSX について,カートシスマッチングを行います.ここでは,提案法であるスケールドカートシスディスクレパンシーを用います.
  14. 最後に,従来法と提案法を比較する客観評価実験を行いました.学習データ,テストデータとしてそれぞれ別の話者の音声に非音声区間を付加し,さらに正規性雑音を重畳したものを,用意しました. 入力SN比は学習データ,テストデータともに -5 dB, 0 dB のものを用意しました.学習は,すべてのSN比,すべての雑音のデータを一つのデータセットとして行いました.DNNの構造にはU-Netを採用しました. その他の条件と,5 dB,10 dB のときの結果については,こちらの表ないし原稿を御覧ください.
  15. まず,雑音抑圧性能を評価するためにテストデータのSDR改善量を比較しました.いずれの入力SN比の場合も,提案法と従来法に明確な有意差はありませんでした.ここから,雑音抑圧性能や音声歪みの発生量については,提案法は従来法に劣らないことが示唆されます.
  16. つぎに,音声歪みの少なさを評価するためにテストデータのケプストラム歪みを比較しました. ここでは,提案法が従来法に比べて劣化する場合があることを確認できます.
  17. つづいて,ミュージカルノイズの発生量を評価するためにカートシスレシオを比較しました.いずれのケースに置いても提案法は従来法に比べて良くなることがわかります.
  18. 最後に,強調後の音声のミュージカルノイズ発生量を主観評価によって比較しました. 6 種類の雑音 と 2 パターンの SN 比,合計 12 パターンについて,24 人に非音声区間を聞いてもらい,どちらの雑音が自然か選んでもらいました. 結果として,ガウス性の場合を除き,ほとんどの場合では提案法が従来法に比べて自然であるという結果が得られました.
  19. 結論を述べます. 以上です.