SlideShare a Scribd company logo
1 of 17
Download to read offline
カートシスマッチングと深層学習に基づく
低ミュージカルノイズ音声強調
東京大学大学院情報理工学系研究科
☆溝口 聡 齋藤 佑樹 高道 慎之介 猿渡 洋
日本音響学会
2018 年 秋季研究発表会 2-1-17
9 月 13 日
概要
背景:ハンズフリー音声通信
◦ マイクと人の距離が遠く,音声に雑音が混入
◦ マイクは単一チャネルである場合,非線形な信号処理による
音声強調が必要
目的:聴覚的に良質な音声強調
◦ 雑音のパワー:小
◦ 音声の歪み:小
◦ ミュージカルノイズ発生量:小
従来法:DNN ソフトマスク音声強調
◦ DNN を用いた教師あり音声強調
◦ モデルの高い表現力によって高性能な雑音抑圧が可能
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 2/17
概要
問題点:ミュージカルノイズの発生
◦ 非線系処理による残存ノイズが発生し,聴覚的に不愉快
提案法:カートシスマッチングの導入
◦ ミュージカルノイズがカートシスと相関を持つことに着目
◦ 強調前後での非音声区間のカートシス変動に対する正則化
結果
◦ ミュージカルノイズ発生量が低減
◦ 雑音抑圧性能は従来法に比肩
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 3/17
従来法
ソフトマスクベースの DNN 音声強調 [e.g., Chen+17]
◦ 入力:観測信号のスペクトログラム
◦ 出力:雑音抑圧のための時間周波数ソフトマスク
◦ 損失関数:ターゲットの音声 と強調後の音声 の距離
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
DNN
Freq.
Time
T-F soft mask
×
Loss
Noisy speech Clean speech (target)
4/17
問題点:ミュージカルノイズの発生
ミュージカルノイズ [Cappe94, Goh+98]
◦ 非線形な信号処理によって発生する聴覚的に不愉快なノイズ
◦ カートシス(四次統計量)と相関あり [Uemura+08]
◦ カートシス
◦ [Uemura+08] はパワーの零まわりのカートシスを採用しているが,
本発表では振幅の平均周りのカートシスを採用
◦ 赤点線で囲った部分のまだら状の雑音が増えるとカートシスが上昇
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
音声強調
ミュージカルノイズ
5/17
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
提案手法
カートシスマッチングを
考慮した DNN 音声強調
6/17
提案法:overview
損失関数:
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
強調音声とターゲットの距離
7/17
カートシスの解離度(正則化項)
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
提案法:マスク推定部分(従来法と同様)
損失
◦ ターゲットの音声と強調後の音声の距離
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 8/17
T inverse
hard mask
×
×
T-F soft mask
×
Clean speechNoisy speech
提案法:非音声区間の判定
非音声区間を判定するためのハードマスクを生成
◦ 音声成分が局在する帯域について,時間フレームごとに,
ソフトマスクの周波数方向の平均値より判定
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 9/17
×
×
×
Clean speechNoisy speech
T-F soft mask T inverse
hard mask
提案法:非音声区間のカートシスマッチング
カートシスの乖離度
◦ 強調前後における時間周波数領域の音声のカートシスの変化の度合い
◦ は周波数について分割して適宜重み付けしたカートシス
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 10/17
T-F soft mask
×
Clean speechNoisy speech
T inverse
hard mask
×
×
提案法:overview(再掲)
損失関数:
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
強調音声とターゲットの距離
11/17
カートシスの解離度(正則化項)
T-F soft mask
×
T inverse
hard mask
×
×
Clean speechNoisy speech
ターゲット 観測 従来法 提案法
実際の強調音声の例
音声と対数振幅スペクトログラムのサンプル
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
従来法 提案法
12/17
提案法において,まだら状が雑音が減少
客観評価実験
従来手法と提案手法についての比較実験
◦ 条件
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
学習データ JNAS より 50 文 + 非音声区間
テストデータ JSUT より 100 文+ 非音声区間
サンプルレート 16 kHz
雑音:入力 SN 比 正規乱数:0, 5, 10 dB
窓関数 Hanning
FFT 長 1024
ホップ 長 80
DNN アーキテクチャ
(詳細な構造)
U-Net [Ronneberger+15]
([Jansson+17] に倣う)
パッチ長 256
最適化手法 Adam [Kingma+14]
バッチサイズ 32
13/17
雑音抑圧性能と音声歪み発生量の評価
Signal-to-Distortion Ratio (SDR)
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
良
提案法と従来法に優位差はほとんど見られない.
20
18
16
14
12
SDR[dB]
0 5 10
Input SNR [dB]
14/17
提
案
法
従
来
法
ミュージカルノイズ発生量の客観指標の評価
時間周波数領域のカートシスの解離度(非音声区間)
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
良
提案法は,従来法に比べて優位に小さい.
0 5 10
Input SNR [dB]
200
150
100
50
0
Time-frequencydomain
kurtosisdiscrepancy
15/17
従
来
法
提
案
法
時間領域における雑音の統計的性質の評価
時間領域の尖度(非音声区間)
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
提案法は,カートシスの意味で,雑音の統計的性質を保存
ガウス性雑音
における理論値
0 5 10
Input SNR [dB]
3
5
9
7
Time-domainkurtosis
16/17
提
案
法
従
来
法
結論と今後の課題
結論
◦ ミュージカルノイズの発生量が小さい音声強調を,カートシスマッ
チングを反映した DNN 雑音抑圧によって定式化
◦ 実験的評価によって提案手法がカートシス上昇を抑制させる
ことを確認
◦ 実験的評価によって提案手法が従来手法に雑音抑圧性能で
劣らないことを確認
今後の展望
◦ 雑音の種類を増やして,入力雑音に対する頑健性を向上
◦ より直接的なミュージカルノイズ発生量の客観指標の探求
2018/9/13 カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調 17/17

More Related Content

More from Shinnosuke Takamichi

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスShinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource LanguagesShinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返ってShinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingShinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 

Recently uploaded

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 

Recently uploaded (7)

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 

カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調