深層学習に基づく周波数帯域補間手法による音源分離処理の高速化

Kitamura Laboratory
Aug. 27, 2021
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
1 of 15

More Related Content

What's hot

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory

What's hot(20)

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory

More from Kitamura Laboratory(20)

深層学習に基づく周波数帯域補間手法による音源分離処理の高速化

Editor's Notes

  1. [00:05] 表記のタイトルで香川高専北村研究室の渡辺が発表いたします.
  2. [01:05] まず,本研究の背景について説明を行います. 本研究では多チャネル信号の音源分離について取り扱います. これは,マイクが複数ある環境で録音した観測信号をもとに,混合前の信号を推定する技術です. 図では,ギターとピアノの信号が2本のマイクで録音された混合信号から,それぞれの信号を得られるような分離系Wを推定しています. 混合された音源数と録音時のマイク数の関係は次のようなものがあります. 録音するマイク数よりも音源数のほうが多いという劣決定条件,そして録音するマイク数が音源数以上あるという優決定条件があり, 劣決定条件では,多チャネル非負値行列因子分解,通称MNMFや近年ではDNNに基づく多チャネル音源分離が提案されています. 優決定条件では,独立成分分析・ICAや周波数領域でのICA,および独立低ランク行列分析などがあります.
  3. [01:15] 特に,周波数領域での多チャネル音源分離では観測信号に対し,短時間フーリエ変換を行い,スペクトログラムを計算します. そして,周波数ごとの分離フィルタを推定することで,分離信号を得る手法が一般的です.
  4. [03:00] 本研究で取り扱う従来の多チャネル音源分離として,多チャネル非負値行列因子分解,,MNMFについて簡単に説明を行います. MNMFは,周波数領域での多チャネル音源分離手法であり,事前情報なしで高品質な劣決定音源分離が可能です. この図の左端Xは,縦軸周波数,横軸時間でそれぞれの要素がチャネルかけるチャネルの相関行列になっています. MNMFは,このXを空間モデルと音源モデルの二つに分解します. 空間モデルは音源ごとの空間的な違い,すなわち伝達系を表し,音源モデルは,すべての音源の音色構造を表します. したがって,伝達系を使って全音源の音色をクラスタリングして音源分離しています. 但し,この手法の問題は非常に膨大な数のパラメータを推定しなければならず,高い計算コストがかかります. 1セルが各行列 灰色が実数 赤色が複素数 全音源の低ランク近似 潜在変数Z クラスタリング
  5. [04:00] 本研究では,高品質な多チャネル音源分離を低い計算コストで実現することを目的とします. そして,これまでに我々は,周波数領域多チャネル音源分離とDNNを組み合わせた音源分離フレームワークを提案しました. 図のように,多チャネル観測信号の特定の周波数のみを音源分離し,分離しなかった他の周波数成分はポスト処理としてDNNで予測します. この図の状況では,混合信号を低周波帯域と高周波帯域に分割し,それぞれ処理を行っています. 本発表では,この,混合信号の様々な分割方法を提案し,音源分離フレームワークに与える影響を調査しました.
  6. [04:40] ここからは,従来の音源分離フレームワークの説明を行います. これまでに提案した手法として,混合信号を低周波帯域と高周波帯域に分割する手法があります. まず,混合信号の振幅スペクトログラムMを低周波帯域と高周波帯域に分割します. 次に,混合信号Mの低周波帯域であるMLにのみMNMFを適用し,低周波帯域の分離信号Y1L及びY2Lを得ます.
  7. [05:00] そして,分離信号Y1L,Y2L及び混合信号の高周波帯域MHをDNNに入力します. DNNはMHから,分離信号の高周波帯域 Y1H,およびY2Hが得られるようなソフトマスクW1,W2を出力します.
  8. [05:50] 本発表では,低周波帯域と高周波帯域に分割する従来手法の他に新たに二種類の分割方法を提案します. まず,等間隔間引き手法について説明します. 従来手法では,DNNは分離信号の高周波帯域を予測する,つまり周波数成分の外挿を行っていました. しかし,外挿問題は一般的に難しい推論処理となっています. そこで,周波数帯域を等間隔に間引き,DNNは間引いた成分を予測する,つまり,周波数成分の内挿を行うため,高精度な推論が可能であると期待できます. 図では,一つ飛ばしに周波数ビンを間引いていますが,これを二つ飛ばし三つ飛ばしのように間隔を空けていけばいくほど,高速な音源分離処理が可能となります.
  9. [06:50] 次に,不等間隔間引き手法について説明を行います. 人間の聴覚の認知では,周波数に対して対数的に変化することから,低周波帯域はほとんど間引かず,高周波帯域になるにつれ間引き数を増やす方が妥当である可能性があります. そこで,基準となる周波数ビンを定め間引き数を変化させています. 図のように,基準となるビンをFとすると,0~Fの帯域は間引かず,F~2Fの区間では一つ飛ばし,2F~4Fの区間では二つ飛ばし,4F~8Fの区間では三つ飛ばしのように 高周波帯域になるにつれて間隔を空け間引いています.
  10. [07:30] DNNの入力情報について,ここでは等間隔間引き手法を例に説明を行います. まず,DNNに入力する周波数ビンを一つ飛ばしに選択していきます. そして,時間フレームjにおける周波数成分を予測する場合,このように,各信号のスペクトログラムの隣接する時間フレームj±2,j±4におけるベクトルを結合し一本のベクトルを作成します. このベクトルをDNNの入力情報として用います.
  11. [08:00] 各手法に音源分離フレームワークを適用し実験を行いました.実験の評価対象として,全周波帯域を分離するMNMFとの比較を行います. 音源分離の良しあしを表すSDR値の改善量及び音源分離にかかった処理時間を評価指標として用いています. DNNの学習データセットにはSiSEC2016のドラム及びボーカル音源の100曲を使用しました.FFT窓長及びシフト長はそれぞれ,128ms,64msです. そして,各手法における分割サイズは表のようになっています.今回扱うスペクトログラムのビン数は1025ビンあり,低周波帯域と高周波帯域に分割する手法では,半分の512ビンと513ビンに分割,等間隔間引きでは,二つ飛ばしで間引きを行ったので,MNMFが請け負う周波数ビンはおよそ1/3となっています. 不等間隔間引き手法は等間隔間引き手法と分割サイズが揃うように基準の周波数ビンを決めています.
  12. [09:00] 4曲の実験結果です. 横軸が音源分離にかかった時間,縦軸がSDR改善量となっています.また,異なる乱数を用いて5回実験を行った平均値となっています. 黒い実線が全周波帯域を分離するMNMF,紫の点が,低周波帯域と高周波帯域に分割する手法,青い点が,等間隔間引き手法,そして,黄色い点が不等間隔間引き手法のSDRの推移です. 多少のオーバーヘッドがあるものの,削減サイズに比例した処理時間となっていることがわかります. ここで,SongID3について詳しく説明を行います.
  13. [10:00] SongID3では,各手法について音源分離の高速化が達成されています. そして,黄色い点の不等間隔間引き手法では,全周波帯域を分離するMNMFと比較し,高速かつより高品質な音源分離が達成されていることが確認できます. また,全周波帯域を分離するMNMFでは,約200秒で10dB強に到達しているのに対し,不等間隔間引き手法では,50秒程度で到達していることがわかります. 等間隔間引き手法は全周波帯域をMNMFする手法よりもSDR改善量が劣っています.これは,低周波帯域を間引くことによって, MNMFの分離があまり出来ていないことが原因であると考えられます.
  14. [11:00] それでは最後に,デモを行いたいと思います. 左上が混合信号のスペクトログラム,そしてその下が不等間隔間引き手法によって間引かれたスペクトログラム, 右側が全周波帯域を分離するMNMFと音源分離フレームワークでの分離結果となっています. まず,混合信号を流します. 次に全周波帯域を分離するMNMFです. そして,音源分離フレームワークによる分離結果です. このように同程度な品質の音源分離ができています.
  15. 本発表のまとめです. (余ったら) 音源分離処理~ 実験結果から,不等間隔~ 一方で,SongID4~ ~あると考えられます. 以上で発表を終わります.