深層学習に基づく音響帯域拡張による音源分離処理の高速化

Kitamura Laboratory
Aug. 27, 2021
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化
1 of 16

More Related Content

What's hot

多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura

What's hot(20)

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory

More from Kitamura Laboratory(20)

深層学習に基づく音響帯域拡張による音源分離処理の高速化

Editor's Notes

  1. ゆっくりめでしゃべっておk 深層学習に基づく音響帯域拡張による音源分離処理の高速化と題しまして,香川高専の渡辺が発表させて頂きます.
  2. (1分30秒くらい) まず,本研究の背景について説明を行います. 本研究では多チャネル信号の音源分離について取り扱います. これは,マイクが複数ある環境で録音した観測信号をもとに,混合前の信号を推定する技術です. 図では,ギターとピアノの信号が2本のマイクで録音された混合信号から,それぞれの信号を得られるような分離系Wを推定しています. 混合された音源数と録音時のマイク数の関係は次のようなものがあります. 録音するマイク数よりも音源数のほうが多いという劣決定条件,そして録音するマイク数が音源数以上あるという優決定条件があり, 劣決定条件では,多チャネル非負値行列因子分解,通称MNMFや近年ではDNNに基づく多チャネル音源分離が提案されています. 優決定条件では,独立成分分析・ICAや周波数領域でのICA,および独立低ランク行列分析などがあります.
  3. 特に,周波数領域での多チャネル音源分離では観測信号に対し,短時間フーリエ変換してスペクトログラムを計算します. そして,周波数ごとの分離フィルタを推定することで,分離信号を得る手法が一般的です. ------------- この図のように,マイク1とマイク2の観測スペクトログラムが入力としてあり,多チャネル音源分離では各周波数で分離フィルタを推定し 右側のように分離信号を得るという流れになっています.
  4. 本研究で取り扱う従来の多チャネル音源分離として,多チャネル非負値行列因子分解,,MNMFについて簡単に説明を行います. MNMFは,周波数領域での多チャネル音源分離手法であり,事前情報なしで高品質な劣決定音源分離が可能です. この図の左端Xは,縦軸周波数,横軸時間でそれぞれの要素がチャネルかけるチャネルの相関行列になっています. MNMFは,このXを空間モデルと音源モデルの二つに分解します. 空間モデルは音源ごとの空間的な違い,すなわち伝達系を表し,音源モデルは,すべての音源の音色構造を表します. したがって,伝達系を使って全音源の音色をクラスタリングして音源分離しています. 但し,この手法の問題は非常に膨大な数のパラメータを推定しなければならず,高い計算コストがかかります. 1セルが各行列 灰色が実数 赤色が複素数 全音源の低ランク近似 潜在変数Z クラスタリング
  5. 本研究では,高品質な多チャネル音源分離を低い計算コストで実現することを目的とします. 具体的には,周波数領域での多チャネル音源分離と深層学習を組み合わせた新たな音源分離フレームワークを提案します. 図のように,多チャネル観測信号の特定の周波数のみを音源分離し,分離しなかった他の周波数成分はポスト処理としてDNNで予測します. この時,DNNは二つの側面を持ち合わせています. 一つは,分離されていない周波数成分を予測するということ,今の状況では,分離信号の高周波帯域を予測する音響帯域拡張のように見えます. もう一つは,特定の周波数成分に対しての音源分離です. DNNには,混合信号の高周波帯域を入力しているので,DNNでは,混合信号の高周波帯域から分離信号の高周波帯域をそれぞれ分離するという風にも見て取れます.
  6. 提案手法では,まず,混合信号の振幅スペクトログラムMを高周波帯域と低周波帯域に分割します. 次に,混合信号Mの低周波帯域であるMLにのみMNMFを適用し,低周波帯域の分離信号Y1L及びY2Lを得ます.
  7. そして,分離信号Y1L,Y2L及び混合信号の高周波帯域MHをDNNに入力します. DNNはMHから,分離信号の高周波帯域 Y1H,およびY2Hが得られるようなソフトマスクW1,W2を出力します. 先ほど説明したように,この処理は分離信号の帯域拡張のようにも見えます. 一般に帯域拡張を高精度に行うことは難しいのですが,提案手法では混合信号の高周波帯域MHをDNN学習に利用しているので,高精度な予測が可能となります.
  8. DNNの入力情報には,振幅スペクトログラムを扱い,図のように混合信号の高周波帯域,各分離信号の低周波帯域を結合した一本のベクトルを作成しています. 時間jに対する入力(jを指す)では,各信号の隣接時間フレーム(j±2,4を指す)をいくつか連結し入力ベクトルを作成しています. そして結合されたベクトルbjに対してL2ノルム正規化を行います.更に,音量情報を保持するためにbjのL2ノルムを正規化係数とし,この要素をベクトルbjに付加したベクトルdjが最終的にDNNに入力されます.
  9. 6分ならちょいおそめにいけ 7分あればいい感じ DNNの全体構造は図のようになります. 入力では,先ほど説明した手法により作成したベクトルdjを用いています. 隠れ層はすべて全結合層とし,活性化関数にはSwishを使用しています. 隠れ層から出力層まで通った後,ソフトマックス関数を適用し,混合信号と掛け合わせると,その周波数帯域の分離信号が得られるようなソフトマスクを生成しています. この時,ソフトマックス関数により,マスクの要素を周波数ごとに足し合わせると1となる制約が保たれます. ソフトマスクによって得られた予測ベクトルとあらかじめ用意した正解ベクトルの平均二乗誤差をとり,それを最小化するようにDNNの学習を行っていきます. 以上が提案手法の説明になります. 次のスライドからは,提案フレームワークの実験について述べていきます.
  10. まず,予備実験として混合信号の高周波帯域がDNNの高精度な予測に寄与しているかを調査しました. 本実験では, 2つの低周波帯域のみの分離信号から,それぞれの高周波帯域を予測するDNNと, 2つの低周波帯域のみの分離信号と,混合信号の高周波帯域の三つの信号から,各分離信号の高周波帯域を予測するDNN の二つを用意します. それぞれのDNNの予測値を分離信号の低周波帯域と結合し,時間波形に戻した際のSAR値を指標として,それぞれのDNNの性能を評価しました. ここで,SAR値とは信号処理によって生じた人工歪みの少なさを表す尺度です.
  11. 実験条件は表のようになっており,DNNの学習には,SISEC2016データベースのドラム及びボーカル音源100曲を使用しました. FFT窓長は128ms,シフト長は64ms,スペクトログラムに対し,高周波帯域と低周波帯域の境目とする境界周波数を4kHzとしました. DNNのエポック数は1000回を上限とし,ミニバッチ数は128としました,また,最適化法はAdamを使用しその学習率は0.001としました. これらのハイパーパラメータは実験を重ね性能を評価した際に経験的に得られた値です. DNNの性能を評価するための音源として,SISEC2011にある4曲を使用しました.
  12. 各評価音源に対するSAR値の比較結果を表に表してます. 左が,混合信号の高周波帯域を使用しないモデル,右が混合信号の高周波帯域を使用するモデルのSAR値です. この結果から,ほぼすべての音源において,SAR値が明らかに改善されていることがわかります. (時間があればID2言及) したがって,混合信号の高周波帯域をDNNに入力する提案フレームワークの有効性を予備実験により確認できました.
  13. 次に,提案する音源分離フレームワークの性能評価実験を行いました. 本研究の目的は音源分離処理の高速化であるので,全周波帯域を分離するMNMFと提案フレームワークで,処理時間と分離性能を比較し評価しました. 分離性能には,音源分離性能を表すSDRの改善量を用いました. MNMFの実験条件は,表のようになっています. 実験1で使用した評価音源4曲に対して,RWCPのE2Aインパルス応答を畳み込んだ信号を分離します. FFT窓長,シフト長及び境界周波数はDNNの条件と同じとなっています. MNMFの基底数は評価音源の分離が最もよくできる13と設定しました.
  14. 4曲の実験結果はこのようになっています. 横軸が音源分離に要した処理時間,縦軸はSDR値を表しており,異なる乱数値を持つMNMFで10回実験を行った際の平均となっています. 黒い実線は全周波帯域を分離するMNMF,赤い丸は提案フレームワークの結果です. 本発表では,一番傾向のわかりやすいID4について解説を行います.
  15. 提案フレームワークでは,前段処理のMNMFの反復回数によって全体の処理時間が決まります. 従って,MNMFの反復回数を5回刻みに設定したときの提案フレームワークの最終出力の性能を赤丸として描いています. 例えば,MNMFの反復回数が300の時では,従来手法と提案手法ではグラフのこの地点となります. この結果を見ると,全周波帯域を分離する従来のMNMFでは,120秒でおおよそ13dBを達成してます. それに対して,提案手法では50秒以下で13dBに到達しており,音源分離する周波数を半分に削減したことで,時間もおよそ半分になっています. 従って,音源分離処理の高速化が達成できていることを確認しました.
  16. まとめです. MNMFとDNNに基づく周波数成分予測を組み合わせた音源分離フレームワークを提案し,実験から, 全周波帯域でのMNMFと比較して,提案手法はより高速に同程度の音源分離が達成できることを確認しました. また,本実験では,低周波帯域と高周波帯域に分割しましたが,今後の展望として 音源分離に有効な周波数成分のみに多チャネル音源分離を適用する手法に拡張できるのではないかと考えます. 以上で発表は終わりとなります. ありがとうございました.