深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
日本音響学会2021年秋季研究発表会
2021年9月7日午後(15:30~15:45) [第1会場]
深層学習に基づく間引きインジケータ付き周波数帯域
補間手法による音源分離処理の高速化
Fast audio source separation based on deep-neural-network-based
frequency component interpolation with decimation indicator
☆渡辺瑠伊(香川高専), 北村大地(香川高専), 猿渡洋(東大),
高橋祐(ヤマハ),近藤多伸(ヤマハ)
1-1-14
研究背景
1
• 多チャネル音源分離
⁃ 多チャネル観測信号をもとに特定の信号を推定
• 混合された音源数と録音時のマイク数の関係
⁃ 劣決定条件(音源数 > マイク数)
⁃ 多チャネル非負値行列因子分解(MNMF)[Sawada+, 2013]
⁃ DNNに基づく多チャネル音源分離
⁃ 優決定条件(音源数 ≦ マイク数)
⁃ 周波数領域独立成分分析(ICA) [Smaragdis, 1998]
⁃ 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim+, 2006], [Ono, 2011]
⁃ 独立低ランク行列分析(ILRMA)[Kitamura+, 2016]
研究背景
• 周波数領域での多チャネル音源分離
⁃ 短時間フーリエ変換して得られるスペクトログラムに対し
周波数毎の分離フィルタを推定する手法が一般的
⁃ 例:MNMF,周波数領域ICA,IVA,ILRMA
2
本研究で用いる音源分離手法
• 多チャネル非負値行列因子分解(MNMF)[Sawada+, 2013]
⁃ 事前情報なしで高品質な劣決定音源分離
⁃ 膨大な数のパラメータの推定に高い計算コスト
がかかる
3
:周波数ビン数
:時間フレーム数
:音源数
:基底数(NMF)
音源分離の高速化フレームワーク [Watanabe+, 2020], [渡辺+, 2021]
4
• 高品質な多チャネル音源分離を低い計算コストで実現
• 周波数領域多チャネル音源分離と深層学習(DNN)を
組み合わせた音源分離フレームワーク
⁃ 特定の周波数のみ先に分離し他の周波数はDNNで予測・分離
• 混合信号の間引き方によって音源分離の品質が変化
従来手法:混合信号の間引き方
5
[Watanabe+, 2020] [渡辺+, 2021]
高周波帯域を
間引く手法
等間隔に
間引く手法
不等間隔に
間引く手法
本発表の概要
• 混合信号の間引き方が音源分離の品質に影響
• 前段の音源分離に有効な周波数帯域を適応的に選択する
ことで品質向上が期待できる
• 信号のパワーが大きい帯域が音源分離に有効であると
仮定し,パワーの小さな帯域を優先的に間引く手法を提案
• 従来の間引き方と提案手法で性能を比較
6
提案手法
• 観測パワーに基づいて混合信号を間引く
⁃ パワーの大きい周波数帯域:前段の音源分離に入力
⁃ パワーの小さい周波数帯域:後段のDNNで予測・分離
• 各周波数ビンに対して時間方向にL2ノルムを算出
7
Time
Frequency
混合信号
周波数ビン毎に
L2ノルムを算出
L2ノルム
提案手法
• ベクトル を用いて間引きインジケータ を作成
• 間引く量に応じて閾値以上の帯域と未満の帯域に分類
⁃ パワーが閾値未満となる帯域はDNNで予測・分離
• DNN学習時及びテスト時に間引きインジケータを利用
⁃ DNNがどの帯域を予測すべきかの手がかりとなる
8
0:DNNが予測する帯域
1:音源分離を行う帯域
全体の1/3を音源分離するように
間引きインジケータを作成
DNNの入力
• 時間 に対して分離成分
を予測する場合
⁃ 各信号の振幅スペクトロ
グラムの隣接時間フレーム
を連結しベクトル を作成
⁃ ベクトル と間引きインジ
ケータ を結合
9
• ベクトル と間引きインジケータ を結合しDNNに入力
⁃ DNNは から,音源分離を適用しなかった帯域 , を
得られるようなソフトマスク , を出力
10
DNNによる分離マスク推定
実験条件
• 全周波帯域を分離するMNMFとの比較を行う
⁃ Source-to-distortion ratio (SDR) [Vincent+, 2006] の改善量と時間
• 各手法における実験条件
11
データセット
SiSEC2016データベースのドラム (Dr.) 及び
ボーカル (Vo.) 音源100曲 (Fs=16 kHz)
FFT窓長/シフト長 128 ms/64 ms
スペクトログラムのビン数 1025
手法 分割した周波数ビン数
全周波帯域を分離するMNMF MNMF:1025,DNN:0
低周波帯域と高周波帯域に分割 MNMF:512,DNN:513
等間隔間引き MNMF:340,DNN:685
不等間隔間引き MNMF:330,DNN:695
観測パワーに基づいて間引き(提案) MNMF:340,DNN:685
実験結果
12
実験結果
• 提案手法は各従来手法と比較し,品質の向上かつ高速化
を達成している
• 信号のパワーが大きい帯域は音源分離に有効であると考
えられる
13
実験結果
14
まとめ
• 音源分離処理を高速化するフレームワークにおいて,
観測パワーを基準に混合信号を分割する手法を提案
• 従来手法と比較し音源分離性能の向上が見られた
• 今後の展望
⁃ 音源の組み合わせや音源数,基底数等条件を変えた際に音源
分離フレームワークの性能がどう変化するかを調査
15
1 of 16

Recommended

深層学習に基づく周波数帯域補間手法による音源分離処理の高速化 by
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
187 views15 slides
深層学習に基づく音響帯域拡張による音源分離処理の高速化 by
深層学習に基づく音響帯域拡張による音源分離処理の高速化深層学習に基づく音響帯域拡張による音源分離処理の高速化
深層学習に基づく音響帯域拡張による音源分離処理の高速化Kitamura Laboratory
110 views16 slides
音源分離における音響モデリング(Acoustic modeling in audio source separation) by
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
22.6K views114 slides
非負値行列因子分解を用いた被り音の抑圧 by
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
137 views33 slides
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
266 views17 slides
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
4.1K views26 slides

More Related Content

What's hot

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
5.9K views74 slides
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価Kitamura Laboratory
82 views24 slides
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
1.7K views22 slides
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
162 views19 slides
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
3.5K views23 slides
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
1.8K views24 slides

What's hot(20)

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura5.9K views
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by Kitamura Laboratory
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura1.7K views
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by Kitamura Laboratory
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura3.5K views
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura1.8K views
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura5.9K views
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura2.9K views
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura2.1K views
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea... by ssuserf54db1
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1861 views
ICASSP2017読み会(関東編)・AASP_L3(北村担当分) by Daichi Kitamura
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura4K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura4.3K views
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura5.9K views
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by Daichi Kitamura
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura1.2K views

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
74 views26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
67 views23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
40 views17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
79 views19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
43 views17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
52 views32 slides

More from Kitamura Laboratory(20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム

深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化

Editor's Notes

  1. 表記のタイトルで香川高専北村研究室の渡辺が発表いたします.
  2. [01:05] まず,本研究の背景について説明を行います. 本研究では多チャネル信号の音源分離について取り扱います. これは,マイクが複数ある環境で録音した観測信号をもとに,混合前の信号を推定する技術です. 図では,ギターとピアノの信号が2本のマイクで録音された混合信号から,それぞれの信号を得られるような分離系Wを推定しています. 混合された音源数と録音時のマイク数の関係は次のようなものがあります. 録音するマイク数よりも音源数のほうが多いという劣決定条件,そして録音するマイク数が音源数以上あるという優決定条件があり, 劣決定条件では,多チャネル非負値行列因子分解,通称MNMFや近年ではDNNに基づく多チャネル音源分離が提案されています. 優決定条件では,周波数領域でのICAや独立ベクトル分析IVA,および独立低ランク行列分析イルマなどがあります.
  3. [01:15] 特に,周波数領域での多チャネル音源分離では観測信号に対して,短時間フーリエ変換を行い,スペクトログラムを計算します. そして,周波数ごとの分離フィルタを推定することで,分離信号を得る手法が一般的です.
  4. [03:00] 本研究で取り扱う従来の多チャネル音源分離として,多チャネル非負値行列因子分解,,MNMFについて簡単に説明を行います. MNMFは,周波数領域での多チャネル音源分離手法であり,事前情報なしで高品質な劣決定音源分離が可能です. この図の左端Xは,縦軸周波数,横軸時間でそれぞれの要素がチャネルかけるチャネルの相関行列になっています. MNMFは,このXを空間モデルと音源モデルの二つに分解します. 空間モデルは音源ごとの空間的な違い,すなわち伝達系を表しており,音源モデルは,すべての音源の音色構造を表します. したがって,伝達系を使って全音源の音色をクラスタリングして音源分離しています. 但し,この手法の問題点として非常に膨大な数のパラメータを推定しなければならず,高い計算コストがかかります. 1セルが各行列 灰色が実数 赤色が複素数 全音源の低ランク近似 潜在変数Z クラスタリング
  5. 35s そこで,我々はMNMFのような周波数領域での多チャネル音源分離と深層学習を組み合わせた音源分離フレームワークを提案し,音源分離処理の高速化を図りました. このフレームワークでは,混合信号の特定の周波数帯域のみを分離し,それ以外の帯域の分離信号をDNNで予測し補間するという手法になっています. これまでの研究結果から,本フレームワークを用いることで,高品質で高速な音源分離を達成できることが分かりました. さらに,混合信号の間引き方や,同じ間引き方でも曲によって,本フレームワークの音源分離の品質が異なることが明らかとなりました.
  6. 25s これまでに,混合信号の様々な間引き方を提案しました. まず,左の図のように,高周波帯域を全て間引き,DNNは高周波帯域を外挿するような手法 中央の図にあるように,周波数ビンを等間隔に間引き,DNNは信号の内挿を行うような手法. そして,高周波帯域になるにつれて間引く間隔を大きくしていき,不等間隔に間引く手法です.
  7. これまでの知見から,混合信号の間引き方が音源分離の品質に影響していることが分かりました. そして,音源分離に有効な周波数ビンを適応的に選択することで,音源分離フレームワークの分離性能向上が期待できます. そこで本発表では,信号のパワーが大きい帯域が音源分離に有効であると仮定して,パワーの小さい帯域を間引き,DNNによって予測・補間する手法を提案します. そして,従来の3つの間引き方と比較して,音源分離フレームワークの性能を評価します.
  8. それでは,提案法の説明に移ります. 本発表で提案する間引き方では,混合信号の観測パワーを指標として音源分離を行うビンとDNNによって予測するビンに分割します. まず,混合信号の各周波数ビンに対して,赤枠のように時間方向にL2ノルムを算出します. そして,各周波数ビンで算出したL2ノルムをまとめたベクトルをgとします.
  9. 30s このベクトルgを用いて間引きインジケータdを作成します. ベクトルgのL2ノルムの大きさを用いて,間引く量に応じて,閾値以上の帯域は1,それ未満の帯域は0に分類します. 結果,間引きインジケータdは図のように0,1の二値となり,1となっている帯域,つまり,L2ノルムが閾値以上の帯域は音源分離を行う帯域, 逆に,0となっている,閾値未満の帯域はDNNが予測を行う帯域となります. この間引きインジケータdは,DNNの学習時及びテスト時の入力情報であったり,帯域補間をする際に利用します.
  10. ここからは,DNNについて説明を行います. まず,DNNの入力情報について,みていきます. 最初に,混合信号及び分離信号に対し,図のように,間引きインジケータdをもとに,DNNに入力する帯域を選択しています. 時間フレームjに対して,分離成分を予測する場合,各信号のスペクトログラムの隣接する時間フレームのプラスマイナス2,プラスマイナス4フレームにおけるベクトルを結合し一本のベクトルbjを作成します. このベクトルbjと,先ほど作成した間引きインジケータベクトルdを結合した一本のベクトルがDNNの入力となります.
  11. そして,DNNの出力は図のようになっており,各分離信号に対する分離マスクを推定しています. 先ほど作成したベクトルをDNNに入力することで,ソフトマスクw1及びw2を出力します.ここで,w1とw2はソフトマスクであるため,各要素の和が1となります. 音源分離を適用していない帯域を上付きのQで示すと,このMQとW1, W2を掛け合わせることで分離信号Y1Q,Y2Qを得ます.
  12. ここからは,実験についての説明になります. 各手法に音源分離フレームワークを適用し実験を行いました.実験の評価対象として,全周波帯域を分離するMNMFとの比較を行います. 音源分離の良しあしを表すSDR値の改善量及び音源分離にかかった処理時間を評価指標として用いています. DNNの学習データセットにはSiSEC2016のドラム及びボーカル音源の100曲を使用しました.FFT窓長及びシフト長はそれぞれ,128ms,64msです. そして,各手法における分割サイズは表のようになっています.今回扱うスペクトログラムのビン数は1025ビンあり,低周波帯域と高周波帯域に分割する手法では,半分の512ビンと513ビンに分割,等間隔間引きでは,二つ飛ばしで間引きを行ったので,MNMFが請け負う周波数ビンはおよそ1/3となっています. 不等間隔間引き手法は等間隔間引き手法と分割サイズが揃うように基準の周波数ビンを決めています. そして提案手法である,観測パワーに基づいた分割手法では,間引き後のサイズが1/3となるように分割しました.
  13. テストデータとしてSongID1~4の4曲の実験結果を曲ごとに示しています. 横軸が音源分離にかかった時間,縦軸がSDR改善量となっています.また,各グラフやプロットは全て異なる乱数を用いて5回実験を行った平均値となっています. 黒い実線が全周波帯域を分離するMNMF,紫の点が,高周波帯域を間引く手法,青い点が,等間隔間引き手法,黄色い点が不等間隔間引き手法,そして,赤い点が今回のパワーに基づく間引き手法のSDRの推移です. 多少のオーバーヘッドがあるものの,削減サイズに比例した処理時間となっていることがわかります.
  14. 最も理想的な性能となったSongID3について詳しく見ていきます. 各手法について音源分離の高速化が達成されています. そして,赤い点のパワーに基づく間引き手法では,全周波帯域を分離するMNMFと比較し,高速かつより高品質な音源分離が達成されていることが確認できます. また,全周波帯域を分離するMNMFでは,約200秒で10dB強に到達しているのに対し,提案手法では,30秒程度で到達していることがわかります.
  15. 4曲の結果の再掲になります. 全体を通して,提案手法の性能が従来手法を上回っていることが分かります.
  16. 本発表のまとめです. (余ったら) 音源分離処理~ 実験結果から,不等間隔~ また,音源の組み合わせや音源数,基底数などの条件を変えた際に音源分離フレームワークの性能がどう変化するのかを調査することが今後の展望です. 以上で発表を終わります.