調波打撃音分離の時間周波数マスクを用いた 線形ブラインド音源分離 Linear blind source separation using time-frequency mask obtained by harmonic/percussive ...
音源分離とは • 音源分離（audio source separation） • 音響メディアを対象とした信号処理技術 • ある混合音源を音声，楽器音及び雑音などに分離 （今回は特に楽器ごとに着目） • 観測信号から何か意味を持った情報を引き出...
低音質 高音質 • ブラインド音源分離 (blind source separation: BSS) 混合系 が未知の条件で分離系 を推定 • 多チャネルBSS • 観測信号が複数（マイクが複数） • 空間に対する情報が十分存在するため音質が良...
音の時間周波数変換 4/17 時間領域 窓関数 フーリエ変換長 シフト長 時間周波数領域 時間波形 … 離散フーリエ変換 離散フーリエ変換 離散フーリエ変換 スペクトログラム 複素数要素を持つ行列 周波数 時間 … X • 短時間フーリエ変換（...
• 音源モデルとは • 混合前の各音源の時間周波数構造 • 独立ベクトル分析 (IVA) • 同じ音源の周波数成分は 同じ時間に生起することを仮定 • 独立低ランク行列分析 (ILRMA) • 低ランク時間周波数構造を仮定 （同じスペクトルの繰...
時間周波数マスクの生成 6/17 • 時間周波数マスクの推定問題 単一チャネル観測信号に対する音源分離 非目的音源を時間周波数領域でマスキングする非線形処理 時間周波数マスク（binary or soft）の推定 時間 [s] 周波数 [Hz]...
• 調波打撃音分離 (HPSS) [N. Ono et al., 2008] スペクトログラムの周波数，時間方向の滑らかさに着目して分離する手法 • HPSSはモノラルの音源分離手法 • HPSSの分離モデルに沿って強力に分離 • 分離のみは強...
• 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019] • 音源モデルは時間周波数マスクで表現が可能 • この時間周波数マスクをplug-and-playで活用 • TFMBSS...
提案手法１のアルゴリズム 9/17 調波分離信号 打撃分離信号 逆STFT STFT TFMBSS 観測信号 HPSS スムージング されたマスク スムージング マスク スムージング Iteration 調波音の一時分離信号 打撃音の一時分離信...
提案手法２のアルゴリズム 10/17 HPSS 調波分離信号 打撃分離信号 逆STFT STFT TFMBSS 観測信号 スムージング されたマスク スムージング スムージング マスク (old) HPSS マスク Iteration 調波音の...
• TFMBSSの反復更新における不安定要素 • 時間周波数マスクが反復ごとに大きく変動 • マスクの変動は安定した音源分離の阻害を招く • スムージング処理 • スムージングパラメータはスムージング度合いを決定 • この操作を毎反復時，マスク...
実験条件 12/17 • 実験条件 音源信号 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス 応答で畳み込んで作成，2チャンネルで2音源の混合信号 サンプリング周波数16kHz,約10秒の音源 窓長（FFT長） 128 ms，...
• 実験１ • と を4パターン変化させる • パラメータがどのようにSDR推移に影響を及ぼすか • 提案手法１と２の性能比較 • 実験２ • ２０曲を選び他の多チャネル音源分離手法との性能比較 • モノラルのHPSSとの性能比較 • スムージ...
-3 -1 1 3 5 7 9 11 0 100 200 300 400 SDR improvement [dB] Number of iterations in BSS [times] β = 0.45/βold = 0.05 β = 0.2...
-4 -2 0 2 4 6 8 10 12 14 0 100 200 300 400 SDR improvement [dB] Number of iterations in BSS [times] β = 0.45/βold = 0.05 β...
• 全20曲におけるSDR改善量の平均値 • 結果 • ２種類の提案手法共に従来のHPSSより性能が向上 • 平均的に提案手法１より提案手法２方が性能が良い • 提案手法２では実験データ20曲において最も性能が良い 実験２における実験結果 16...
• 本研究の背景 • 音源モデル比較の必要性 • 従来は多チャネルBSSにTFMBSSを適用 • 本研究における新規性 • 従来のモノラル音源分離手法を多チャネル化 TFMBSS + HPSS HPSSの調波打撃音分離を活かしながら線形分離 マ...
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離

大藪宗一郎, "調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離," 香川高等専門学校電気情報工学科 卒業研究論文, 47 pages, 2020年2月.

調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離

  1. 1. 調波打撃音分離の時間周波数マスクを用いた 線形ブラインド音源分離 Linear blind source separation using time-frequency mask obtained by harmonic/percussive source separation 香川高等専門学校 電気情報工学科 北村研究室 ５年 大藪 宗一郎 香川高専電気情報工学科 卒業研究発表会
  2. 2. 音源分離とは • 音源分離（audio source separation） • 音響メディアを対象とした信号処理技術 • ある混合音源を音声，楽器音及び雑音などに分離 （今回は特に楽器ごとに着目） • 観測信号から何か意味を持った情報を引き出す トランペット バイオリン ピアノ ティンパニ ミュージック（観測信号） 2/17
  3. 3. 低音質 高音質 • ブラインド音源分離 (blind source separation: BSS) 混合系 が未知の条件で分離系 を推定 • 多チャネルBSS • 観測信号が複数（マイクが複数） • 空間に対する情報が十分存在するため音質が良い • 単一チャネルBSS • 対象の観測信号が単一（マイクが単一） • 空間に対する情報がないため音質が悪い ブラインド音源分離 3/17 BSS 混合系 分離系 Ex. 独立ベクトル分析 (IVA) [T. Kim et al, 2007] 独立低ランク行列分析 (ILRMA) [D. Kitamura et al., 2018] 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019] Ex. 調波打撃音分離 (HPSS) [N. Ono et al., 2008]
  4. 4. 音の時間周波数変換 4/17 時間領域 窓関数 フーリエ変換長 シフト長 時間周波数領域 時間波形 … 離散フーリエ変換 離散フーリエ変換 離散フーリエ変換 スペクトログラム 複素数要素を持つ行列 周波数 時間 … X • 短時間フーリエ変換（short-time Fourier transform: STFT） 一次元（時間）の信号を二次元（時間と周波数）の信号に変換
  5. 5. • 音源モデルとは • 混合前の各音源の時間周波数構造 • 独立ベクトル分析 (IVA) • 同じ音源の周波数成分は 同じ時間に生起することを仮定 • 独立低ランク行列分析 (ILRMA) • 低ランク時間周波数構造を仮定 （同じスペクトルの繰り返しが多い） • 調波打撃音分離 (HPSS) • 時間方向に連続な音源 と周波数方向に連続な音源を仮定 • 様々な音源モデルに対応可能なフレームワーク • 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019] • 時間周波数マスクで表現される音源モデルを仮定 多チャネルBSSにおける音源モデル 5/17 周波数 時間 周波数 時間 周波数 時間
  6. 6. 時間周波数マスクの生成 6/17 • 時間周波数マスクの推定問題 単一チャネル観測信号に対する音源分離 非目的音源を時間周波数領域でマスキングする非線形処理 時間周波数マスク（binary or soft）の推定 時間 [s] 周波数 [Hz] 赤、青の音源から成る混合信号から 赤の音源のみを取り出したい…. 赤の音源の部分を”1” それ以外を”0” とするようなマスクを掛け合わせる
  7. 7. • 調波打撃音分離 (HPSS) [N. Ono et al., 2008] スペクトログラムの周波数，時間方向の滑らかさに着目して分離する手法 • HPSSはモノラルの音源分離手法 • HPSSの分離モデルに沿って強力に分離 • 分離のみは強力だが歪みが大きくとても非線形 モノラル音源分離の従来法 7/17 調波音信号 混合信号 調波楽器 打楽器 調波成分 打撃成分 時間 周波数 打撃音信号
  8. 8. • 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019] • 音源モデルは時間周波数マスクで表現が可能 • この時間周波数マスクをplug-and-playで活用 • TFMBSSのモノラルBSSへの適用 • モノラルのHPSSからマスクを作成しTFMBSSに導入 • これを反復的に更新 • HPSSによる調波打撃音分離＋TFMBSSの線形な分離 TFMBSSの概要 8/17 Mask 線形な分離信号 TFMBSS IVA ILRMA FDICA HPSS Mask 非線形な分離信号 線形な分離信号 TFMBSS Iteration
  9. 9. 提案手法１のアルゴリズム 9/17 調波分離信号 打撃分離信号 逆STFT STFT TFMBSS 観測信号 HPSS スムージング されたマスク スムージング マスク スムージング Iteration 調波音の一時分離信号 打撃音の一時分離信号 マスク (old)
  10. 10. 提案手法２のアルゴリズム 10/17 HPSS 調波分離信号 打撃分離信号 逆STFT STFT TFMBSS 観測信号 スムージング されたマスク スムージング スムージング マスク (old) HPSS マスク Iteration 調波音の一時分離信号 打撃音の一時分離信号
  11. 11. • TFMBSSの反復更新における不安定要素 • 時間周波数マスクが反復ごとに大きく変動 • マスクの変動は安定した音源分離の阻害を招く • スムージング処理 • スムージングパラメータはスムージング度合いを決定 • この操作を毎反復時，マスク生成後に適用 • 適用後，現在のマスクに代入 • TFMBSSの最適化の安定を図る 時間周波数マスクのスムージング 11/17 現在のマスク 一反復前のマスク スムージングパラメータ 要素ごとの積
  12. 12. 実験条件 12/17 • 実験条件 音源信号 SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス 応答で畳み込んで作成，2チャンネルで2音源の混合信号 サンプリング周波数16kHz,約10秒の音源 窓長（FFT長） 128 ms，ハン窓 シフト長 64 ms (1/2シフト) 反復回数（HPSS） 15回 反復回数（TFMBSS） 500回 主観評価値 SDR改善値（音質と分離度合いを含む総合的な分離性能） 2 m 5.66cm 50 50 調波音源 （ピアノ，ギターなど曲に依存） Impulse response E2A (reverberation time: 300 ms) ドラム音源
  13. 13. • 実験１ • と を4パターン変化させる • パラメータがどのようにSDR推移に影響を及ぼすか • 提案手法１と２の性能比較 • 実験２ • ２０曲を選び他の多チャネル音源分離手法との性能比較 • モノラルのHPSSとの性能比較 • スムージングパラメータは実験１を元に決定 実験内容 13/17 0.45 0.05 0.25 0.25 0.125 0.375 0.05 0.45
  14. 14. -3 -1 1 3 5 7 9 11 0 100 200 300 400 SDR improvement [dB] Number of iterations in BSS [times] β = 0.45/βold = 0.05 β = 0.25/βold = 0.25 β = 0.125/βold = 0.375 β = 0.05/βold = 0.45 実験１における実験結果（手法１） 14/17 • パラメータ調整による提案手法１の反復毎のSDR改善量 変化小 変化大
  15. 15. -4 -2 0 2 4 6 8 10 12 14 0 100 200 300 400 SDR improvement [dB] Number of iterations in BSS [times] β = 0.45/βold = 0.05 β = 0.25/βold = 0.25 β = 0.125/βold = 0.375 β = 0.05/βold = 0.45 実験１における実験結果（手法２） 15/17 • パラメータ調整による提案手法２の反復毎のSDR改善量 変化小 変化大
  16. 16. • 全20曲におけるSDR改善量の平均値 • 結果 • ２種類の提案手法共に従来のHPSSより性能が向上 • 平均的に提案手法１より提案手法２方が性能が良い • 提案手法２では実験データ20曲において最も性能が良い 実験２における実験結果 16/17 Method Average SDR [dB] HPSS 4.68 IVA 7.09 ILRMA 8.56 HPSS + TFMBSS（提案手法1） 7.44 HPSS + TFMBSS（提案手法2） 11.00
  17. 17. • 本研究の背景 • 音源モデル比較の必要性 • 従来は多チャネルBSSにTFMBSSを適用 • 本研究における新規性 • 従来のモノラル音源分離手法を多チャネル化 TFMBSS + HPSS HPSSの調波打撃音分離を活かしながら線形分離 マスクを反復更新 • マスクのスムージングによる最適化の安定 • 実験結果 • スムージングによるSDR改善量の推移の安定を確認 • ２種類の提案手法共に従来のHPSSより性能が向上 • 研究業績 まとめ 17/17 大藪宗一郎, 北村大地, 矢田部浩平, "調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離, "日本音響学会 2020年春季研究発表会講演論文集", 3-1-16, pp. ???–???, 埼玉, 2020年3月（査読無）.

大藪宗一郎, "調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離," 香川高等専門学校電気情報工学科 卒業研究論文, 47 pages, 2020年2月.

