調波打撃音分離の時間周波数マスクを用いた
線形ブラインド音源分離
Linear blind source separation using time-frequency mask
obtained by harmonic/percussive source separation
香川高等専門学校 電気情報工学科
北村研究室
5年 大藪 宗一郎
香川高専電気情報工学科 卒業研究発表会
音源分離とは
• 音源分離(audio source separation)
• 音響メディアを対象とした信号処理技術
• ある混合音源を音声,楽器音及び雑音などに分離
(今回は特に楽器ごとに着目)
• 観測信号から何か意味を持った情報を引き出す
トランペット
バイオリン
ピアノ
ティンパニ
ミュージック(観測信号) 2/17
低音質
高音質
• ブラインド音源分離 (blind source separation: BSS)
混合系 が未知の条件で分離系 を推定
• 多チャネルBSS
• 観測信号が複数(マイクが複数)
• 空間に対する情報が十分存在するため音質が良い
• 単一チャネルBSS
• 対象の観測信号が単一(マイクが単一)
• 空間に対する情報がないため音質が悪い
ブラインド音源分離
3/17
BSS
混合系 分離系
Ex. 独立ベクトル分析 (IVA) [T. Kim et al, 2007]
独立低ランク行列分析 (ILRMA) [D. Kitamura et al., 2018]
時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019]
Ex. 調波打撃音分離 (HPSS) [N. Ono et al., 2008]
音の時間周波数変換
4/17
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間波形
…
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
X
• 短時間フーリエ変換(short-time Fourier transform: STFT)
一次元(時間)の信号を二次元(時間と周波数)の信号に変換
• 音源モデルとは
• 混合前の各音源の時間周波数構造
• 独立ベクトル分析 (IVA)
• 同じ音源の周波数成分は
同じ時間に生起することを仮定
• 独立低ランク行列分析 (ILRMA)
• 低ランク時間周波数構造を仮定
(同じスペクトルの繰り返しが多い)
• 調波打撃音分離 (HPSS)
• 時間方向に連続な音源
と周波数方向に連続な音源を仮定
• 様々な音源モデルに対応可能なフレームワーク
• 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019]
• 時間周波数マスクで表現される音源モデルを仮定
多チャネルBSSにおける音源モデル
5/17
周波数
時間
周波数
時間
周波数
時間
時間周波数マスクの生成
6/17
• 時間周波数マスクの推定問題
単一チャネル観測信号に対する音源分離
非目的音源を時間周波数領域でマスキングする非線形処理
時間周波数マスク(binary or soft)の推定
時間 [s]
周波数
[Hz]
赤、青の音源から成る混合信号から
赤の音源のみを取り出したい….
赤の音源の部分を”1”
それ以外を”0”
とするようなマスクを掛け合わせる
• 調波打撃音分離 (HPSS) [N. Ono et al., 2008]
スペクトログラムの周波数,時間方向の滑らかさに着目して分離する手法
• HPSSはモノラルの音源分離手法
• HPSSの分離モデルに沿って強力に分離
• 分離のみは強力だが歪みが大きくとても非線形
モノラル音源分離の従来法
7/17
調波音信号
混合信号
調波楽器
打楽器
調波成分
打撃成分
時間
周波数
打撃音信号
• 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019]
• 音源モデルは時間周波数マスクで表現が可能
• この時間周波数マスクをplug-and-playで活用
• TFMBSSのモノラルBSSへの適用
• モノラルのHPSSからマスクを作成しTFMBSSに導入
• これを反復的に更新
• HPSSによる調波打撃音分離+TFMBSSの線形な分離
TFMBSSの概要
8/17
Mask
線形な分離信号
TFMBSS
IVA
ILRMA
FDICA
HPSS
Mask
非線形な分離信号 線形な分離信号
TFMBSS
Iteration
提案手法1のアルゴリズム
9/17
調波分離信号
打撃分離信号
逆STFT
STFT TFMBSS
観測信号
HPSS
スムージング
されたマスク
スムージング
マスク
スムージング
Iteration
調波音の一時分離信号
打撃音の一時分離信号
マスク (old)
提案手法2のアルゴリズム
10/17
HPSS
調波分離信号
打撃分離信号
逆STFT
STFT TFMBSS
観測信号
スムージング
されたマスク
スムージング
スムージング
マスク (old)
HPSS
マスク
Iteration
調波音の一時分離信号
打撃音の一時分離信号
• TFMBSSの反復更新における不安定要素
• 時間周波数マスクが反復ごとに大きく変動
• マスクの変動は安定した音源分離の阻害を招く
• スムージング処理
• スムージングパラメータはスムージング度合いを決定
• この操作を毎反復時,マスク生成後に適用
• 適用後,現在のマスクに代入
• TFMBSSの最適化の安定を図る
時間周波数マスクのスムージング
11/17
現在のマスク 一反復前のマスク
スムージングパラメータ
要素ごとの積
実験条件
12/17
• 実験条件
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2チャンネルで2音源の混合信号
サンプリング周波数16kHz,約10秒の音源
窓長(FFT長) 128 ms,ハン窓
シフト長 64 ms (1/2シフト)
反復回数(HPSS) 15回
反復回数(TFMBSS) 500回
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
5.66cm
50 50
調波音源
(ピアノ,ギターなど曲に依存)
Impulse response E2A
(reverberation time: 300 ms)
ドラム音源
• 実験1
• と を4パターン変化させる
• パラメータがどのようにSDR推移に影響を及ぼすか
• 提案手法1と2の性能比較
• 実験2
• 20曲を選び他の多チャネル音源分離手法との性能比較
• モノラルのHPSSとの性能比較
• スムージングパラメータは実験1を元に決定
実験内容
13/17
0.45 0.05
0.25 0.25
0.125 0.375
0.05 0.45
-3
-1
1
3
5
7
9
11
0 100 200 300 400
SDR
improvement
[dB]
Number of iterations in BSS [times]
β = 0.45/βold = 0.05
β = 0.25/βold = 0.25
β = 0.125/βold = 0.375
β = 0.05/βold = 0.45
実験1における実験結果(手法1)
14/17
• パラメータ調整による提案手法1の反復毎のSDR改善量
変化小
変化大
-4
-2
0
2
4
6
8
10
12
14
0 100 200 300 400
SDR
improvement
[dB]
Number of iterations in BSS [times]
β = 0.45/βold = 0.05
β = 0.25/βold = 0.25
β = 0.125/βold = 0.375
β = 0.05/βold = 0.45
実験1における実験結果(手法2)
15/17
• パラメータ調整による提案手法2の反復毎のSDR改善量
変化小
変化大
• 全20曲におけるSDR改善量の平均値
• 結果
• 2種類の提案手法共に従来のHPSSより性能が向上
• 平均的に提案手法1より提案手法2方が性能が良い
• 提案手法2では実験データ20曲において最も性能が良い
実験2における実験結果
16/17
Method Average SDR [dB]
HPSS 4.68
IVA 7.09
ILRMA 8.56
HPSS + TFMBSS(提案手法1) 7.44
HPSS + TFMBSS(提案手法2) 11.00
• 本研究の背景
• 音源モデル比較の必要性
• 従来は多チャネルBSSにTFMBSSを適用
• 本研究における新規性
• 従来のモノラル音源分離手法を多チャネル化
TFMBSS + HPSS
HPSSの調波打撃音分離を活かしながら線形分離
マスクを反復更新
• マスクのスムージングによる最適化の安定
• 実験結果
• スムージングによるSDR改善量の推移の安定を確認
• 2種類の提案手法共に従来のHPSSより性能が向上
• 研究業績
まとめ
17/17
大藪宗一郎, 北村大地, 矢田部浩平, "調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離,
"日本音響学会 2020年春季研究発表会講演論文集", 3-1-16, pp. ???–???, 埼玉, 2020年3月(査読無).

調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離

Editor's Notes

  • #2 このタイトルで発表させていただきます. 北村研究室 大藪宗一郎です.よろしくお願いします.
  • #3 今日,音声をインプットとしたような機器の普及などに伴い音源分離技術のニーズは高まっています. 音源分離とは,音響メディアを対象とした信号処理技術であり,混合音源を音声,楽器音及び雑音などに分離する技術です. 次に,音源分離の中でも研究が盛んであるブラインド音源分離について解説します.
  • #4 ブラインド音源分離とはマイクや音源の位置などの事前情報が未知という状態から分離系Wを推定するという音源分離手法です. 特に,BSSの中でも観測信号が複数である場合を多チャネルBSS,単一である場合を単一チャネルBSSと言います. 多チャネルBSSにはIVA,ILRMA,TFMBSSなどが挙げられます. 単一チャネルBSSにはHPSSなどが挙げられます. 多チャネルでは分離フィルタの推定において十分に情報が存在するため,高音質であるのに対し,単一チャネルでは情報が少ないため低音質です.
  • #5 そして,音源分離という信号処理分野においての一般的な変換について解説します. 観測した時間信号から任意のフーリエ変換長分,離散フーリエ変換し一本のベクトルを生成します.(クリック)そしてもう一本(クリック)もう一本(クリック)というように 時間軸上に並べることで複素数要素を持った時間周波数表現であるスペクトログラムが生成されます.音源分離においては,このスペクトログラムを信号処理の対象とするのが一般的です.
  • #6 今日に至るまで様々な音源モデルに基づくBSSが提案されてきました. 音源モデルというのは混合前の音源の時間周波数構造に関する仮定です. 例えばILRMAであれば,低ランク時間周波数構造を仮定 というように各手法それぞれに仮定する音源モデルが存在します. 将来的な,より良い音源モデルの探求において,音源モデルの比較はとても重要であるといえます. このことから,様々な音源モデルを統一的に扱えるフレームワークとして 時間周波数マスクで表現される音源モデルを仮定した,時間周波数マスクに基づくBSS TFMBSSが提案されています.
  • #7 ここで,時間周波数マスクについても解説させていただきます. 時間周波数マスクの生成は,単一チャネル観測信号に対する音源分離です. 図のように赤青の混合信号から赤の音源のみを取り出したい時,赤の音源の部分を1,それ以外を0というようなマスクを作成します.(クリック) これを要素ごとに適用することで赤の音源のみを取り出すと言う処理です. しかしながら,時間周波数マスキングは非線形処理であるため,局所的な誤差の発生により分離音源に人工歪みが発生するため音質は高いとは言えません.
  • #8 次にモノラルの音源分離手法の一例として,HPSSを解説をさせていただきます. このスペクトログラム上で縦線が打撃成分(クリック),横線が調波成分であり(クリック), これらを検出するために,打撃成分であれば周波数方向の,調波成分であれば時間方向の滑らかさを見て調波音信号,打撃音信号に分離する手法です. HPSSは分離モデルに沿って強力に分離しますがモノラルBSSということもあってとても非線形で音質が悪いです.
  • #9 次に,TFMBSSについて解説します. TFMBBSは時間周波数マスクで表現された音源モデルが存在すればplug-and-playで活用が可能なフレームワークです. 今日に至るまで多チャネルBSSにTFMBSSを適用してきたという背景があり,本研究では,新たにモノラルBSSへTFMBSSを適用することを提案します. これより線形な分離とHPSSによる長波打撃音分離の両立を実現することを目的としています. 次にHPSSとTFMBSSを用いた2種類のアルゴリズムを提案し,ブロック図で解説します.
  • #10 一つ目はHPSSの動作を忠実に踏襲したアルゴリズムです. まず観測信号を(クリック)STFTして,(クリック)その後TFMBSSに取り込まれます. (クリック)その後調波成分に対する中間変数zH,打撃成分に対するzPを隔てて,(クリック)HPSSに取り込まれ(クリック)調波成分と打撃成分に分離されます. (クリック)そこからマスクを生成し,(クリック)2反復目以降では過去のマスクとスムージングを施し,(クリック)新しくマスクを得ます.スムージング操作については後述します. (クリック)これをTFMBSSに返すという動作を任意の反復回数繰り返した後,(クリック)逆STFTで時間信号に変換し(クリック)線形な打撃成分,調波成分の音源得ます.
  • #11 二つ目はHPSSをフィルタと捉えた排他的アルゴリズムになっています. (クリック)まず提案手法1と同様の動作でzH,zPを隔てて,(クリック)2つの別のHPSSに取り込まれ(クリック)調波成分と打撃成分に分離されます. (クリック)そこからマスクを二組生成し,(クリック)このうちzHに対応したHPSSから生成されたマスクではPのマスクを破棄,もう片方のマスクでは逆にHのマスクを破棄します. この操作によって,zHに対応したHPSSから生成されたマスクからは調波成分ではないものが除去され,もう一方では,打撃成分でないものが除去されます. (クリック)そして同様に過去のマスクとスムージングを施し,(クリック)新しくマスクを得ます.(クリック)そして同じように分離音源を得ます.
  • #12 前述のブロック図にて登場したスムージングについて解説します. TFMBSSは反復的に最適化を行いますが,一反復ごとにマスクを更新する際,マスクが大きく変動すると安定した音源分離がされない場合があります. この問題に対してマスクのスムージングを行うことで解決できるのでは?と考えました. スムージング処理はこの式で行われます.βとβoldはマスクのスムージング度合いを決定するもので,このパラメータをもとに反復毎にスムージングを行いTFMBSSの最適化の安定を図ります. 次に,本研究の有用性を示すために行った二つの実験の結果を示します.
  • #13 まず実験条件として,実験対象は,下のような状況で録音された混合音源です. TFMBSSにおける反復回数は500回で,その一回の反復でHPSSが15回反復更新しています. 主観評価指標としてSDR改善量を用います.
  • #14 一つ目の実験では,マスクのスムージングの有用性を確認します. βとβoldを表のような4パターンで変化させ,このパラメータが反復毎のSDRの推移にどのような影響を与えるか,そして提案手法1と2の性能比較を行います. 二つ目の実験では,前述の音楽信号から20曲を選び従来の多チャネルBSS及び従来のモノラルHPSSと比較します. この時のβとβoldのパラメータ設定は実験1を基に決定します.
  • #15 実験1における提案手法1の反復毎のSDR改善量の推移を示しています.縦軸がSDR改善量で,横軸はBSSの反復回数を示しています. 灰色,藍色,赤色,黄色の順番で灰色線が最も反復間のマスクの変化が大きく黄色線が最もマスクの変化が小さいです. 灰色線,藍色線では反復間のマスクの変化が大きすぎて推移が安定していません.対して,黄色線では推移は安定しているが収束速度と収束点が劣っています. この4パターンでは,赤色線がトレードオフを考慮した最適パラメータといえます.
  • #16 次に,実験1における提案手法2の反復毎のSDR改善量の推移を示しています. パラメータに関する推移の変動は提案手法1と同様ですが, 全体的に安定性が低いです.しかし,最終的な収束スコアは高いと言えます.
  • #17 20曲の最終的なSDR改善量の平均値の表を示します. 最終的な結果として,2種類の提案手法共に従来のHPSSより性能が向上したこと, 全体的に提案手法2のほうが提案手法1よりも性能が良く他の多チャネルBSSよりも性能が良いことが観測されました.
  • #18 最後に総括としまして, まず,音源分離技術のニーズの高まりに応えるためのより良い音源モデルの探求には, 音源モデルの比較が必要であり,そのためにTFMBSSが提案され,従来は多チャネルのBSSに適用してきたという背景があります. そして,本研究の新規性として, モノラルの音源分離手法にTFMBSSを適用することで多チャネル化すること 及び,スムージングによる最適化の安定を提案しました. 実験1ではスムージングによるSDRの推移の安定化を観測し,パラメータ設定においては収束速度・収束値と安定性のトレードオフを設定する必要があるという結果が得られました. 実験2ではTFMBSSのよる線形分離によって従来のHPSSと比較して提案手法のSDR値の明確な上昇を観測しました. これで発表を終わります.
  • #19 次に,実験2における代表3曲の最終的なSDR改善量を示しています.縦軸が曲番号で,横軸はSDR改善量になっています. 有彩色のものが提案手法で,無彩色ものが従来法です. Song no.2と14では,モノラルのHPSSの得手不得手に応じて提案手法のSDRが増幅されたような結果になっています. Song no.9では,提案手法1ではモノラルのHPSSの得手不得手に従っていますが,提案手法2ではモノラルのHPSSのSDR改善量が低くても高いスコアを出しています.
  • #20 次に,実験2における11曲目から20曲目のSDR改善量を示しています. (クリック)同じく青枠の結果ではモノラルのHPSSの得手不得手に応じています. (クリック)緑枠でも,同じく提案手法2のみモノラルのHPSSのSDR改善量が低くても高いスコアを出しています.(クリック)黄枠でも,同じくモノラルのHPSSのスコアに対して提案手法のスコアの伸びが良くないという結果でした.
  • #21 マイクの数による分類として主に3つに分けられます. マイク数が1つの場合をモノラル信号の音源分離, マイクが複数存在するが分離したい音源数よりマイクの数が少ない場合を劣決定条件の音源分離, マイクが複数で分離したい音源よりマイクの数が多い場合を優決定条件の音源分離と言います. マイク数が多いということは情報が多い,と言えるので分離音源は高音質でマイクの数が少なくなるほど低音質になります.HPSSはモノラル信号の音源分離にあたり,ILRMAやIVAは優決定条件の音源分離にあたります.
  • #22 ここで,改めて動機の提示をします. まず,HPSSは単チャネルBSSで音質が優れないという現状があります. これを解決するためモノラルのHPSSから生成した非線形な分離信号を基にマスクを作成しTFMBSSに取り込みます. これより線形な分離とHPSSによる長波打撃音分離の両立を実現することを目的としています. 本発表では,HPSSとTFMBSSを組み合わせた2つのアルゴリズムを解説します.
  • #23 本研究の俯瞰図です. 現在に至るまでILRMAなどの多チャネルBSSに対してTFMBSSを適応してきたという経緯があります. それを単チャネルBSSであるHPSSに適用することで(クリック)HPSSの分離特性を活かしつつ多チャネルの線形分離を実現したい.というのが本研究の目的です.
  • #24 次に,TFMBBSは時間周波数マスクで表現された音源モデルが存在すればplug-and-playで活用が可能なフレームワークです. 要するに時間周波数マスクがあればどんな音源モデルのBSSでも最適化を行うことが可能と言えます. その実態は近接作用素という,端的に言えば射影と最小化を同時に行うような関数を用いた最適化アルゴリズムであり, この最適化アルゴリズムの一部を時間周波数マスクキングで置き換えたものがTFMBSSです.
  • #26 提案手法に移る前に従来法の解説をさせていただきます. HPSSとはスペクトログラムの周波数,時間方向の滑らかさに着目して分離する手法で,この目的関数を最小化することで分離を行う最適化問題です. このスペクトログラム上で縦線が打撃成分(クリック),横線が調波成分であり(クリック), これらを検出するために打撃成分であれば周波数方向の,調波成分であれば時間方向の滑らかさを見て(クリック)ハーモニックマトリックスパーッカッシブマトリックスに分離します.
  • #27 提案手法に移る前に従来法の解説をさせていただきます. HPSSとはスペクトログラムの周波数,時間方向の滑らかさに着目して分離する手法で,この目的関数を最小化することで分離を行う最適化問題です. このスペクトログラム上で縦線が打撃成分(クリック),横線が調波成分であり(クリック), これらを検出するために打撃成分であれば周波数方向の,調波成分であれば時間方向の滑らかさを見て(クリック)ハーモニックマトリックスパーッカッシブマトリックスに分離します.