Advertisement

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

Assistant Professor at National Institute of Technology, Kagawa College
Mar. 19, 2015
Advertisement

More Related Content

Slideshows for you(19)

More from Daichi Kitamura(17)

Advertisement

Recently uploaded(20)

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

  1. Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization 超解像型非負値行列因子分解における分離性能と外挿能力の トレードオフに基づく最適なダイバージェンスの検討 ☆北村大地, 猿渡洋, 中村哲 (奈良先端科学技術大学院大学) 高橋祐, 近藤多伸 (ヤマハ株式会社)
  2. • 音源分離: 複数の音源から成る混合音から特定の音源を分離 • 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 2001] – スパース分解表現による特徴量抽出手法 • 一般に各音源毎に基底を選別することは困難 • 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012] 背景: 非負値行列因子分解による音源分離 Amplitude Amplitude 観測スペクトログラム 基底スペクトル行列 アクティベーション行列 Time Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数 Time Frequency Frequency 2
  3. 本発表における目的 • 頑健なマルチチャネル信号分離手法として,超解像型教師あり NMF及びそのハイブリッド手法を提案 [Kitamura, 2013] 3 L R 方位に関 する分解 超解像型 教師ありNMF  超解像型教師ありNMFに関して,コスト関数をパラメトリックに 拡張した一般化アルゴリズムを提案する  「スパース分解表現」と「教師による超解像処理」が統合された 技術において,最適なコスト関数がどのようなメカニズムで決 まるかを明らかにする
  4. 従来法:教師ありNMFによる音源分離 • 分離したい目的音の教師(サンプル)音を事前に学習 • 学習プロセスで教師スペクトル基底(dictionary) を作成 • 分離プロセスで目的音 と,非目的音 に分離 分離プロセス 教師基底 を固定し,他の変数を最適化 最適化 学習プロセス 教師音から作成した教師スペクトル基底分離目的音の教師音 4無相関にする罰則条件
  5. 提案法:超解像型NMF及びハイブリッド手法 • 方位クラスタリング [Araki, 2007], [Miyabe, 2009] – ステレオ信号による方位情報のクラスタリングを用いた分解手法 • ハイブリッド手法 [Kitamura, 2013] L-champlitude R-ch amplitude :音源成分 :重心ベクトルRight cluster L R Center cluster Left cluster L R 方位クラス タリング 方位情報を用いた分解 スペクトル情報を用いた分解 5 超解像型 教師ありNMF
  6. • 前段: 方位クラスタリング – スペクトログラム上でのハードクラスタリング • 後段: 超解像型教師ありNMF [Kitamura, 2013] – 前段処理によって生成されるバイナリマスク を用いる – 欠落したグリッドを無視し,残った成分だけに教師ありNMFを適用 – 欠落した目的音源成分は教師スペクトルによって外挿され復元 – 同一方位に存在する非目的音源成分を分離 提案法:超解像型NMF及びハイブリッド手法 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 TimeFrequency Time Frequency : 欠落 Time 要素毎の積 Frequency 入力スペクトログラム バイナリマスク 分離された目的クラスタ 目的 方位成分 非目的 方位成分 6
  7. 提案法:超解像型NMF及びハイブリッド手法 Center RightLeft Direction sourcecomponent z (b) Center RightLeft Direction sourcecomponent (a) 目的音源 Center RightLeft Direction sourcecomponent (c) 外挿された 目的音源成分FrequencyofFrequencyofFrequencyof After Input After signal directional clustering super- resolution- based SNMF 方位クラス タリング 超解像型 教師ありNMF バイナリ マスク 7 Time Frequency入力スペクトログラム 目的 方位成分 非目的 方位成分 Time Time Frequency 外挿して復元 Frequency : 欠落 分離された目的クラスタ 復元された目的成分 教師スペクトル 基底
  8. 教師基底外挿における正則化 • 欠落が極端に多いフレームでは外挿誤りを起こす危険がある • 超解像処理としての正則化が必要 8 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 外挿誤りの例 Frequency : 欠落 目的成分がほぼ欠落したフレーム 分離された目的クラスタ : それぞれ行列 の要素, : 論理反転, フロベニウスノルム最小化による正則化 Time : フロベニウスノルム
  9. • 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準 のみが検討されていた 分解モデルとコスト関数 9 分解モデル: コスト関数(ユークリッド距離規準): 教師スペクトル基底(固定) 正則化項 罰則項 : それぞれ行列 の要素, : 正則化項と罰則項の重み係数,: 論理反転, : フロベニウスノルム
  10. • : -divergence関数 [Eguchi, 2001] – パラメータ の値に応じてダイバージェンスが変化 – 特に, の時にユークリッド距離, の時に一般化KLダイバー ジェンス, の時に板倉-斎藤擬距離に対応 – 振幅ドメインのNMFによる 音源分離では, 程度が高精度 コスト関数の一般化 10 一般化コスト関数: 正則化項 罰則項
  11. • コスト関数 を最小化することで変数 の反復型更新式 が得られる • 最小化問題は補助関数法を用いて解くことができる 一般化コスト関数に基づく更新式 11 更新式:
  12. • 4つのメロディからなるステレオの混合音源を作成 • 中央に2つ,左右15°に1つずつ音源を配置 • 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値 最適距離規範の確認実験 実験条件 12 Center 1 2 3 4 Left Right 目的音源 教師用 音源信号 目的音源の音域をカバーする2オクターブの24音階 Dataset Melody 1 Melody 2 Midrange Bass No. 1 Oboe Flute Piano Trombone No. 2 Trumpet Violin Harpsichord Fagotto No. 3 Horn Clarinet Piano Cello
  13. • その他の実験条件 • NMFコストのダイバージェンス と正則化コストのダ イバージェンス のすべての組み合わせ(16通り)で 実験を行い,最適な を検討 – は教師基底学習時と超解像時で常に統一 • 評価値はSDR, SIR, SARを用いる [Vincent, 2006] 最適距離規範の確認実験 実験条件 観測信号 3種のデータセット,合計36パターンのステレオMIDI信号 教師信号 目的音源と同じMIDI信号で音域をカバーする2オクターブ の24音階からなる信号 分解ドメイン 振幅スペクトログラム 基底数 教師基底: 100, その他の基底: 30 重み係数 実験的に調整して定めた値 比較手法 モノラルにミックスダウンした信号に罰則条件付き教師あり NMF (PSNMF)を適用 13 SDR :分離した目的音の品質 SIR :目的音と非目的音の分離度合 SAR :一連の処理で生じた歪みの少なさ 総合的な分離精度
  14. • 各手法における評価値の平均を算出 • 従来の教師ありNMFでは が最適だったが,超解像型教 師ありNMF及びそのハイブリッド手法では が最適 – 最適なダイバージェンスがシフトしている • 正則化コストのダイバージェンスは が極端に性能が悪く, 他の値はほとんど差が無い 最適距離規範の確認実験 実験結果 14 20 15 10 5 0 SIR[dB] 0 1 2 3 Value of NMF 10 8 6 4 2 0 SAR[dB] 0 1 2 3 Value of NMF 12 10 8 6 4 2 0 SDR[dB] 0 1 2 3 Value of NMF 0 PSNMF Proposed hybrid method (reg =0) Proposed hybrid method (reg =1) Proposed hybrid method (reg =2) Proposed hybrid method (reg =3) Good Bad
  15. 15 • 超解像型教師ありNMFには2つのタスクがある • 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適な NMFコストのダイバージェンス が異なるのではないか? • 正味の外挿能力を測る実験 – 正則化コストの は最適値であった1に固定して実験 最適ダイバージェンスシフトの原因の仮説 目的音源のみの信号 成分が欠落した信号 復元された信号 バイナリ マスク 超解像 NMF 音源の分離 教師基底を用いた外挿 超解像型 教師ありNMF
  16. 16 • 正則化コストのダイバージェンス は最適値の1に固定 • NMFコストのダイバージェンス は1よりも少し高い方が,外 挿能力が高くなる • ダイバージェンス が0に近づくと,学習された教師基底がスパー スになる傾向がある 外挿能力の確認実験結果 20 15 10 5 0 SAR[dB] 0 1 2 3 4 Value of NMF Good Bad -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0Amplitude[dB] 543210 Frequency [kHz]
  17. -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] ダイバージェンスの違いによる基底の変化 • 事前学習時において の値が小さいと,教師基底はピークと スパース性が重視され,より局所的な特徴を捉える • 逆に事前学習において の値が大きいと,教師基底は少し滑 らかになり,より大局的な特徴を捉える 17 -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] Attack Sustain Release Amplitude Time Decay Attack Decay Sustain Release Amplitude Time
  18. 最適ダイバージェンスのトレードオフ • 超解像型教師ありNMF及びそのハイブリッド手法における最適な ダイバージェンスは音源分離能力と外挿能力のトレードオフとなる – 振幅スペクトログラムにおける従来の教師ありNMF分離では が 高性能であったが,ハイブリッド手法では が高い性能となる -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] スパース性: 強 スパース性: 弱 18 Performance 分離能力 総合性能 外挿能力 Value of
  19. まとめ • 超解像型教師ありNMFのコスト関数において,NMFコス トと正則化コストを -divergenceで一般化 • 超解像型教師ありNMF及びそのハイブリッド手法におけ る最適なダイバージェンスを実験的に確認 • 音源分離能力と教師基底外挿能力のトレードオフから, 最適なダイバージェンスがシフトする現象を確認 19

Editor's Notes

  1. 始めに,研究の背景について説明します. 音源分離技術とは,複数の音源から成る混合音から特定の音源を分離する信号処理です. 近年特に,非負値行列因子分解,通称NMFを用いた手法が盛んに研究されています. これは,スパース分解表現による特徴量抽出手法です. NMFは,このY=FGの式のように,非負値の成分からなる観測行列Yを,別の二つの非負値行列FとGの行列積に近似して分解表現する手法です. 観測スペクトログラムYを分解したとき,始めの行列の列ベクトルにはスペクトログラム中に頻出するスペクトルパターンが基底として出現し,後ろの行列にはそれぞれのパーツの時間的なゲイン変化が行ベクトルに現れます. 手前の行列を基底行列,後ろの行列をアクティベーション行列と呼びます. したがって,どのスペクトル基底がどの音源に対応しているのかが分かれば,音源の分離ができますが,特定の音源毎に基底を選別することは非常に困難です. そこで,事前に分離したい目的音源の教師情報を用いる教師ありNMFが提案されています.
  2. 次に本発表における目的について説明します. 我々はこれまでに,より頑健なマルチチャネル信号分離手法として,超解像型教師ありNMFとそれを用いたハイブリッド手法を提案してきました. これは,マルチチャネルの信号を方位に関して分解し,その後にさらに超解像型教師ありNMFを適用する手法です. 本発表においては,マルチチャネル信号を対象とした教師あり分解手法という枠組みで,この超解像型教師ありNMFに関して,コスト関数をパラメトリックに拡張した一般化ルゴリズムを提案します. そして,「スパース分解表現」と「教師による超解像処理」が統合された技術において,最適なダイバージェンスがどのようなメカニズムで決まるかを明らかにしていきます,
  3. まず教師ありNMFについて説明します. 教師ありNMFでは分離したい目的音の教師音,サンプル音を事前に学習します. 例えば,この混合音からピアノを分解したいとき,ピアノの各音階などが含まれる教師音をNMFで分解し,ピアノの教師スペクトル基底Fを作ります. そして,作成した教師基底Fを用いて,分離プロセスで混合音源をFG+HUのように分解します. 結果,FGにはピアノの音源が得られ,それ以外の音源はHUに現れます.また,PSNMFにおいては教師基底とその他の基底を無相関にする罰則条件がかけられています.
  4. この教師ありNMFをマルチチャネル信号にも適用できるように,方位クラスタリングを組み合わせたハイブリッド手法を提案してきました. 方位クラスタリングとは,チャネル間の振幅差等の情報を用いてクラスタリングする手法であり,音源を方位毎に分解することができますが,このように同一方位に存在する音源同士は分離できません. ハイブリッド手法では,先に方位に関して分解し,さらに分解しきれなかった成分を「超解像型教師ありNMF」で分解します.
  5. この超解像型教師ありNMFとは,一度失われた目的成分を教師基底から復元する教師ありNMFです. 前段の方位クラスタリングはこの図のようにスペクトログラム上でのバイナリマスキングに相当します. つまり,クラスタリングによってスペクトログラムの各グリッドに目的方位の音が存在するか否かを表現したマスクを作成し,これを掛け算して分解しているにすぎません. この結果,クラスタリングエラーが起きた箇所ではこのように目的の成分の欠落が生じ,人工的な歪みが生じてしまいます. 後段の超解像型教師ありNMFは,このバイナリマスクを用いて欠落したグリッドを無視し,見えているところだけを使って教師ありNMFを適用します. 見えている成分だけで,よくフィットする教師基底をあてがいますので,欠落した穴は外挿されて復元されます.
  6. この図は方位方向に対する音源成分の分布を表しています. 入力のステレオ信号のおいて白色の目的音源の成分と,他の非目的音源成分がこのように分布していた場合, 方位クラスタリングは境界を定めて目的方位以外を切り落とします. この時,目的成分が若干欠けてしまい,この欠けた成分がスペクトログラム上での欠落に対応します. また,同じ方位に存在する成分は残っています. さらに超解像型教師ありNMFを適用すると,教師スペクトル基底を外挿して解像度を復元しながら非目的音源成分を分離することができます.
  7. また,この基底外挿処理は,このフレームのように,欠落が極端に多いフレームではどのような教師基底でも外挿できてしまうため,外挿誤りを起こす危険があります. これを防ぐために,欠落が多いフレームは分離結果のスペクトログラムFGのフロベニウスノルムを小さくするという正則化が与えられています.
  8. 分解モデルはY=FG+HUです. コスト関数では,バイナリマスク i を用いて,欠落グリッド以外のところで距離が定義されています. また,欠落グリッドに対しては正則化項が与えられます. 従来のこの手法では,ダイバージェンス関数はユークリッド距離とKLダイバージェンスのみ導出していましたが,本報告では,メインコストのダイバージェンスと正則化項を一般化し,超解像型教師ありNMFにおける最適なダイバージェンスについて考察します.
  9. こちらが一般化したコスト関数になります. メインコストと正則化項にそれぞれβ-divergenceを導入しています. ここでβ-divergence関数とは,この式で表され,パラメータβに応じてダイバージェンスが変化する関数です. β=2の時にユークリッド距離,1の時にKLダイバージェンス,0の時に板倉斎藤擬距離に対応します. 一般的に,振幅ドメインのNMFによる音源分離では,β=1程度が高性能だと知られています. 本手法の一般化では,NMFのメインコストと正則化コストのβをそれぞれβNMFとβregとし,最適な値を見つけます.
  10. 先程のコスト関数Jを最小化することで変数G,H,Uの反復型更新式が得られます. この最小化問題は補助関数法を用いて解くことができます. 詳細は省きますが,更新式はこのようになります.
  11. 最適なβを見つける為に,評価実験を行いました. この楽譜のような4つのメロディからなるステレオの混合音源を作成し,各音源を中央に2つ,左右15°に一つずつ配置しました. 分離目的音源は常に真ん中に配置しています. そして,この表のように3種類の楽器編成のMIDI信号を用意し,合計36パターンの平均評価値を求めました. また教師音源は,この楽譜のように,目的音源の音域をカバーする2オクターブの24音から成る同じMIDIの信号を用いました.
  12. その他の実験条件はこのようになっています. 比較手法としてモノラルにミックスダウンして従来手法のPSNMFを適用した結果とも比較しました. また,NMFコストのダイバージェンスβNMFと正則化コストのダイバージェンスβregをそれぞれ0,1,2,3と変化させた時のすべての組み合わせの評価値を比較します. 評価値はSDR,SIR,SARの三つを用いました. SDRは分離した目的音の品質,SIRは分離度合,SARは一連の信号処理で生じた歪の少なさを表し,SDRがSIRとSARを含む総合的な分離精度となります.
  13. これは実験結果のグラフです. グラフは左からSDR, SIR, SARの結果を示しています. それぞれ横軸がNMFコストのβNMFであり,棒の色の違いは左端がPSNMF, 右4本はβregの違いを示しています. 最も良かった結果はNMFコストがβ=2,正則化コストがβ=1のときでした. 従来のPSNMFでは一般的に知られている通り,β=1で最高性能となりましたが,ハイブリッド手法ではβ=2最高となります.
  14. このように最適ダイバージェンスが異なる理由についてですが,超解像型教師ありNMFは「音源の分離」と「教師基底を用いた外挿」という二つのタスクがあります. そこで,この二つのタスクにおいて最適なダイバージェンスが異なるのではないか,という仮説を立てました. これを実証する為に,正味の外挿能力を測る実験を行いました. これは,目的音源のみが含まれる信号に対して適当なバイナリマスクをかけ,傷ついた信号を超解像し,その信号を評価するという内容になります. 復元された信号のSAR値が正味の外挿能力を示すことになります. この際,正則化のコストであるβregは最適値であった1に固定して実験を行います.
  15. このグラフが実験結果になります.結果から,NMFコストのダイバージェンスは1よりも高いほうが,外挿能力は高いことが確認できます. これは,βが0に近づいたとき,学習された教師基底がスパースになる傾向があります.
  16. これはあくまで傾向として言えるだけですが,βの値が小さいダイバージェンスでNMF分解をすると,教師基底はピークとスパース性が重視され,より局所的な特徴を捉えるようになります. 逆に,βの値が大きいと,教師基底は少し滑らかになり,より大局的な特徴を捉えるようになります.
  17. このようなスパースすぎる教師基底は,「見えている成分だけを使って外挿する」というタスクにおいては不向きであり,このグラフのように外挿能力が落ちてきます. 一方分離能力はβ=1付近がよくなるため,これらのトレードオフで総合性能が決まることが分かります. したがって,今回の超解像ベースの手法においてはβ=2あたりに総合性能が落ち着いたと考えられます.
  18. These results are average of evaluation scores / for 40-degree signals Where, / SDR indicates the quality of the separated target sound, / SIR indicates degree of separation / between the target and other sounds, / and SAR indicates absence of artificial distortion. Therefore, SDR is the total evaluation score that involves SIR and SAR. From these results, proposed hybrid method outperforms other methods.
  19. And, this is result for 15-degree signals. Similar to the results of 40-degree signal, / proposed hybrid method is effective and robust for the multichannel signal separation. We can confirm that directional clustering and multichannel NMF do not have sufficient performance because they cannot discriminate the sources in the same direction. In contrast, the methods using SNMF can give better results and the proposed method with superresolution-based SNMF outperforms all other methods.
  20. NMF is a type of sparse representation algorithm // that decomposes a nonnegative matrix / into two nonnegative matrices like this. Where Y is an observed spectrogram. F is a basis matrix / that involves spectral patterns of the observed signal as column vectors, // and G is an activation matrix / that corresponds to the activation of each spectral pattern.
  21. In proposed method, / we employed a new supervised NMF algorithm / as an alternative to the conventional PSNMF in the hybrid method.
  22. This is an example of spectrum at one frame, which is obtained by directional clustering. There are many spectral chasms. And, this matrix is the index of separated cluster. Where, ones indicate the grids of separated component by directional clustering, and zeros indicate the grids of chasm in the spectrogram. In proposed supervised NMF, / these spectral chasms are treated as unseen observations / using this index matrix, like this. Therefore, / supervised NMF is applied to only the observed valid components / not unseen observations like these chasms. (The directional clustering is hard clustering, binary masking. And the index matrix of directional clustering is obtained from the separated results. So, we can know where is the chasms. The ones mean observations, and zeros mean unseen observations.)
  23. In addition, the components of the target sound lost after directional clustering / can be extrapolated using supervised bases. In other words, / the resolution of the target spectrogram / is recovered with the superresolution / by the supervised basis extrapolation.
  24. (pointing (a)) This is a directional source distribution of observed stereo signal. The target source is in the center direction, / and other sources are distributed like this.
  25. Directional clustering is a binary masking in the time-frequency domain. So, / the boundary lines are determined by the k-means clustering like this, and separated cluster is obtained. Where, / left and right source components / leak in the center cluster, // and center sources lose some of their components. These lost components / correspond to the spectral chasms in the time-frequency domain. In addition, the interference source in the same direction remains.
  26. Then, after the directional clustering,
  27. the superresolution-based NMF is applied. This NMF separates the target source / and reconstructs lost components with basis extrapolation using supervised bases.
  28. This is conclusions of my talk. Thank you for your attention.
  29. SDR is the total evaluation score as the performance of separation.
  30. しかし,従来の教師ありNMFには,混合された音源の数が多くなると分離精度が低下してしまうという問題があります. これは,異なる音源の間で目的音と類似したスペクトルが現れることに起因しています. そこで,音楽信号はほとんどがステレオの2チャネル信号であるため,そのようなチャネル間の特徴を利用した分解と教師ありNMF分解を有機的に組み合わせたハイブリッド手法を提案しました. この提案手法は修士論文の内容となる予定です.
  31. Next, // we explain directional clustering method. Directional clustering can estimates sources and their direction in multichannel signal. This method can separate sources with spatial information in an observed signal. However, this method cannot separate sources in the same direction, like this.
  32. As another means of addressing multichannel signal separation, Multichannel NMF also has been proposed by Ozerov and Sawada. This method is a natural extension of NMF, and uses spectral and spatial cues. But, this unified method is very difficult optimization problem mathematically / because many variables should be optimized by one cost function. So, this method strongly depends on the initial values.
  33. This is an example of spectrum at one frame, which is obtained by directional clustering. There are many spectral chasms. And, this matrix is the index of separated cluster. Where, ones indicate the grids of separated component by directional clustering, and zeros indicate the grids of chasm in the spectrogram. In proposed supervised NMF, / these spectral chasms are treated as unseen observations / using this index matrix, like this. Therefore, / supervised NMF is applied to only the observed valid components / not unseen observations like these chasms. (The directional clustering is hard clustering, binary masking. And the index matrix of directional clustering is obtained from the separated results. So, we can know where is the chasms. The ones mean observations, and zeros mean unseen observations.)
  34. 始めに,研究の背景について説明します. 一般に音源分離技術とは,複数の音源が混合された信号を,個々の音源に分離する信号処理です. 音楽信号に対して分離を行えば,混合信号中の特定の楽器音のみの音色や音量を変えたり,ユーザが音楽をリミックスするといった能動的な音楽鑑賞が可能になります. この音源分離は,スペクトログラム上で音源毎に分離することで実現できます. このスペクトログラムは,別の音程の2つの音が生じたスペクトログラムです. これを,最初の音と2番目の音のように分離することができれば,音源分離が達成されます.
Advertisement