Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

635 views

Published on

Presented at 2013 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, Kazunobu Kondo, Yu Takahashi, "Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization," Proceedings of 2013 Autumn Meeting of Acoustical Society of Japan, 1-1-6, pp.583-586, Aichi, September 2013 (学生優秀発表賞受賞).

Published in: Engineering
  • Be the first to comment

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

  1. 1. Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization 超解像型非負値行列因子分解における分離性能と外挿能力の トレードオフに基づく最適なダイバージェンスの検討 ☆北村大地, 猿渡洋, 中村哲 (奈良先端科学技術大学院大学) 高橋祐, 近藤多伸 (ヤマハ株式会社)
  2. 2. • 音源分離: 複数の音源から成る混合音から特定の音源を分離 • 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 2001] – スパース分解表現による特徴量抽出手法 • 一般に各音源毎に基底を選別することは困難 • 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012] 背景: 非負値行列因子分解による音源分離 Amplitude Amplitude 観測スペクトログラム 基底スペクトル行列 アクティベーション行列 Time Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数 Time Frequency Frequency 2
  3. 3. 本発表における目的 • 頑健なマルチチャネル信号分離手法として,超解像型教師あり NMF及びそのハイブリッド手法を提案 [Kitamura, 2013] 3 L R 方位に関 する分解 超解像型 教師ありNMF  超解像型教師ありNMFに関して,コスト関数をパラメトリックに 拡張した一般化アルゴリズムを提案する  「スパース分解表現」と「教師による超解像処理」が統合された 技術において,最適なコスト関数がどのようなメカニズムで決 まるかを明らかにする
  4. 4. 従来法:教師ありNMFによる音源分離 • 分離したい目的音の教師(サンプル)音を事前に学習 • 学習プロセスで教師スペクトル基底(dictionary) を作成 • 分離プロセスで目的音 と,非目的音 に分離 分離プロセス 教師基底 を固定し,他の変数を最適化 最適化 学習プロセス 教師音から作成した教師スペクトル基底分離目的音の教師音 4無相関にする罰則条件
  5. 5. 提案法:超解像型NMF及びハイブリッド手法 • 方位クラスタリング [Araki, 2007], [Miyabe, 2009] – ステレオ信号による方位情報のクラスタリングを用いた分解手法 • ハイブリッド手法 [Kitamura, 2013] L-champlitude R-ch amplitude :音源成分 :重心ベクトルRight cluster L R Center cluster Left cluster L R 方位クラス タリング 方位情報を用いた分解 スペクトル情報を用いた分解 5 超解像型 教師ありNMF
  6. 6. • 前段: 方位クラスタリング – スペクトログラム上でのハードクラスタリング • 後段: 超解像型教師ありNMF [Kitamura, 2013] – 前段処理によって生成されるバイナリマスク を用いる – 欠落したグリッドを無視し,残った成分だけに教師ありNMFを適用 – 欠落した目的音源成分は教師スペクトルによって外挿され復元 – 同一方位に存在する非目的音源成分を分離 提案法:超解像型NMF及びハイブリッド手法 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 TimeFrequency Time Frequency : 欠落 Time 要素毎の積 Frequency 入力スペクトログラム バイナリマスク 分離された目的クラスタ 目的 方位成分 非目的 方位成分 6
  7. 7. 提案法:超解像型NMF及びハイブリッド手法 Center RightLeft Direction sourcecomponent z (b) Center RightLeft Direction sourcecomponent (a) 目的音源 Center RightLeft Direction sourcecomponent (c) 外挿された 目的音源成分FrequencyofFrequencyofFrequencyof After Input After signal directional clustering super- resolution- based SNMF 方位クラス タリング 超解像型 教師ありNMF バイナリ マスク 7 Time Frequency入力スペクトログラム 目的 方位成分 非目的 方位成分 Time Time Frequency 外挿して復元 Frequency : 欠落 分離された目的クラスタ 復元された目的成分 教師スペクトル 基底
  8. 8. 教師基底外挿における正則化 • 欠落が極端に多いフレームでは外挿誤りを起こす危険がある • 超解像処理としての正則化が必要 8 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 外挿誤りの例 Frequency : 欠落 目的成分がほぼ欠落したフレーム 分離された目的クラスタ : それぞれ行列 の要素, : 論理反転, フロベニウスノルム最小化による正則化 Time : フロベニウスノルム
  9. 9. • 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準 のみが検討されていた 分解モデルとコスト関数 9 分解モデル: コスト関数(ユークリッド距離規準): 教師スペクトル基底(固定) 正則化項 罰則項 : それぞれ行列 の要素, : 正則化項と罰則項の重み係数,: 論理反転, : フロベニウスノルム
  10. 10. • : -divergence関数 [Eguchi, 2001] – パラメータ の値に応じてダイバージェンスが変化 – 特に, の時にユークリッド距離, の時に一般化KLダイバー ジェンス, の時に板倉-斎藤擬距離に対応 – 振幅ドメインのNMFによる 音源分離では, 程度が高精度 コスト関数の一般化 10 一般化コスト関数: 正則化項 罰則項
  11. 11. • コスト関数 を最小化することで変数 の反復型更新式 が得られる • 最小化問題は補助関数法を用いて解くことができる 一般化コスト関数に基づく更新式 11 更新式:
  12. 12. • 4つのメロディからなるステレオの混合音源を作成 • 中央に2つ,左右15°に1つずつ音源を配置 • 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値 最適距離規範の確認実験 実験条件 12 Center 1 2 3 4 Left Right 目的音源 教師用 音源信号 目的音源の音域をカバーする2オクターブの24音階 Dataset Melody 1 Melody 2 Midrange Bass No. 1 Oboe Flute Piano Trombone No. 2 Trumpet Violin Harpsichord Fagotto No. 3 Horn Clarinet Piano Cello
  13. 13. • その他の実験条件 • NMFコストのダイバージェンス と正則化コストのダ イバージェンス のすべての組み合わせ(16通り)で 実験を行い,最適な を検討 – は教師基底学習時と超解像時で常に統一 • 評価値はSDR, SIR, SARを用いる [Vincent, 2006] 最適距離規範の確認実験 実験条件 観測信号 3種のデータセット,合計36パターンのステレオMIDI信号 教師信号 目的音源と同じMIDI信号で音域をカバーする2オクターブ の24音階からなる信号 分解ドメイン 振幅スペクトログラム 基底数 教師基底: 100, その他の基底: 30 重み係数 実験的に調整して定めた値 比較手法 モノラルにミックスダウンした信号に罰則条件付き教師あり NMF (PSNMF)を適用 13 SDR :分離した目的音の品質 SIR :目的音と非目的音の分離度合 SAR :一連の処理で生じた歪みの少なさ 総合的な分離精度
  14. 14. • 各手法における評価値の平均を算出 • 従来の教師ありNMFでは が最適だったが,超解像型教 師ありNMF及びそのハイブリッド手法では が最適 – 最適なダイバージェンスがシフトしている • 正則化コストのダイバージェンスは が極端に性能が悪く, 他の値はほとんど差が無い 最適距離規範の確認実験 実験結果 14 20 15 10 5 0 SIR[dB] 0 1 2 3 Value of NMF 10 8 6 4 2 0 SAR[dB] 0 1 2 3 Value of NMF 12 10 8 6 4 2 0 SDR[dB] 0 1 2 3 Value of NMF 0 PSNMF Proposed hybrid method (reg =0) Proposed hybrid method (reg =1) Proposed hybrid method (reg =2) Proposed hybrid method (reg =3) Good Bad
  15. 15. 15 • 超解像型教師ありNMFには2つのタスクがある • 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適な NMFコストのダイバージェンス が異なるのではないか? • 正味の外挿能力を測る実験 – 正則化コストの は最適値であった1に固定して実験 最適ダイバージェンスシフトの原因の仮説 目的音源のみの信号 成分が欠落した信号 復元された信号 バイナリ マスク 超解像 NMF 音源の分離 教師基底を用いた外挿 超解像型 教師ありNMF
  16. 16. 16 • 正則化コストのダイバージェンス は最適値の1に固定 • NMFコストのダイバージェンス は1よりも少し高い方が,外 挿能力が高くなる • ダイバージェンス が0に近づくと,学習された教師基底がスパー スになる傾向がある 外挿能力の確認実験結果 20 15 10 5 0 SAR[dB] 0 1 2 3 4 Value of NMF Good Bad -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0Amplitude[dB] 543210 Frequency [kHz]
  17. 17. -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] ダイバージェンスの違いによる基底の変化 • 事前学習時において の値が小さいと,教師基底はピークと スパース性が重視され,より局所的な特徴を捉える • 逆に事前学習において の値が大きいと,教師基底は少し滑 らかになり,より大局的な特徴を捉える 17 -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] Attack Sustain Release Amplitude Time Decay Attack Decay Sustain Release Amplitude Time
  18. 18. 最適ダイバージェンスのトレードオフ • 超解像型教師ありNMF及びそのハイブリッド手法における最適な ダイバージェンスは音源分離能力と外挿能力のトレードオフとなる – 振幅スペクトログラムにおける従来の教師ありNMF分離では が 高性能であったが,ハイブリッド手法では が高い性能となる -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] スパース性: 強 スパース性: 弱 18 Performance 分離能力 総合性能 外挿能力 Value of
  19. 19. まとめ • 超解像型教師ありNMFのコスト関数において,NMFコス トと正則化コストを -divergenceで一般化 • 超解像型教師ありNMF及びそのハイブリッド手法におけ る最適なダイバージェンスを実験的に確認 • 音源分離能力と教師基底外挿能力のトレードオフから, 最適なダイバージェンスがシフトする現象を確認 19

×