Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

666 views

Published on

Presented at IEICE EA conference (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kiyohiro Shikano, Kazunobu Kondo, Yu Takahashi, "Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization," IEICE technical Report, EA2013-14, vol.113, no.27, pp.79-84, Okayama, May 2013.

Published in: Engineering
  • Be the first to comment

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

  1. 1. 超解像に基づく教師あり非負値行列因子分解の 最適距離規範に関する検討 奈良先端科学技術大学院大学 北村大地 猿渡洋 鹿野清宏 ヤマハ株式会社 近藤多伸 高橋祐 Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization
  2. 2. 研究背景 • 複数の楽器音が多重に混合された音楽信号 から,楽器音を分離・抽出 音楽信号分解 • 応用例 – ユーザが好み応じて各楽器音を編集 – 音楽信号の自動採譜 – 音の拡張現実 (AR) 等 2
  3. 3. • 非負値行列因子分解 [Lee, et al., 1999] • データのスパース性,重ね合わせ表現を考慮 • 効率的な乗法型更新式 • 画像処理,信号処理等様々な分野への応用 研究背景 3
  4. 4. Time [sec] Frequency[Hz] Nonnegative Matrix Factorization (NMF) 4 … … … … 頻出スペクトル 各スペクトルの タイミングと音量
  5. 5. Time [sec] Frequency[Hz] Nonnegative Matrix Factorization (NMF) 5 … … … … アクティベーション行列 スペクトル基底行列
  6. 6. • NMF では,分解行列因子の と を最適 化するための目的関数が距離関数として与 えられる • この距離関数はデータや分解する目的に応 じて使い分けられる – 音源分離: 一般化KLダイバージェンス – 自動採譜: 板倉-斉藤擬距離 NMF の目的関数 6 : 任意の距離関数 ex.)
  7. 7. • 一般化距離関数 -divergence [Eguchi, et al., 2001] 7 : ユークリッド距離 : 一般化KLダイバージェンス : 板倉-斉藤擬距離 スパース性が重視 された距離尺度に -divergence について
  8. 8. • における のグラフ 8 -divergence について 5x10 2 4 3 2 1 0 IS-divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =0) 25 20 15 10 5 0 KL-divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =1) 12 10 8 6 4 2 0 EUC-distance -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =2) が正 入力変数 がデータ より大きい が負 入力変数 がデータ より小さい 板倉-斉藤擬距離やKL-divergenceでは大きな距離値に 板倉-斉藤擬距離やKL-divergenceでは小さな距離値に
  9. 9. 9 -divergence について 5x10 2 4 3 2 1 0 IS-divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =0) 25 20 15 10 5 0 KL-divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =1) 12 10 8 6 4 2 0 EUC-distance -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =2) • における のグラフ -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] スパース性: 強 スパース性: 弱
  10. 10. -divergence について 10 • における のグラフ 100 80 60 40 20 0 -divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =3) 9x10 2 8 7 6 5 4 3 2 1 0 -divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =4) 5x10 97 0 -divergence -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x =100) さらに を大きくすると,入力変数 とデータ を 入れ替えたような性質になる
  11. 11. • -divergence の全ての において収束性が 保障された更新式の導出 -divergence規範NMF [Nakano, et al., 2010] 11 はそれぞれ の要素
  12. 12. • 分離する楽器の教師音を用いる手法 学習プロセス 12 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012] は となるべく無相関となるように求める
  13. 13. • 分離する楽器の教師音を用いる手法 学習プロセス Penalized Supervised NMF (PSNMF) 13 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 から再構成した スペクトログラムが分離結果 [Yagi, et al., 2012]
  14. 14. • PSNMF の問題点 – 混合された音源数 (楽器の種類数) が 4 つ以上 のように多くなると分離精度が低下 • 原因 – 様々な楽器の間で類似したスペクトルが現れる – 学習基底の重ね合わせにより別の楽器のスペク トルを表現してしまう 14 Penalized Supervised NMF (PSNMF) [Yagi, et al., 2012]
  15. 15. 方位クラスタリング [Miyabe, et al., 2009] • ステレオ信号を対象とした方位分解手法 • チャネル間の定位情報 (振幅差と位相差) を 用いてクラスタリング 15 L R L-chの入力信号 R-ch の入力信号 :音源成分 :空間代表ベクトル
  16. 16. クラスタリングによるバイナリマスクの生成 • ハードクラスタリングは完全スパース性を仮定 • スペクトログラムのグリッドが方位クラスタに属 するか否かを示すバイナリマスクが生成 16 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 時間 周波数 : 目的楽音成分 時間 周波数 時間 周波数 : 不要音成分 :アダマール積 (要素積) 入力信号 バイナリマスク 分解されたクラスタ
  17. 17. 方位クラスタリングの問題点 • 問題点 – 実際には完全スパース性が成り立たない為,クラ スタリング誤りによる人工的な歪みが生じる – 同一方位にある音源の分解はできない 17 時間 周波数 分解されたクラスタ -40 -20 0 20 40Amplitude[dB] 10008006004002000 Frequency [Hz] L R
  18. 18. Multichannel NMF • NMF をマルチチャネル信号へと拡張 – チャネル間の位相情報も利用して信号分解 • 方位と調波構造を統一してモデル化し1つの コスト関数で最適化 • 問題点 – 1つのコスト関数で多くの変数を最適化しようとす るため,非常に困難な推定問題 – 初期値依存性が極端に強く,頑健に動作させるこ とが難しい 18 [Sawada, et al., 2012] [Ozerov, et al., 2010]
  19. 19. 従来手法のまとめ • PSNMF – モノラル信号が対象 – 教師あり分解 – 混合楽器数が増加すると分離精度が低下 • 方位クラスタリング – マルチチャネル信号が対象 – 人工的な歪みが発生 – 同一方位の音源は分解できない • Multichannel NMF – マルチチャネル信号が対象 – 初期値依存性が強く,頑健性に欠ける 19
  20. 20. • マルチチャネル信号を対象として高精度かつ 頑健に動作する教師あり信号分解手法 – 前段に方位クラスタリングによる方位分解 – 分解された目的方位クラスタに対して教師あり NMF を適用し目的楽器音を分離 – 方位分解と調波構造による音源分離のそれぞれ に対して適切な手法を用いる分割統治法 20 提案手法 方位クラスタリング L R 教師あり NMF
  21. 21. – 方位クラスタリングのバイナリマ スクによってスペクトログラムの 解像度が低下 – 通常の PSNMF を後段に接続す ると,歪みが発生 21 方位分解と教師あり NMF のハイブリッド手法 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 時間 周波数 : 目的楽音成分 時間 周波数 時間周波数 : 不要音成分 -40 -20 0 20 40 Amplitude[dB] 10008006004002000 Frequency [Hz] • 後段の教師あり NMF について : 欠落
  22. 22. • 超解像に基づく教師あり NMF – 欠落を観測できなかった成分として NMF の誤差 関数から省く – 観測可能な成分のみを考慮し,表現できる教師基 底をフィッティングさせる – 欠落成分は教師基底によって外挿される (超解像) 22 方位分解と教師あり NMF のハイブリッド手法 目的音成分の穴を NMF の誤差関数から省く 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 1 0 時間 周波数 : 目的楽音成分 時間 周波数 時間周波数 : 欠落 : 不要音成分
  23. 23. • ハイブリッド手法の処理の流れ 23 方位分解と教師あり NMF のハイブリッド手法 方位 音源成分 目的音成分
  24. 24. • ハイブリッド手法の処理の流れ 24 方位分解と教師あり NMF のハイブリッド手法 方位 音源成分 目的音成分 方位 音源成分 目的方位成分 目的成分 の欠落
  25. 25. • ハイブリッド手法の処理の流れ 25 方位分解と教師あり NMF のハイブリッド手法 方位 音源成分 目的成分 の欠落
  26. 26. • ハイブリッド手法の処理の流れ 26 方位分解と教師あり NMF のハイブリッド手法 方位 音源成分 外挿された 目的成分 方位 音源成分 目的成分 の欠落
  27. 27. • 超解像における正則化の必要性 – あるフレームにおいて観測可能な成分が極端に少 ない場合,いかなる教師基底もマッチングできる – 間違った教師基底が選択されてスペクトルが外挿 される可能性がある 27 方位分解と教師あり NMF のハイブリッド手法 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 欠落グリッド数が多く (約99%が穴), 外挿誤りが生じたフレーム 外挿誤りを防ぐための 正則化が必要
  28. 28. • ノルム最小化による正則化 28 方位分解と教師あり NMF のハイブリッド手法 穴が極端に多いフレーム 本来目的音成分が 存在していなかった 事前仮定 – 事前仮定を導入 – それぞれのフレームにおいて,穴の数が多いほど ノルムが小さくなる (出力音が小さくなる) 教師基 底を選択してフィッティング
  29. 29. • 超解像に基づく教師あり NMF コスト関数 – は目的楽器の教師基底 – は方位クラスタリングのバイナリインデックス – はインデックス (0, 1) の論理反転 – はそれぞれ直交化項,正則化項の重み係数 29 方位分解と教師あり NMF のハイブリッド手法
  30. 30. • 超解像に基づく教師あり NMF コスト関数 – は目的楽器の教師基底 – は方位クラスタリングのバイナリインデックス – はインデックス (0, 1) の論理反転 – はそれぞれ直交化項,正則化項の重み係数 30 方位分解と教師あり NMF のハイブリッド手法 距離関数に  -divergence を用いた場合の更新式を導出し, 超解像に基づく教師あり NMF において最適な距離規範の検討を行う
  31. 31. • 更新式導出は補助関数法を用いる – コスト関数 の上限を与える補助関数を定義 – コスト関数を間接的に最小化 超解像に基づく教師あり NMF 更新式導出 31 は変数の集合, はバイナリマスクのインデックス行列 の要素
  32. 32. • コスト関数 (上式) の第一項は定数 • 第二項,第三項,第四項は の値に応じて凸 関数 (convex) か凹関数 (concave) になる 超解像に基づく教師あり NMF 更新式導出 32 concave convex convex concave convex convex convex convex concave
  33. 33. • 各項の上限関数は以下の不等式を用いて設 計できる – 凸関数: Jensen の不等式 – 凹関数: 接線不等式 超解像に基づく教師あり NMF 更新式導出 33 : 凸関数 : 凹関数
  34. 34. 超解像に基づく教師あり NMF 更新式 34 • 補助関数を各変数で微分し,補助変数の等 号成立条件を代入することで更新式を導出 • 超解像に基づく教師あり NMF 更新式
  35. 35. 超解像に基づく教師あり NMF 実験条件 35 目的音信号 (MIDI) フルート,オーボエ,ピアノ,トロンボーン 観測信号 (MIDI) 4 種類の楽器の等パワー混合信号 教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音 方位クラスタ数 3 基底数 教師基底: 100, その他の基底: 30 NMF の更新回数 教師基底学習時: 500, 分離時: 400 重み係数 m , l 評価値が最も高くなる値を実験的に求める 距離規範 (教師基底学習時と分離時では統一) 比較手法 PSNMF単体 超解像に基づく教師あり NMF を用いたハイブリッド手法 客観評価尺度 Signal to distortion ratio (SDR: 目的音の品質), Source to interference ratio (SIR: 分離度合), Sources to artifact ratio (SAR: 処理歪みの少なさ)
  36. 36. 超解像に基づく教師あり NMF 実験条件 • 入力信号 – 左右の音源の定位角 度は15 , 40 を用意 – 目的音源は常に中央 (1番) に定位 – 4 種の目的音源のそれ ぞれに対して非目的音 の配置が 3 パターン – 計 12 パターンの音源 に分離実験を行った評 価値の平均 36 Center 1 2 3 4 Left Right
  37. 37. • 比較手法 超解像に基づく教師あり NMF 実験条件 37 Input stereo signal L-ch R-ch STFT Directional clustering Center component L-ch R-ch center cluster Index of based SNMF Superresolution- based SNMF Superresolution- ISTFT ISTFT Mixing Extracted signal Input stereo signal L-ch R-ch STFT Monaural component PSNMF ISTFT Mixing Extracted signal PSNMF 超解像に基づくハイブリッド手法 入力信号をモノラルにミックスダウン
  38. 38. • の入力信号の結果 • 従来の PSNMF では (KL-divergence) が最も良い分離精度 – 従来の NMF を用いた音源分離の研究で経験的 に知られていた事実 超解像に基づく教師あり NMF 実験結果 38 14 12 10 8 6 4 2 0 SDR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 25 20 15 10 5 0 SIR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 10 8 6 4 2 0 SAR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF
  39. 39. • の入力信号の結果 • 従来の PSNMF では (KL-divergence) が最も良い分離精度 – 従来の NMF を用いた音源分離の研究で経験的 に知られていた事実 超解像に基づく教師あり NMF 実験結果 39 14 12 10 8 6 4 2 0 SDR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 25 20 15 10 5 0 SIR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 10 8 6 4 2 0 SAR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF
  40. 40. • の入力信号の結果 • 超解像に基づく教師あり NMF では (EUC-distance) が最も良い分離精度 – 通常の音源分離とは異なる結果に 超解像に基づく教師あり NMF 実験結果 40 14 12 10 8 6 4 2 0 SDR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 25 20 15 10 5 0 SIR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 10 8 6 4 2 0 SAR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF
  41. 41. • の入力信号の結果 • においても同様の結果となった 超解像に基づく教師あり NMF 実験結果 41 14 12 10 8 6 4 2 0 SDR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 25 20 15 10 5 0 SIR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF 10 8 6 4 2 0 SAR[dB] 0 1 2 3 4 Value of  PSNMF Superresolution-based SNMF
  42. 42. • 通常の NMF 音源分離 – KL-divergence ( ) が分離精度が良い • 今回の PSNMF の結果や多くの論文で示されている • 超解像に基づく教師あり NMF – EUC-distance ( ) が良い結果となった • 超解像処理を用いる NMF の最適な距離規範 は EUC-distance といえる 超解像に基づく教師あり NMF 考察 42
  43. 43. • の値が 0 に近くなるほど – 事前学習時 • 教師基底はピークとスパース性を重視 • アクティベーションのスパース性から局所的 (アタック部, サスティン部等) な特徴を良く捉えた基底が作られる 超解像に基づく教師あり NMF 考察 43 -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] Attack Sustain Release Amplitude Time Decay
  44. 44. • の値が大きくなるほど – 事前学習時 • 教師基底はそれほどスパースにならず,少し滑らか • より大局的な特徴を捉えた教師基底が学習される 超解像に基づく教師あり NMF 考察 44 Attack Decay Sustain Release Amplitude Time -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz]
  45. 45. • 超解像に基づく教師あり NMF – 分離時 • 見えている成分のみで教師基底のフィッティングを行わ なければならない • 教師基底がスパースで局所的な特徴を捉えた教師基 底は外挿しにくい • 逆に少し滑らかで大局的な表現が可能な教師基底の 方が外挿しやすい 超解像に基づく教師あり NMF 考察 45 -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz]
  46. 46. • 超解像に基づく教師あり NMF – 分離時 超解像に基づく教師あり NMF 考察 46 -10 -8 -6 -4 -2 0Amplitude[dB] 543210 Frequency [kHz] -10 -8 -6 -4 -2 0 Amplitude[dB] 543210 Frequency [kHz] 性能 分離精度 外挿能力 スパース性: 強 スパース性: 弱 総合的な性能
  47. 47. • ハイブリッド音源分離手法である超解像に基 づく教師あり NMF において -divergenceを 用いた更新式を導出 • 超解像処理を含む音源分離 NMF では EUC-distance が最適な距離規範であること を示した • バイノーラル信号に対する分離精度の確認 • 方位クラスタリング以外の方位分解手法を用 いた場合の実験 まとめと今後 47

×