Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation (in Japanese)

477 views

Published on

Presented at 2013 Spring Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kiyohiro Shikano, Kazunobu Kondo, Yu Takahashi, "Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation," Proceedings of 2013 Spring Meeting of Acoustical Society of Japan, 3-1-11, pp.1057-1060, Tokyo, March 2013.

Published in: Engineering
  • Be the first to comment

Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation (in Japanese)

  1. 1. 種々の実楽器信号に対する 基底変形型教師あり NMF の分離精度評価 奈良先端科学技術大学院大学 ☆北村大地, 猿渡洋, 鹿野清宏 ヤマハ株式会社 近藤多伸, 高橋祐 Evaluation of Separation Accuracy for Various Real Instruments Based on Supervised NMF with Basis Deformation
  2. 2. 研究背景 • 複数の楽器が多重に混合された音楽信号の 中から,特定の楽器音を分離・抽出する技術 は,一般に多重音解析と呼ばれる • ユーザの好み応じて各楽器音を編集する新 しい音楽の楽しみ方や,音楽信号の自動採 譜等に応用できる重要な技術 2
  3. 3. • 多重音解析に用いられる技術の一つとして, 非負値行列因子分解がある [D. D. Lee et al., 1999] • 効率的な反復アルゴリズムが提案され,画像 処理,音響信号処理等様々な分野に応用さ れる 研究背景 3
  4. 4. Time [sec] Frequency[Hz] Nonnegative Matrix Factorization (NMF) 4 … … … … 頻出スペクトル 各スペクトルの タイミングと音量
  5. 5. Time [sec] Frequency[Hz] Nonnegative Matrix Factorization (NMF) 5 … … … … アクティベーション行列 スペクトル基底行列
  6. 6. • 分離する楽器の教師音を用いる手法 学習プロセス 罰則条件付き教師あり NMF [K. Yagi et al., 2010] 6 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成
  7. 7. • 分離する楽器の教師音を用いる手法 学習プロセス 罰則条件付き教師あり NMF [K. Yagi et al., 2010] 7 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 から再構成した スペクトログラムが分離結果
  8. 8. 罰則条件付き教師あり NMF [K. Yagi et al., 2010] • 教師基底 とその他の基底 が互いに無相 関となる罰則条件を与える 8 に教師基底 と同じスペクトル パターンが現れた場合, から 得られる抽出音に欠損が生じる Ex.
  9. 9. 実楽器音を対象とした NMF の信号分離 • 本研究では,実楽器の混合信号から目的の 楽器音を分離する • 従来手法では,混合信号中の目的楽器音と 教師音の音色に差があると分離精度が著しく 劣化する 9 信号分解 実楽器の混合信号 教師音 分離音
  10. 10. 実楽器音を対象とした NMF の信号分離 • 本研究では,実楽器の混合信号から目的の 楽器音を分離する • 従来手法では,混合信号中の目的楽器音と 教師音の音色に差があると分離精度が著しく 劣化する 10 信号分解 実楽器の混合信号 教師音 分離音音色に差があると 分離精度が低下
  11. 11. 実楽器音を対象とした NMF の信号分離 • 同じ種類の楽器であっても,音色は楽器の個 体差や演奏者などに強く依存 • 事前に入手可能な教師音を変形し,分離対 象音に適応させる新たな分解手法が必要 11 事前入手可能な教師音 分離対象音
  12. 12. 基底変形型教師あり NMF • 事前学習した教師スペクトル基底 の変形 12 目的音のスペクトル 教師音のスペクトル Amplitude Frequency 変形 変形 乗法的変形 加法的変形 変形項 は非負値行列で表現できる の成分を変形できない 変形項 は正負の要素値を持つ の成分においても新たな 倍音成分を生成できる : 行列の要素毎の積 ○ × ○ △
  13. 13. 基底変形型教師あり NMF • 事前学習した教師スペクトル基底 の変形 13 目的音のスペクトル 教師音のスペクトル Amplitude Frequency 変形 変形 乗法的変形 加法的変形 変形項 は非負値行列で表現できる の成分を変形できない 変形項 は正負の要素値を持つ の成分においても新たな 倍音成分を生成できる : 行列の要素毎の積 ○ × ○ △
  14. 14. • 次のような分解を提案する • 教師基底 と変形項 は共通のアクティ ベーション を持つ • 教師基底 を変形して目的音に合わせる 基底変形型教師あり NMF 14 を 分離結果とする 目的音のスペクトル 教師音のスペクトル Amplitude Frequency 減算 加算
  15. 15. • 基底 は加算と減算に対応した変形項 • は以下の制約下で正負値を持つ • は教師基底 に対する減算の許容範囲 基底変形型教師あり NMF 15 減算 の場合 30%まで 減算可能
  16. 16. • 基底 は,教師基底 と同じアクティベー ション を持つため,分離目的音と同じタイミ ングで生じる別の楽器のスペクトルが現れる 恐れがある 基底変形型教師あり NMF 16 と と が 全て無相関 目的音 非目的音
  17. 17. • 基底 は,教師基底 と同じアクティベー ション を持つため,分離目的音と同じタイミ ングで生じる別の楽器のスペクトルが現れる 恐れがある 基底変形型教師あり NMF 17 同じタイミングで生じる別の楽器 が,基底 に現れる恐れがある と と が 全て無相関 目的音 非目的音
  18. 18. • 目的関数 基底変形型教師あり NMF 目的関数 18
  19. 19. • 通常の NMF の更新式導出と同様に補助関 数法を用いる • 目的関数 の上限を与える補助関数 を以 下のように定義 • は一般化KLダイバージェンス中の対数 項の上限, は罰則項の上限, は定数 基底変形型教師あり NMF 更新式導出 19
  20. 20. • 補助関数 を最小化することで,間接的に 目的関数 を最小化 • 基底 の更新式を導出するために を で偏微分し とおくと以下の式を得る 基底変形型教師あり NMF 更新式導出 20
  21. 21. • 補助関数 を最小化することで,間接的に 目的関数 を最小化 • 基底 の更新式を導出するために を で偏微分し とおくと以下の式を得る 基底変形型教師あり NMF 更新式導出 21 正負の値を持つ
  22. 22. 基底変形型教師あり NMF 更新式 22 基底行列 更新式 (一般化 KL divergence 規準)
  23. 23. 基底変形型教師あり NMF 更新式 23 基底行列 更新式 (一般化 KL divergence 規準)
  24. 24. 基底変形型教師あり NMF 更新式 24 アクティベーション行列 更新式 (一般化 KL divergence 規準)
  25. 25. 基底変形型教師あり NMF 実験条件 25 入力信号 実録の Fl., Cl., Tb., 及び Pf. の内 2 楽器を等パワーで混合した信号 教師信号 抽出対象楽器の MIDI 音 (MS GS Wavetable SW Synth) 入力信号の音域をカバーする範囲において 半音階で2オクターブ上昇する信号 STFT 窓関数: 矩形 → ハニング 窓長: 92.9 msec, シフト長: 46.4 msec 教師基底数 100 その他基底数 50 変形許容範囲 0.3 更新回数 学習プロセス:500, 分離プロセス:400 各行列の初期値 乱数 各罰則項の重み 実験的に調整した値 分離精度評価値 SDR, SIR, SAR (10回試行の最大値) SDR :分離した目的音の品質 SIR :分離した目的音と非目的音との分離度合 SAR :一連の信号処理によって生じた歪みの少なさ 高いほうが 良い分離
  26. 26. 基底変形型教師あり NMF 実験結果 26 Target sound Other sound Conventional method Proposed method SDR SIR SAR SDR SIR SAR Piano Clarinet 2.4 8.4 4.3 8.4 14.8 9.6 Piano Trombone 3.1 15.8 3.5 11.0 24.4 11.2 Clarinet Flute 0.1 1.8 7.3 0.7 2.6 7.2 Clarinet Trombone 3.2 14.6 3.7 9.6 23.9 9.8 Flute Piano 5.8 12.8 7.0 7.0 14.9 7.9 Trombone Clarinet 2.1 12.4 2.8 4.7 19.3 4.9 各評価値の 平均値 0 1 2 3 4 5 6 7 8 9 Conventional method Proposed method SDR[dB] 0 2 4 6 8 10 12 14 16 18 20 22 24 Conventional method Proposed method SIR[dB] 0 1 2 3 4 5 6 7 8 9 10 Conventional method Proposed method SAR[dB]
  27. 27. 4 3 2 1 0 Frequency[kHz] 43210 Time [s] スペクトログラムでの比較 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] (a) 混合信号 (Pf. & Tb.) (b) Pf. のみの信号 (c) 従来手法による Pf. 分離信号 (d) 提案手法による Pf. 分離信号
  28. 28. 4 3 2 1 0 Frequency[kHz] 43210 Time [s] スペクトログラムでの比較 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] (a) 混合信号 (Pf. & Tb.) (b) Pf. のみの信号 (c) 従来手法による Pf. 分離信号 (d) 提案手法による Pf. 分離信号
  29. 29. • 教師音を用いた実楽器音の音源分離手法と して,基底変形型教師あり NMF を提案 • 提案法は従来法より優れた分離を実現し,よ り実音に近い自然な分離音が得られる • 加算変形に対する許容範囲の付与 • 罰則項の重みパラメータの最適値推定方法 の検討 • マルチチャネル信号分解への応用 まとめと今後 29

×