Successfully reported this slideshow.

Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation (in Japanese)

1

Share

1 of 29
1 of 29

Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation (in Japanese)

1

Share

Download to read offline

Presented at 2013 Spring Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kiyohiro Shikano, Kazunobu Kondo, Yu Takahashi, "Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation," Proceedings of 2013 Spring Meeting of Acoustical Society of Japan, 3-1-11, pp.1057-1060, Tokyo, March 2013.

Presented at 2013 Spring Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Hiroshi Saruwatari, Kiyohiro Shikano, Kazunobu Kondo, Yu Takahashi, "Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation," Proceedings of 2013 Spring Meeting of Acoustical Society of Japan, 3-1-11, pp.1057-1060, Tokyo, March 2013.

More Related Content

Viewers also liked

More from Daichi Kitamura

Related Books

Free with a 14 day trial from Scribd

See all

Related Audiobooks

Free with a 14 day trial from Scribd

See all

Evaluation of separation accuracy for various real instruments based on supervised NMF with basis deformation (in Japanese)

  1. 1. 種々の実楽器信号に対する 基底変形型教師あり NMF の分離精度評価 奈良先端科学技術大学院大学 ☆北村大地, 猿渡洋, 鹿野清宏 ヤマハ株式会社 近藤多伸, 高橋祐 Evaluation of Separation Accuracy for Various Real Instruments Based on Supervised NMF with Basis Deformation
  2. 2. 研究背景 • 複数の楽器が多重に混合された音楽信号の 中から,特定の楽器音を分離・抽出する技術 は,一般に多重音解析と呼ばれる • ユーザの好み応じて各楽器音を編集する新 しい音楽の楽しみ方や,音楽信号の自動採 譜等に応用できる重要な技術 2
  3. 3. • 多重音解析に用いられる技術の一つとして, 非負値行列因子分解がある [D. D. Lee et al., 1999] • 効率的な反復アルゴリズムが提案され,画像 処理,音響信号処理等様々な分野に応用さ れる 研究背景 3
  4. 4. Time [sec] Frequency[Hz] Nonnegative Matrix Factorization (NMF) 4 … … … … 頻出スペクトル 各スペクトルの タイミングと音量
  5. 5. Time [sec] Frequency[Hz] Nonnegative Matrix Factorization (NMF) 5 … … … … アクティベーション行列 スペクトル基底行列
  6. 6. • 分離する楽器の教師音を用いる手法 学習プロセス 罰則条件付き教師あり NMF [K. Yagi et al., 2010] 6 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成
  7. 7. • 分離する楽器の教師音を用いる手法 学習プロセス 罰則条件付き教師あり NMF [K. Yagi et al., 2010] 7 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 から再構成した スペクトログラムが分離結果
  8. 8. 罰則条件付き教師あり NMF [K. Yagi et al., 2010] • 教師基底 とその他の基底 が互いに無相 関となる罰則条件を与える 8 に教師基底 と同じスペクトル パターンが現れた場合, から 得られる抽出音に欠損が生じる Ex.
  9. 9. 実楽器音を対象とした NMF の信号分離 • 本研究では,実楽器の混合信号から目的の 楽器音を分離する • 従来手法では,混合信号中の目的楽器音と 教師音の音色に差があると分離精度が著しく 劣化する 9 信号分解 実楽器の混合信号 教師音 分離音
  10. 10. 実楽器音を対象とした NMF の信号分離 • 本研究では,実楽器の混合信号から目的の 楽器音を分離する • 従来手法では,混合信号中の目的楽器音と 教師音の音色に差があると分離精度が著しく 劣化する 10 信号分解 実楽器の混合信号 教師音 分離音音色に差があると 分離精度が低下
  11. 11. 実楽器音を対象とした NMF の信号分離 • 同じ種類の楽器であっても,音色は楽器の個 体差や演奏者などに強く依存 • 事前に入手可能な教師音を変形し,分離対 象音に適応させる新たな分解手法が必要 11 事前入手可能な教師音 分離対象音
  12. 12. 基底変形型教師あり NMF • 事前学習した教師スペクトル基底 の変形 12 目的音のスペクトル 教師音のスペクトル Amplitude Frequency 変形 変形 乗法的変形 加法的変形 変形項 は非負値行列で表現できる の成分を変形できない 変形項 は正負の要素値を持つ の成分においても新たな 倍音成分を生成できる : 行列の要素毎の積 ○ × ○ △
  13. 13. 基底変形型教師あり NMF • 事前学習した教師スペクトル基底 の変形 13 目的音のスペクトル 教師音のスペクトル Amplitude Frequency 変形 変形 乗法的変形 加法的変形 変形項 は非負値行列で表現できる の成分を変形できない 変形項 は正負の要素値を持つ の成分においても新たな 倍音成分を生成できる : 行列の要素毎の積 ○ × ○ △
  14. 14. • 次のような分解を提案する • 教師基底 と変形項 は共通のアクティ ベーション を持つ • 教師基底 を変形して目的音に合わせる 基底変形型教師あり NMF 14 を 分離結果とする 目的音のスペクトル 教師音のスペクトル Amplitude Frequency 減算 加算
  15. 15. • 基底 は加算と減算に対応した変形項 • は以下の制約下で正負値を持つ • は教師基底 に対する減算の許容範囲 基底変形型教師あり NMF 15 減算 の場合 30%まで 減算可能
  16. 16. • 基底 は,教師基底 と同じアクティベー ション を持つため,分離目的音と同じタイミ ングで生じる別の楽器のスペクトルが現れる 恐れがある 基底変形型教師あり NMF 16 と と が 全て無相関 目的音 非目的音
  17. 17. • 基底 は,教師基底 と同じアクティベー ション を持つため,分離目的音と同じタイミ ングで生じる別の楽器のスペクトルが現れる 恐れがある 基底変形型教師あり NMF 17 同じタイミングで生じる別の楽器 が,基底 に現れる恐れがある と と が 全て無相関 目的音 非目的音
  18. 18. • 目的関数 基底変形型教師あり NMF 目的関数 18
  19. 19. • 通常の NMF の更新式導出と同様に補助関 数法を用いる • 目的関数 の上限を与える補助関数 を以 下のように定義 • は一般化KLダイバージェンス中の対数 項の上限, は罰則項の上限, は定数 基底変形型教師あり NMF 更新式導出 19
  20. 20. • 補助関数 を最小化することで,間接的に 目的関数 を最小化 • 基底 の更新式を導出するために を で偏微分し とおくと以下の式を得る 基底変形型教師あり NMF 更新式導出 20
  21. 21. • 補助関数 を最小化することで,間接的に 目的関数 を最小化 • 基底 の更新式を導出するために を で偏微分し とおくと以下の式を得る 基底変形型教師あり NMF 更新式導出 21 正負の値を持つ
  22. 22. 基底変形型教師あり NMF 更新式 22 基底行列 更新式 (一般化 KL divergence 規準)
  23. 23. 基底変形型教師あり NMF 更新式 23 基底行列 更新式 (一般化 KL divergence 規準)
  24. 24. 基底変形型教師あり NMF 更新式 24 アクティベーション行列 更新式 (一般化 KL divergence 規準)
  25. 25. 基底変形型教師あり NMF 実験条件 25 入力信号 実録の Fl., Cl., Tb., 及び Pf. の内 2 楽器を等パワーで混合した信号 教師信号 抽出対象楽器の MIDI 音 (MS GS Wavetable SW Synth) 入力信号の音域をカバーする範囲において 半音階で2オクターブ上昇する信号 STFT 窓関数: 矩形 → ハニング 窓長: 92.9 msec, シフト長: 46.4 msec 教師基底数 100 その他基底数 50 変形許容範囲 0.3 更新回数 学習プロセス:500, 分離プロセス:400 各行列の初期値 乱数 各罰則項の重み 実験的に調整した値 分離精度評価値 SDR, SIR, SAR (10回試行の最大値) SDR :分離した目的音の品質 SIR :分離した目的音と非目的音との分離度合 SAR :一連の信号処理によって生じた歪みの少なさ 高いほうが 良い分離
  26. 26. 基底変形型教師あり NMF 実験結果 26 Target sound Other sound Conventional method Proposed method SDR SIR SAR SDR SIR SAR Piano Clarinet 2.4 8.4 4.3 8.4 14.8 9.6 Piano Trombone 3.1 15.8 3.5 11.0 24.4 11.2 Clarinet Flute 0.1 1.8 7.3 0.7 2.6 7.2 Clarinet Trombone 3.2 14.6 3.7 9.6 23.9 9.8 Flute Piano 5.8 12.8 7.0 7.0 14.9 7.9 Trombone Clarinet 2.1 12.4 2.8 4.7 19.3 4.9 各評価値の 平均値 0 1 2 3 4 5 6 7 8 9 Conventional method Proposed method SDR[dB] 0 2 4 6 8 10 12 14 16 18 20 22 24 Conventional method Proposed method SIR[dB] 0 1 2 3 4 5 6 7 8 9 10 Conventional method Proposed method SAR[dB]
  27. 27. 4 3 2 1 0 Frequency[kHz] 43210 Time [s] スペクトログラムでの比較 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] (a) 混合信号 (Pf. & Tb.) (b) Pf. のみの信号 (c) 従来手法による Pf. 分離信号 (d) 提案手法による Pf. 分離信号
  28. 28. 4 3 2 1 0 Frequency[kHz] 43210 Time [s] スペクトログラムでの比較 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] 4 3 2 1 0 Frequency[kHz] 43210 Time [s] (a) 混合信号 (Pf. & Tb.) (b) Pf. のみの信号 (c) 従来手法による Pf. 分離信号 (d) 提案手法による Pf. 分離信号
  29. 29. • 教師音を用いた実楽器音の音源分離手法と して,基底変形型教師あり NMF を提案 • 提案法は従来法より優れた分離を実現し,よ り実音に近い自然な分離音が得られる • 加算変形に対する許容範囲の付与 • 罰則項の重みパラメータの最適値推定方法 の検討 • マルチチャネル信号分解への応用 まとめと今後 29

Editor's Notes

  • CDのように複数の楽器が混合された音楽信号から,特定の楽器のみを分離して抽出する技術は,一般に多重音解析と呼ばれる
    例えば下の図のように,ピアノやサックスなどが混ざった音から,サックスのみを取り出すようなタスク
    これが実現できれば,ユーザが自分の好みに応じてそれぞれの楽器の音量などを調節するという能動的な音楽鑑賞が可能になる
    また,音楽信号の自動採譜にも応用できる重要な技術
  • この多重音解析に用いられる技術の一つとして,NMF,非負値行列因子分解が挙げられる
    これは非常に単純な分解で,ある行列Yを別の2つの行列HとUの行列積で表現するという手法
    このYとHとUの要素はいずれも0以上の非負値という制約がある
    このNMFの解法として,下の式のような効率的な反復アルゴリズムが提案されており,
    様々な分野で応用されている
  • 音響信号にNMFを用いる場合,振幅あるいはパワースペクトログラムを行列Yとみなし,HとUに分解する
    この場合,NMFの性質から,Hにはスペクトログラムの中で頻繁に出てくるスペクトルのパターンが現れ,
    Uにはそれぞれのスペクトルパターンがアクティブになるタイミングと音量が現れる.
    今この図で示している例では,この部分の成分に対してこのパーツ,この部分の成分に対してこのパーツが
    Hに現れ,それらの発生するタイミングと音量がUに現れている
  • この二つの行列を「スペクトル基底行列」と「アクティベーション行列」と呼ぶ
  • このNMFを用いた教師ありの信号分離手法として,罰則条件付き教師ありNMFが提案された
    この手法は分離する楽器の教師音を用いる手法で,学習プロセスと分離プロセスから成る
    学習プロセスでは,目的の楽器の教師音対してNMFを行い,教師スペクトル基底Fを作る
    そして,分離プロセスでは,学習した教師基底を用い,そのアクティベーションGとその他の成分が入るHUを用意する
    教師基底Fは固定し,残りのG,H,Uを求める
    教師基底のみで再構成されたFGのスペクトログラムが分離結果になる
  • 教師基底のみで再構成されたFGのスペクトログラムが分離結果になる
  • このとき,教師基底Fとその他の基底Hが互いに無相関となるような罰則条件を
    与えてGHUを求める
    これはFとHに同じスペクトルパターンが現れた場合,FGから
    得られる抽出音に欠損が生じる為
    ここまでが教師ありNMFによる信号分離の従来手法の説明
  • ここからが本研究で提案する手法について
    本研究では,実楽器の混合信号から目的の楽器音を分離することを目標とする
    従来手法では,混合信号中の目的楽器音と教師音の音色に差があると
    分離精度が著しく劣化するという問題があった
    これはたとえば,この混合信号からピアノを取り出すときに,
    教師音に用いたピアノの音色と信号中のピアノの音色に差があった時
  • 分離精度が極端に低下するという問題
  • しかし,同じ種類の楽器であっても音色は楽器の個体差や演奏者などに強く依存するため,
    例えばMIDIシーケンサのように,我々が事前に入手可能な教師音を,分離対象音に適応させる新たな分解手法が必要となる
  • そこで,事前学習によって得られた教師スペクトル基底Fの変形モデルを考える
    あるフレームにおける教師音と目的音のスペクトルがこの図のように表現されるとき,音色の違いから倍音構造がこのように異なる
    このスペクトルの差を,教師基底Fを変形することで目的音に合わせる
    変形の方法として,この2種類が考えられる
    1つはFに対する掛け算による変形モデル
    この場合,変形項であるDは非負値行列で表現できるので,更新式の導出が容易だが,
    このピークのように教師基底の要素値が0である成分を変形できないというデメリットがある
    一方,教師音と目的音の差分をDで表現する加法的な変形モデルでは,Fの要素値が0である成分においても,新たな倍音成分を生成できるが,
    変形項のDが正負の値を持つため,通常のNMFにはなかった非負制約のない行列が追加される
  • 本研究ではこの加法的な差分を表すモデルを用いて,非負制約がない行列を含む場合の更新式の導出法を示す
  • 次のような分解を提案する
    従来法でY=FG+HUだったところを,(F+D)G+HUとする
    教師基底Fの変形項Dは,共通のアクティベーションGをもつ
    教師音スペクトルを下図のように加算と減算で変形して目的音に合わせる
    分離結果は(F+D)Gとなる
  • この時,基底Dは加算と減算に対応した変形項であり,正負の値を持つ行列になる
    ただし,このF+Dは非負の行列とするために,この制約条件のもとで負の値を制限する
    ここでηは,教師基底Fに対する減算の許容範囲を示すパラメータであり,
    η=0.3の時は教師スペクトルを30%まで減算変形が可能となる
  • さらに,基底Dは,教師基底Fと同じアクティベーションを持つため,
    分離目的音と同じタイミングで生じる別の楽器のスペクトルが現れる恐れがある
    例えば,このような混合信号に対して,目的音を取り出したいとき,
  • 同じタイミングで生じる別の楽器が基底Dに現れるということ
    これを防ぐために,このような4種類の罰則条件をあたえて分解する
    これらはすべて,教師基底Fと音色の差異基底Dとその他の楽器の基底H
    がそれぞれ別物であるという条件を示している
  • 目的関数はこのようになる
    本研究では,左辺と右辺の距離関数に
    一般化カルバックライブラダイバージェンスを用いた
    距離関数と各罰則条件に重みを付けた項を,
    先ほどの非負制約の下で最小化することで更新式を導出できる
  • この目的関数は通常のNMFの更新式導出と同様に,補助関数法を用いることで
    更新式を導出できる
    先ほどの目的関数Jの上限を与える補助関数J+を定義する
    式中のQlogはKLダイバージェンス中の対数項の上限,Qpenaltyは罰則項の上限であり,
    Cjは定数
  • この補助関数J+を最小化することで,間接的に目的関数Jを最小化する
    Dの更新式を導出するためにJ+をDで微分し0とおくとこのような式になる
  • この補助関数J+を最小化することで,間接的に目的関数Jを最小化する
    Dの更新式を導出するためにJ+をDで微分し0とおくとこのような式になる
  • 先ほどの式から導出されるDの更新式はこのようになる
    Vの正負によって形がかわる
  • 同様にしてその他の基底Hの更新式を導出した結果
    こちらもWの正負によって形がかわる
  • さらにアクティベーションGとUの更新式は
    このようになる
  • 分離実験の条件はこの通り
    入力信号は実録のフルート,クラリネット,トロンボーン,ピアノの内,2つの楽器を選んで等パワー混合した信号
    教師信号には,それぞれの楽器のMIDI音を半音階で2オクターブ用いる
    スペクトログラムはこの条件で作成し
    教師基底の変形許容範囲は30%とした
    教師基底数を100,その他の基底数を30とし,それぞれのプロセスの更新回数はこの通り
    各行列の初期値は乱数を与え,分離精度の評価値にはこの3つを用いる
    また,各罰則項の重み係数は実験的に調整した値を使用した
  • 分離結果.
    目的音と非目的音の混合信号に対して,それぞれの手法の評価値をまとめて示している
    この結果を見ると,ほぼ全ての分離結果で,提案法の分離精度が向上していることが確認できる
    特にピアノの分離ではかなりの向上が見られたが,
    下のグラフは各手法のそれぞれの評価値を平均したもの
    この結果から,提案手法の有用性が確認できる
  • これはピアノとトロンボーンの混合からピアノを抽出した時の結果をスペクトログラムで比較したもの
    左上が分離前の混合信号,右上がピアノのみの真の信号
    左下が従来手法の分離結果で,右下が提案手法の分離結果
    従来手法は教師音と目的音の音色の違いから,教師基底を用いて目的音を表現することができず,ほとんど抽出できていない
    提案手法は教師基底を変形し目的音を捉えているため,目的の信号成分がより多く含まれており,
  • このように高周波成分もよく表現できていることが確認できる

    (それでは,混合信号と,それぞれの手法のピアノの分離結果をお聞かせします
    従来手法では,MIDIの教師音と実音の音色の差に起因して,ほとんど抽出できていませんが,
    提案手法では教師基底が実楽器音に合うように変形されており,よく分離できています
    両手法の違いに着目して聞いてください.
    始めに入力信号です,次に従来手法です,最後に提案手法です)
  • 分離結果.
    Flの分離結果ではすべての評価値が向上している
    Clの分離結果ではSDRとSARが向上したが,SIRは低下した
    提案法の分離信号の中の目的音は,従来法に比べより実音に近い音になっている
  • しかし,この下の図のように,MIDIの教師音と実楽器音との音色の差があったとき,
    分離精度を大きく低下させる要因となる.
  • 特定の楽器を分離するためには,その楽器の音のスペクトル基底とアクティベーションのみを
    取り出してスペクトログラムを再構成すればよい
    例えば,この図のように2本だけを取り出して再構成すれば,このように2音だけの分離音が得られる
  • しかし,これは問題があり,スペクトル基底から目的の楽器音の基底を探す必要がある
    また,予め用意するスペクトル基底の本数が不適切な場合,基底に複数のスペクトルが混在する等の問題がある
  • これはピアノとトロンボーンの混合からピアノを抽出した時の結果をスペクトログラムで比較したもの
    左上が分離前の混合信号,右上がピアノのみの真の信号
    左下が従来手法の分離結果で,右下が提案手法の分離結果
    提案手法は目的の信号成分がより多く含まれており,
    高周波成分もよく表現しているが,若干非目的音のトロンボーンの成分が
    混在していることが確認できる
    それでは,混合信号と,それぞれの手法のピアノの分離結果をお聞かせします
    従来手法では,MIDIの教師音と実音の音色の差に起因して,ほとんど抽出できていませんが,
    提案手法では教師基底が実楽器音に合うように変形されており,よく分離できています
    両手法の違いに着目して聞いてください.
    始めに入力信号です,次に従来手法です,最後に提案手法です
  • この評価尺度について簡単に説明する
    分離した推定信号が,目的音成分,非目的音成分,それ以外の成分の3つで表現できると仮定すると
    SDR,SIR,SARはそれぞれこのように表される
    SDRは分離した目的音の品質,SIRは分離度合,SARは一連の処理によって生じた歪みの少なさを表し,
    どの値も高いほうが良い分離となる
  • ηを0に近づけた場合,教師スペクトルを減算方向に変形できなくなるので
    分離音を構成する(F+D)Gの表現の自由度が低下し,分離精度は悪くなる
    逆に,ηを1に近づけると,表現の自由度が高くなるが,F+Dが0となり
    HUですべてを表現しようとする等の予期しない現象が起こり始める為,
    そもそも目的音の分離が困難になるため,
  • ηの値に対する分離精度はある点でピークを持つ
    実験的に確認したところ,0.3付近で最も高分離精度が得られた
  • ×