Successfully reported this slideshow.

統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–

3

Share

1 of 56
1 of 56

統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–

3

Share

Download to read offline

北村大地, "統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析–," 筑波大学システム情報工学研究科マルチメディア研究室 招待講演, Ibaraki, September 26th, 2016.
Daichi Kitamura, "Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–," University of Tsukuba, Graduate School of Systems and Information Engineering, Multimedia Laboratory, Invited Talk, Ibaraki, September 26th, 2016.

北村大地, "統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析–," 筑波大学システム情報工学研究科マルチメディア研究室 招待講演, Ibaraki, September 26th, 2016.
Daichi Kitamura, "Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–," University of Tsukuba, Graduate School of Systems and Information Engineering, Multimedia Laboratory, Invited Talk, Ibaraki, September 26th, 2016.

More Related Content

Viewers also liked

Similar to 統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–

Related Books

Free with a 14 day trial from Scribd

See all

統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–

  1. 1. Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis– 総合研究大学院大学 複合科学研究科 情報学専攻 博士後期課程3年 北村大地 2016年9月26日(月) 筑波大学 システム情報工学研究科 マルチメディア研究室 招待講演 統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析–
  2. 2. 講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 2
  3. 3. 講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 3
  4. 4. • 音源分離(audio source separation) – 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声認識,雑音抑圧,補聴器,会議アーカイブ etc. • 音楽信号の音源分離 – ユーザによる既存音楽の再編集,自動採譜技術, 楽器演奏における教育支援,超臨場感音場再現の制御 等 • 観測信号から有意な因子を抽出する技術 – 知能情報学の一大トピック 研究の背景(1/4):音源分離 4 音楽CD 音源分離 実演奏の録音
  5. 5. 研究の背景(2/4):前提条件 • 混合される音源数と観測チャンネル数の関係 – 優決定条件(音源数 観測チャンネル数)における音源分離 – 劣決定条件(音源数 録音マイク数)における音源分離 – 「ブラインド」及び「教師あり」の2条件にも大別可能 5 音源信号 観測信号 分離信号 混合系 分離系 マイクロホンアレイ 問題の条件 ブラインド 教師あり 優決定 FDICA, IVA, ILRMA 各手法の応用 劣決定 多チャネルNMF TFマスク 等 教師ありNMF ハイブリッド法 音楽CD L-ch R-ch ステレオ信号(2-ch) モノラル録音 1-ch モノラル信号(1-ch)
  6. 6. • 音楽信号の音源分離の特徴 – 芸術的作品 高品質かつ高精度な分離技術が必要 • 従来の音源分離手法では精度が不十分で芸術性を損なう – ハーモニー スペクトルの重なりや時間的な同期が頻発 • 話者混合信号等と比較して音源間の統計的独立性が弱まる – 離散的構造 限られた数の音高(ピッチ)の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる • 離散的構造を持つ信号の適切な表現 – 非負値行列因子分解の応用を考える 研究の背景(3/4):音楽信号の特徴 6 限られた数の音高(音の高さ) 限られた数の音価(音の長さ) 離散的なパーツの重ね合 わせで構成されている
  7. 7. 研究の背景(4/4):非負値行列因子分解 • 非負値行列因子分解(nonnegative matrix factorization: NMF) – 非負制約付き低ランク近似分解(データの次元圧縮) • 頻出するスペクトルパターン群を 本の基底ベクトルとして抽出 – 限られた数のパーツで時間周波数構造を表現 • 離散的な構造を持つ音楽信号の表現によく適合 7 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 [Lee, 1999], [Lee, 2000], etc.
  8. 8. 講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 8
  9. 9. 優決定条件ブラインド音源分離 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 – マイク位置,マイク間隔,音源位置等の情報が不要 • 優決定条件BSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] • BSSに利用可能な性質 – 音源毎の空間特徴の違い(音源位置の違い):空間モデル – 音源毎の音色特徴の違い(スペクトルの違い):音源モデル 9 State-of-the-art BSS 混合系 分離系
  10. 10. FDICAとパーミュテーション解法 10 ICA 全て時間周波数 領域の信号 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2Time • 周波数領域ICA(frequency-domain ICA: FDICA) – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存 [Smaragdis, 1998], [Sawada, 2004], [Saruwatari, 2006], etc.
  11. 11. FDICAとDOAを用いた古典的なBSS(~2006) 11 • FDICA+DOAクラスタリング [Saruwatari, 2006] – 推定分離フィルタからステアリングベクトルを逆算し音源の到来 方向(DOA)でクラスタリングすることでパーミュテーションを解く – 音源モデル • 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ) – 空間モデル • 混合系はDOAクラスタリングで解決できるという仮定(制約) 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 DOA クラスタリング Source 1 Source 2
  12. 12. • FDICAで推定される分離フィルタとは? – 周波数領域での瞬時混合を仮定 – 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ – 適応ビームフォーマ(ABF)と本質的に等価 [Araki, 2003] • ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化 • 妨害音に対してヌル(感度0)を打つような空間分離 • ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要 – FDICAはブラインドな音源分離手法 • 混合系未知,アクティビティ検出不要 • 厳密な音源位置とマイク位置が既知の場合のビームフォーマがFDICA の上限性能といえる ICAによる信号源分離の音響学的なメカニズム 12 音源1 音源2 音源1の空間 分離フィルタ 音源1 混合系 但し,分離フィルタの タップ長はフーリエ変換 の窓長と同じ
  13. 13. FDICAの分離フィルタとABFの分離フィルタ • 図は [Araki, 2003] より引用 13 BSSの 空間分離 フィルタ ABFの 空間分離 フィルタ TR = 0 ms TR = 300 ms TR = 0 ms TR = 300 ms
  14. 14. 周波数成分間の高次相関を用いたBSS(2006~) • 独立ベクトル分析(independent vector analysis: IVA) – FDICAの多変量拡張手法,パーミュテーション問題を回避 – 球対称な多変量(多次元)分布モデルの最尤推定 • ICAにおける音源の事前分布 を多次元分布 に拡張 • 球対称性:無相関な周波数成分間で同じ分散を持つ多変量分布 14 … … 音源信号 混合行列 … … … 観測信号 分離行列 分離信号互いに 独立 周波数成分間 は無相関だが 依存性をもつ 共通の分散 を持つ [Hiroe, 2006], [Kim, 2006], [Kim, 2007]
  15. 15. • FDICAとIVAの違いはscore functionのみ – Score function: パラメタの対数尤度のgradient – 「音源の事前分布が一次元か多次元か」のみ • IVAの仮定する音源の事前分布 – ラプラス分布の例(音声信号のモデルとして一般的) – 後者は (互いに無相関)の場合でも, が互いに依存 IVAの仮定する周波数成分間の依存性 15 周波数毎に独立な 事前分布 周波数間で高次相 関をもつ事前分布 分散共分散行列
  16. 16. • 図は [Kim, 2007] より引用 IVAの仮定する周波数成分間の依存性 16 x1とx2は互いに独立なラプラス分布 (条件付き分布はラプラス分布) x1とx2は互いに無相関だが 依存関係がある 球対称 ラプラス分布 Higher-order correlation Higher-order dependency
  17. 17. IVAの仮定する周波数成分間の依存性 • IVAの音源事前分布の分散に関して – 分散はその周波数ビンの信号のスケールに対応 – 独立性基準では結局スケールは推定できない – 分散を全周波数で1にしても問題ない 共通分散(球対称) • どのみちプロジェクションバックで復元できるので問題にはならない • 球対称事前分布の(かなりざっくりとした)定性的な説明 – 周波数間で同じアクティベーションを持つ成分を一つの音源とし てまとめる傾向にある パーミュテーション問題の回避 17 零平均,零共分散,共通分散とすると
  18. 18. IVAとNMFを融合した新しいBSS(2016~) • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 独立音源の詳細な時間周波数構造(のパワー)を低ランク行列 として捉えながら線形分離フィルタを学習 – 板倉斎藤擬距離基準NMFの事前分布を活用 18 濃淡は分散値 (信号のパワー) Frequency Time Frequency Time Frequency Time Frequency Basis Basis Time IVAの 音源モデル ILRMAの 音源モデル 全周波数で共通の 分散をもつ音源モデル 時間周波数で分散が 変動する音源モデル 基底数は任意 [Kitamura, 2015], [Kitamura, 2016]
  19. 19. 板倉斎藤擬距離基準NMFにおける生成モデル • 従来のNMF分解の問題点 – データ行列(非負実数)は1本の基底と1本のアクティベーション からなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか?あるいはパワーなのか? – いずれにしても線形結合(加法性)は成り立たない • 理論的には複素スペクトログラムの加法モデルが正しい – 位相スペクトログラムはどうするのか? • 板倉斎藤擬距離基準NMFでは下記のように解決される – 複素スペクトログラムに対する生成モデルを与えられる – 複素数成分の線形結合なので理論的に正しいモデル – 位相は無情報な形(一様分布)で保持される 19
  20. 20. • 板倉斎藤擬距離基準NMF(Itakura-Saito NMF: ISNMF) • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 板倉斎藤擬距離基準NMFにおける生成モデル 20 最小化は等価 [Févotte, 2009] 複素球対称ガウス分布(零平均) 観測の複素数値 複素ガウスの分散
  21. 21. • を複素スペクトログラムとする(STFTしたそのもの) – 各時間周波数要素は複素要素 を 個足し合わせたもの – 複素ガウス分布の線形結合なので も複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 分散が時間周波数で変動する複素ガウス分布が生成モデル 板倉斎藤擬距離基準NMFにおける生成モデル 21 これらの複素ガウス分布は互いに独立(i.i.d.) 平均0,分散 の複素球対称ガウス分布とある時間 周波数要素
  22. 22. • パワースペクトログラムは複素ガウスの分散に対応 板倉斎藤擬距離基準NMFにおける生成モデル 22 Frequencybin Time frame : パワースペクトログラム パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が逐一変動する為,ス ペクトログラム全体の密度分布はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 但し濃淡が濃い方が 大きなパワーを示す
  23. 23. IVAとNMFを融合した新しいBSS(2016~) • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 但し,IVAは共通分散だがスケールは周波数毎に不定なので, フラットなスペクトルだけではなく任意の形状を表現可能 23 濃淡は分散値 (信号のパワー) Frequency Time Frequency Time Frequency Time Frequency Basis Basis Time IVAの 音源モデル ILRMAの 音源モデル 全周波数で共通の 分散をもつ音源モデル 時間周波数で分散が 変動する音源モデル 基底数は任意 (再掲)
  24. 24. ILRMAのコスト関数と更新則 • ILRMAのコスト(対数尤度)関数 • ILRMAはIVAを特種形として含む – 基底数 のILRMAは本質的にIVAと等価 – 但し,一般的なIVAが球対称ラプラス分布の事前モデルである のに対し,基底1本のILRMAは複素ガウス分布の事前モデル – この違いはコスト関数の凸性の違いも導く • 球対称ラプラス分布IVAはコスト関数が分離行列に対して凸 • 基底1本のILRMAは(NMF変数がgivenでも)分離行列に対して非凸 24 ISNMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間モデルの推定に寄与) 分離信号:
  25. 25. ILRMAのコスト関数と更新則 • 独立低ランク行列分析(ILRMA) [Kitamura, 2016] – NMF変数の最適化は補助関数法に基づく乗法更新式 – 反復で尤度が単調増加することが保証されている • 必ずどこかの解(局所解含む)へ収束 25 分離フィルタと分離信号の更新 音源モデルと推定分散の更新 但し, , は 番目の要素のみ1で 他が0の縦ベクトル :音源毎の推定分散
  26. 26. ILRMAのコスト関数と更新則 • 音源毎の空間的な違い(空間モデル)と各音源の音色構 造(音源モデル)を交互に学習 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 26 空間的な違い の学習 混合信号 分離信号 音源モデル IVA NMF NMF 音色構造の 学習
  27. 27. 講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 27
  28. 28. NMFの多チャネル信号への拡張 • 全音源の時間周波数構造をNMFでモデル化し,音源毎 の空間伝達特性(空間相関行列)を用いてクラスタリング – 「NMFモデル」と「音源毎の空間相関行列」は同時に推定 28 提案者と年代 空間的な混合系と 音源モデル 各音源の 空間相関行列 音源のスペ クトログラム 各変数の 最適化手法 Ozerov and Fevotte, 2010 はランク1 はフルランク NMF EMで , NMF変数を推定 Arberet et al., 2010 も もフル ランク NMF EMで , NMF変数を推定 Ozerov et al., 2011 はランク1 はフルランク 分割関数付き のNMF EMで , NMF変数を推定 Sawada et al., 2013 フルランクの 分割関数付き のNMF 乗算更新式で , NMF変数を推定 Kitamura et al., 2016 ランク1の 分割関数付き のNMF 反復射影で分離 行列 , 乗算更新式で NMF変数を推定
  29. 29. • 最も一般化された多チャネルNMF [Sawada, 2013] NMFの多チャネル信号への拡張 29 時間周波数毎の 観測チャンネル間相関 多チャネル観測信号 音源周波数毎の チャンネル間相関 基底行列 アクティベーション行列 空間モデル 音源モデル クラスタリング関数 スペクトルパターン 強度変化 音源毎の空間的な違い 全音源の音色構造 多チャネル ベクトル 瞬時空間(チャネル間)相関行列
  30. 30. • 空間相関行列 又は 空間共分散行列 [Duong, 2010] – Duong modelとも呼ばれる – 音源とマイク間の伝達系と音響的拡散度合を含む特徴量 – ステアリングベクトルの拡張 – 観測信号 中の 番目の音源成分のみを と表すとき 空間相関行列とは 30 Source image 時変な音源の分散(パワースペクトログラム) マイクロホンへの伝達系 に寄与する時不変な成分 (空間相関行列) 音源毎の 空間共分散 観測の 空間共分散 観測の 生成モデル 多チャネル Wiener filter 時変分散と音源毎の空間共分散 から音源分離が可能(劣決定も可) 時間周波数で分散共分散が 変動する多変量ガウス分布
  31. 31. • 空間相関行列は瞬時空間相関の期待値 – 「瞬時相関の期待値」のランクが1 – 時不変な空間基底:ステアリングベクトル – 「瞬時相関の期待値」のランクが1より大きい(フルランク) – ステアリングベクトルのような空間基底ではもはや表現不可 • 複数本の空間基底になる(空間基底の数=空間相関行列のランク) – 周波数領域での瞬時混合仮定が成り立たない 空間相関行列のランク 31 音源毎の 空間共分散 伝達系が時不変な一つの空間基底でモデル化できる ランク1 空間モデル 音響信号の拡散,音響放射特性の変動,残響
  32. 32. ランク1空間モデル • 音源毎の空間相関行列のランクが1 – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 – 時間周波数領域における時不変複素瞬時混合モデル – 音源・マイク位置が時不変かつ残響時間がフーリエ変換の窓 長より短い 32 マイク アレイ 観測 信号 音源 : 周波数インデクス : 時間インデクス 時不変混合行列 ステアリング ベクトル ステアリング ベクトル
  33. 33. • 多チャネルNMFの目的関数にランク1空間モデルを導入 – ランク1空間モデル制約付き多チャネルNMFとILRMAは等価 多チャネルNMFとしてのILRMAのアナロジー 33 1. ランク1チャンネル間相関を導入( ) 2. 混合行列 を用いて表現しなおす 3. 分離行列 と分離信号 に変数変換 ILRMAのコスト関数
  34. 34. IVAと多チャネルNMFの両理論をつなぐILRMA • 独立に誕生したIVAと多チャネルNMFは実は深く関連 – IVAの音源モデルの基底数拡張 • 音源モデルの推定にNMFによる分解表現を導入 – 多チャネルNMFの空間モデルの自由度の制約 • フルランクで推定される音源毎の空間相関にランク1制約を導入 – 「独立性に基づく高速な空間モデルの最適化」と「NMFに基づく 柔軟な音源モデル」の両立を実現 – IVAと多チャネルNMFの関連性を世界で初めて示す 34 音源モデル 空間モデル 柔軟限定的 柔軟限定的 IVA 多チャネル NMF 提案手法 NMFの音源 モデルを導入 空間モデルの 自由度を制限
  35. 35. 各手法のモデルの比較 手法 空間モデル 音源モデル 推定対象 FDICA ランク1空間モデル パーミュテーション ソルバ依存 なし (時系列の非ガウス性 制約のみ) 周波数毎に独立な ICAによる分離行列 IVA ランク1空間モデル 基底1本での表現 球対称多変量 ラプラス分布 分離行列 音源毎の 周波数共通分散 多チャネル NMF フルランク空間モデル (周波数領域の瞬時 混合仮定は不要) 任意基底数のNMF 時間周波数分散変動 型複素ガウス分布 音源毎の 空間相関行列 全音源のNMF表現 ILRMA ランク1空間モデル 任意基底数のNMF 時間周波数分散変動 型複素ガウス分布 分離行列 全音源のNMF表現 35
  36. 36. 講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 36
  37. 37. 従来手法とILRMAの比較による性能評価 • ILRMAへの期待 – NMF音源モデルの導入による性能向上(IVAと比して) – ランク1空間モデルの導入による安定性の向上(多チャネル NMFと比して) • ランク1空間モデルが成立する条件での実験 – マイク位置時不変混合系(多チャネルNMFを含む全手法での 必須条件) – 残響時間が窓長より短い(ランク1空間モデル) – 特異な音響放射特性などがない(ランク1空間モデル) • インパルス応答の畳み込みによるシミュレーション混合 – 残響時間が短ければランク1空間モデルが完全に成立 • 実際のライブ録音による混合観測 – より現実的な条件での実験 37
  38. 38. 音楽音源分離実験の条件 • 実験条件 38 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 窓長(FFT長) 512 ms,ハニング窓 シフト長 128 ms (1/4シフト) 基底数 1音源につき30本(ILRMA1),全音源で60本(ILRMA2) 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) 2 m Source 1 5.66cm 50 50 Source 2 2 m Source 1 5.66cm 60 60 Source 2 Impulse response E2A (reverberation time: 300 ms) Impulse response JR2 (reverberation time: 470 ms)
  39. 39. 実験結果: fort_minor-remember_the_name 39 16 12 8 4 0 -4 -8 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 16 12 8 4 0 -4 -8 SDRimprovement[dB] Violin synth. Vocals Violin synth. Vocals E2A (300ms) JR2 (470ms)
  40. 40. 実験結果: ultimate_nz_tour 40 E2A (300ms) JR2 (470ms) Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 20 15 10 5 0 -5 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 20 15 10 5 0 -5 SDRimprovement[dB] Guitar Synth. Guitar Synth.
  41. 41. Ozerov’s MNMF with random initialization 実験結果: ultimate_nz_tour(収束の様子) 41 20 16 12 8 4 0 -4 SDRimprovement[dB] 300250200150100500 Iteration step 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] 300250200150100500 Iteration step IVA Ozerov’s MNMF Proposed method w/o partitioning function Proposed method with partitioning function Sawada’s MNMF initialized by proposed method Sawada’s MNMF Guitar Synth. 高速,頑健,高精度 な音源分離を達成
  42. 42. 音声音源分離実験の条件 • 実験条件 – 予備実験より,音声信号に対しては基底数を大きくすると音源 分離に失敗する事実を確認 • 音声信号の時間周波数構造がNMF表現に不向き? 42 音源信号 SiSECのライブ録音音声信号,2チャンネルで2話者の混合信号 窓長(FFT長) 256 ms,ハニング窓 シフト長 128 ms (1/4シフト) 基底数 1音源につき2本(ILRMA1),全音源で4本(ILRMA2) 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) Number of bases for each source ( ) Number of bases for each source ( ) 16 12 8 4 0 -4 SDRimprovement[dB] 10987654321 16 12 8 4 0 -4 SDRimprovement[dB] 10987654321 Speaker 1 Speaker 2
  43. 43. 実験結果: female3_liverec_1m 43 130ms 250ms Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 16 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 16 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] Speaker 1 Speaker 2 Speaker 1 Speaker 2
  44. 44. 実験結果: male3_liverec_1m 44 130ms 250ms (a) Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] Speaker 1 Speaker 2 Speaker 1 Speaker 2
  45. 45. 考察 • ほぼすべての場合で高速,高精度,安定な分離を達成 – 多チャネルNMFと比較するとモデルの自由度に優位性はない – 精度向上はランク1空間モデルの導入による空間モデル変数 の最適化が容易になったことに起因 • 音声信号に対しては基底数を増加できない – 基底数が増加すると性能が不安定 – 音声の時間周波数構造は音楽信号ほど低ランクではない 45
  46. 46. • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル) – 音源: acoustic_guit_main, bass, vocalsの3音源 – 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) – 更新回数: 200回 各手法の計算量の比較 46 IVA MNMF ILRMA (音源毎に基底数を固定) ILRMA (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 (単位は全てs) 12 10 8 6 4 2 0 -2 SDRimprovement[dB] 4003002001000 Iteration steps IVA MNMF Rank-1 MNMF Rank-1 MNMF (基底数固定) (基底数可変) 200回更新時(MNMF以外は十分収束)
  47. 47. 高残響下における応用手法 • 高残響下では短時間フーリエ変換の窓長よりも長い残響 が生じる – 残響成分が次の時間フレームに漏れるため複素瞬時混合では 表現できなくなる – チャンネル間相関がランク1で無くなる 分離性能が劣化 47 周波数 時間 観測パワースペクトログラム 観測信号音源信号 前フレームから 漏れ出た残響成分
  48. 48. 高残響下における応用手法 • 応用として余剰な観測チャンネルを用いることを提案 – 音源数 の 倍の観測チャンネルがある状況を仮定 • 通常のBSSでは事前に主成分分析(PCA)を用いて次元圧縮 • 提案手法ではPCAを用いずにそのままランク1多チャネルNMFで分離 – 各音源の直接音成分及び残響成分を別の独立成分として分離 – 分離後に同じ音源に属する成分同士を足し合わせて復元 48 音源信号 観測信号 Mixing 例: 音源数 ,観測チャンネル数 ( ) 直接音 残響 直接音 残響 推定信号 再構成 分離された成分 BSS [Kitamura, 2015]
  49. 49. 高残響下における応用手法 • 分離された各成分のクラスタリング問題 – 各成分が音源毎に自動的にまとまる手法として基底共有型ラ ンク1多チャンネルNMFを提案 – 複数の分離成分においてNMFによる音源モデルの基底行列 (スペクトルパターン)を共有して推定する 49 分離された成分 複数の成分で基底行列を 共有させた音源モデル 音源1の為の 共有基底行列 再構成 推定信号 音源1の直接音成分 音源1の残響成分 音源2の為の 共有基底行列 音源2の直接音成分 音源2の残響成分 例: 音源数 ,観測チャンネル数 ( )
  50. 50. 高残響下における音源分離実験 • 実験条件 50 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 比較手法 PCAを適用してIVA, PCAを適用してランク1多チャンネルNMF, 多チャンネルNMF,基底共有型ランク1多チャンネルNMF 窓長(FFT長) 128 ms,ハニング窓 シフト長 64 ms (1/2シフト) 基底数 1音源につき30本 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) JR2インパルス応答 (残響時間: 470 ms) 2 m 80 60 音源1 音源2 2.83 cm
  51. 51. 高残響下における音源分離実験 • 実験結果(曲名: ultimate nz tour, guitar and vocal) 51 – 初期値を変えて10回試 行した際の平均と標準 偏差を示したグラフ – 各音源の残響成分を 含んだ状態での音源 分離を達成 – 実計算時間の比較に おいても効率的な最適 化を保っていることが 確認できる 16 14 12 10 8 6 4 2 0 SDRimprovement[dB] Source 1 Source 2 PCA + 2ch IVA PCA + 2ch proposed method 4ch proposed method with basis sharing 4ch multichannel NMF PCA + 2ch IVA PCA + 2ch proposed method 4ch multichannel NMF 4ch proposed method with basis sharing 53.8 s 67.6 s 8307.1 s 330.97 s 注: 全て200回反復した場合の計算時間
  52. 52. 講演概要 • 研究の背景 – 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解 • 優決定条件BSSの発展とILRMA – 優決定条件ブラインド音源分離 – FDICA,IVA,ISNMF,ILRMA – ILRMAのコスト関数と補助関数法に基づく更新式 • 多チャネルNMFとしてのILRMAのアナロジー – 多チャネルNMF – ランク1空間モデル • 比較実験と高残響下におけるILRMAの応用 • まとめと今後 • 参考文献 52
  53. 53. まとめと今後 • IVAとNMFを融合した新しいブラインド音源分離:ILRMA – FDICA(時系列スカラーの生成モデル) – IVA(周波数ベクトルの多変量生成モデル) – ILRMA(時間周波数の低ランク分解の生成モデル) • 多チャネルNMFはILRMAやIVAを包含 – 多チャネルNMF+ランク1空間モデル=ILRMA – 基底数1本のILRMA=IVA • 今後の課題 – 音声信号に対する分離精度の安定化 – スパース正則化の検討 – 教師あり手法への活用 53
  54. 54. 参考文献(1/3) • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” in Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. • [Araki, 2003]: S. Araki, S. Makino, Y. Hinamoto, R. Mukai, T. Nishikawa, and H. Saruwatari, “Equivalence between frequency-domain blind source separation and frequency-domain adaptive beamforming for convolutive mixtures,” EURASIP Journal on Advances in Signal Process., vol. 2003, no. 11, pp. 1–10, 2003. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. 54
  55. 55. 参考文献(2/3) • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 276–280. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, Spt. 2016. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, May 2013. 55
  56. 56. 参考文献(3/3) • [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, Sep. 2010. • [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Relaxation of rank-1 spatial constraint in overdetermined blind source separation,” in Proc. Eur. Signal Process. Conf., 2015, pp. 1271–1275. 56

Editor's Notes

  • 音源分離においては,混合されている音源の数と観測チャンネルの数の関係がとても重要です.
    観測チャンネルの数と音源の数が同じか観測チャンネルの数が多い場合を優決定条件,音源の数の方が多い場合を劣決定条件と呼びます.
    優決定条件では,マイクロホンアレイなどを用いた状況が想定されており,劣決定条件では音楽CDのステレオ信号やモノラル信号などが音源分離の対象になります.
    基本的に,優決定条件の方が高性能な音源分離が可能である為,研究計画としてはまず優決定条件について研究を進めていきます.
  • この音楽信号の音源分離の特徴を簡単に説明します.
    まず,音楽は芸術作品です.従って高品質かつ高精度な音源分離が求められます.従来の代表的な手法の精度では不十分で,芸術性を著しく損なう問題があります.
    次に,音楽はハーモニーとなっています.そのため,音源毎のスペクトルの重なりや時間的な同期が多分に含まれています.そのため,音源間の統計的独立性が弱まるという特徴があります.
    この統計的独立性というのは一つの重要な要素で,従来の手法ではこの性質を陽に使ってきましたが,それだけでは精度が劣化してしまう,という問題です.
    しかし,良い特徴もあります.音楽は非常に離散的な構造を持っているという点です.すなわち,限られた数の音高と限られた数の音価という離散的なパーツの重ね合わせとなっており,音楽をパーツ単位に分割できれば,その線形結合でよく表現できるという性質です.
    本研究課題では,このメリットを最大限活用して,上の二点を克服するような音源分離を目指します.また,工学は人の役にたつことが重要である為,計算時間や頑健性といった実用面も大変重要な要素と考えています.
    この課題に対して,研究を通して様々なアプローチを模索していくことが目標となります.
  • NMFは音源分離技術ではなく,これ単体で音源分離できるものではありません.
    NMFは非負の制約付きの低ランク近似分解であり,観測行列を別の二つの行列TVの行列積で近似します.このとき,X,T,V全て非負の要素を持つ行列になります.
    このような分解を施すと,基底行列と呼ばれるTには頻出するスペクトルパターンが基底として得られます.そしてアクティベーション行列と呼ばれるVには,それぞれの基底の時間的強度変化が得られます.
    従って,複数の音源が混合された観測信号の時間周波数構造を,限られた数のパーツに分解することができます
    音楽信号は限られた数の音高が重なり合って構成されていますので,このNMFによる表現は極めてよく適合します.
  • 優決定条件では,ブラインド音源分,BSSと呼ばれる手法が長く研究されてきました.これは,混合系が未知の条件で分離系を推定する技術です.混合系を知る必要が無い為,マイクの位置や間隔,音源位置等の情報が不要というメリットがあり,音楽信号分離にも適しています.
    マイクが音源の数だけ必要になりますので,音楽信号の場合は,生演奏の多重録音信号などに適用でき,本来得ることのできなかった楽器音単体の信号を得ることができます.
    優決定条件におけるBSSでは,統計的独立性に基づく手法が代表的であり,独立成分分析,ICAや独立ベクトル分析,IVAなど,いくつかの種類がこれまでに提案されています.IVAと呼ばれる手法が現在のState-of-the-artな手法となっています.
    音楽信号のBSSでは,音源毎の空間的な違いが利用可能です.すなわち音源のある位置の違いに基づいた分離です.
    さらに音楽信号においては,音源毎の音色の違いも活用することができるはずです.音源固有のスペクトルパターンの違いも極めて重要な情報になります.
  • 始めはFDICAです.これは周波数ビン毎にICAを適用し分離したあと,パーミュテーション問題を解くという流れです.
    仮定している音源及び空間モデルはパーミュテーション解決法に依存します.いろいろな手法がありますが,ここでは
  • DOAクラスタリングを用いた手法を取り上げます.
    これは,分離フィルタからステアリングベクトルを逆算して,音源の到来方向,つまりDOAでクラスタリングすることでパーミュテーションを解きます.
    仮定する音源モデルは特になく,具体的なモデルスペクトログラムが与えられません.
    空間モデルはランク1空間近似に加え,「混合系がDOAクラスタリングで解決できる」という仮定をおいており,これは音源が接近していたり残響が強いと成り立たなくなってきます.
    つまり,この手法は空間モデルに比較的強い制約を与えて分離している手法になります.
  • それでは関連する従来手法について説明していきます.1つ目はIVAです.
    これは周波数領域ICAを多変量に拡張したモデルです.周波数領域で取り扱う理由は,残響による畳み込み混合を取り扱う為になります.
    IVAはこのように周波数方向にまとめたベクトルを定義し,音源のベクトルはそれぞれこのような球対称な多変量分布を仮定しています.この図はある2つの周波数ビンを2軸にとっていますが,どの周波数ビンを取ってきてもこのように球対称になるモデルです.
    この球対称という性質から,周波数ベクトル内での高次相関が考慮されていることが特徴です.
    このモデルで最尤推定した分散値が分離された信号そのものであり,そのような信号を出力する分離行列が周波数毎に推定されます.
  • つまり,提案手法はIVAで空間的な違いを学習し,それで分離された信号の音色構造をNMFで学習します.
    結果得られる音源モデルを空間的な違いの学習に再利用し,さらに高精度な分離信号が得られる,という反復です.
    このプロセスをなんども更新することで,音源毎の明確な音色構造が捉えられ,独立性基準での分離性能の向上が期待できます.
  • 優決定条件におけるNMFを用いた音源分離は,全音源の時間周波数構造をNMFでモデル化し,音源毎の空間相関行列と呼ばれる空間的な伝達特性を用いてクラスタリングする問題になります.
    このNMFモデルと音源毎の空間相関行列は同時に推定します.
    この表にこれまでの手法をまとめています.
    Rsが音源毎の空間相関行列であり,TVは全音源のNMFモデルです.
    従来手法には,音源毎の空間相関行列Rsがランク1かフルランクかという違いがあります.この空間相関行列のランクの違いについては後程解説します.
    これまでの手法は皆空間相関行列Rsを直接推定するものでした.
    私が前回の中間発表で提案した手法は,ランク1の空間相関行列でモデル化し,最適化においてはRsのインバースに相当する分離行列Wを推定することで非常に効率的なアルゴリズムとなっています.
    今日の発表でもこの後簡単に説明させていただきます.
  • 当然時間遅れも考慮されるべきですので,実際は時間周波数領域で先ほどと同じことを仮定します.
    つまり,周波数毎に複素数の係数がかかるという伝達系を仮定しています.
    この複素係数をまとめたベクトルをステアリングベクトルと呼びます.
    全体の混合系は,ステアリングベクトルを並べた混合行列Aで表現でき,音源分離はこの逆行列を求める問題に帰着します.
    物理的には,音源の伝達系が時不変で,残響がフーリエ変換の窓長より短い場合にランク1空間モデルは成り立ちます.
    このようなランク1空間モデルを従来の多チャンネルNMFに導入します.
  • 音楽信号の分離実験を行いました.こちらは実験条件です.二つの音楽信号をこのような配置で鳴らし,2チャンネルのマイクで録音しました.このときの残響時間は300msです.
    評価値はSDRという値を用いています.これは音質と分離度合いを含む総合的な性能を示す尺度です.
  • しかし,提案手法は高残響下においては問題が生じてきます.残響が強い場合,短時間フーリエ変換の窓長よりも長い残響が生じてきます.
    このとき,残響成分がこのように次の時間フレームに漏れ出すため,チャンネル間相関行列がランク1ではなくなります.その結果,分離精度が劣化することが予想されます.
  • そこで,提案手法の応用として,たくさんマイクがある場合を想定します.例えば,2つの音源に対して4つのマイクがあるような状況です.
    通常のBSSでは,このような余剰チャンネルはPCAなどを用いて圧縮してしまいますが,ここではそのままランク1多チャンネルNMFを適用する手法を提案します.
    これは,(クリック)このように,各音源の直接音成分と残響成分が分離されることを期待しています.分離後に同じ音源に属する成分同士を足し合わせてもとの信号を復元します.
  • この時,各成分が音源毎にまとまるように,基底共有型ランク1多チャンネルNMFという新たな手法を提案しています.
    この図のように,複数の成分であらかじめ音源モデルの基底行列Tを共有させておくことで,各成分が自動的に音源毎にまとまります.
    これは「同じ音源の直接音と残響は同じスペクトルパターンを持っている」という仮定が成立する為です.
    このような処理は,音源モデルが与えられて初めてできる応用手法になります.
  • 先ほどと同様に音楽信号の分離実験を行いました.
    今回は2音源で4チャンネルの観測信号を録音しました.但し,残響時間470msに対して128msの解析窓を用いている為,ランク1モデルは成り立っていないような条件です.
  • コチラが結果の一例です.左から順に,従来通りPCAを用いたIVAとランク1多チャンネルNMF,多チャンネルNMF,基底共有型ランク1多チャンネルNMFです.
    従来のPCAを用いる手法では,精度が不十分であることが分かります.また,多チャンネルNMFはフルランクの空間モデルを仮定しているため,分離できるポテンシャルは持っていますが精度は上がりませんでした.これは最適化が困難であることを示唆しています.
    そして提案手法は非常に大きな改善を示していることが確認できます.
    また,実計算時間を比較しても,多チャンネルNMFよりは格段に高速であることが分かります.
  • ×