Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

1,263 views

Published on

Presented at 2015 Spring Meeting of Acoustical Society of Japan (domestic conference)
北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "過決定条件BSS におけるランク1 空間制約の緩和," 日本音響学会 2015年春季研究発表会, 3-10-11, pp.629-632, Tokyo, March 2015.
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Relaxation of rank-1 spatial model in overdetermined BSS," Proceedings of 2015 Spring Meeting of Acoustical Society of Japan, 3-10-11, Tokyo, March 2015 (in Japanese).

Published in: Engineering
  • Be the first to comment

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

  1. 1. 過決定条件BSSにおける ランク1空間制約の緩和 総合研究大学院大学 博士課程1年 北村大地 国立情報学研究所 / 総合研究大学院大学 小野順貴 NTTコミュニケーション科学基礎研究所 澤田宏 東京大学 / NTTコミュニケーション科学基礎研究所 亀岡弘和 東京大学 猿渡洋 Relaxation of Rank-1 Spatial Model in Overdetermined BSS
  2. 2. 研究背景 • ブラインド音源分離 (blind source separation: BSS) – 観測信号のみ (混合系は未知) から音源信号を推定する技術 – 過決定条件 (音源数 録音マイク数) におけるBSS • 独立成分分析 (ICA),独立ベクトル分析 (IVA) 等 – 劣決定条件 (音源数 録音マイク数) におけるBSS • スペクトログラムマスキング,非負値行列因子分解 (NMF) 等 • BSSの応用 – 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc. 2 音源信号 観測信号 分離信号 混合系 分離系
  3. 3. • 多チャネル非負値行列因子分解 (NMF) [H. Sawada, 2013] 従来手法 (1/3) 3 Amplitude Amplitude Time Time Frequency Frequency 基底 アクティベーションスペクトログラム 観測信号の時間&周波数毎の チャネル間相関行列 周波数&音源毎の 空間相関行列 スペクトル基底 (頻出パターン) アクティベーション (時間強度変化)潜在変数 参考: 単一チャネルNMF 音源モデル空間モデル多チャネル観測信号 : 実数値(非負) : 複素数値 : 0~1の実数値 : 要素毎の積
  4. 4. 従来手法 (2/3) • 独立ベクトル分析 (IVA) [T. Kim, 2007] – 周波数をまとめた音源ベクトル間の独立性を仮定 • ベクトル内では高次統計量の相関を考慮 • 周波数領域ICAのパーミュテーション問題を解決 – 各フレームで時不変の複素瞬時混合系を仮定 – 安定かつ高速に分離行列が推定可能 4 … … 音源信号 混合行列 … … … 観測信号 分離行列 分離信号
  5. 5. 音源モデル空間モデル多チャネル観測信号 従来手法 (3/3) • ランク1空間制約付き多チャネルNMF [D. Kitamura, 2014] – 空間モデル: IVAの分離行列の推定問題に帰着 – 音源モデル: 単一チャネルNMFの基底とアクティベーションの 推定問題に帰着 5 全空間相関行列をランク1で近似 IVAとNMFの更新式の交互反復により 高速かつ安定に多チャネルNMFが解ける
  6. 6. ランク1空間モデル • 空間相関行列のランク1近似とは? – 時間周波数領域での時不変の複素瞬時混合仮定と等価 – 周波数領域ICAやIVAでもおなじみ 6 1. 音源が点音源性を持つ 2. 残響が短時間フーリエ変換の窓長より短い Frequency Time 観測信号の スペクトログラム 観測信号音源信号 時不変 複素混合行列
  7. 7. • 収録環境の残響が長い場合 – 音源とマイク間のインパルス応答が窓長より長くなる – 残響成分が前の時間フレームから漏れる Frequency Time 観測信号の スペクトログラム 観測信号 ランク1空間モデルの問題点 7 混合系が時不変瞬時混合では表現できない 従来の分離手法(IVA等)では精度が著しく劣化 前フレームから 漏れた成分 音源信号
  8. 8. 問題点のまとめとモチベーション • 多チャネルNMF [H. Sawada, 2013] – フルランクの空間相関行列を推定可能 • 残響にも多少頑健 – 計算コストが極めて高い – 初期値依存性が強い • IVA [T. Kim, 2007] & ランク1多チャネルNMF [D. Kitamura, 2014] – 空間モデルのランク1空間制約あり (時不変瞬時混合を仮定) – 残響が窓長より長いと精度が劣化 8 高い計算効率を保ったまま ランク1空間制約を緩和したい 高残響下でも 音源を分離する為には
  9. 9. 提案法
  10. 10. アプローチ • 余剰チャネルの存在する過決定条件を想定 – 個の音源に対して 倍の録音マイク がある ( ) 10 音源信号 観測信号 混合 分離信号 BSS 次元削減された 観測信号 主成分 分析 例: 音源2個,マイク4個の場合 ( ) • 主成分分析 (PCA) を用いた次元削減 – 観測信号中の弱い成分(各音源の残響成分)の除去を期待 – パワーがアンバランスな混合には不向き • パワーの弱い音源の主成分が除去される危険がある
  11. 11. アプローチ • 余剰チャネルの存在する過決定条件を想定 – 個の音源に対して 倍の録音マイク がある ( ) 11 音源信号 観測信号 混合 例: 音源2個,マイク4個の場合 ( ) • 各音源の直接音成分と残響成分を分けて推定 – 直接音成分と残響成分の間の独立性を仮定 – 同一音源の直接音と残響を足し合わせて分離信号を再構成 直接音 残響 直接音 残響 分離信号 再構成 仮想的な分離信号 BSS
  12. 12. 仮想分離信号のクラスタリング • 推定信号の順番の不定性 – どの仮想分離信号がどの音源の直接音or残響音に対応する かが不明 12 分離信号 再構成 クラスタリングされた 仮想分離信号 音源1の直接音 音源1の残響音 音源2の直接音 音源2の残響音 クラスタリング 推定した 仮想分離信号 仮想分離信号を音源毎にまとめるクラスタリングが必要
  13. 13. 仮想分離信号のクラスタリング法 • 同一音源の直接音成分と残響成分はパワースペクトロ グラムが高い相関を持つ • 数フレームの遅れを考慮した相互相関値 – 仮想分離信号の全組み合わせの相関値を計算 – 高い順に信号をマージ 13 のパワースペクトログラム のパワースペクトログラム ・・・
  14. 14. • 同一音源の直接音成分と残響成分は同じスペクトル基 底で表現できる • 複数の音源で共有するスペクトル基底を与えて推定 – ランク1多チャネルNMF限定の手法 (IVAでは不可能) – あらかじめスペクトル基底を共有してモデル化することで音源 毎にグルーピングしつつ仮想分離信号を推定 基底共有型ランク1多チャネルNMF 14 (音源1の直接音) (音源1の残響音) (音源2の直接音) (音源2の残響音) 仮想分離信号 ランク1多チャネル NMFの音源モデル 分離信号 共有基底 共有基底 再構成
  15. 15. 実験
  16. 16. • 実験条件 – JR2インパルス応答 分離精度の比較実験 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2音源4チャネルの混合信号 サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル FFT窓長 8192 点 (128 ms, Hamming窓) シフト長 2048 点 (64 ms) 基底数 各音源につき15本 (トータルで30本) 反復回数 200 回 試行回数 初期値を変えて10 回 主観評価値 平均SDR改善値とその標準偏差 (総合分離性能) 16 残響時間: 470 ms 2 m 音源1 80 60 マイク間隔: 2.83cm 音源2
  17. 17. • 比較手法(計7手法) – PCA + 2ch IVA • PCAをかけて2チャネルに圧縮した後,IVAで分離 – PCA + 2ch Rank1MNMF • PCAをかけて2チャネルに圧縮した後,ランク1多チャネルNMFで分離 – 4ch IVA + クラスタリング • 4チャネルのままIVAを適用後,クラスタリングし分離信号を再構成 – 4ch 基底共有型Rank1MNMF • 4チャネルのまま基底共有型ランク1MNMFを適用後,分離信号を再構成 – 4ch MNMF + BF • 4チャネルのまま推定した空間相関(フルランク)でBFを適用(時不変フィルタ) – 4ch MNMF • 4チャネルのまま推定した空間相関(フルランク)と音源モデルで多チャネル Wienerフィルタを適用(時変フィルタ) – 真の空間情報を用いた理想的なBF • 各音源の真の空間相関の時間平均を用いた時不変分離フィルタの限界性能 分離精度の比較実験 17 従 来 手 法 提 案 手 法 従 来 手 法 参 考 値 MNMF: 多チャネルNMF BF: ビームフォーマ
  18. 18. • 分離性能の比較1 (ultimate_nz_tour__snip_43_61) – Source 1: Guitar – Source 2: Vocals 16 14 12 10 8 6 4 2 0 SDRimprovement[dB] 分離精度の比較実験 18 ランク1空間制約 時不変フィルタ(1個/音源) フルランクモデル 時不変フィルタ (1個/音源) フルランクモデル 時変フィルタ 時不変フィルタ (1個/音源)の 限界性能 ランク1空間制約 時不変フィルタ(2個/音源) : Source 1 : Source 2 PCA+ 2ch IVA PCA+ 2ch Rank1 MNMF 4ch IVA+ クラスタリング 4ch MNMF+ BF 4ch MNMF 真の空間情報 を用いた 理想的なBF 4ch 基底共有型 Rank1MNMF
  19. 19. • 分離性能の比較2 (bearlin-roads__snip_85_99) – Source 1: Acoustic guitar – Source 2: Piano 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] 分離精度の比較実験 19 PCA+ 2ch IVA PCA+ 2ch Rank1 MNMF 4ch IVA+ クラスタリング 4ch MNMF+ BF 4ch MNMF 真の空間情報 を用いた 理想的なBF 4ch 基底共有型 Rank1MNMF : Source 1 : Source 2
  20. 20. • 分離性能の比較3 (fort_minor-remember_the_name__snip_54_78) – Source 1: Drums – Source 2: Vocals 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] 分離精度の比較実験 20 PCA+ 2ch IVA PCA+ 2ch Rank1 MNMF 4ch IVA+ クラスタリング 4ch 基底共有型 Rank1MNMF 4ch MNMF+ BF 4ch MNMF 真の空間情報 を用いた 理想的なBF : Source 1 : Source 2
  21. 21. 分離精度の比較実験 21 • 計算時間の比較 – 条件 • CPU: Intel Core i7-4790 (3.60GHz) • 環境: MATLAB 8.3 (64-bit) • 楽曲: ultimate_nz_tour__snip_43_61 (18s, 16kHzサンプル) PCA + 2ch IVA PCA + 2ch Rank1MNMF 4ch IVA+ クラスタリング 4ch Rank1 MNMF+ クラスタリング MNMF 23.4 s 29.4 s 60.1 s 143.9 s 3611.8 s 高残響下で高い計算効率を保ったまま 多チャネルNMFと同程度の分離性能を実現
  22. 22. まとめ • 残響時間が窓長を超える長さの観測信号を対象 – 高い計算効率と十分な分離性能の両立 • 音源の数の2倍以上の観測マイク数があれば適用可能 な分離アルゴリズムを提案 – 従来はPCAで観測信号の次元圧縮を行うことが一般的だった • 余剰な観測チャネルを用いて各音源の直接音成分と残 響成分を別々に推定 – ランク1空間制約が緩和可能 – 高残響下での分離精度向上 • 実験結果は良好な性能を示した – 時不変線形分離フィルタの限界性能を超える場合も確認 22

×