Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

1,001 views

Published on

Presented at 2014 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Efficient multichannel nonnegative matrix factorization with rank-1 spatial model," Proceedings of 2014 Autumn Meeting of Acoustical Society of Japan, 2-1-11, pp.579-582, Hokkaido, September 2014 (in Japanese, 粟屋 潔学術奨励賞受賞)

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

  1. 1. Efficient multichannel NMF with rank-1 spatial model ランク1空間モデルを用いた効率的な 多チャネル非負値行列因子分解 総合研究大学院大学 博士課程1年 北村大地 国立情報学研究所 / 総合研究大学院大学 小野順貴 NTTコミュニケーション科学基礎研究所 澤田宏 東京大学 / NTTコミュニケーション科学基礎研究所 亀岡弘和 東京大学 猿渡洋
  2. 2. 研究背景 • ブラインド音源分離 (blind source separation: BSS) – 混合信号のみ (混合系は未知) から分離信号を推定する技術 – 過決定条件 (音源数 録音マイク数) におけるBSS • 独立成分分析 (ICA),独立ベクトル分析 (IVA) 等 – 劣決定条件 (音源数 録音マイク数) におけるBSS • 非負値行列因子分解 (NMF) の拡張手法等 • 話者分離や雑音抑圧等,様々な用途がある 2 音源信号 観測信号 分離信号 混合系 分離系
  3. 3. 従来手法 • 多チャネルNMF [H. Sawada, et al., 2013] – 音源の混合系を空間相関行列として推定 – 劣決定条件にも対応し自由度が高いが,最適化が難しい • 独立ベクトル分析 (IVA) [T. Kim, et al., 2007] – 音源間 (ベクトル間) の独立性を仮定し分離行列を推定 – 混合行列の逆行列を仮定する為,過決定条件下の技術 – 安定で高速な最適化が可能 3 音源信号 観測信号 分離信号 混合系 分離系
  4. 4. 本研究の目的と位置づけ • 容易に最適化できる多チャネルNMFの提案 – IVAと多チャネルNMFを統一的に捉える枠組みを確立 4 モデルの自由度 最適化の容易さ 多チャネル NMF IVA 提案手法 分離性能 Bad 分離性能 Good!
  5. 5. 提案手法のコンセプト • 従来の多チャネルNMFは混合行列を推定していた – 劣決定条件にも対応 – しかし最適化が難しい • 分離行列を推定する多チャネルNMFを考える – 逆行列が存在しなければならない – 決定的な混合系でなければならない • 提案手法は過決定条件で各音源が点音源に近い状況に 限定 – 一般的な会議や音楽演奏の収録環境では実用的な条件設定 5 過決定条件に限定 混合のランク1近似 解決するアイデア
  6. 6. 提案手法: 定式化 • 従来の多チャネルNMFにおける定式化 6 : 周波数ビン数 : 時間フレーム数 : チャネル数 複素数 対角成分が グリッドにおける各 チャネルの観測パワー (非負値) 非対角成分はチャネル間相関を 示す複素数 各 グリッドが全てベクトルとなる
  7. 7. • 多チャネルNMFの分解モデル ( の例 ) • 参考: 単一チャネルNMFの分解モデル 提案手法: 定式化 7 要素毎の積 灰色は非負の実数 赤色は複素数 Amplitude Amplitude Time Time Frequency Frequency 基底 アクティベーションスペクトログラム
  8. 8. 要素毎の積 灰色は非負の実数 赤色は複素数 • 多チャネルNMFの分解モデル ( の例 ) 提案手法: 定式化 8 分離行列を推定する問題にするために, 空間相関行列が全てランク1の行列となる ような制約条件を導入 提案手法
  9. 9. 提案手法: ランク1空間相関行列とは • ランク1近似: 各時間フレームでの複素瞬時混合を仮定 – 音源ができるだけ点音源に近く,残響などの拡散が時間周波 数解析の時間フレーム内に収まるという条件に対応 • ランク1空間相関行列は各音源のステアリングベクトルの 外積で表現できる • ステアリングベクトルは混合行列の列成分 9 音源信号 複素混合行列 観測信号 ( のランク1行列) 時不変の複素 混合行列 で 表現できる
  10. 10. 提案手法: コスト関数の変形と変数変換 • 従来の多チャネルNMFのコスト関数 (板倉斎藤擬距離) • 提案手法のコスト関数 (板倉斎藤擬距離) 10 ランク1空間相関行列を導入 ( ) 混合行列 を用いて表現しなおす , を用いて 分離行列 と分離信号 に変数変換 1. 2. 3.
  11. 11. 提案手法: IVA及びNMFとの関係 • 提案手法のコスト関数 (板倉斎藤擬距離) • IVAのコスト関数 (球状ラプラス分布仮定) • 単一チャネルNMFのコスト関数 (板倉斎藤擬距離) 11
  12. 12. 提案手法: IVA及びNMFとの関係 • 提案手法のコスト関数 (板倉斎藤擬距離) • IVAと単一チャネルNMFの各コスト関数の組み合わせ – IVAと多チャネルNMFの関係を明らかにする 12 モデルの自由度低 高 スペクトル基底 の数を拡張 混合系のランク1 近似を導入 多チャネル NMF IVA 提案手法
  13. 13. 提案手法: 潜在変数無し • 提案手法1 – 各音源は同じ数の基底で表現される • 利点: 単一チャネルNMFの更新式とIVAの更新式を交互 に回すだけで全変数の最適化が可能 • 欠点: 全ての音源に適切な数の基底を与えられない 13 混合行列 分離行列 音源信号 観測信号 分離信号 空間相関 行列 基底とアクティベーション ランク1行列 4個の基底 4個の基底 同じ数の基底で各音源を表現する 全部で8個 の基底
  14. 14. 提案手法: 潜在変数導入 14 混合行列 分離行列 音源信号 観測信号 分離信号 空間相関 行列 基底とアクティベーション ランク1行列 5個の基底 各音源に適切な基底数が適応的に決定される 潜在変数 3個の基底 全部で8個 の基底 • 提案手法2 – トータルの基底数を与え,適応的に各音源に割り当てる • 利点: 最適な基底数が学習されるため,分離精度が向上 • 欠点: 潜在変数の最適化も必要なため頑健性が劣化 – 潜在変数の更新式は補助関数法で導出可能
  15. 15. 分離精度の比較実験 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャネルで2音源の混合信号 比較手法 IVA, 提案手法1 (潜在変数なし), 提案手法2 (潜在変数あり) サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル FFT長 8192 点 (512 ms) 窓関数長 2048 点 (128 ms, ハニング窓) 初期値 分離行列 : 単位行列, その他の変数: 非負値乱数 基底数 提案手法1: 各音源につき20個 (トータルは40個) 提案手法2: トータルで40個 反復回数 200 回 試行回数 初期値を変えて10 回 主観評価値 平均SDR改善値とその標準偏差 (総合分離性能) 平均SIR改善値とその標準偏差 (非目的音の除去性能) 平均SAR値とその標準偏差 (人工歪みの少なさ) 15 • 実験条件
  16. 16. • 実験結果1 (Another_dreamer_The_ones_we_love_Snip_69-94) – Source 1: Guitar – Source 2: Vocal 16 14 12 10 8 6 4 2 0 SAR[dB] 28 24 20 16 12 8 4 0 SIRimprovement[dB] 16 14 12 10 8 6 4 2 0 SDRimprovement[dB] IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 (a) (b) (c) : Source 1 : Source 2 分離精度の比較実験 16
  17. 17. 12 10 8 6 4 2 0 SAR[dB] 14 12 10 8 6 4 2 0 -2 SIRimprovement[dB] 4 3 2 1 0 -1 -2 -3 SDRimprovement[dB] IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 (a) (b) (c) : Source 1 : Source 2 分離精度の比較実験 17 • 実験結果2 (Tamy_Que_pena_tanto_faz_Snip_6-19) – Source 1: Guitar – Source 2: Vocal
  18. 18. • 実験結果3 (Fort_minor_Remember_the_name_Snip_54-78) – Source 1: Violins_synth – Source 2: Vocal 16 14 12 10 8 6 4 2 0 SAR[dB] 20 16 12 8 4 0 SIRimprovement[dB] 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 (a) (b) (c) : Source 1 : Source 2 分離精度の比較実験 18
  19. 19. まとめ • 混合系ではなく分離行列を求める多チャネルNMFを新た に提案した – 空間相関行列がランク1となる近似を導入 – IVAと単一チャネルNMFの組み合わせとなり,最適化が容易 • IVAと従来の多チャネルNMFの関係を明らかにした – 「IVAに基底分解を導入したモデル」と「ランク1近似を導入した 多チャネルNMF」は本質的に等価 • 客観評価実験の結果,提案手法はIVAよりも高精度な分 離を達成した • 今後は従来の多チャネルNMFと頑健性の比較を行う 19

×