Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

1,177 views

Published on

Presented at 2015 Autumn Meeting of Acoustical Society of Japan (domestic conference)
北村大地, 猿渡洋, 小野順貴, 澤田宏, 亀岡弘和, "ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察," 日本音響学会 2015年秋季研究発表会, 3-6-10, pp.583-586, Fukushima, September 2015.
Daichi Kitamura, Hiroshi Saruwatari, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, "Study on source and spatial models for BSS with rank-1 spatial approximation," Proceedings of 2015 Autumn Meeting of Acoustical Society of Japan, 3-6-10, pp.583-586, Fukushima, September 2015 (in Japanese).

Published in: Engineering
  • Be the first to comment

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

  1. 1. ランク1空間近似を用いたBSSにおける 音源及び空間モデルの考察 総合研究大学院大学 博士課程2年 東京大学 国立情報学研究所/総合研究大学院大学 NTT 東京大学/NTT Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation ○北村大地 猿渡洋 小野順貴 澤田宏 亀岡弘和
  2. 2. 研究の背景 • ブラインド音源分離(blind source separation: BSS) – 観測信号のみ(混合系は未知)から音源信号を推定する技術 – 優決定条件(音源数 録音マイク数)におけるBSS • 独立成分分析(ICA) [Comon, 1994] 等 – 劣決定条件(音源数 録音マイク数)におけるBSS • 時間周波数マスク [Araki, 2007],非負値行列因子分解(NMF)[Lee, 1999] 等 • BSSの応用 – 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc. 2 音源信号 観測信号 分離信号 混合系 分離系
  3. 3. 本発表の目的 • ランク1空間近似を用いたBSS(全て優決定条件下) – 周波数領域ICA(FDICA) [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. • スペクトログラム領域で周波数毎に独立なICAを適用 • パーミュテーション問題を解く – 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] • FDICAに対して球対称かつ多変量な事前分布を導入 • パーミュテーション問題を回避しつつ音源を分離 – ランク1多チャネルNMF(Rank-1 MNMF) [Kitamura, 2015] • 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す • 効率的かつ安定に最適化できる音源分離手法 • 上記3手法の音源モデル及び空間モデルについて考察 – 音源のスペクトル構造や混合系の制約等 • Rank-1 MNMFが最も柔軟なBSSで あることを実験的に示す 3
  4. 4. ランク1空間近似とは? • 音源毎の空間相関行列のランクが1(という近似モデル) – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 – 時間周波数領域における時不変複素瞬時混合モデル – ランク1空間近似の物理的な意味 • 音源の伝達系が時不変 • インパルス応答が短時間フーリエ変換(STFT)の窓長より十分短い 4 マイク アレイ 観測 信号 音源 : 周波数インデクス : 時間インデクス 時不変混合行列 ステアリング ベクトル ステアリング ベクトル
  5. 5. FDICAとパーミュテーション解決 5 ICA 全て時間周波数 領域の信号 (スペクトログラム) 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2Time • 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存
  6. 6. FDICA+DOAの音源モデルと空間モデル 6 • FDICA+DOAクラスタリング [Saruwatari, 2000] – 推定分離フィルタからステアリングベクトルを逆算し音源の到来 方向(DOA)でクラスタリングすることでパーミュテーションを解く – 音源モデル • 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ) – 空間モデル • ランク1空間近似 • 混合系はDOAクラスタリングで解決できるという仮定(制約) 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 DOA クラスタリング Source 1 Source 2 音源の空間的な配置条件と残響レベルが分離性能に影響
  7. 7. • 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] – 音源モデル • 周波数間の一定分散多次元ラプラス分 布(球対称ラプラス分布) – 空間モデル • 特に制約無し(ランク1空間近似のみ) IVAの音源モデルと空間モデル 7 … … 音源信号 混合行列 … … … 観測信号 分離行列 分離信号 球対称
  8. 8. 音源モデル空間モデル多チャネル観測信号 Rank-1 MNMFの音源モデルと空間モデル 8 全空間相関行列がランク1という制約を導入 • ランク1空間近似付き多チャネルNMF [Kitamura, 2015] – 音源モデル • 任意基底数のNMFによる低ランク近似 分解(分散が時間周波数で変動する) – 空間モデル • 特に制約無し(ランク1空間近似のみ) 分散が 変動
  9. 9. IVAとRank-1 MNMFの音源モデルの違い • IVAの音源モデル – 周波数方向に一様な分散を持つ • 一定分散の多次元ラプラス分布 • 周波数ビン毎にスケールが任意なので 一様(フラット)なスペクトルとは限らない – 1本の基底のNMFに近い • Rank-1 MNMFの音源モデル – 任意基底数のNMF • より具体的な調波構造等を捉えられる – 音源毎に基底数を変えることも可能 • 潜在変数付きNMFモデルとして提案済 9 Frequency Time Frequency Time 本来の音源のスペクトログラムが持つ基底数が分離性能に影響 濃淡は分散値 濃淡は分散値
  10. 10. 実験的な実証方法 • 音源スペクトログラムの基底数の違い • 音源の混合系の違い – 実測信号ではその他の要因が多すぎる – 完全に人工的な音源と混合系を用いて実証する 10音源モデル 空間モデル柔軟限定的 柔軟限定的 IVA MNMF Rank1 MNMFNMFによる音源 モデルの基底数拡張 FDICA +DOA ランク1空間モデル フルランク空間モデル ランク1空間モデル +DOAクラスタリング 分離精度に 与える影響
  11. 11. • 実験に用いる信号 – ガンマ分布に従う変数の積とその線形結合に基づくパワースペ クトログラムを2音源分生成 – いかなる基底数 においても が等カートシス( )と なるように形状母数 を設定(導出は省略!) • カートシスの違いによる音源分離性能の変化を除外するため – の一様分布に従う位相を付与 実験条件 11 ・・・ ・・・ 人工的なパワー スペクトログラム (基底数= ) 生成 生成
  12. 12. • 実験に用いる混合系 – DOA上で2音源分のガウス分布を定義 – 各ガウス分布からステアリングベクトルを生成 – 先の人工音源に対して人工ステアリングベクトルを乗算 • その他の実験条件 実験条件 12 最適化アルゴリズム FDICA: 自然勾配法, DOAクラスタリング: k-means法, IVA: 補助関数法, Rank-1 MNMF: 補助関数法 反復回数 200 回 (FDICAの反復ステップサイズは実験的に調整済) 評価値 SDR改善量(総合分離性能) 人工混合行列 人工観測信号 生成 生成 推定された 音源成分の頻度 到来方向(DOA) [rad]
  13. 13. • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 13 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  14. 14. • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 14 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  15. 15. • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 15 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  16. 16. • 音源の基底数 を変化させた場合の分離精度比較 – 混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 16 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  17. 17. • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,分散は に固定 音源の混合系の違いによる分離精度比較 17 – FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟音源1の結果グラフ FDICA+DOA Rank-1 MNMF(基底数=1) IVA 音源間角度( )[rad]
  18. 18. • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,分散は に固定 音源の混合系の違いによる分離精度比較 18 – FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟音源1の結果グラフ FDICA+DOA Rank-1 MNMF(基底数=1) IVA 音源間角度( )[rad]
  19. 19. • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,分散は に固定 音源の混合系の違いによる分離精度比較 19 – FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟音源1の結果グラフ FDICA+DOA Rank-1 MNMF(基底数=1) IVA 音源間角度( )[rad]
  20. 20. • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,平均は に固定 FDICA+DOA IVA 音源の分散( ) 音源1の結果グラフ 音源の混合系の違いによる分離精度比較 20 – FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 Rank-1 MNMF(基底数=1)
  21. 21. • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,平均は に固定 FDICA+DOA IVA 音源の分散( ) 音源1の結果グラフ 音源の混合系の違いによる分離精度比較 21 – FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 Rank-1 MNMF(基底数=1)
  22. 22. • 音源の混合系 を変化させた場合の分離精度比較 – 音源の基底数は ,平均は に固定 FDICA+DOA IVA 音源の分散( ) 音源1の結果グラフ 音源の混合系の違いによる分離精度比較 22 – FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 Rank-1 MNMF(基底数=1)
  23. 23. • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル) – 音源: acoustic_guit_main, bass, vocalsの3音源 – 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) – 更新回数: 200回 各手法の計算量の比較 23 IVA MNMF Rank-1 MNMF (音源毎に基底数を固定) Rank-1 MNMF (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 (単位は全てs) 12 10 8 6 4 2 0 -2 SDRimprovement[dB] 4003002001000 Iteration steps IVA MNMF Rank-1 MNMF Rank-1 MNMF (基底数固定) (基底数可変) 200回更新時(MNMF以外は十分収束)
  24. 24. 結論とまとめ • Rank-1 MNMF [D. Kitamura et al., ICASSP 2015] – IVAの音源モデルを任意の基底数に拡張 – 空間モデルへの制限は「ランク1」のみ – モデル複雑化に伴う最適化の不安定さもさほど問題にならない – ランク1空間近似を用いる優決定条件BSSとして優秀な手法 24 音源モデル 空間モデル 柔軟具体的 柔軟具体的 IVA Rank1 MNMFNMFによる音源 モデルの基底数拡張 FDICA +DOA ランク1空間モデル ランク1空間モデル +DOAクラスタリング

×