過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

Assistant Professor at National Institute of Technology, Kagawa College
Mar. 18, 2015
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS
1 of 22

More Related Content

What's hot

スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura

What's hot(20)

Similar to 過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

招待講演(鶴岡)招待講演(鶴岡)
招待講演(鶴岡)nozomuhamada
Ea2015 7for ssEa2015 7for ss
Ea2015 7for ssSaruwatariLabUTokyo
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptxNatsumi KOBAYASHI
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory

More from Daichi Kitamura

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura

More from Daichi Kitamura(14)

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

Editor's Notes

  1. 始めに研究の背景について説明します. ブラインド音源分離,BSSとは,複数の音源が混合された信号のみから分離信号を推定する技術です. 即ち,混合系やマイクの位置等が未知の条件で,分離信号を得るのが目的です. BSSは録音マイクの数によって大きく2つに分けられます,本研究では音源の数以上のマイク数を想定する過決定条件に限定します. 過決定条件BSSでは,古くからICAや,その拡張手法である独立ベクトル分析,IVA等が盛んに研究されてきました. BSSの応用としては,話者分離や雑音抑圧,音楽信号解析等,さまざまな用途があります.
  2. 本研究に関わる従来手法を3つ紹介いたします. まず一つ目は多チャネル非負値行列因子分解,多チャネルNMFです. これは,時間周波数毎のチャネル間相関行列を入力Xとし,これを空間相関行列H,潜在変数z,スペクトル基底T,アクティベーションVに近似分解します. 得られたK本の頻出スペクトルパターンとなるスペクトル基底を,潜在変数ZによってL個の音源に対応する空間相関行列にクラスタリングすることで音源分離できます. すなわち,空間的な混合系を空間モデル,スペクトルやアクティベーションを音源モデルとしてそれぞれ推定する手法で,劣決定条件にも対応できます. しかし,これら全ての変数の最適化は非常に困難であり,分離精度が不安定となる問題があります.
  3. 二つ目はIVAです. これは周波数領域ICAの応用で,音源にみたてた複数の周波数ベクトル間の独立性を仮定します. 音源の混合系を,周波数領域での時不変複素混合行列Aと仮定し,その逆行列の分離行列Wを推定します. そのため過決定条件に限定されますが,安定で高速な最適化が可能です.
  4. 最後に我々が提案したランク1空間制約付き多チャネルNMFを説明します. これは,多チャネルNMFの空間相関行列をランク1行列と近似して推定する手法です. このような近似によって,空間モデルの推定がIVAの分離行列の推定問題と等価になり,音源モデルの推定が単一チャネルNMFの推定問題と等価になります. 従って,IVAとNMFの交互更新によって高速かつ安定に多チャネルNMFが解けるようになりました.(3分)
  5. さて,このランク1空間モデルについてですが,これは時間周波数領域での時不変な複素瞬時混合仮定と等価です. 時不変複素瞬時混合仮定はICAやIVAでも用いられていますが,このようにスペクトログラムの各スロットにおいて,複数の音源が周波数毎の時不変な混合行列Aiで混ざり合うシステムを仮定することです. 従って観測信号xはAと音源sの積で表現されます. 物理的には,音源が点音源に近く,残響がFFTの窓長よりも短い場合に成立します.
  6. しかし,残響が長い場合は,各音源と各マイク間のインパルス応答が窓長より長くなる為,前の時間フレームから現在の時間フレームに漏れ出す時変な成分nがこのように各マイクに生じます. そのため,混合信号xは時不変混合行列Aだけでは表現できなくなり,x=As+nとなります. この結果,Aの逆行列を求める従来の分離手法の精度は著しく劣化します.
  7. 以上をまとめますと,多チャネルNMFはフルランクの空間相関を推定できますので,先ほどのランク1近似が成立しない場合でも多少頑健です しかし,計算コストが極めて高く,初期値依存性も強いことが問題です. IVAやランク1多チャネルNMFはランク1空間制約がありますので,残響が長いと精度が劣化します. したがって,高い計算効率を保ったまま,ランク1空間制約の緩和を目指します.(4分30秒)
  8. 提案法ではN個の音源のP倍のマイクがある状況を想定します. マイク数をMとするとM=PNです. 例えば,2つの音源に対して4つの観測信号がある場合はP=2です. 一般的には,観測数が音源数より多い場合,(クリック)主成分分析を用いて次元を圧縮し,(クリック)BSSを行います.(クリック) このPCAは,観測信号中の残響成分が除去されることを期待していますが,音楽信号のようにパワーがアンバランスな混合では,弱い音源の主成分が除去される危険があります.
  9. 提案法では,(クリック)余剰なチャネルを残したままIVAまたはランク1多チャネルNMFを施します. (クリック)これは,2つの音源に対して推定された4つの仮想的な分離信号が, (クリック)このように各音源の直接音成分と残響成分に分かれることを期待しています. 従って,複数音源間のみならず,同一音源の直接音成分と残響成分の間にも独立性を仮定しています. 最終的には,同一音源の各成分を足し合わせて本来の分離信号を再構成します.
  10. しかし,IVAやランク1多チャネルNMFでは,推定信号の順番が不定なため,この図のように仮想分離信号を音源毎にクラスタリングする必要があります. もし推定した仮想分離信号が,各音源の直接音あるいは残響をよく表していた場合,このようなクラスタリングは比較的容易です.
  11. 仮想分離信号のクラスタリングには,同じ音源の直接音成分と残響成分が類似したパワースペクトログラムをもつことを利用します 但し,残響成分が時間フレームをまたいで遅れることを考慮して,0からタウmaxまでの時間フレーム遅れを考慮したパワースペクトログラムの相互相関値Cを用います. この相関値Cを,仮想分離信号の全組み合わせで計算し,相関値の高い順に信号をマージしていくことで音源毎にまとめることができます.
  12. 一方,BSSにランク1多チャネルNMFを用いる場合には,音源モデルを利用したクラスタリングが可能です. ランク1多チャネルNMFでは,各分離信号を基底TとアクティベーションVでモデル化しますが,同じ音源の直接音成分と残響成分が「同じスペクトル基底」で表現できるという仮定に基づくと,この図のT1やT2のように,あらかじめ複数の音源で基底を共有しておくことで,音源毎にグルーピングしながら仮想分離信号を推定できます. 従ってこの手法は,仮想分離信号の推定と音源毎へのクラスタリングを同時に行っていることになります.(7分半~8分弱)
  13. 分離精度の比較実験を行いました.この表は実験条件です. 音源には,SiSECのプロ音楽信号にRWCPのインパルス応答を畳み込んで,2音源4チャネルの混合信号を作成しました. 注意すべき点は,残響時間が470msで,窓長の128msを完全に超えているという条件です. 評価尺度は総合分離性能を示すSDRとしました.
  14. こちらは比較手法一覧です.今回はこれら7手法を比較します. PCA+2chIVAとPCA+2chRank1MNMFは,従来通り先にPCAをかけて観測信号を2チャネルに圧縮し,IVAやランク1多チャネルNMFで分離する手法です. 4chIVA+クラスタリングは,4チャネルのままIVAをかけ,前述のパワースペクトログラム相互相関でクラスタリングし分離信号を得るものです. また,4ch基底共有型Rank1MNMFは,4チャネルのまま基底共有型ランク1MNMFを適用し,分離信号を再構成する手法です. さらに,従来の多チャネルNMFは,推定したフルランクの空間相関からSN比最大化ビームフォーマを構成する時不変分離フィルタと,多チャネルWienerフィルタを用いる時変分離フィルタの2タイプを用いました. 最後に参考値として,各音源の真の空間相関を用いた理想的なSN比最大化ビームフォーマの性能を算出しました.これは時不変分離フィルタの限界性能となります.
  15. 1曲目の結果です.手法ごとに2つの音源のSDR改善量を示しています. これらの手法は(クリック)このような特徴の違いがあります. まず,最初にPCAを用いる各従来手法よりも,4チャネルのまま分離する各提案手法が大きく上回っていることが分かります. 提案手法は,同じ音源の直接音と残響それぞれに1つずつ時不変分離フィルタを与えることになりますので,1音源あたり2個の時不変分離フィルタを用いていることになります. また,フルランクの空間相関行列を推定する従来の多チャネルNMFと比較してもほぼ同じ程度の性能が出ており,初期値依存性においては提案法が優位です. そして,基底共有型ランク1多チャネルNMFを用いる提案手法は,1音源に1個の時不変分離フィルタを与えた場合の限界性能を超えていることが分かります.
  16. これは別の楽曲の結果です. この例では,提案法が理想的なビームフォーマの性能を上回ることはありませんでしたが,フルランクの多チャネルNMFよりも良い分離性能を示していることがわかります.
  17. さらに別の結果です. この曲では,提案法のスコアはフルランクの多チャネルNMFよりも少し低い結果となりましたが,時不変分離フィルタの限界性能を超えていることが分かります.
  18. 最後に計算時間の比較です. この表は各手法の計算時間を示しています. この結果から,提案法は高残響下においても,高い計算効率を保ったままフルランクの多チャネルNMFと同程度の分離性能を実現していることが分かります.
  19. 上側の式は従来の多チャネルNMFのコスト関数です. この式にランク1空間相関行列を従来の多チャネルNMFのコスト関数に導入すると,混合行列Aを用いて表現することが出来ます. さらに,分離行列Wと分離信号yを用いて変数変換すると,このようなコスト関数に変形できます.
  20. このコスト関数をよく見ると,なんと,(クリック)第一項と第二項がIVAのコスト関数と等価で,(クリック)第一項と第三項が単一チャネルNMFのコスト関数と等価になっています.(クリック) したがって,IVAとNMFを重ね合わせたコストとなっており,IVAの更新式とNMFの更新式を交互に反復することで全変数を容易に最適化できます.
  21. さらにこの事実は,IVAと多チャネルNMFの関係性を明らかにします. 提案手法は多チャネルNMFにランク1近似を導入したモデルですが,IVAに基底分解を導入したモデルとも言えます. IVAから見れば,IVAは全ての周波数ビンが共通の振幅包絡を持つので,1本の基底のNMFに良く似た表現モデルでしたが,その基底数を拡張したと言えます. 一方多チャネルNMFから見れば,混合行列ではなく分離行列を求めるモデルに変更したと言えます. したがって,まったく別々と思われていたIVAとNMFの関係性が明らかになります.