過決定条件BSSにおける
ランク1空間制約の緩和
総合研究大学院大学 博士課程1年 北村大地
国立情報学研究所 / 総合研究大学院大学 小野順貴
NTTコミュニケーション科学基礎研究所 澤田宏
東京大学 / NTTコミュニケーション科学基礎研究所 亀岡弘和
東京大学 猿渡洋
Relaxation of Rank-1 Spatial Model
in Overdetermined BSS
研究背景
• ブラインド音源分離 (blind source separation: BSS)
– 観測信号のみ (混合系は未知) から音源信号を推定する技術
– 過決定条件 (音源数 録音マイク数) におけるBSS
• 独立成分分析 (ICA),独立ベクトル分析 (IVA) 等
– 劣決定条件 (音源数 録音マイク数) におけるBSS
• スペクトログラムマスキング,非負値行列因子分解 (NMF) 等
• BSSの応用
– 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc.
2
音源信号 観測信号 分離信号
混合系 分離系
• 多チャネル非負値行列因子分解 (NMF) [H. Sawada, 2013]
従来手法 (1/3)
3
Amplitude
Amplitude
Time
Time
Frequency
Frequency
基底 アクティベーションスペクトログラム
観測信号の時間&周波数毎の
チャネル間相関行列
周波数&音源毎の
空間相関行列
スペクトル基底
(頻出パターン)
アクティベーション
(時間強度変化)潜在変数
参考: 単一チャネルNMF
音源モデル空間モデル多チャネル観測信号
: 実数値(非負)
: 複素数値
: 0~1の実数値
: 要素毎の積
従来手法 (2/3)
• 独立ベクトル分析 (IVA) [T. Kim, 2007]
– 周波数をまとめた音源ベクトル間の独立性を仮定
• ベクトル内では高次統計量の相関を考慮
• 周波数領域ICAのパーミュテーション問題を解決
– 各フレームで時不変の複素瞬時混合系を仮定
– 安定かつ高速に分離行列が推定可能 4
…
…
音源信号
混合行列
…
…
…
観測信号
分離行列
分離信号
音源モデル空間モデル多チャネル観測信号
従来手法 (3/3)
• ランク1空間制約付き多チャネルNMF [D. Kitamura, 2014]
– 空間モデル: IVAの分離行列の推定問題に帰着
– 音源モデル: 単一チャネルNMFの基底とアクティベーションの
推定問題に帰着
5
全空間相関行列をランク1で近似
IVAとNMFの更新式の交互反復により
高速かつ安定に多チャネルNMFが解ける
ランク1空間モデル
• 空間相関行列のランク1近似とは?
– 時間周波数領域での時不変の複素瞬時混合仮定と等価
– 周波数領域ICAやIVAでもおなじみ
6
1. 音源が点音源性を持つ
2. 残響が短時間フーリエ変換の窓長より短い
Frequency
Time
観測信号の
スペクトログラム
観測信号音源信号
時不変
複素混合行列
• 収録環境の残響が長い場合
– 音源とマイク間のインパルス応答が窓長より長くなる
– 残響成分が前の時間フレームから漏れる
Frequency
Time
観測信号の
スペクトログラム
観測信号
ランク1空間モデルの問題点
7
混合系が時不変瞬時混合では表現できない
従来の分離手法(IVA等)では精度が著しく劣化
前フレームから
漏れた成分
音源信号
問題点のまとめとモチベーション
• 多チャネルNMF [H. Sawada, 2013]
– フルランクの空間相関行列を推定可能
• 残響にも多少頑健
– 計算コストが極めて高い
– 初期値依存性が強い
• IVA [T. Kim, 2007] & ランク1多チャネルNMF [D. Kitamura, 2014]
– 空間モデルのランク1空間制約あり (時不変瞬時混合を仮定)
– 残響が窓長より長いと精度が劣化
8
高い計算効率を保ったまま
ランク1空間制約を緩和したい
高残響下でも
音源を分離する為には
提案法
アプローチ
• 余剰チャネルの存在する過決定条件を想定
– 個の音源に対して 倍の録音マイク がある ( )
10
音源信号
観測信号
混合
分離信号
BSS
次元削減された
観測信号
主成分
分析
例: 音源2個,マイク4個の場合 ( )
• 主成分分析 (PCA) を用いた次元削減
– 観測信号中の弱い成分(各音源の残響成分)の除去を期待
– パワーがアンバランスな混合には不向き
• パワーの弱い音源の主成分が除去される危険がある
アプローチ
• 余剰チャネルの存在する過決定条件を想定
– 個の音源に対して 倍の録音マイク がある ( )
11
音源信号
観測信号
混合
例: 音源2個,マイク4個の場合 ( )
• 各音源の直接音成分と残響成分を分けて推定
– 直接音成分と残響成分の間の独立性を仮定
– 同一音源の直接音と残響を足し合わせて分離信号を再構成
直接音
残響
直接音
残響
分離信号
再構成
仮想的な分離信号
BSS
仮想分離信号のクラスタリング
• 推定信号の順番の不定性
– どの仮想分離信号がどの音源の直接音or残響音に対応する
かが不明
12
分離信号
再構成
クラスタリングされた
仮想分離信号
音源1の直接音
音源1の残響音
音源2の直接音
音源2の残響音
クラスタリング
推定した
仮想分離信号
仮想分離信号を音源毎にまとめるクラスタリングが必要
仮想分離信号のクラスタリング法
• 同一音源の直接音成分と残響成分はパワースペクトロ
グラムが高い相関を持つ
• 数フレームの遅れを考慮した相互相関値
– 仮想分離信号の全組み合わせの相関値を計算
– 高い順に信号をマージ 13
のパワースペクトログラム のパワースペクトログラム
・・・
• 同一音源の直接音成分と残響成分は同じスペクトル基
底で表現できる
• 複数の音源で共有するスペクトル基底を与えて推定
– ランク1多チャネルNMF限定の手法 (IVAでは不可能)
– あらかじめスペクトル基底を共有してモデル化することで音源
毎にグルーピングしつつ仮想分離信号を推定
基底共有型ランク1多チャネルNMF
14
(音源1の直接音)
(音源1の残響音)
(音源2の直接音)
(音源2の残響音)
仮想分離信号
ランク1多チャネル
NMFの音源モデル
分離信号
共有基底
共有基底
再構成
実験
• 実験条件
– JR2インパルス応答
分離精度の比較実験
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2音源4チャネルの混合信号
サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル
FFT窓長 8192 点 (128 ms, Hamming窓)
シフト長 2048 点 (64 ms)
基底数 各音源につき15本 (トータルで30本)
反復回数 200 回
試行回数 初期値を変えて10 回
主観評価値 平均SDR改善値とその標準偏差 (総合分離性能)
16
残響時間: 470 ms 2 m
音源1
80 60
マイク間隔: 2.83cm
音源2
• 比較手法(計7手法)
– PCA + 2ch IVA
• PCAをかけて2チャネルに圧縮した後,IVAで分離
– PCA + 2ch Rank1MNMF
• PCAをかけて2チャネルに圧縮した後,ランク1多チャネルNMFで分離
– 4ch IVA + クラスタリング
• 4チャネルのままIVAを適用後,クラスタリングし分離信号を再構成
– 4ch 基底共有型Rank1MNMF
• 4チャネルのまま基底共有型ランク1MNMFを適用後,分離信号を再構成
– 4ch MNMF + BF
• 4チャネルのまま推定した空間相関(フルランク)でBFを適用(時不変フィルタ)
– 4ch MNMF
• 4チャネルのまま推定した空間相関(フルランク)と音源モデルで多チャネル
Wienerフィルタを適用(時変フィルタ)
– 真の空間情報を用いた理想的なBF
• 各音源の真の空間相関の時間平均を用いた時不変分離フィルタの限界性能
分離精度の比較実験
17
従
来
手
法
提
案
手
法
従
来
手
法
参
考
値
MNMF: 多チャネルNMF
BF: ビームフォーマ
• 分離性能の比較1 (ultimate_nz_tour__snip_43_61)
– Source 1: Guitar
– Source 2: Vocals
16
14
12
10
8
6
4
2
0
SDRimprovement[dB] 分離精度の比較実験
18
ランク1空間制約
時不変フィルタ(1個/音源)
フルランクモデル
時不変フィルタ
(1個/音源)
フルランクモデル
時変フィルタ
時不変フィルタ
(1個/音源)の
限界性能
ランク1空間制約
時不変フィルタ(2個/音源)
: Source 1 : Source 2
PCA+
2ch IVA
PCA+
2ch Rank1
MNMF
4ch IVA+
クラスタリング
4ch MNMF+
BF
4ch MNMF 真の空間情報
を用いた
理想的なBF
4ch
基底共有型
Rank1MNMF
• 分離性能の比較2 (bearlin-roads__snip_85_99)
– Source 1: Acoustic guitar
– Source 2: Piano
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB] 分離精度の比較実験
19
PCA+
2ch IVA
PCA+
2ch Rank1
MNMF
4ch IVA+
クラスタリング
4ch MNMF+
BF
4ch MNMF 真の空間情報
を用いた
理想的なBF
4ch
基底共有型
Rank1MNMF
: Source 1 : Source 2
• 分離性能の比較3 (fort_minor-remember_the_name__snip_54_78)
– Source 1: Drums
– Source 2: Vocals
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB] 分離精度の比較実験
20
PCA+
2ch IVA
PCA+
2ch Rank1
MNMF
4ch IVA+
クラスタリング
4ch
基底共有型
Rank1MNMF
4ch MNMF+
BF
4ch MNMF 真の空間情報
を用いた
理想的なBF
: Source 1 : Source 2
分離精度の比較実験
21
• 計算時間の比較
– 条件
• CPU: Intel Core i7-4790 (3.60GHz)
• 環境: MATLAB 8.3 (64-bit)
• 楽曲: ultimate_nz_tour__snip_43_61 (18s, 16kHzサンプル)
PCA +
2ch IVA
PCA + 2ch
Rank1MNMF
4ch IVA+
クラスタリング
4ch Rank1
MNMF+
クラスタリング
MNMF
23.4 s 29.4 s 60.1 s 143.9 s 3611.8 s
高残響下で高い計算効率を保ったまま
多チャネルNMFと同程度の分離性能を実現
まとめ
• 残響時間が窓長を超える長さの観測信号を対象
– 高い計算効率と十分な分離性能の両立
• 音源の数の2倍以上の観測マイク数があれば適用可能
な分離アルゴリズムを提案
– 従来はPCAで観測信号の次元圧縮を行うことが一般的だった
• 余剰な観測チャネルを用いて各音源の直接音成分と残
響成分を別々に推定
– ランク1空間制約が緩和可能
– 高残響下での分離精度向上
• 実験結果は良好な性能を示した
– 時不変線形分離フィルタの限界性能を超える場合も確認
22

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

Editor's Notes

  • #3 始めに研究の背景について説明します. ブラインド音源分離,BSSとは,複数の音源が混合された信号のみから分離信号を推定する技術です. 即ち,混合系やマイクの位置等が未知の条件で,分離信号を得るのが目的です. BSSは録音マイクの数によって大きく2つに分けられます,本研究では音源の数以上のマイク数を想定する過決定条件に限定します. 過決定条件BSSでは,古くからICAや,その拡張手法である独立ベクトル分析,IVA等が盛んに研究されてきました. BSSの応用としては,話者分離や雑音抑圧,音楽信号解析等,さまざまな用途があります.
  • #4 本研究に関わる従来手法を3つ紹介いたします. まず一つ目は多チャネル非負値行列因子分解,多チャネルNMFです. これは,時間周波数毎のチャネル間相関行列を入力Xとし,これを空間相関行列H,潜在変数z,スペクトル基底T,アクティベーションVに近似分解します. 得られたK本の頻出スペクトルパターンとなるスペクトル基底を,潜在変数ZによってL個の音源に対応する空間相関行列にクラスタリングすることで音源分離できます. すなわち,空間的な混合系を空間モデル,スペクトルやアクティベーションを音源モデルとしてそれぞれ推定する手法で,劣決定条件にも対応できます. しかし,これら全ての変数の最適化は非常に困難であり,分離精度が不安定となる問題があります.
  • #5 二つ目はIVAです. これは周波数領域ICAの応用で,音源にみたてた複数の周波数ベクトル間の独立性を仮定します. 音源の混合系を,周波数領域での時不変複素混合行列Aと仮定し,その逆行列の分離行列Wを推定します. そのため過決定条件に限定されますが,安定で高速な最適化が可能です.
  • #6 最後に我々が提案したランク1空間制約付き多チャネルNMFを説明します. これは,多チャネルNMFの空間相関行列をランク1行列と近似して推定する手法です. このような近似によって,空間モデルの推定がIVAの分離行列の推定問題と等価になり,音源モデルの推定が単一チャネルNMFの推定問題と等価になります. 従って,IVAとNMFの交互更新によって高速かつ安定に多チャネルNMFが解けるようになりました.(3分)
  • #7 さて,このランク1空間モデルについてですが,これは時間周波数領域での時不変な複素瞬時混合仮定と等価です. 時不変複素瞬時混合仮定はICAやIVAでも用いられていますが,このようにスペクトログラムの各スロットにおいて,複数の音源が周波数毎の時不変な混合行列Aiで混ざり合うシステムを仮定することです. 従って観測信号xはAと音源sの積で表現されます. 物理的には,音源が点音源に近く,残響がFFTの窓長よりも短い場合に成立します.
  • #8 しかし,残響が長い場合は,各音源と各マイク間のインパルス応答が窓長より長くなる為,前の時間フレームから現在の時間フレームに漏れ出す時変な成分nがこのように各マイクに生じます. そのため,混合信号xは時不変混合行列Aだけでは表現できなくなり,x=As+nとなります. この結果,Aの逆行列を求める従来の分離手法の精度は著しく劣化します.
  • #9 以上をまとめますと,多チャネルNMFはフルランクの空間相関を推定できますので,先ほどのランク1近似が成立しない場合でも多少頑健です しかし,計算コストが極めて高く,初期値依存性も強いことが問題です. IVAやランク1多チャネルNMFはランク1空間制約がありますので,残響が長いと精度が劣化します. したがって,高い計算効率を保ったまま,ランク1空間制約の緩和を目指します.(4分30秒)
  • #11 提案法ではN個の音源のP倍のマイクがある状況を想定します. マイク数をMとするとM=PNです. 例えば,2つの音源に対して4つの観測信号がある場合はP=2です. 一般的には,観測数が音源数より多い場合,(クリック)主成分分析を用いて次元を圧縮し,(クリック)BSSを行います.(クリック) このPCAは,観測信号中の残響成分が除去されることを期待していますが,音楽信号のようにパワーがアンバランスな混合では,弱い音源の主成分が除去される危険があります.
  • #12 提案法では,(クリック)余剰なチャネルを残したままIVAまたはランク1多チャネルNMFを施します. (クリック)これは,2つの音源に対して推定された4つの仮想的な分離信号が, (クリック)このように各音源の直接音成分と残響成分に分かれることを期待しています. 従って,複数音源間のみならず,同一音源の直接音成分と残響成分の間にも独立性を仮定しています. 最終的には,同一音源の各成分を足し合わせて本来の分離信号を再構成します.
  • #13 しかし,IVAやランク1多チャネルNMFでは,推定信号の順番が不定なため,この図のように仮想分離信号を音源毎にクラスタリングする必要があります. もし推定した仮想分離信号が,各音源の直接音あるいは残響をよく表していた場合,このようなクラスタリングは比較的容易です.
  • #14 仮想分離信号のクラスタリングには,同じ音源の直接音成分と残響成分が類似したパワースペクトログラムをもつことを利用します 但し,残響成分が時間フレームをまたいで遅れることを考慮して,0からタウmaxまでの時間フレーム遅れを考慮したパワースペクトログラムの相互相関値Cを用います. この相関値Cを,仮想分離信号の全組み合わせで計算し,相関値の高い順に信号をマージしていくことで音源毎にまとめることができます.
  • #15 一方,BSSにランク1多チャネルNMFを用いる場合には,音源モデルを利用したクラスタリングが可能です. ランク1多チャネルNMFでは,各分離信号を基底TとアクティベーションVでモデル化しますが,同じ音源の直接音成分と残響成分が「同じスペクトル基底」で表現できるという仮定に基づくと,この図のT1やT2のように,あらかじめ複数の音源で基底を共有しておくことで,音源毎にグルーピングしながら仮想分離信号を推定できます. 従ってこの手法は,仮想分離信号の推定と音源毎へのクラスタリングを同時に行っていることになります.(7分半~8分弱)
  • #17 分離精度の比較実験を行いました.この表は実験条件です. 音源には,SiSECのプロ音楽信号にRWCPのインパルス応答を畳み込んで,2音源4チャネルの混合信号を作成しました. 注意すべき点は,残響時間が470msで,窓長の128msを完全に超えているという条件です. 評価尺度は総合分離性能を示すSDRとしました.
  • #18 こちらは比較手法一覧です.今回はこれら7手法を比較します. PCA+2chIVAとPCA+2chRank1MNMFは,従来通り先にPCAをかけて観測信号を2チャネルに圧縮し,IVAやランク1多チャネルNMFで分離する手法です. 4chIVA+クラスタリングは,4チャネルのままIVAをかけ,前述のパワースペクトログラム相互相関でクラスタリングし分離信号を得るものです. また,4ch基底共有型Rank1MNMFは,4チャネルのまま基底共有型ランク1MNMFを適用し,分離信号を再構成する手法です. さらに,従来の多チャネルNMFは,推定したフルランクの空間相関からSN比最大化ビームフォーマを構成する時不変分離フィルタと,多チャネルWienerフィルタを用いる時変分離フィルタの2タイプを用いました. 最後に参考値として,各音源の真の空間相関を用いた理想的なSN比最大化ビームフォーマの性能を算出しました.これは時不変分離フィルタの限界性能となります.
  • #19 1曲目の結果です.手法ごとに2つの音源のSDR改善量を示しています. これらの手法は(クリック)このような特徴の違いがあります. まず,最初にPCAを用いる各従来手法よりも,4チャネルのまま分離する各提案手法が大きく上回っていることが分かります. 提案手法は,同じ音源の直接音と残響それぞれに1つずつ時不変分離フィルタを与えることになりますので,1音源あたり2個の時不変分離フィルタを用いていることになります. また,フルランクの空間相関行列を推定する従来の多チャネルNMFと比較してもほぼ同じ程度の性能が出ており,初期値依存性においては提案法が優位です. そして,基底共有型ランク1多チャネルNMFを用いる提案手法は,1音源に1個の時不変分離フィルタを与えた場合の限界性能を超えていることが分かります.
  • #20 これは別の楽曲の結果です. この例では,提案法が理想的なビームフォーマの性能を上回ることはありませんでしたが,フルランクの多チャネルNMFよりも良い分離性能を示していることがわかります.
  • #21 さらに別の結果です. この曲では,提案法のスコアはフルランクの多チャネルNMFよりも少し低い結果となりましたが,時不変分離フィルタの限界性能を超えていることが分かります.
  • #22 最後に計算時間の比較です. この表は各手法の計算時間を示しています. この結果から,提案法は高残響下においても,高い計算効率を保ったままフルランクの多チャネルNMFと同程度の分離性能を実現していることが分かります.
  • #25 上側の式は従来の多チャネルNMFのコスト関数です. この式にランク1空間相関行列を従来の多チャネルNMFのコスト関数に導入すると,混合行列Aを用いて表現することが出来ます. さらに,分離行列Wと分離信号yを用いて変数変換すると,このようなコスト関数に変形できます.
  • #26 このコスト関数をよく見ると,なんと,(クリック)第一項と第二項がIVAのコスト関数と等価で,(クリック)第一項と第三項が単一チャネルNMFのコスト関数と等価になっています.(クリック) したがって,IVAとNMFを重ね合わせたコストとなっており,IVAの更新式とNMFの更新式を交互に反復することで全変数を容易に最適化できます.
  • #27 さらにこの事実は,IVAと多チャネルNMFの関係性を明らかにします. 提案手法は多チャネルNMFにランク1近似を導入したモデルですが,IVAに基底分解を導入したモデルとも言えます. IVAから見れば,IVAは全ての周波数ビンが共通の振幅包絡を持つので,1本の基底のNMFに良く似た表現モデルでしたが,その基底数を拡張したと言えます. 一方多チャネルNMFから見れば,混合行列ではなく分離行列を求めるモデルに変更したと言えます. したがって,まったく別々と思われていたIVAとNMFの関係性が明らかになります.