過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

過決定条件BSSにおける
ランク1空間制約の緩和
総合研究大学院大学博士課程1年北村大地
国立情報学研究所 / 総合研究大学院大学小野順貴
NTTコミュニケーション科学基礎研究所澤田宏
東京大学 / NTTコミュニケーション科学基礎研究所亀岡弘和
東京大学猿渡洋
Relaxation of Rank-1 Spatial Model
in Overdetermined BSS

研究背景
• ブラインド音源分離 (blind source separation: BSS)
– 観測信号のみ (混合系は未知) から音源信号を推定する技術
– 過決定条件 (音源数録音マイク数) におけるBSS
• 独立成分分析 (ICA)，独立ベクトル分析 (IVA) 等
– 劣決定条件 (音源数録音マイク数) におけるBSS
• スペクトログラムマスキング，非負値行列因子分解 (NMF) 等
• BSSの応用
– 話者分離，雑音抑圧，音楽信号解析，音場再現の前処理 etc.
2
音源信号観測信号分離信号
混合系分離系

• 多チャネル非負値行列因子分解 (NMF) [H. Sawada, 2013]
従来手法 (1/3)
3
Amplitude
Amplitude
Time
Time
Frequency
Frequency
基底アクティベーションスペクトログラム
観測信号の時間＆周波数毎の
チャネル間相関行列
周波数＆音源毎の
空間相関行列
スペクトル基底
（頻出パターン）
アクティベーション
（時間強度変化）潜在変数
参考: 単一チャネルNMF
音源モデル空間モデル多チャネル観測信号
: 実数値（非負）
: 複素数値
: 0~1の実数値
: 要素毎の積

従来手法 (2/3)
• 独立ベクトル分析 (IVA) [T. Kim, 2007]
– 周波数をまとめた音源ベクトル間の独立性を仮定
• ベクトル内では高次統計量の相関を考慮
• 周波数領域ICAのパーミュテーション問題を解決
– 各フレームで時不変の複素瞬時混合系を仮定
– 安定かつ高速に分離行列が推定可能 4
…
…
音源信号
混合行列
…
…
…
観測信号
分離行列
分離信号

音源モデル空間モデル多チャネル観測信号
従来手法 (3/3)
• ランク1空間制約付き多チャネルNMF [D. Kitamura, 2014]
– 空間モデル: IVAの分離行列の推定問題に帰着
– 音源モデル: 単一チャネルNMFの基底とアクティベーションの
推定問題に帰着
5
全空間相関行列をランク1で近似
IVAとNMFの更新式の交互反復により
高速かつ安定に多チャネルNMFが解ける

ランク1空間モデル
• 空間相関行列のランク1近似とは？
– 時間周波数領域での時不変の複素瞬時混合仮定と等価
– 周波数領域ICAやIVAでもおなじみ
6
1. 音源が点音源性を持つ
2. 残響が短時間フーリエ変換の窓長より短い
Frequency
Time
観測信号の
スペクトログラム
観測信号音源信号
時不変
複素混合行列

• 収録環境の残響が長い場合
– 音源とマイク間のインパルス応答が窓長より長くなる
– 残響成分が前の時間フレームから漏れる
Frequency
Time
観測信号の
スペクトログラム
観測信号
ランク1空間モデルの問題点
7
混合系が時不変瞬時混合では表現できない
従来の分離手法（IVA等）では精度が著しく劣化
前フレームから
漏れた成分
音源信号

問題点のまとめとモチベーション
• 多チャネルNMF [H. Sawada, 2013]
– フルランクの空間相関行列を推定可能
• 残響にも多少頑健
– 計算コストが極めて高い
– 初期値依存性が強い
• IVA [T. Kim, 2007] & ランク1多チャネルNMF [D. Kitamura, 2014]
– 空間モデルのランク1空間制約あり (時不変瞬時混合を仮定)
– 残響が窓長より長いと精度が劣化
8
高い計算効率を保ったまま
ランク1空間制約を緩和したい
高残響下でも
音源を分離する為には

アプローチ
• 余剰チャネルの存在する過決定条件を想定
– 個の音源に対して倍の録音マイクがある ( )
10
音源信号
観測信号
混合
分離信号
BSS
次元削減された
観測信号
主成分
分析
例: 音源2個，マイク4個の場合 ( )
• 主成分分析 (PCA) を用いた次元削減
– 観測信号中の弱い成分（各音源の残響成分）の除去を期待
– パワーがアンバランスな混合には不向き
• パワーの弱い音源の主成分が除去される危険がある

アプローチ
• 余剰チャネルの存在する過決定条件を想定
– 個の音源に対して倍の録音マイクがある ( )
11
音源信号
観測信号
混合
例: 音源2個，マイク4個の場合 ( )
• 各音源の直接音成分と残響成分を分けて推定
– 直接音成分と残響成分の間の独立性を仮定
– 同一音源の直接音と残響を足し合わせて分離信号を再構成
直接音
残響
直接音
残響
分離信号
再構成
仮想的な分離信号
BSS

仮想分離信号のクラスタリング
• 推定信号の順番の不定性
– どの仮想分離信号がどの音源の直接音or残響音に対応する
かが不明
12
分離信号
再構成
クラスタリングされた
仮想分離信号
音源1の直接音
音源1の残響音
音源2の直接音
音源2の残響音
クラスタリング
推定した
仮想分離信号
仮想分離信号を音源毎にまとめるクラスタリングが必要

仮想分離信号のクラスタリング法
• 同一音源の直接音成分と残響成分はパワースペクトロ
グラムが高い相関を持つ
• 数フレームの遅れを考慮した相互相関値
– 仮想分離信号の全組み合わせの相関値を計算
– 高い順に信号をマージ 13
のパワースペクトログラムのパワースペクトログラム
・・・

• 同一音源の直接音成分と残響成分は同じスペクトル基
底で表現できる
• 複数の音源で共有するスペクトル基底を与えて推定
– ランク1多チャネルNMF限定の手法 (IVAでは不可能)
– あらかじめスペクトル基底を共有してモデル化することで音源
毎にグルーピングしつつ仮想分離信号を推定
基底共有型ランク1多チャネルNMF
14
（音源1の直接音）
（音源1の残響音）
（音源2の直接音）
（音源2の残響音）
仮想分離信号
ランク1多チャネル
NMFの音源モデル
分離信号
共有基底
共有基底
再構成

• 実験条件
– JR2インパルス応答
分離精度の比較実験
音源信号
SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス
応答で畳み込んで作成，2音源4チャネルの混合信号
サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル
FFT窓長 8192 点 (128 ms, Hamming窓)
シフト長 2048 点 (64 ms)
基底数各音源につき15本 (トータルで30本)
反復回数 200 回
試行回数初期値を変えて10 回
主観評価値平均SDR改善値とその標準偏差 (総合分離性能)
16
残響時間: 470 ms 2 m
音源1
80 60
マイク間隔: 2.83cm
音源2

• 比較手法（計7手法）
– PCA + 2ch IVA
• PCAをかけて2チャネルに圧縮した後，IVAで分離
– PCA + 2ch Rank1MNMF
• PCAをかけて2チャネルに圧縮した後，ランク1多チャネルNMFで分離
– 4ch IVA + クラスタリング
• 4チャネルのままIVAを適用後，クラスタリングし分離信号を再構成
– 4ch 基底共有型Rank1MNMF
• 4チャネルのまま基底共有型ランク1MNMFを適用後，分離信号を再構成
– 4ch MNMF + BF
• 4チャネルのまま推定した空間相関（フルランク）でBFを適用（時不変フィルタ）
– 4ch MNMF
• 4チャネルのまま推定した空間相関（フルランク）と音源モデルで多チャネル
Wienerフィルタを適用（時変フィルタ）
– 真の空間情報を用いた理想的なBF
• 各音源の真の空間相関の時間平均を用いた時不変分離フィルタの限界性能
17
従
来
手
法
提
案
手
法
従
来
手
法
参
考
値
MNMF: 多チャネルNMF
BF: ビームフォーマ

• 分離性能の比較1 (ultimate_nz_tour__snip_43_61)
– Source 1: Guitar
– Source 2: Vocals
16
14
12
10
8
6
4
2
0
SDRimprovement[dB] 分離精度の比較実験
18
ランク1空間制約
時不変フィルタ（1個/音源）
フルランクモデル
時不変フィルタ
（1個/音源）
フルランクモデル
時変フィルタ
時不変フィルタ
（1個/音源）の
限界性能
ランク1空間制約
時不変フィルタ（2個/音源）
: Source 1 : Source 2
PCA+
2ch IVA
PCA+
2ch Rank1
MNMF
4ch IVA+
4ch MNMF+
BF
4ch MNMF 真の空間情報
を用いた
理想的なBF
4ch
基底共有型
Rank1MNMF

• 分離性能の比較2 (bearlin-roads__snip_85_99)
– Source 1: Acoustic guitar
– Source 2: Piano
12
10
8
6
4
2
0
-2
-4
19
PCA+
2ch IVA
PCA+
2ch Rank1
MNMF
4ch IVA+
4ch MNMF+
BF
を用いた
理想的なBF
4ch
基底共有型
Rank1MNMF

• 分離性能の比較3 (fort_minor-remember_the_name__snip_54_78)
– Source 1: Drums
– Source 2: Vocals
12
10
8
6
4
2
0
-2
-4
20
PCA+
2ch IVA
PCA+
2ch Rank1
MNMF
4ch IVA+
4ch
基底共有型
Rank1MNMF
4ch MNMF+
BF
を用いた
理想的なBF

21
• 計算時間の比較
– 条件
• CPU: Intel Core i7-4790 (3.60GHz)
• 環境: MATLAB 8.3 (64-bit)
• 楽曲: ultimate_nz_tour__snip_43_61 (18s, 16kHzサンプル)
PCA +
2ch IVA
PCA + 2ch
Rank1MNMF
4ch IVA+
4ch Rank1
MNMF+
MNMF
23.4 s 29.4 s 60.1 s 143.9 s 3611.8 s
高残響下で高い計算効率を保ったまま
多チャネルNMFと同程度の分離性能を実現

まとめ
• 残響時間が窓長を超える長さの観測信号を対象
– 高い計算効率と十分な分離性能の両立
• 音源の数の2倍以上の観測マイク数があれば適用可能
な分離アルゴリズムを提案
– 従来はPCAで観測信号の次元圧縮を行うことが一般的だった
• 余剰な観測チャネルを用いて各音源の直接音成分と残
響成分を別々に推定
– ランク1空間制約が緩和可能
– 高残響下での分離精度向上
• 実験結果は良好な性能を示した
– 時不変線形分離フィルタの限界性能を超える場合も確認
22

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

More Related Content

What's hot

Similar to 過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

More from Daichi Kitamura

過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined BSS

Editor's Notes