Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

Efficient multichannel NMF with
rank-1 spatial model
ランク1空間モデルを用いた効率的な
多チャネル非負値行列因子分解
総合研究大学院大学博士課程1年北村大地
国立情報学研究所 / 総合研究大学院大学小野順貴
NTTコミュニケーション科学基礎研究所澤田宏
東京大学 / NTTコミュニケーション科学基礎研究所亀岡弘和
東京大学猿渡洋

研究背景
• ブラインド音源分離 (blind source separation: BSS)
– 混合信号のみ (混合系は未知) から分離信号を推定する技術
– 過決定条件 (音源数録音マイク数) におけるBSS
• 独立成分分析 (ICA)，独立ベクトル分析 (IVA) 等
– 劣決定条件 (音源数録音マイク数) におけるBSS
• 非負値行列因子分解 (NMF) の拡張手法等
• 話者分離や雑音抑圧等，様々な用途がある
2
音源信号観測信号分離信号
混合系分離系

従来手法
• 多チャネルNMF [H. Sawada, et al., 2013]
– 音源の混合系を空間相関行列として推定
– 劣決定条件にも対応し自由度が高いが，最適化が難しい
• 独立ベクトル分析 (IVA) [T. Kim, et al., 2007]
– 音源間 (ベクトル間) の独立性を仮定し分離行列を推定
– 混合行列の逆行列を仮定する為，過決定条件下の技術
– 安定で高速な最適化が可能
3
混合系分離系

本研究の目的と位置づけ
• 容易に最適化できる多チャネルNMFの提案
– IVAと多チャネルNMFを統一的に捉える枠組みを確立
4
モデルの自由度
最適化の容易さ
多チャネル
NMF
IVA 提案手法
分離性能
Bad
分離性能
Good!

提案手法のコンセプト
• 従来の多チャネルNMFは混合行列を推定していた
– 劣決定条件にも対応
– しかし最適化が難しい
• 分離行列を推定する多チャネルNMFを考える
– 逆行列が存在しなければならない
– 決定的な混合系でなければならない
• 提案手法は過決定条件で各音源が点音源に近い状況に
限定
– 一般的な会議や音楽演奏の収録環境では実用的な条件設定
5
過決定条件に限定
混合のランク1近似
解決するアイデア

提案手法: 定式化
• 従来の多チャネルNMFにおける定式化
6
: 周波数ビン数
: 時間フレーム数
: チャネル数
複素数
対角成分がグリッドにおける各
チャネルの観測パワー (非負値)
非対角成分はチャネル間相関を
示す複素数
各グリッドが全てベクトルとなる

• 多チャネルNMFの分解モデル ( の例 )
• 参考: 単一チャネルNMFの分解モデル
7
要素毎の積
灰色は非負の実数
赤色は複素数
Amplitude
Amplitude
Time
Time
Frequency
Frequency
基底アクティベーションスペクトログラム

要素毎の積
灰色は非負の実数
赤色は複素数
• 多チャネルNMFの分解モデル ( の例 )
8
分離行列を推定する問題にするために，
空間相関行列が全てランク1の行列となる
ような制約条件を導入
提案手法

提案手法: ランク1空間相関行列とは
• ランク1近似: 各時間フレームでの複素瞬時混合を仮定
– 音源ができるだけ点音源に近く，残響などの拡散が時間周波
数解析の時間フレーム内に収まるという条件に対応
• ランク1空間相関行列は各音源のステアリングベクトルの
外積で表現できる
• ステアリングベクトルは混合行列の列成分
9
音源信号
複素混合行列
観測信号
( のランク1行列)
時不変の複素
混合行列で
表現できる

提案手法: コスト関数の変形と変数変換
• 従来の多チャネルNMFのコスト関数 (板倉斎藤擬距離)
• 提案手法のコスト関数 (板倉斎藤擬距離)
10
ランク1空間相関行列を導入 ( )
混合行列を用いて表現しなおす
, を用いて
分離行列と分離信号に変数変換
1.
2.
3.

提案手法: IVA及びNMFとの関係
• IVAのコスト関数 (球状ラプラス分布仮定)
• 単一チャネルNMFのコスト関数 (板倉斎藤擬距離)
11

提案手法: IVA及びNMFとの関係
• IVAと単一チャネルNMFの各コスト関数の組み合わせ
– IVAと多チャネルNMFの関係を明らかにする
12
モデルの自由度低高
スペクトル基底
の数を拡張
混合系のランク1
近似を導入
多チャネル
NMF
IVA 提案手法

提案手法: 潜在変数無し
• 提案手法1
– 各音源は同じ数の基底で表現される
• 利点: 単一チャネルNMFの更新式とIVAの更新式を交互
に回すだけで全変数の最適化が可能
• 欠点: 全ての音源に適切な数の基底を与えられない 13
混合行列分離行列
空間相関
行列
基底とアクティベーション
ランク1行列
4個の基底
4個の基底
同じ数の基底で各音源を表現する
全部で8個
の基底

提案手法: 潜在変数導入
14
混合行列分離行列
空間相関
行列
基底とアクティベーション
ランク1行列
5個の基底
各音源に適切な基底数が適応的に決定される
潜在変数
3個の基底
全部で8個
の基底
• 提案手法2
– トータルの基底数を与え，適応的に各音源に割り当てる
• 利点: 最適な基底数が学習されるため，分離精度が向上
• 欠点: 潜在変数の最適化も必要なため頑健性が劣化
– 潜在変数の更新式は補助関数法で導出可能

分離精度の比較実験
音源信号
SiSECのプロ音楽信号に，RWCP収録のマイクアレーインパルス
応答で畳み込んで作成，2チャネルで2音源の混合信号
比較手法 IVA, 提案手法1 (潜在変数なし), 提案手法2 (潜在変数あり)
サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル
FFT長 8192 点 (512 ms)
窓関数長 2048 点 (128 ms, ハニング窓)
初期値分離行列 : 単位行列, その他の変数: 非負値乱数
基底数
提案手法1: 各音源につき20個 (トータルは40個)
提案手法2: トータルで40個
反復回数 200 回
試行回数初期値を変えて10 回
主観評価値
平均SDR改善値とその標準偏差 (総合分離性能)
平均SIR改善値とその標準偏差 (非目的音の除去性能)
平均SAR値とその標準偏差 (人工歪みの少なさ)
15
• 実験条件

• 実験結果1 (Another_dreamer_The_ones_we_love_Snip_69-94)
– Source 1: Guitar
– Source 2: Vocal
16
14
12
10
8
6
4
2
0
SAR[dB]
28
24
20
16
12
8
4
0
SIRimprovement[dB]
16
14
12
10
8
6
4
2
0
SDRimprovement[dB]
IVA Proposed
method 1
Proposed
method 2
IVA Proposed
method 1
Proposed
method 2
IVA Proposed
method 1
Proposed
method 2
(a) (b) (c)
: Source 1 : Source 2
16

12
10
8
6
4
2
0
SAR[dB]
14
12
10
8
6
4
2
0
-2
SIRimprovement[dB]
4
3
2
1
0
-1
-2
-3
SDRimprovement[dB]
IVA Proposed
method 1
Proposed
method 2
IVA Proposed
method 1
Proposed
method 2
IVA Proposed
method 1
Proposed
method 2
(a) (b) (c)
17
• 実験結果2 (Tamy_Que_pena_tanto_faz_Snip_6-19)
– Source 1: Guitar
– Source 2: Vocal

• 実験結果3 (Fort_minor_Remember_the_name_Snip_54-78)
– Source 1: Violins_synth
– Source 2: Vocal
16
14
12
10
8
6
4
2
0
SAR[dB]
20
16
12
8
4
0
SIRimprovement[dB]
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
IVA Proposed
method 1
Proposed
method 2
IVA Proposed
method 1
Proposed
method 2
IVA Proposed
method 1
Proposed
method 2
(a) (b) (c)
18

まとめ
• 混合系ではなく分離行列を求める多チャネルNMFを新た
に提案した
– 空間相関行列がランク1となる近似を導入
– IVAと単一チャネルNMFの組み合わせとなり，最適化が容易
• IVAと従来の多チャネルNMFの関係を明らかにした
– 「IVAに基底分解を導入したモデル」と「ランク1近似を導入した
多チャネルNMF」は本質的に等価
• 客観評価実験の結果，提案手法はIVAよりも高精度な分
離を達成した
• 今後は従来の多チャネルNMFと頑健性の比較を行う
19

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Daichi Kitamura

More from Daichi Kitamura (14)

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

Editor's Notes