ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

ランク1空間近似を用いたBSSにおける
音源及び空間モデルの考察
総合研究大学院大学博士課程2年
東京大学
国立情報学研究所/総合研究大学院大学
NTT
東京大学/NTT
Study on Source and Spatial Models for BSS
with Rank-1 Spatial Approximation
○北村大地
猿渡洋
小野順貴
澤田宏
亀岡弘和

研究の背景
• ブラインド音源分離（blind source separation: BSS）
– 観測信号のみ（混合系は未知）から音源信号を推定する技術
– 優決定条件（音源数録音マイク数）におけるBSS
• 独立成分分析（ICA） [Comon, 1994] 等
– 劣決定条件（音源数録音マイク数）におけるBSS
• 時間周波数マスク [Araki, 2007]，非負値行列因子分解（NMF）[Lee, 1999] 等
• BSSの応用
– 話者分離，雑音抑圧，音楽信号解析，音場再現の前処理 etc.
2
音源信号観測信号分離信号
混合系分離系

本発表の目的
• ランク1空間近似を用いたBSS（全て優決定条件下）
– 周波数領域ICA（FDICA） [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
• スペクトログラム領域で周波数毎に独立なICAを適用
• パーミュテーション問題を解く
– 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006]
• FDICAに対して球対称かつ多変量な事前分布を導入
• パーミュテーション問題を回避しつつ音源を分離
– ランク1多チャネルNMF（Rank-1 MNMF） [Kitamura, 2015]
• 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す
• 効率的かつ安定に最適化できる音源分離手法
• 上記3手法の音源モデル及び空間モデルについて考察
– 音源のスペクトル構造や混合系の制約等
• Rank-1 MNMFが最も柔軟なBSSで
あることを実験的に示す 3

ランク1空間近似とは？
• 音源毎の空間相関行列のランクが1（という近似モデル）
– 時間周波数領域において1つの音源の伝達系が1本の時不変
なステアリングベクトルで表現可能
– 時間周波数領域における時不変複素瞬時混合モデル
– ランク1空間近似の物理的な意味
• 音源の伝達系が時不変
• インパルス応答が短時間フーリエ変換（STFT）の窓長より十分短い
4
マイク
アレイ
観測
信号
音源
: 周波数インデクス
: 時間インデクス
時不変混合行列
ステアリング
ベクトル
ステアリング
ベクトル

FDICAとパーミュテーション解決
5
ICA
全て時間周波数
領域の信号
（スペクトログラム）
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2Time
• 周波数領域ICA（FDICA）[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
– スペクトログラムの周波数ビン毎に独立なICAを適用
– 音源及び空間モデルはパーミュテーション解決法に依存

FDICA+DOAの音源モデルと空間モデル
6
• FDICA+DOAクラスタリング [Saruwatari, 2000]
– 推定分離フィルタからステアリングベクトルを逆算し音源の到来
方向（DOA）でクラスタリングすることでパーミュテーションを解く
– 音源モデル
• 具体的なモデルスペクトログラムは無し（ICAの非ガウス性制約のみ）
– 空間モデル
• ランク1空間近似
• 混合系はDOAクラスタリングで解決できるという仮定（制約）
推定された
音源成分の頻度
到来方向（DOA）
正面左右
推定された
到来方向（DOA）
正面左右
DOA
クラスタリング
Source 1 Source 2
音源の空間的な配置条件と残響レベルが分離性能に影響

• 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006]
– 音源モデル
• 周波数間の一定分散多次元ラプラス分
布（球対称ラプラス分布）
– 空間モデル
• 特に制約無し（ランク1空間近似のみ）
IVAの音源モデルと空間モデル
7
…
…
音源信号
混合行列
…
…
…
観測信号
分離行列
分離信号
球対称

音源モデル空間モデル多チャネル観測信号
Rank-1 MNMFの音源モデルと空間モデル
8
全空間相関行列がランク1という制約を導入
• ランク1空間近似付き多チャネルNMF [Kitamura, 2015]
– 音源モデル
• 任意基底数のNMFによる低ランク近似
分解（分散が時間周波数で変動する）
– 空間モデル
• 特に制約無し（ランク1空間近似のみ）
分散が
変動

IVAとRank-1 MNMFの音源モデルの違い
• IVAの音源モデル
– 周波数方向に一様な分散を持つ
• 一定分散の多次元ラプラス分布
• 周波数ビン毎にスケールが任意なので
一様（フラット）なスペクトルとは限らない
– 1本の基底のNMFに近い
• Rank-1 MNMFの音源モデル
– 任意基底数のNMF
• より具体的な調波構造等を捉えられる
– 音源毎に基底数を変えることも可能
• 潜在変数付きNMFモデルとして提案済
9
Frequency
Time
Frequency
Time
本来の音源のスペクトログラムが持つ基底数が分離性能に影響
濃淡は分散値
濃淡は分散値

実験的な実証方法
• 音源スペクトログラムの基底数の違い
• 音源の混合系の違い
– 実測信号ではその他の要因が多すぎる
– 完全に人工的な音源と混合系を用いて実証する
10音源モデル
空間モデル柔軟限定的
柔軟限定的
IVA
MNMF
Rank1
MNMFNMFによる音源
モデルの基底数拡張
FDICA
+DOA
ランク1空間モデル
フルランク空間モデル
＋DOAクラスタリング
分離精度に
与える影響

• 実験に用いる信号
– ガンマ分布に従う変数の積とその線形結合に基づくパワースペ
クトログラムを2音源分生成
– いかなる基底数においてもが等カートシス（）と
なるように形状母数を設定（導出は省略！）
• カートシスの違いによる音源分離性能の変化を除外するため
– の一様分布に従う位相を付与
実験条件
11
・・・
・・・
人工的なパワー
スペクトログラム
（基底数＝）
生成
生成

• 実験に用いる混合系
– DOA上で2音源分のガウス分布を定義
– 各ガウス分布からステアリングベクトルを生成
– 先の人工音源に対して人工ステアリングベクトルを乗算
• その他の実験条件
実験条件
12
最適化アルゴリズム
FDICA: 自然勾配法, DOAクラスタリング: k-means法,
IVA: 補助関数法, Rank-1 MNMF: 補助関数法
反復回数 200 回（FDICAの反復ステップサイズは実験的に調整済）
評価値 SDR改善量（総合分離性能）
人工混合行列
人工観測信号
生成生成
推定された
到来方向（DOA） [rad]

• 音源の基底数を変化させた場合の分離精度比較
– 混合系はに固定
FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
音源1の結果グラフ
音源の基底数の違いによる分離精度比較
13
Rank-1 MNMFの持つ音源モデル
（NMF分解）が最も柔軟
（基底数＝）
– FDICA+DOAはによらない
• 具体的な音源モデルが無いため
– IVAとRank-1 MNMF（基底数＝１）
は音源の基底数の増加に伴って精
度が劣化
• 音源モデルが表現できなくなるため
– Rank-1 MNMF（基底数＝）は精
度劣化しない
• 適切で具体的な音源モデルが仮定され
ているため

FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
14
（基底数＝）
度が劣化
度劣化しない
ているため

FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
15
（基底数＝）
度が劣化
度劣化しない
ているため

FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
16
（基底数＝）
度が劣化
度劣化しない
ているため

• 音源の混合系を変化させた場合の分離精度比較
– 音源の基底数は，分散はに固定
音源の混合系の違いによる分離精度比較
17
– FDICA+DOAは2音源が接近すると
精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMF（基底数＝１）は
音源の混合系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟音源1の結果グラフ
FDICA+DOA
Rank-1 MNMF（基底数＝1）
IVA
音源間角度（）[rad]

18
精度が劣化
FDICA+DOA
IVA

19
精度が劣化
FDICA+DOA
IVA

– 音源の基底数は，平均はに固定
FDICA+DOA
IVA
音源の分散（）
20
– FDICA+DOAは2音源のDOA幅が増
加すると精度が劣化
– IVAとRank-1 MNMFは音源の混合
系によらない
空間モデルが柔軟

FDICA+DOA
IVA
21
系によらない

FDICA+DOA
IVA
22
系によらない

• SiSECデータベース収録のプロ音楽信号
– ファイル名: bearlin-roads__snip_85_99，14 s（16kHzサンプル）
– 音源: acoustic_guit_main, bass, vocalsの3音源
– 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz)
– 更新回数: 200回
各手法の計算量の比較
23
IVA MNMF
Rank-1 MNMF
(音源毎に基底数を固定)
Rank-1 MNMF
(音源毎に基底数を可変)
91.6 4498.4 121.0 173.4
（単位は全てs）
12
10
8
6
4
2
0
-2
SDRimprovement[dB]
4003002001000
Iteration steps
IVA
MNMF
Rank-1 MNMF
Rank-1 MNMF
（基底数固定）
（基底数可変）
200回更新時（MNMF以外は十分収束）

結論とまとめ
• Rank-1 MNMF [D. Kitamura et al., ICASSP 2015]
– IVAの音源モデルを任意の基底数に拡張
– 空間モデルへの制限は「ランク1」のみ
– モデル複雑化に伴う最適化の不安定さもさほど問題にならない
– ランク1空間近似を用いる優決定条件BSSとして優秀な手法
24
音源モデル
空間モデル
柔軟具体的
柔軟具体的
IVA
Rank1
MNMFNMFによる音源
モデルの基底数拡張
FDICA
+DOA
＋DOAクラスタリング

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

More from Daichi Kitamura

More from Daichi Kitamura (8)

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

Editor's Notes