ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

ランク1空間近似を用いたBSSにおける
音源及び空間モデルの考察
総合研究大学院大学博士課程2年
東京大学
国立情報学研究所/総合研究大学院大学
NTT
東京大学/NTT
Study on Source and Spatial Models for BSS
with Rank-1 Spatial Approximation
○北村大地
猿渡洋
小野順貴
澤田宏
亀岡弘和

研究の背景
• ブラインド音源分離（blind source separation: BSS）
– 観測信号のみ（混合系は未知）から音源信号を推定する技術
– 優決定条件（音源数録音マイク数）におけるBSS
• 独立成分分析（ICA） [Comon, 1994] 等
– 劣決定条件（音源数録音マイク数）におけるBSS
• 時間周波数マスク [Araki, 2007]，非負値行列因子分解（NMF）[Lee, 1999] 等
• BSSの応用
– 話者分離，雑音抑圧，音楽信号解析，音場再現の前処理 etc.
2
音源信号観測信号分離信号
混合系分離系

本発表の目的
• ランク1空間近似を用いたBSS（全て優決定条件下）
– 周波数領域ICA（FDICA） [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
• スペクトログラム領域で周波数毎に独立なICAを適用
• パーミュテーション問題を解く
– 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006]
• FDICAに対して球対称かつ多変量な事前分布を導入
• パーミュテーション問題を回避しつつ音源を分離
– ランク1多チャネルNMF（Rank-1 MNMF） [Kitamura, 2015]
• 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す
• 効率的かつ安定に最適化できる音源分離手法
• 上記3手法の音源モデル及び空間モデルについて考察
– 音源のスペクトル構造や混合系の制約等
• Rank-1 MNMFが最も柔軟なBSSで
あることを実験的に示す 3

ランク1空間近似とは？
• 音源毎の空間相関行列のランクが1（という近似モデル）
– 時間周波数領域において1つの音源の伝達系が1本の時不変
なステアリングベクトルで表現可能
– 時間周波数領域における時不変複素瞬時混合モデル
– ランク1空間近似の物理的な意味
• 音源の伝達系が時不変
• インパルス応答が短時間フーリエ変換（STFT）の窓長より十分短い
4
マイク
アレイ
観測
信号
音源
: 周波数インデクス
: 時間インデクス
時不変混合行列
ステアリング
ベクトル
ステアリング
ベクトル

FDICAとパーミュテーション解決
5
ICA
全て時間周波数
領域の信号
（スペクトログラム）
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2Time
• 周波数領域ICA（FDICA）[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
– スペクトログラムの周波数ビン毎に独立なICAを適用
– 音源及び空間モデルはパーミュテーション解決法に依存

FDICA+DOAの音源モデルと空間モデル
6
• FDICA+DOAクラスタリング [Saruwatari, 2000]
– 推定分離フィルタからステアリングベクトルを逆算し音源の到来
方向（DOA）でクラスタリングすることでパーミュテーションを解く
– 音源モデル
• 具体的なモデルスペクトログラムは無し（ICAの非ガウス性制約のみ）
– 空間モデル
• ランク1空間近似
• 混合系はDOAクラスタリングで解決できるという仮定（制約）
推定された
音源成分の頻度
到来方向（DOA）
正面左右
推定された
到来方向（DOA）
正面左右
DOA
クラスタリング
Source 1 Source 2
音源の空間的な配置条件と残響レベルが分離性能に影響

• 独立ベクトル分析（IVA） [Hiroe, 2006], [Kim, 2006]
– 音源モデル
• 周波数間の一定分散多次元ラプラス分
布（球対称ラプラス分布）
– 空間モデル
• 特に制約無し（ランク1空間近似のみ）
IVAの音源モデルと空間モデル
7
…
…
音源信号
混合行列
…
…
…
観測信号
分離行列
分離信号
球対称

音源モデル空間モデル多チャネル観測信号
Rank-1 MNMFの音源モデルと空間モデル
8
全空間相関行列がランク1という制約を導入
• ランク1空間近似付き多チャネルNMF [Kitamura, 2015]
– 音源モデル
• 任意基底数のNMFによる低ランク近似
分解（分散が時間周波数で変動する）
– 空間モデル
• 特に制約無し（ランク1空間近似のみ）
分散が
変動

IVAとRank-1 MNMFの音源モデルの違い
• IVAの音源モデル
– 周波数方向に一様な分散を持つ
• 一定分散の多次元ラプラス分布
• 周波数ビン毎にスケールが任意なので
一様（フラット）なスペクトルとは限らない
– 1本の基底のNMFに近い
• Rank-1 MNMFの音源モデル
– 任意基底数のNMF
• より具体的な調波構造等を捉えられる
– 音源毎に基底数を変えることも可能
• 潜在変数付きNMFモデルとして提案済
9
Frequency
Time
Frequency
Time
本来の音源のスペクトログラムが持つ基底数が分離性能に影響
濃淡は分散値
濃淡は分散値

実験的な実証方法
• 音源スペクトログラムの基底数の違い
• 音源の混合系の違い
– 実測信号ではその他の要因が多すぎる
– 完全に人工的な音源と混合系を用いて実証する
10音源モデル
空間モデル柔軟限定的
柔軟限定的
IVA
MNMF
Rank1
MNMFNMFによる音源
モデルの基底数拡張
FDICA
+DOA
ランク1空間モデル
フルランク空間モデル
＋DOAクラスタリング
分離精度に
与える影響

• 実験に用いる信号
– ガンマ分布に従う変数の積とその線形結合に基づくパワースペ
クトログラムを2音源分生成
– いかなる基底数においてもが等カートシス（）と
なるように形状母数を設定（導出は省略！）
• カートシスの違いによる音源分離性能の変化を除外するため
– の一様分布に従う位相を付与
実験条件
11
・・・
・・・
人工的なパワー
スペクトログラム
（基底数＝）
生成
生成

• 実験に用いる混合系
– DOA上で2音源分のガウス分布を定義
– 各ガウス分布からステアリングベクトルを生成
– 先の人工音源に対して人工ステアリングベクトルを乗算
• その他の実験条件
実験条件
12
最適化アルゴリズム
FDICA: 自然勾配法, DOAクラスタリング: k-means法,
IVA: 補助関数法, Rank-1 MNMF: 補助関数法
反復回数 200 回（FDICAの反復ステップサイズは実験的に調整済）
評価値 SDR改善量（総合分離性能）
人工混合行列
人工観測信号
生成生成
推定された
到来方向（DOA） [rad]

• 音源の基底数を変化させた場合の分離精度比較
– 混合系はに固定
FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
音源1の結果グラフ
音源の基底数の違いによる分離精度比較
13
Rank-1 MNMFの持つ音源モデル
（NMF分解）が最も柔軟
（基底数＝）
– FDICA+DOAはによらない
• 具体的な音源モデルが無いため
– IVAとRank-1 MNMF（基底数＝１）
は音源の基底数の増加に伴って精
度が劣化
• 音源モデルが表現できなくなるため
– Rank-1 MNMF（基底数＝）は精
度劣化しない
• 適切で具体的な音源モデルが仮定され
ているため

FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
14
（基底数＝）
度が劣化
度劣化しない
ているため

FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
15
（基底数＝）
度が劣化
度劣化しない
ているため

FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
16
（基底数＝）
度が劣化
度劣化しない
ているため

• 音源の混合系を変化させた場合の分離精度比較
– 音源の基底数は，分散はに固定
音源の混合系の違いによる分離精度比較
17
– FDICA+DOAは2音源が接近すると
精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMF（基底数＝１）は
音源の混合系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟音源1の結果グラフ
FDICA+DOA
Rank-1 MNMF（基底数＝1）
IVA
音源間角度（）[rad]

18
精度が劣化
FDICA+DOA
IVA

19
精度が劣化
FDICA+DOA
IVA

– 音源の基底数は，平均はに固定
FDICA+DOA
IVA
音源の分散（）
20
– FDICA+DOAは2音源のDOA幅が増
加すると精度が劣化
– IVAとRank-1 MNMFは音源の混合
系によらない
空間モデルが柔軟

FDICA+DOA
IVA
21
系によらない

FDICA+DOA
IVA
22
系によらない

• SiSECデータベース収録のプロ音楽信号
– ファイル名: bearlin-roads__snip_85_99，14 s（16kHzサンプル）
– 音源: acoustic_guit_main, bass, vocalsの3音源
– 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz)
– 更新回数: 200回
各手法の計算量の比較
23
IVA MNMF
Rank-1 MNMF
(音源毎に基底数を固定)
Rank-1 MNMF
(音源毎に基底数を可変)
91.6 4498.4 121.0 173.4
（単位は全てs）
12
10
8
6
4
2
0
-2
SDRimprovement[dB]
4003002001000
Iteration steps
IVA
MNMF
Rank-1 MNMF
Rank-1 MNMF
（基底数固定）
（基底数可変）
200回更新時（MNMF以外は十分収束）

結論とまとめ
• Rank-1 MNMF [D. Kitamura et al., ICASSP 2015]
– IVAの音源モデルを任意の基底数に拡張
– 空間モデルへの制限は「ランク1」のみ
– モデル複雑化に伴う最適化の不安定さもさほど問題にならない
– ランク1空間近似を用いる優決定条件BSSとして優秀な手法
24
音源モデル
空間モデル
柔軟具体的
柔軟具体的
IVA
Rank1
MNMFNMFによる音源
モデルの基底数拡張
FDICA
+DOA
＋DOAクラスタリング

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

More Related Content

What's hot

Viewers also liked

Similar to ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

More from Daichi Kitamura

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

Editor's Notes