ランク1空間近似を用いたBSSにおける
音源及び空間モデルの考察
総合研究大学院大学 博士課程2年
東京大学
国立情報学研究所/総合研究大学院大学
NTT
東京大学/NTT
Study on Source and Spatial Models for BSS
with Rank-1 Spatial Approximation
○北村大地
猿渡洋
小野順貴
澤田宏
亀岡弘和
研究の背景
• ブラインド音源分離(blind source separation: BSS)
– 観測信号のみ(混合系は未知)から音源信号を推定する技術
– 優決定条件(音源数 録音マイク数)におけるBSS
• 独立成分分析(ICA) [Comon, 1994] 等
– 劣決定条件(音源数 録音マイク数)におけるBSS
• 時間周波数マスク [Araki, 2007],非負値行列因子分解(NMF)[Lee, 1999] 等
• BSSの応用
– 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc.
2
音源信号 観測信号 分離信号
混合系 分離系
本発表の目的
• ランク1空間近似を用いたBSS(全て優決定条件下)
– 周波数領域ICA(FDICA) [Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
• スペクトログラム領域で周波数毎に独立なICAを適用
• パーミュテーション問題を解く
– 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006]
• FDICAに対して球対称かつ多変量な事前分布を導入
• パーミュテーション問題を回避しつつ音源を分離
– ランク1多チャネルNMF(Rank-1 MNMF) [Kitamura, 2015]
• 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す
• 効率的かつ安定に最適化できる音源分離手法
• 上記3手法の音源モデル及び空間モデルについて考察
– 音源のスペクトル構造や混合系の制約等
• Rank-1 MNMFが最も柔軟なBSSで
あることを実験的に示す 3
ランク1空間近似とは?
• 音源毎の空間相関行列のランクが1(という近似モデル)
– 時間周波数領域において1つの音源の伝達系が1本の時不変
なステアリングベクトルで表現可能
– 時間周波数領域における時不変複素瞬時混合モデル
– ランク1空間近似の物理的な意味
• 音源の伝達系が時不変
• インパルス応答が短時間フーリエ変換(STFT)の窓長より十分短い
4
マイク
アレイ
観測
信号
音源
: 周波数インデクス
: 時間インデクス
時不変混合行列
ステアリング
ベクトル
ステアリング
ベクトル
FDICAとパーミュテーション解決
5
ICA
全て時間周波数
領域の信号
(スペクトログラム)
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2Time
• 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc.
– スペクトログラムの周波数ビン毎に独立なICAを適用
– 音源及び空間モデルはパーミュテーション解決法に依存
FDICA+DOAの音源モデルと空間モデル
6
• FDICA+DOAクラスタリング [Saruwatari, 2000]
– 推定分離フィルタからステアリングベクトルを逆算し音源の到来
方向(DOA)でクラスタリングすることでパーミュテーションを解く
– 音源モデル
• 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ)
– 空間モデル
• ランク1空間近似
• 混合系はDOAクラスタリングで解決できるという仮定(制約)
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
DOA
クラスタリング
Source 1 Source 2
音源の空間的な配置条件と残響レベルが分離性能に影響
• 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006]
– 音源モデル
• 周波数間の一定分散多次元ラプラス分
布(球対称ラプラス分布)
– 空間モデル
• 特に制約無し(ランク1空間近似のみ)
IVAの音源モデルと空間モデル
7
…
…
音源信号
混合行列
…
…
…
観測信号
分離行列
分離信号
球対称
音源モデル空間モデル多チャネル観測信号
Rank-1 MNMFの音源モデルと空間モデル
8
全空間相関行列がランク1という制約を導入
• ランク1空間近似付き多チャネルNMF [Kitamura, 2015]
– 音源モデル
• 任意基底数のNMFによる低ランク近似
分解(分散が時間周波数で変動する)
– 空間モデル
• 特に制約無し(ランク1空間近似のみ)
分散が
変動
IVAとRank-1 MNMFの音源モデルの違い
• IVAの音源モデル
– 周波数方向に一様な分散を持つ
• 一定分散の多次元ラプラス分布
• 周波数ビン毎にスケールが任意なので
一様(フラット)なスペクトルとは限らない
– 1本の基底のNMFに近い
• Rank-1 MNMFの音源モデル
– 任意基底数のNMF
• より具体的な調波構造等を捉えられる
– 音源毎に基底数を変えることも可能
• 潜在変数付きNMFモデルとして提案済
9
Frequency
Time
Frequency
Time
本来の音源のスペクトログラムが持つ基底数が分離性能に影響
濃淡は分散値
濃淡は分散値
実験的な実証方法
• 音源スペクトログラムの基底数の違い
• 音源の混合系の違い
– 実測信号ではその他の要因が多すぎる
– 完全に人工的な音源と混合系を用いて実証する
10音源モデル
空間モデル柔軟限定的
柔軟限定的
IVA
MNMF
Rank1
MNMFNMFによる音源
モデルの基底数拡張
FDICA
+DOA
ランク1空間モデル
フルランク空間モデル
ランク1空間モデル
+DOAクラスタリング
分離精度に
与える影響
• 実験に用いる信号
– ガンマ分布に従う変数の積とその線形結合に基づくパワースペ
クトログラムを2音源分生成
– いかなる基底数 においても が等カートシス( )と
なるように形状母数 を設定(導出は省略!)
• カートシスの違いによる音源分離性能の変化を除外するため
– の一様分布に従う位相を付与
実験条件
11
・・・
・・・
人工的なパワー
スペクトログラム
(基底数= )
生成
生成
• 実験に用いる混合系
– DOA上で2音源分のガウス分布を定義
– 各ガウス分布からステアリングベクトルを生成
– 先の人工音源に対して人工ステアリングベクトルを乗算
• その他の実験条件
実験条件
12
最適化アルゴリズム
FDICA: 自然勾配法, DOAクラスタリング: k-means法,
IVA: 補助関数法, Rank-1 MNMF: 補助関数法
反復回数 200 回 (FDICAの反復ステップサイズは実験的に調整済)
評価値 SDR改善量(総合分離性能)
人工混合行列
人工観測信号
生成 生成
推定された
音源成分の頻度
到来方向(DOA) [rad]
• 音源の基底数 を変化させた場合の分離精度比較
– 混合系は に固定
FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
音源1の結果グラフ
音源の基底数の違いによる分離精度比較
13
Rank-1 MNMFの持つ音源モデル
(NMF分解)が最も柔軟
(基底数= )
– FDICA+DOAは によらない
• 具体的な音源モデルが無いため
– IVAとRank-1 MNMF(基底数=1)
は音源の基底数の増加に伴って精
度が劣化
• 音源モデルが表現できなくなるため
– Rank-1 MNMF(基底数= )は精
度劣化しない
• 適切で具体的な音源モデルが仮定され
ているため
• 音源の基底数 を変化させた場合の分離精度比較
– 混合系は に固定
FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
音源1の結果グラフ
音源の基底数の違いによる分離精度比較
14
Rank-1 MNMFの持つ音源モデル
(NMF分解)が最も柔軟
(基底数= )
– FDICA+DOAは によらない
• 具体的な音源モデルが無いため
– IVAとRank-1 MNMF(基底数=1)
は音源の基底数の増加に伴って精
度が劣化
• 音源モデルが表現できなくなるため
– Rank-1 MNMF(基底数= )は精
度劣化しない
• 適切で具体的な音源モデルが仮定され
ているため
• 音源の基底数 を変化させた場合の分離精度比較
– 混合系は に固定
FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
音源1の結果グラフ
音源の基底数の違いによる分離精度比較
15
Rank-1 MNMFの持つ音源モデル
(NMF分解)が最も柔軟
(基底数= )
– FDICA+DOAは によらない
• 具体的な音源モデルが無いため
– IVAとRank-1 MNMF(基底数=1)
は音源の基底数の増加に伴って精
度が劣化
• 音源モデルが表現できなくなるため
– Rank-1 MNMF(基底数= )は精
度劣化しない
• 適切で具体的な音源モデルが仮定され
ているため
• 音源の基底数 を変化させた場合の分離精度比較
– 混合系は に固定
FDICA+DOA
Rank-1 MNMF
IVA
音源の基底数
音源1の結果グラフ
音源の基底数の違いによる分離精度比較
16
Rank-1 MNMFの持つ音源モデル
(NMF分解)が最も柔軟
(基底数= )
– FDICA+DOAは によらない
• 具体的な音源モデルが無いため
– IVAとRank-1 MNMF(基底数=1)
は音源の基底数の増加に伴って精
度が劣化
• 音源モデルが表現できなくなるため
– Rank-1 MNMF(基底数= )は精
度劣化しない
• 適切で具体的な音源モデルが仮定され
ているため
• 音源の混合系 を変化させた場合の分離精度比較
– 音源の基底数は ,分散は に固定
音源の混合系の違いによる分離精度比較
17
– FDICA+DOAは2音源が接近すると
精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMF(基底数=1)は
音源の混合系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟音源1の結果グラフ
FDICA+DOA
Rank-1 MNMF(基底数=1)
IVA
音源間角度( )[rad]
• 音源の混合系 を変化させた場合の分離精度比較
– 音源の基底数は ,分散は に固定
音源の混合系の違いによる分離精度比較
18
– FDICA+DOAは2音源が接近すると
精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMF(基底数=1)は
音源の混合系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟音源1の結果グラフ
FDICA+DOA
Rank-1 MNMF(基底数=1)
IVA
音源間角度( )[rad]
• 音源の混合系 を変化させた場合の分離精度比較
– 音源の基底数は ,分散は に固定
音源の混合系の違いによる分離精度比較
19
– FDICA+DOAは2音源が接近すると
精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMF(基底数=1)は
音源の混合系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟音源1の結果グラフ
FDICA+DOA
Rank-1 MNMF(基底数=1)
IVA
音源間角度( )[rad]
• 音源の混合系 を変化させた場合の分離精度比較
– 音源の基底数は ,平均は に固定
FDICA+DOA
IVA
音源の分散( )
音源1の結果グラフ
音源の混合系の違いによる分離精度比較
20
– FDICA+DOAは2音源のDOA幅が増
加すると精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMFは音源の混合
系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟
Rank-1 MNMF(基底数=1)
• 音源の混合系 を変化させた場合の分離精度比較
– 音源の基底数は ,平均は に固定
FDICA+DOA
IVA
音源の分散( )
音源1の結果グラフ
音源の混合系の違いによる分離精度比較
21
– FDICA+DOAは2音源のDOA幅が増
加すると精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMFは音源の混合
系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟
Rank-1 MNMF(基底数=1)
• 音源の混合系 を変化させた場合の分離精度比較
– 音源の基底数は ,平均は に固定
FDICA+DOA
IVA
音源の分散( )
音源1の結果グラフ
音源の混合系の違いによる分離精度比較
22
– FDICA+DOAは2音源のDOA幅が増
加すると精度が劣化
• DOAクラスタリングのエラーが増加する
– IVAとRank-1 MNMFは音源の混合
系によらない
• 空間モデルによる制約が無いため
IVAとRank-1 MNMFの無制約な
空間モデルが柔軟
Rank-1 MNMF(基底数=1)
• SiSECデータベース収録のプロ音楽信号
– ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル)
– 音源: acoustic_guit_main, bass, vocalsの3音源
– 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz)
– 更新回数: 200回
各手法の計算量の比較
23
IVA MNMF
Rank-1 MNMF
(音源毎に基底数を固定)
Rank-1 MNMF
(音源毎に基底数を可変)
91.6 4498.4 121.0 173.4
(単位は全てs)
12
10
8
6
4
2
0
-2
SDRimprovement[dB]
4003002001000
Iteration steps
IVA
MNMF
Rank-1 MNMF
Rank-1 MNMF
(基底数固定)
(基底数可変)
200回更新時(MNMF以外は十分収束)
結論とまとめ
• Rank-1 MNMF [D. Kitamura et al., ICASSP 2015]
– IVAの音源モデルを任意の基底数に拡張
– 空間モデルへの制限は「ランク1」のみ
– モデル複雑化に伴う最適化の不安定さもさほど問題にならない
– ランク1空間近似を用いる優決定条件BSSとして優秀な手法
24
音源モデル
空間モデル
柔軟具体的
柔軟具体的
IVA
Rank1
MNMFNMFによる音源
モデルの基底数拡張
FDICA
+DOA
ランク1空間モデル
ランク1空間モデル
+DOAクラスタリング

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS with Rank-1 Spatial Approximation (in Japanese)

  • 1.
  • 2.
    研究の背景 • ブラインド音源分離(blind sourceseparation: BSS) – 観測信号のみ(混合系は未知)から音源信号を推定する技術 – 優決定条件(音源数 録音マイク数)におけるBSS • 独立成分分析(ICA) [Comon, 1994] 等 – 劣決定条件(音源数 録音マイク数)におけるBSS • 時間周波数マスク [Araki, 2007],非負値行列因子分解(NMF)[Lee, 1999] 等 • BSSの応用 – 話者分離,雑音抑圧,音楽信号解析,音場再現の前処理 etc. 2 音源信号 観測信号 分離信号 混合系 分離系
  • 3.
    本発表の目的 • ランク1空間近似を用いたBSS(全て優決定条件下) – 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], etc. • スペクトログラム領域で周波数毎に独立なICAを適用 • パーミュテーション問題を解く – 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] • FDICAに対して球対称かつ多変量な事前分布を導入 • パーミュテーション問題を回避しつつ音源を分離 – ランク1多チャネルNMF(Rank-1 MNMF) [Kitamura, 2015] • 多チャネルNMF [Sawada, 2013] の空間相関行列にランク1制約を課す • 効率的かつ安定に最適化できる音源分離手法 • 上記3手法の音源モデル及び空間モデルについて考察 – 音源のスペクトル構造や混合系の制約等 • Rank-1 MNMFが最も柔軟なBSSで あることを実験的に示す 3
  • 4.
    ランク1空間近似とは? • 音源毎の空間相関行列のランクが1(という近似モデル) – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 –時間周波数領域における時不変複素瞬時混合モデル – ランク1空間近似の物理的な意味 • 音源の伝達系が時不変 • インパルス応答が短時間フーリエ変換(STFT)の窓長より十分短い 4 マイク アレイ 観測 信号 音源 : 周波数インデクス : 時間インデクス 時不変混合行列 ステアリング ベクトル ステアリング ベクトル
  • 5.
    FDICAとパーミュテーション解決 5 ICA 全て時間周波数 領域の信号 (スペクトログラム) 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2Time • 周波数領域ICA(FDICA)[Smaragdis, 1998],[Saruwatari, 2000], [Sawada, 2004], etc. – スペクトログラムの周波数ビン毎に独立なICAを適用 – 音源及び空間モデルはパーミュテーション解決法に依存
  • 6.
    FDICA+DOAの音源モデルと空間モデル 6 • FDICA+DOAクラスタリング [Saruwatari,2000] – 推定分離フィルタからステアリングベクトルを逆算し音源の到来 方向(DOA)でクラスタリングすることでパーミュテーションを解く – 音源モデル • 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ) – 空間モデル • ランク1空間近似 • 混合系はDOAクラスタリングで解決できるという仮定(制約) 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 DOA クラスタリング Source 1 Source 2 音源の空間的な配置条件と残響レベルが分離性能に影響
  • 7.
    • 独立ベクトル分析(IVA) [Hiroe,2006], [Kim, 2006] – 音源モデル • 周波数間の一定分散多次元ラプラス分 布(球対称ラプラス分布) – 空間モデル • 特に制約無し(ランク1空間近似のみ) IVAの音源モデルと空間モデル 7 … … 音源信号 混合行列 … … … 観測信号 分離行列 分離信号 球対称
  • 8.
    音源モデル空間モデル多チャネル観測信号 Rank-1 MNMFの音源モデルと空間モデル 8 全空間相関行列がランク1という制約を導入 • ランク1空間近似付き多チャネルNMF[Kitamura, 2015] – 音源モデル • 任意基底数のNMFによる低ランク近似 分解(分散が時間周波数で変動する) – 空間モデル • 特に制約無し(ランク1空間近似のみ) 分散が 変動
  • 9.
    IVAとRank-1 MNMFの音源モデルの違い • IVAの音源モデル –周波数方向に一様な分散を持つ • 一定分散の多次元ラプラス分布 • 周波数ビン毎にスケールが任意なので 一様(フラット)なスペクトルとは限らない – 1本の基底のNMFに近い • Rank-1 MNMFの音源モデル – 任意基底数のNMF • より具体的な調波構造等を捉えられる – 音源毎に基底数を変えることも可能 • 潜在変数付きNMFモデルとして提案済 9 Frequency Time Frequency Time 本来の音源のスペクトログラムが持つ基底数が分離性能に影響 濃淡は分散値 濃淡は分散値
  • 10.
    実験的な実証方法 • 音源スペクトログラムの基底数の違い • 音源の混合系の違い –実測信号ではその他の要因が多すぎる – 完全に人工的な音源と混合系を用いて実証する 10音源モデル 空間モデル柔軟限定的 柔軟限定的 IVA MNMF Rank1 MNMFNMFによる音源 モデルの基底数拡張 FDICA +DOA ランク1空間モデル フルランク空間モデル ランク1空間モデル +DOAクラスタリング 分離精度に 与える影響
  • 11.
    • 実験に用いる信号 – ガンマ分布に従う変数の積とその線形結合に基づくパワースペ クトログラムを2音源分生成 –いかなる基底数 においても が等カートシス( )と なるように形状母数 を設定(導出は省略!) • カートシスの違いによる音源分離性能の変化を除外するため – の一様分布に従う位相を付与 実験条件 11 ・・・ ・・・ 人工的なパワー スペクトログラム (基底数= ) 生成 生成
  • 12.
    • 実験に用いる混合系 – DOA上で2音源分のガウス分布を定義 –各ガウス分布からステアリングベクトルを生成 – 先の人工音源に対して人工ステアリングベクトルを乗算 • その他の実験条件 実験条件 12 最適化アルゴリズム FDICA: 自然勾配法, DOAクラスタリング: k-means法, IVA: 補助関数法, Rank-1 MNMF: 補助関数法 反復回数 200 回 (FDICAの反復ステップサイズは実験的に調整済) 評価値 SDR改善量(総合分離性能) 人工混合行列 人工観測信号 生成 生成 推定された 音源成分の頻度 到来方向(DOA) [rad]
  • 13.
    • 音源の基底数 を変化させた場合の分離精度比較 –混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 13 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  • 14.
    • 音源の基底数 を変化させた場合の分離精度比較 –混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 14 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  • 15.
    • 音源の基底数 を変化させた場合の分離精度比較 –混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 15 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  • 16.
    • 音源の基底数 を変化させた場合の分離精度比較 –混合系は に固定 FDICA+DOA Rank-1 MNMF IVA 音源の基底数 音源1の結果グラフ 音源の基底数の違いによる分離精度比較 16 Rank-1 MNMFの持つ音源モデル (NMF分解)が最も柔軟 (基底数= ) – FDICA+DOAは によらない • 具体的な音源モデルが無いため – IVAとRank-1 MNMF(基底数=1) は音源の基底数の増加に伴って精 度が劣化 • 音源モデルが表現できなくなるため – Rank-1 MNMF(基底数= )は精 度劣化しない • 適切で具体的な音源モデルが仮定され ているため
  • 17.
    • 音源の混合系 を変化させた場合の分離精度比較 –音源の基底数は ,分散は に固定 音源の混合系の違いによる分離精度比較 17 – FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟音源1の結果グラフ FDICA+DOA Rank-1 MNMF(基底数=1) IVA 音源間角度( )[rad]
  • 18.
    • 音源の混合系 を変化させた場合の分離精度比較 –音源の基底数は ,分散は に固定 音源の混合系の違いによる分離精度比較 18 – FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟音源1の結果グラフ FDICA+DOA Rank-1 MNMF(基底数=1) IVA 音源間角度( )[rad]
  • 19.
    • 音源の混合系 を変化させた場合の分離精度比較 –音源の基底数は ,分散は に固定 音源の混合系の違いによる分離精度比較 19 – FDICA+DOAは2音源が接近すると 精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMF(基底数=1)は 音源の混合系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟音源1の結果グラフ FDICA+DOA Rank-1 MNMF(基底数=1) IVA 音源間角度( )[rad]
  • 20.
    • 音源の混合系 を変化させた場合の分離精度比較 –音源の基底数は ,平均は に固定 FDICA+DOA IVA 音源の分散( ) 音源1の結果グラフ 音源の混合系の違いによる分離精度比較 20 – FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 Rank-1 MNMF(基底数=1)
  • 21.
    • 音源の混合系 を変化させた場合の分離精度比較 –音源の基底数は ,平均は に固定 FDICA+DOA IVA 音源の分散( ) 音源1の結果グラフ 音源の混合系の違いによる分離精度比較 21 – FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 Rank-1 MNMF(基底数=1)
  • 22.
    • 音源の混合系 を変化させた場合の分離精度比較 –音源の基底数は ,平均は に固定 FDICA+DOA IVA 音源の分散( ) 音源1の結果グラフ 音源の混合系の違いによる分離精度比較 22 – FDICA+DOAは2音源のDOA幅が増 加すると精度が劣化 • DOAクラスタリングのエラーが増加する – IVAとRank-1 MNMFは音源の混合 系によらない • 空間モデルによる制約が無いため IVAとRank-1 MNMFの無制約な 空間モデルが柔軟 Rank-1 MNMF(基底数=1)
  • 23.
    • SiSECデータベース収録のプロ音楽信号 – ファイル名:bearlin-roads__snip_85_99,14 s(16kHzサンプル) – 音源: acoustic_guit_main, bass, vocalsの3音源 – 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz) – 更新回数: 200回 各手法の計算量の比較 23 IVA MNMF Rank-1 MNMF (音源毎に基底数を固定) Rank-1 MNMF (音源毎に基底数を可変) 91.6 4498.4 121.0 173.4 (単位は全てs) 12 10 8 6 4 2 0 -2 SDRimprovement[dB] 4003002001000 Iteration steps IVA MNMF Rank-1 MNMF Rank-1 MNMF (基底数固定) (基底数可変) 200回更新時(MNMF以外は十分収束)
  • 24.
    結論とまとめ • Rank-1 MNMF[D. Kitamura et al., ICASSP 2015] – IVAの音源モデルを任意の基底数に拡張 – 空間モデルへの制限は「ランク1」のみ – モデル複雑化に伴う最適化の不安定さもさほど問題にならない – ランク1空間近似を用いる優決定条件BSSとして優秀な手法 24 音源モデル 空間モデル 柔軟具体的 柔軟具体的 IVA Rank1 MNMFNMFによる音源 モデルの基底数拡張 FDICA +DOA ランク1空間モデル ランク1空間モデル +DOAクラスタリング

Editor's Notes

  • #3 研究の背景について説明します. ブラインド音源分離,BSSとは,複数の音源が混合された信号のみから分離信号を推定する技術です. 即ち,混合系やマイクの位置等が未知の条件で,分離信号を得るのが目的です. 本発表では,マイク数が音源数と同じか多い優決定条件のみ取り扱います. BSSの応用としては,話者分離や雑音抑圧,音楽信号解析等,さまざまな用途があります.
  • #4 優決定条件ではランク1空間近似というモデルを用いたBSSが多く提案されています. 周波数領域ICAやその拡張の独立ベクトル分析,我々が提案している「ランク1多チャネルNMF」等です. 本発表では,この三手法に着目し,各手法が仮定する音源モデルと空間モデルについて考察します. この音源モデルや空間モデルというのは,音源が持つスペクトル構造や混合系の制約などを意味しています. そしてそれらの違いから,ランク1MNMFが最も柔軟なBSSであることを実験的に示していきます.
  • #5 まずランク1空間近似とは何かについて説明します. これはICA等ではお馴染みの混合系に関する仮定で「時間周波数領域で1つの音源が1本の時不変なステアリングベクトルで表現できる」というものです. ステアリングベクトルとは,音源から各マイクへの重みを表す複素係数です. このとき混合系は「時間周波数領域での時不変な瞬時混合」と仮定できるので,伝達系を混合行列で表現でき,音源分離はその逆行列を求める問題になります. 物理的には,音源の伝達系が時不変で,インパルス応答がSTFTの窓長よりも短い場合にランク1空間近似は成り立ちます.(2分10秒) このランク1空間近似を用いた3つの手法と,それぞれの仮定する音源及び空間モデルをこれから説明します.
  • #6 始めはFDICAです.これは周波数ビン毎にICAを適用し分離したあと,パーミュテーション問題を解くという流れです. 仮定している音源及び空間モデルはパーミュテーション解決法に依存します.いろいろな手法がありますが,ここでは
  • #7 DOAクラスタリングを用いた手法を取り上げます. これは,分離フィルタからステアリングベクトルを逆算して,音源の到来方向,つまりDOAでクラスタリングすることでパーミュテーションを解きます. 仮定する音源モデルは特になく,具体的なモデルスペクトログラムが与えられません. 空間モデルはランク1空間近似に加え,「混合系がDOAクラスタリングで解決できる」という仮定をおいており,これは音源が接近していたり残響が強いと成り立たなくなってきます. つまり,この手法は空間モデルに比較的強い制約を与えて分離している手法になります.
  • #8 二つ目はIVAです.IVAは,音源にみたてた周波数ベクトル間で独立性基準をもちいて分離します. 各音源ベクトルの内部,すなわち周波数方向には一定分散の多次元ラプラス分布が音源モデルとして仮定されています. これは2つの周波数ビンの値を2軸に取り出した時の音源モデルですが,このように分散が同じの多次元分布なので球対称になります. 一方で,空間モデルに対してはランク1空間近似以外に特に制約を与えていません.
  • #9 最後に我々が提案したランク1MNMFです. これは,多チャネルNMFの空間相関行列はランク1行列となる制約を導入しています. これによって,変数の最適化アルゴリズムがIVAとNMFの交互最適化に帰着するため,多チャネルNMFよりも高速で頑健に動きます. 仮定する音源モデルは,分解行列のTとVの部分であり,任意基底数のNMFによる低ランク近似分解になります. 板倉齋藤距離基準の場合は,このように時間と周波数で分散が変動する複素ガウス分布が音源モデルになります. また,空間モデルにはIVAと同様にランク1近似以外の制約はありません.
  • #10 IVAとRank-1MNMFの音源モデルの違いについて詳しく考察します.IVAは先ほど申し上げました通り,周波数方向に一定分散を持つベクトルです.したがってこの図のようなモデルスペクトログラムとなります.但し,周波数ビン毎にスケールが任意なので,一様なスペクトルしか表現できないというわけではありません.つまり,IVAの音源モデルは1本の基底のNMFに非常に近いと言えます.そのため,本来の音源のスペクトログラムが持つ基底数が分離性能に影響してきます. 一方,Rank-1MNMFは,任意の数の基底によるNMFの音源モデルが与えられています.その為,このようにより具体的な調波構造を捉えることができ,IVAよりもかなり柔軟な音源モデルを与えられます.さらに,音源毎に基底数を変えることも可能となっています.(5分45秒)
  • #11 このような違いを実験的に実証する方法について考えます. この図は横軸に音源モデルの柔軟性,縦軸に空間モデルの柔軟性を取った時の各手法の立ち位置を示しています. FDICAとこの2手法は空間モデルの柔軟性が異なり,IVAとこの2手法は音源モデルの柔軟性が異なります. 従って,音源スペクトログラムの基底数の違いと,音源の混合系の違いのそれぞれが分離精度に与える影響を示せばよいということです. しかし,実測信号ではその他の要因が多すぎるうえ,音源スペクトログラムの基底数は分からないので,今回は完全に人工的な音源と混合系を用いて実証します.
  • #12 まず人工的な音源の作成方法です. 特定の基底数Rを持つ乱数スペクトログラムを作成する為に,ガンマ分布に従う縦ベクトルFと横ベクトルGをR本ずつ生成し,図のように行列積をとります. この時,いかなる基底数Rにおいても,生成したスペクトログラムのカートシスが50となるようにガンマ分布の形状母数を設定します. このような形状母数の導出法は今回は割愛します.基底数によらずカートシスを一定にするのは,カートシスの違いによる分離性能の変化を除外するためです. 尚,原稿ではカートシス=500の結果を示していますが,50の方が傾向が分かりやすいため発表ではその結果をお見せします. 最後に,この乱数行列をパワースペクトログラムとみなし,ここに0~2piの一様位相を付与して人工音源とします.このような人工音源を2つ作成します.
  • #13 次に混合系についてです. このようにDOA上で2つのガウス分布を定義し,そこからステアリングベクトルを生成します.そして,先ほどの人工音源に乗算して観測信号xを作成しました. (8分15秒)下の表はその他の実験条件です. 最適化アルゴリズムとしてFDICAは自然勾配法,DOAクラスタリングはk-means法,IVAとRank1MNMFは補助関数法を用いています. 自然勾配法のステップサイズは実験的に調整しています.評価値は総合分離性能のSDRです.
  • #14 まず,混合系を固定し,音源の基底数Rを変化させた場合の結果です.横軸が音源の基底数R,縦軸は分離精度です.(クリック) FDICA+DOAの分離精度は音源の基底数Rによらないことが分かります.これは,FDICAが具体的な音源モデルを持たないことに起因しています.(クリック) IVAと1本の基底を与えるRank-1MNMFは,Rの増加に伴って精度が劣化しています.Rが増加することで音源モデルが本来の音源を表現できなくなることを示しています.(クリック) Rと同じ数の基底を与えたRank-1MNMFは精度がほとんど劣化していないことが分かります.これは,適切で具体的な音源モデルが仮定されている為と考えられます.(クリック) 以上より,Rank-1MNMFの持つ音源モデルが最も柔軟であることが,この結果から分かります.
  • #15 まず,混合系を固定し,音源の基底数Rを変化させた場合の結果です.横軸が音源の基底数R,縦軸は分離精度です.(クリック) FDICA+DOAの分離精度は音源の基底数Rによらないことが分かります.これは,FDICAが具体的な音源モデルを持たないことに起因しています.(クリック) IVAと1本の基底を与えるRank-1MNMFは,Rの増加に伴って精度が劣化しています.Rが増加することで音源モデルが本来の音源を表現できなくなることを示しています.(クリック) Rと同じ数の基底を与えたRank-1MNMFは精度がほとんど劣化していないことが分かります.これは,適切で具体的な音源モデルが仮定されている為と考えられます.(クリック) 以上より,Rank-1MNMFの持つ音源モデルが最も柔軟であることが,この結果から分かります.
  • #16 まず,混合系を固定し,音源の基底数Rを変化させた場合の結果です.横軸が音源の基底数R,縦軸は分離精度です.(クリック) FDICA+DOAの分離精度は音源の基底数Rによらないことが分かります.これは,FDICAが具体的な音源モデルを持たないことに起因しています.(クリック) IVAと1本の基底を与えるRank-1MNMFは,Rの増加に伴って精度が劣化しています.Rが増加することで音源モデルが本来の音源を表現できなくなることを示しています.(クリック) Rと同じ数の基底を与えたRank-1MNMFは精度がほとんど劣化していないことが分かります.これは,適切で具体的な音源モデルが仮定されている為と考えられます.(クリック) 以上より,Rank-1MNMFの持つ音源モデルが最も柔軟であることが,この結果から分かります.
  • #17 まず,混合系を固定し,音源の基底数Rを変化させた場合の結果です.横軸が音源の基底数R,縦軸は分離精度です.(クリック) FDICA+DOAの分離精度は音源の基底数Rによらないことが分かります.これは,FDICAが具体的な音源モデルを持たないことに起因しています.(クリック) IVAと1本の基底を与えるRank-1MNMFは,Rの増加に伴って精度が劣化しています.Rが増加することで音源モデルが本来の音源を表現できなくなることを示しています.(クリック) Rと同じ数の基底を与えたRank-1MNMFは精度がほとんど劣化していないことが分かります.これは,適切で具体的な音源モデルが仮定されている為と考えられます.(クリック) 以上より,Rank-1MNMFの持つ音源モデルが最も柔軟であることが,この結果から分かります.
  • #18 続いて音源の混合系を変化させた場合の結果です.音源の基底数はR=1に固定しています.また,DOAの分散を固定し,位置を変化させています. 横軸は音源間の角度になり,右に行くほど二つの音源角は広がります.(クリック) FDICAは音源が接近すると精度が劣化しているのが分かります.これは,DOAクラスタリングのエラーが増加する為であり,この手法の空間モデルが限定的である為です.(クリック) 一方,IVAとRank1MNMFは,音源の混合系が変化しても精度が変化していません.これは空間モデルによる制約が無く,柔軟である為です.(クリック) 従って,この2手法のほうが柔軟な空間モデルを持っていることが分かります.
  • #19 続いて音源の混合系を変化させた場合の結果です.音源の基底数はR=1に固定しています.また,DOAの分散を固定し,位置を変化させています. 横軸は音源間の角度になり,右に行くほど二つの音源角は広がります.(クリック) FDICAは音源が接近すると精度が劣化しているのが分かります.これは,DOAクラスタリングのエラーが増加する為であり,この手法の空間モデルが限定的である為です.(クリック) 一方,IVAとRank1MNMFは,音源の混合系が変化しても精度が変化していません.これは空間モデルによる制約が無く,柔軟である為です.(クリック) 従って,この2手法のほうが柔軟な空間モデルを持っていることが分かります.
  • #20 続いて音源の混合系を変化させた場合の結果です.音源の基底数はR=1に固定しています.また,DOAの分散を固定し,位置を変化させています. 横軸は音源間の角度になり,右に行くほど二つの音源角は広がります.(クリック) FDICAは音源が接近すると精度が劣化しているのが分かります.これは,DOAクラスタリングのエラーが増加する為であり,この手法の空間モデルが限定的である為です.(クリック) 一方,IVAとRank1MNMFは,音源の混合系が変化しても精度が変化していません.これは空間モデルによる制約が無く,柔軟である為です.(クリック) 従って,この2手法のほうが柔軟な空間モデルを持っていることが分かります.
  • #21 最後に,DOAの分散を変化させた場合の結果です.先ほどとは逆にDOAの位置は固定しています. 横軸が音源の分散であり,右に行くほど分散が広がります.(クリック) FDICAは音源のDOA幅が増加すると精度が劣化しているのが分かります.これもDOAクラスタリングのエラーが増加することが原因です.(クリック) 一方,IVAとRank1MNMFは,やはり音源の混合系の変化に頑健です.(クリック) この結果からも,IVAとRank1MNMFの空間モデルが優れていることが分かります.
  • #22 最後に,DOAの分散を変化させた場合の結果です.先ほどとは逆にDOAの位置は固定しています. 横軸が音源の分散であり,右に行くほど分散が広がります.(クリック) FDICAは音源のDOA幅が増加すると精度が劣化しているのが分かります.これもDOAクラスタリングのエラーが増加することが原因です.(クリック) 一方,IVAとRank1MNMFは,やはり音源の混合系の変化に頑健です.(クリック) この結果からも,IVAとRank1MNMFの空間モデルが優れていることが分かります.
  • #23 最後に,DOAの分散を変化させた場合の結果です.先ほどとは逆にDOAの位置は固定しています. 横軸が音源の分散であり,右に行くほど分散が広がります.(クリック) FDICAは音源のDOA幅が増加すると精度が劣化しているのが分かります.これもDOAクラスタリングのエラーが増加することが原因です.(クリック) 一方,IVAとRank1MNMFは,やはり音源の混合系の変化に頑健です.(クリック) この結果からも,IVAとRank1MNMFの空間モデルが優れていることが分かります.
  • #27 このコスト関数をよく見ると,なんと,(クリック)第一項と第二項がIVAのコスト関数と等価で,(クリック)第一項と第三項が単一チャネルNMFのコスト関数と等価になっています.(クリック) したがって,IVAとNMFを重ね合わせたコストとなっており,IVAの更新式とNMFの更新式を交互に反復することで全変数を容易に最適化できます.