超解像に基づく教師あり非負値行列因子分解の
最適距離規範に関する検討
奈良先端科学技術大学院大学
北村大地 猿渡洋 鹿野清宏
ヤマハ株式会社
近藤多伸 高橋祐
Study on optimal divergence for superresolution-based
supervised nonnegative matrix factorization
研究背景
• 複数の楽器音が多重に混合された音楽信号
から,楽器音を分離・抽出 音楽信号分解
• 応用例
– ユーザが好み応じて各楽器音を編集
– 音楽信号の自動採譜
– 音の拡張現実 (AR) 等
2
• 非負値行列因子分解 [Lee, et al., 1999]
• データのスパース性,重ね合わせ表現を考慮
• 効率的な乗法型更新式
• 画像処理,信号処理等様々な分野への応用
研究背景
3
Time [sec]
Frequency[Hz]
Nonnegative Matrix Factorization (NMF)
4
…
…
…
…
頻出スペクトル
各スペクトルの
タイミングと音量
Time [sec]
Frequency[Hz]
Nonnegative Matrix Factorization (NMF)
5
…
…
…
…
アクティベーション行列
スペクトル基底行列
• NMF では,分解行列因子の と を最適
化するための目的関数が距離関数として与
えられる
• この距離関数はデータや分解する目的に応
じて使い分けられる
– 音源分離: 一般化KLダイバージェンス
– 自動採譜: 板倉-斉藤擬距離
NMF の目的関数
6
: 任意の距離関数
ex.)
• 一般化距離関数 -divergence [Eguchi, et al., 2001]
7
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視
された距離尺度に
-divergence について
• における のグラフ
8
-divergence について
5x10
2
4
3
2
1
0
IS-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EUC-distance
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
が正 入力変数 がデータ より大きい
が負 入力変数 がデータ より小さい
板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
板倉-斉藤擬距離やKL-divergenceでは小さな距離値に
9
-divergence について
5x10
2
4
3
2
1
0
IS-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EUC-distance
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
• における のグラフ
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
スパース性: 強 スパース性: 弱
-divergence について
10
• における のグラフ
100
80
60
40
20
0
-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=3)
9x10
2
8
7
6
5
4
3
2
1
0
-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=4)
5x10
97
0
-divergence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=100)
さらに を大きくすると,入力変数 とデータ を
入れ替えたような性質になる
• -divergence の全ての において収束性が
保障された更新式の導出
-divergence規範NMF [Nakano, et al., 2010]
11
はそれぞれ
の要素
• 分離する楽器の教師音を用いる手法
学習プロセス
12
目的の楽器の教師音を
用いて学習した基底
分離プロセス 教師基底 を固定して を構成
Penalized Supervised NMF (PSNMF)
[Yagi, et al., 2012]
は となるべく無相関となるように求める
• 分離する楽器の教師音を用いる手法
学習プロセス
Penalized Supervised NMF (PSNMF)
13
目的の楽器の教師音を
用いて学習した基底
分離プロセス 教師基底 を固定して を構成
から再構成した
スペクトログラムが分離結果
[Yagi, et al., 2012]
• PSNMF の問題点
– 混合された音源数 (楽器の種類数) が 4 つ以上
のように多くなると分離精度が低下
• 原因
– 様々な楽器の間で類似したスペクトルが現れる
– 学習基底の重ね合わせにより別の楽器のスペク
トルを表現してしまう
14
Penalized Supervised NMF (PSNMF)
[Yagi, et al., 2012]
方位クラスタリング [Miyabe, et al., 2009]
• ステレオ信号を対象とした方位分解手法
• チャネル間の定位情報 (振幅差と位相差) を
用いてクラスタリング
15
L R L-chの入力信号
R-ch の入力信号
:音源成分
:空間代表ベクトル
クラスタリングによるバイナリマスクの生成
• ハードクラスタリングは完全スパース性を仮定
• スペクトログラムのグリッドが方位クラスタに属
するか否かを示すバイナリマスクが生成
16
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波数
: 目的楽音成分
時間
周波数
時間
周波数
: 不要音成分
:アダマール積 (要素積)
入力信号 バイナリマスク 分解されたクラスタ
方位クラスタリングの問題点
• 問題点
– 実際には完全スパース性が成り立たない為,クラ
スタリング誤りによる人工的な歪みが生じる
– 同一方位にある音源の分解はできない
17
時間
周波数
分解されたクラスタ
-40
-20
0
20
40Amplitude[dB]
10008006004002000
Frequency [Hz]
L R
Multichannel NMF
• NMF をマルチチャネル信号へと拡張
– チャネル間の位相情報も利用して信号分解
• 方位と調波構造を統一してモデル化し1つの
コスト関数で最適化
• 問題点
– 1つのコスト関数で多くの変数を最適化しようとす
るため,非常に困難な推定問題
– 初期値依存性が極端に強く,頑健に動作させるこ
とが難しい
18
[Sawada, et al., 2012]
[Ozerov, et al., 2010]
従来手法のまとめ
• PSNMF
– モノラル信号が対象
– 教師あり分解
– 混合楽器数が増加すると分離精度が低下
• 方位クラスタリング
– マルチチャネル信号が対象
– 人工的な歪みが発生
– 同一方位の音源は分解できない
• Multichannel NMF
– マルチチャネル信号が対象
– 初期値依存性が強く,頑健性に欠ける
19
• マルチチャネル信号を対象として高精度かつ
頑健に動作する教師あり信号分解手法
– 前段に方位クラスタリングによる方位分解
– 分解された目的方位クラスタに対して教師あり
NMF を適用し目的楽器音を分離
– 方位分解と調波構造による音源分離のそれぞれ
に対して適切な手法を用いる分割統治法
20
提案手法
方位クラスタリング
L R
教師あり NMF
– 方位クラスタリングのバイナリマ
スクによってスペクトログラムの
解像度が低下
– 通常の PSNMF を後段に接続す
ると,歪みが発生
21
方位分解と教師あり NMF のハイブリッド手法
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波数
: 目的楽音成分
時間
周波数
時間周波数
: 不要音成分
-40
-20
0
20
40
Amplitude[dB]
10008006004002000
Frequency [Hz]
• 後段の教師あり NMF について
: 欠落
• 超解像に基づく教師あり NMF
– 欠落を観測できなかった成分として NMF の誤差
関数から省く
– 観測可能な成分のみを考慮し,表現できる教師基
底をフィッティングさせる
– 欠落成分は教師基底によって外挿される (超解像)
22
方位分解と教師あり NMF のハイブリッド手法
目的音成分の穴を NMF の誤差関数から省く
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
時間
周波数
: 目的楽音成分
時間
周波数
時間周波数
: 欠落
: 不要音成分
• ハイブリッド手法の処理の流れ
23
方位分解と教師あり NMF のハイブリッド手法
方位
音源成分
目的音成分
• ハイブリッド手法の処理の流れ
24
方位分解と教師あり NMF のハイブリッド手法
方位
音源成分
目的音成分
方位
音源成分
目的方位成分
目的成分
の欠落
• ハイブリッド手法の処理の流れ
25
方位分解と教師あり NMF のハイブリッド手法
方位
音源成分
目的成分
の欠落
• ハイブリッド手法の処理の流れ
26
方位分解と教師あり NMF のハイブリッド手法
方位
音源成分
外挿された
目的成分
方位
音源成分
目的成分
の欠落
• 超解像における正則化の必要性
– あるフレームにおいて観測可能な成分が極端に少
ない場合,いかなる教師基底もマッチングできる
– 間違った教師基底が選択されてスペクトルが外挿
される可能性がある
27
方位分解と教師あり NMF のハイブリッド手法
4
3
2
1
0
Frequency[kHz]
43210
Time [s]
欠落グリッド数が多く (約99%が穴),
外挿誤りが生じたフレーム
外挿誤りを防ぐための
正則化が必要
• ノルム最小化による正則化
28
方位分解と教師あり NMF のハイブリッド手法
穴が極端に多いフレーム
本来目的音成分が
存在していなかった
事前仮定
– 事前仮定を導入
– それぞれのフレームにおいて,穴の数が多いほど
ノルムが小さくなる (出力音が小さくなる) 教師基
底を選択してフィッティング
• 超解像に基づく教師あり NMF コスト関数
– は目的楽器の教師基底
– は方位クラスタリングのバイナリインデックス
– はインデックス (0, 1) の論理反転
– はそれぞれ直交化項,正則化項の重み係数
29
方位分解と教師あり NMF のハイブリッド手法
• 超解像に基づく教師あり NMF コスト関数
– は目的楽器の教師基底
– は方位クラスタリングのバイナリインデックス
– はインデックス (0, 1) の論理反転
– はそれぞれ直交化項,正則化項の重み係数
30
方位分解と教師あり NMF のハイブリッド手法
距離関数に  -divergence を用いた場合の更新式を導出し,
超解像に基づく教師あり NMF において最適な距離規範の検討を行う
• 更新式導出は補助関数法を用いる
– コスト関数 の上限を与える補助関数を定義
– コスト関数を間接的に最小化
超解像に基づく教師あり NMF 更新式導出
31
は変数の集合, はバイナリマスクのインデックス行列 の要素
• コスト関数 (上式) の第一項は定数
• 第二項,第三項,第四項は の値に応じて凸
関数 (convex) か凹関数 (concave) になる
超解像に基づく教師あり NMF 更新式導出
32
concave
convex
convex
concave
convex
convex
convex
convex
concave
• 各項の上限関数は以下の不等式を用いて設
計できる
– 凸関数: Jensen の不等式
– 凹関数: 接線不等式
超解像に基づく教師あり NMF 更新式導出
33
: 凸関数
: 凹関数
超解像に基づく教師あり NMF 更新式
34
• 補助関数を各変数で微分し,補助変数の等
号成立条件を代入することで更新式を導出
• 超解像に基づく教師あり NMF 更新式
超解像に基づく教師あり NMF 実験条件
35
目的音信号 (MIDI) フルート,オーボエ,ピアノ,トロンボーン
観測信号 (MIDI) 4 種類の楽器の等パワー混合信号
教師信号 (MIDI) 各楽器音の半音階で 2 オクターブ上昇する 24 音
方位クラスタ数 3
基底数 教師基底: 100, その他の基底: 30
NMF の更新回数 教師基底学習時: 500, 分離時: 400
重み係数 m , l 評価値が最も高くなる値を実験的に求める
距離規範 (教師基底学習時と分離時では統一)
比較手法
PSNMF単体
超解像に基づく教師あり NMF を用いたハイブリッド手法
客観評価尺度
Signal to distortion ratio (SDR: 目的音の品質),
Source to interference ratio (SIR: 分離度合),
Sources to artifact ratio (SAR: 処理歪みの少なさ)
超解像に基づく教師あり NMF 実験条件
• 入力信号
– 左右の音源の定位角
度は15 , 40 を用意
– 目的音源は常に中央
(1番) に定位
– 4 種の目的音源のそれ
ぞれに対して非目的音
の配置が 3 パターン
– 計 12 パターンの音源
に分離実験を行った評
価値の平均
36
Center
1
2 3
4
Left Right
• 比較手法
超解像に基づく教師あり NMF 実験条件
37
Input stereo signal
L-ch R-ch
STFT
Directional clustering
Center component
L-ch R-ch
center cluster
Index of
based SNMF
Superresolution-
based SNMF
Superresolution-
ISTFT ISTFT
Mixing
Extracted signal
Input stereo signal
L-ch R-ch
STFT
Monaural component
PSNMF
ISTFT
Mixing
Extracted signal
PSNMF 超解像に基づくハイブリッド手法
入力信号をモノラルにミックスダウン
• の入力信号の結果
• 従来の PSNMF では (KL-divergence)
が最も良い分離精度
– 従来の NMF を用いた音源分離の研究で経験的
に知られていた事実
超解像に基づく教師あり NMF 実験結果
38
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
• の入力信号の結果
• 従来の PSNMF では (KL-divergence)
が最も良い分離精度
– 従来の NMF を用いた音源分離の研究で経験的
に知られていた事実
超解像に基づく教師あり NMF 実験結果
39
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
• の入力信号の結果
• 超解像に基づく教師あり NMF では
(EUC-distance) が最も良い分離精度
– 通常の音源分離とは異なる結果に
超解像に基づく教師あり NMF 実験結果
40
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
• の入力信号の結果
• においても同様の結果となった
超解像に基づく教師あり NMF 実験結果
41
14
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
25
20
15
10
5
0
SIR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3 4
Value of 
PSNMF
Superresolution-based SNMF
• 通常の NMF 音源分離
– KL-divergence ( ) が分離精度が良い
• 今回の PSNMF の結果や多くの論文で示されている
• 超解像に基づく教師あり NMF
– EUC-distance ( ) が良い結果となった
• 超解像処理を用いる NMF の最適な距離規範
は EUC-distance といえる
超解像に基づく教師あり NMF 考察
42
• の値が 0 に近くなるほど
– 事前学習時
• 教師基底はピークとスパース性を重視
• アクティベーションのスパース性から局所的 (アタック部,
サスティン部等) な特徴を良く捉えた基底が作られる
超解像に基づく教師あり NMF 考察
43
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz] Attack Sustain Release
Amplitude Time
Decay
• の値が大きくなるほど
– 事前学習時
• 教師基底はそれほどスパースにならず,少し滑らか
• より大局的な特徴を捉えた教師基底が学習される
超解像に基づく教師あり NMF 考察
44
Attack
Decay
Sustain Release
Amplitude Time
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
• 超解像に基づく教師あり NMF
– 分離時
• 見えている成分のみで教師基底のフィッティングを行わ
なければならない
• 教師基底がスパースで局所的な特徴を捉えた教師基
底は外挿しにくい
• 逆に少し滑らかで大局的な表現が可能な教師基底の
方が外挿しやすい
超解像に基づく教師あり NMF 考察
45
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
• 超解像に基づく教師あり NMF
– 分離時
超解像に基づく教師あり NMF 考察
46
-10
-8
-6
-4
-2
0Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
性能
分離精度
外挿能力
スパース性: 強 スパース性: 弱
総合的な性能
• ハイブリッド音源分離手法である超解像に基
づく教師あり NMF において -divergenceを
用いた更新式を導出
• 超解像処理を含む音源分離 NMF では
EUC-distance が最適な距離規範であること
を示した
• バイノーラル信号に対する分離精度の確認
• 方位クラスタリング以外の方位分解手法を用
いた場合の実験
まとめと今後
47

Study on optimal divergence for superresolution-based supervised nonnegative matrix factorization (in Japanese)

Editor's Notes

  • #3 CDのように,複数の楽器が混合された音楽信号の中から,特定の楽器音を分離して抽出する技術は音楽信号分解と呼ばれます. 例えば下の図のように,ピアノやサックスなどが混ざった音から,サックスのみを取り出すようなタスクです. この技術が実現できれば,ユーザが自分の好みに応じてそれぞれの楽器の音量や定位などを編集するという能動的な音楽鑑賞が可能になる他,音楽信号の自動採譜,音響信号の拡張現実等にも応用できます.
  • #4 この音楽信号分解に用いられる技術の一つとして,NMF,非負値行列因子分解があります. これは非常に単純な分解で,ある行列Yを別の2つの行列FとGの行列積で表現するという手法です. このYとFとGの要素は全て0以上の非負値という制約がかけられています. NMFは分解対象となるデータのスパース性を重視しつつ,重ね合わせ表現を許す分解です. また,分解行列因子FGを求めるための効率的な乗法型の更新式が提案されており,画像処理や信号処理等様々な分野へ応用されています.
  • #5 音響信号にNMFを用いる場合,振幅あるいはパワースペクトログラムを行列Yとみなし,FとGに分解します. この場合,NMFの非負制約に起因する性質から,Fにはスペクトログラムの中で頻繁に出てくるスペクトルのパターンが現れ,Gにはそれぞれのスペクトルパターンがアクティブになるタイミングと音量を示すものが現れます. 今この図で示している例では,この部分の成分に対してはこのパーツ,この部分の成分に対してこのパーツがFに現れ,それらの発生するタイミングと音量がGに現れています.
  • #6 この二つの行列を「スペクトル基底行列」と「アクティベーション行列」と呼びます
  • #7 NMFでは,分解行列因子であるFとGという二つの変数を最適化するための目的関数が,入力行列と構成した分解行列の距離として与えられる 即ち,この距離が最も最小になるようにFとGが構成される この距離関数は,NMFの対象となるデータや分解する目的などに応じて様々なものが使い分けられる 例えば,音源分離には一般化KLダイバージェンス,自動採譜には板倉斉藤擬距離等が良く用いられている
  • #8 より一般化された距離関数としてbeta-ダイバージェンスが提案されている これはこの式で表され β=2の時にユークリッド距離, β=1の時に一般化KLダイバージェンス, β=0の時に板倉-斉藤擬距離とそれぞれ等価になる すなわち,Βの値が小さくなるほど,分解行列因子のスパース性が重視された距離尺度になる
  • #9 このbeta-divergenceを実際にプロットしたグラフです. 左から板倉斉藤,KLダイバージェンス,ユークリッド距離になります.それぞれβが0,1,2の時に対応します. 板倉斉藤とKLでは,y-xが正になったとき,つまり入力変数xがデータを上回った時に大きな距離値をとります. 逆に,変数xがyを下回った時はあまり大きな距離にはなりません.
  • #10 この性質は即ち,スペクトルのピークや,スパース性を重視したような距離尺度になります. beta=2のユークリッド距離では対称性のある距離になります.
  • #11 さらにbetaを3,4,100と大きくした場合は入力変数xとデータyを入れ替えたように逆の性質になります.
  • #12 このbetaダイバージェンス規範のNMFとして,全てのbetaにおいて収束性が保障された更新式も,以下のように導出されています.
  • #13 NMFを用いた教師ありの信号分離手法として,罰則条件付き教師ありNMFが提案されました. この手法は分離目的の楽器の教師音を用いる手法で,学習プロセスと分離プロセスからなります. 学習プロセスでは,目的の楽器の教師音対してNMFを行い,教師スペクトル基底Fを作ります. そして,分離プロセスでは,学習した教師基底を用いて固定し,そのアクティベーションGとその他の成分が入るHUを求めます. この時,Hに教師Fと同じスペクトルパターンが現れないように,なるべく無相関となる罰則条件が与えられています.
  • #14 教師基底FとそのアクティベーションGのみで再構成されたFGのスペクトログラムが分離結果になります.
  • #15 しかし,PSNMFは,混合された音源数が多くなると,分離精度が低下してしまうという問題点があります. これは,様々な楽器の間でよく似たスペクトルが現れることや,学習基底の重ね合わせにより別の楽器のスペクトルを表現できてしまうこと等に起因しています.
  • #16 また,別の音源分離手法として,マルチチャネル信号を対象とした方位に関する分解手法が提案されています. これはステレオの場合,右と左の振幅差及び位相差といった定位情報を用いてハードクラスタリングを行う手法です.
  • #17 このような方位クラスタリングはスペクトログラムドメインでの完全スパース性を仮定しています. すなわち,1つのグリッドには一つの成分しか入っていないという仮定です. 方位クラスタリングでは,スペクトログラムの各グリッドが特定の方位クラスタに属するか否かを示すバイナリマスクが方位クラスタリングによって得られます.
  • #18 しかし,実際の音楽信号では,この完全スパース性は成り立たないため,スペクトログラムの欠落によって,このように人工的な歪みが生じてしまいます. また本質的な問題として,方位情報を用いて分解を行うので同一方位にある音源の分解はできません.
  • #19 さらにマルチチャネル信号分解の別の手法として,マルチチャネルNMFが提案されています. これはNMFをベースとしてチャネル間の位相情報も利用して分解する手法です. 方位と調波構造を統一してモデル化し,1つのコスト関数で最適化しようとしますが,1つのコスト関数で多くの変数を最適化しようとするため,非常に困難な推定問題となります. そのため,初期値依存性が極端に強く,頑健に動作させることが難しいという問題があります.
  • #20 従来手法のまとめです. PSNMFはモノラル信号を対象とした教師あり分解手法ですが,この手法では混合楽器数が増加すると分離精度が低下してしまう問題があります. また方位情報を用いて分解する方位クラスタリングは,マルチチャネル信号を対象とした教師無し分解手法ですが,人工的な歪みが発生してしまうこと,同一方位の音源は分解できないこと等の問題があります. マルチチャネルNMFはマルチチャネル信号を対象としていますが,初期値依存性が強く頑健性に欠けるといった問題があります.
  • #21 このような問題を解決するために,方位クラスタリングと教師ありNMFを組み合わせた手法を提案します. この手法は,マルチチャネル信号を対象とし,高精度かつ頑健に動作する教師あり信号分解手法です. 前段に方位クラスタリングを行い,目的楽器があるクラスタに対して教師ありNMFを適用させてさらに音源を分解します. したがって,方位分解と調波構造による音源分離のそれぞれに対して確実に動く適切な手法を用いる分割統治法といえます.
  • #22 このとき,後段では新たに提案された超解像に基づく教師ありNMFを適用します. 前段の方位クラスタリングのバイナリマスクによってスペクトログラムには欠落が生じ,解像度が低下します. このまま通常のPSNMFを後段に接続すると,NMFはこの欠落成分を表現しようとしてしまうため,歪みが残ってしまいます.
  • #23 そこで,後段には超解像に基づく教師ありNMFを適用します. これは欠落を観測できなかった成分として NMF の誤差関数から省くことで,それぞれのフレームにおいて観測可能な成分のみを考慮し,表現できる教師基底を選択してフィッティングさせる手法です. このとき,欠落した成分は選ばれた教師基底によって外挿されて復元するため,低下したスペクトログラムの解像度を復元する超解像手法と言えます.
  • #24 このハイブリッド手法の処理の流れはこのようになります. 今,入力信号が方位に関して目的音成分とその他の成分がこのように分布していたとき,
  • #25 方位クラスタリングは境界を定めて目的方位成分以外を切り落とします. このとき,他の方位の成分が若干紛れ込んでくること,同一方位の成分はのこること,目的成分がいくらか欠落してしまうことが起こります.
  • #26 そして,方位クラスタリングの各チャネルの出力に対して
  • #27 超解像に基づく教師ありNMFを行い,目的成分を教師によって外挿しつつ分解します.
  • #28 この超解像処理には正則化が必要になります. これは,あるフレームにおいて観測可能な成分が極端に少ない場合,すなわちほとんどが欠落していた場合,いかなる教師基底でもマッチングできてしまう問題があるためです. この場合,このように明らかに間違った教師基底が選択されてスペクトルが外挿される可能性があります. これを防ぐために何らかの正則化が必要です.
  • #29 この手法ではノルム最小化による正則化を行います. 今,「穴が極端に多いフレームには本来目的音成分が存在していなかった」という事前仮定を導入し,それぞれのフレームにおいて,穴の数が多いほどノルムが小さくなる,すなわち出力音が小さくなる教師基底を選択してフィッティングします.
  • #30 この超解像に基づく教師ありNMFのコスト関数はこのようになります. NMFの誤差関数に対して方位クラスタリングのインデックスをかけることで,欠落成分の誤差を省いています. また,それぞれのフレームにおいて穴の数に比例して目的成分のノルムが小さくなるような罰則条件が与えられています.
  • #31 本報告では,この距離関数にbeta-divergenceを用いた場合の更新式を導出し,超解像に基づく教師ありNMFにおいて最適な距離規範の検討を行います.
  • #32 更新式導出は,補助関数法を用います. これは,コスト関数を直接最小化するのが難しい為,コスト関数の上限を与える補助関数を定義して間接的に最小化する手法です. 先ほどのコスト関数をbetaダイバージェンスで書きなおすと,このようになります. Iωtはバイナリマスクのインデックスの要素であり,1か0の値です.
  • #33 このコスト関数の第一項は定数になります. また,第二項,第三項,第四項はbetaの値に応じて凸関数か凹関数になります. それぞれの項はbetaの値に応じて以下の表のようになります.
  • #34 これらの項の上限関数は,以下の不等式を用いて設計できます. まず凸関数に対してははイェンゼンの不等式を用いて上限を与え,凹関数に対しては接線不等式を用いて上限を与えることができます.
  • #35 このようにして補助関数を設計し,各変数で偏微分すると,更新式を得ることができます. 超解像に基づく教師ありNMFのBetaダイバージェンスでの更新式はこのようになります.
  • #36 超解像に基づく教師ありNMFの最適な距離規範を求める為,分離実験を行いました. 分離精度の比較としてPSNMF単体の実験も行いました. 入力信号はMIDIで作成した4楽器の等パワー混合信号であり,教師音は同じMIDIの音階24音を用いました. また方位クラスタリングの分解数を3とし,NMFの基底数と更新回数はこのように設定しました. 各罰則項の重み係数は実験的に求め,距離規範はbetaの値を0から4まで1刻みに変化させました. 最後に,分離精度の評価値にはSDR, SIR, SARを用いました. SDRは分離した目的音の品質,SIRは目的音と非目的音の分離度合,SARは一連の処理によって生じる歪みの少なさを示しており,いずれも値が高いほうが良い分離であったことを示しています.
  • #37 入力信号についてですが,各楽器のメロディはこのように設定しました. 左右の音源の角度は15°と40°の2種類を作成しました. 目的音源は常に1番に配置し,計12パターンの信号の評価値の平均を取りました. 尚,PSNMFを適用する場合はモノラルにミックスダウンした信号を用いました.
  • #38 最後に比較手法についてですが,PSNMFはモノラル信号を対象とする処理ですので,入力前にモノラルへとミックスダウンしてから処理を行います. 超解像に基づくハイブリッド手法では,前段に方位クラスタリングをしてから各チャネルに教師ありNMFをかけ,最後にミキシングをして抽出信号とします.
  • #39 こちらは40°のときの結果のグラフです. 左からSDR, SIR, SARを示しています.
  • #40 従来の PSNMF では,KL-divergenceが最も良い分離精度を示しています. これは,従来のNMFを用いた音源分離の研究から経験的に知られていた事実と一致します.
  • #41 しかし,超解像に基づく教師ありNMFでは,EUC距離の時に最もいい分離精度となり,通常の音源分離とは異なる結果になりました.
  • #42 15°のデータについても同様の結果となりました.
  • #43 まとめますと,通常のNMF音源分離では,KLが良いとされており,今回のPSNMFの結果もKLが最も良い結果となりました. しかし,超解像に基づく教師ありNMFではEUC距離が最も良い結果となりました.
  • #44 この原因についてですが,betaが0に近くなるほど,事前学習時に教師基底はピークとスパース性を重視した基底が作成されます. さらに,アクティベーションもよりスパースになろうとするため,スペクトログラムの局所的な特徴を良く捉えた基底が作成される傾向になります.
  • #45 逆にbetaの値が大きくなると,教師基底はそれほどスパースにならず,少し滑らかになり,より大局的な特徴を捉えた教師基底が学習される傾向になります.
  • #46 超解像に基づく教師ありNMFでは,見えている成分のみで教師基底のフィッティングを行わなければなりません. この時,スパースで局所的な特徴を捉えた教師基底は外挿しにくいという問題が生じます. 逆に,少し滑らかで大局的な表現が可能な教師基底は外挿しやすくなります.
  • #47 すなわち,分離精度はbetaの値が1の近くにピークを持ちますが,betaの値が小さくなると外挿能力が落ちてしまうため,超解像に基づく教師ありNMFではbetaの値が2のあたりに性能のピークがあったということです.
  • #58 この評価尺度について簡単に説明する 分離した推定信号が,目的音成分,非目的音成分,それ以外の成分の3つで表現できると仮定すると SDR,SIR,SARはそれぞれこのように表される SDRは分離した目的音の品質,SIRは分離度合,SARは一連の処理によって生じた歪みの少なさを表し, どの値も高いほうが良い分離となる
  • #59 分離精度が極端に低下するという問題
  • #60 しかし,同じ種類の楽器であっても音色は楽器の個体差や演奏者などに強く依存するため, 事前に入手可能な教師音を,分離対象音に適応させる新たな分解手法が必要となる
  • #63 特定の楽器を分離するためには,その楽器の音のスペクトル基底とアクティベーションのみを 取り出してスペクトログラムを再構成すればよい 例えば,この図のように2本だけを取り出して再構成すれば,このように2音だけの分離音が得られる
  • #64 しかし,これは問題があり,スペクトル基底から目的の楽器音の基底を探す必要がある また,予め用意するスペクトル基底の本数が不適切な場合,基底に複数のスペクトルが混在する等の問題がある