SlideShare a Scribd company logo
Divergence optimization based on trade-off between
separation and extrapolation abilities in
superresolution-based nonnegative matrix factorization
超解像型非負値行列因子分解における分離性能と外挿能力の
トレードオフに基づく最適なダイバージェンスの検討
☆北村大地, 猿渡洋, 中村哲
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
• 音源分離: 複数の音源から成る混合音から特定の音源を分離
• 非負値行列因子分解(nonnegative matrix factorization: NMF)[Lee, 2001]
– スパース分解表現による特徴量抽出手法
• 一般に各音源毎に基底を選別することは困難
• 目的音源の基底を学習する教師ありNMF [Smaragdis, 2010], [Yagi, 2012]
背景: 非負値行列因子分解による音源分離
Amplitude
Amplitude
観測スペクトログラム 基底スペクトル行列
アクティベーション行列
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
Time
Frequency
Frequency
2
本発表における目的
• 頑健なマルチチャネル信号分離手法として,超解像型教師あり
NMF及びそのハイブリッド手法を提案 [Kitamura, 2013]
3
L R
方位に関
する分解
超解像型
教師ありNMF
 超解像型教師ありNMFに関して,コスト関数をパラメトリックに
拡張した一般化アルゴリズムを提案する
 「スパース分解表現」と「教師による超解像処理」が統合された
技術において,最適なコスト関数がどのようなメカニズムで決
まるかを明らかにする
従来法:教師ありNMFによる音源分離
• 分離したい目的音の教師(サンプル)音を事前に学習
• 学習プロセスで教師スペクトル基底(dictionary) を作成
• 分離プロセスで目的音 と,非目的音 に分離
分離プロセス
教師基底 を固定し,他の変数を最適化
最適化
学習プロセス
教師音から作成した教師スペクトル基底分離目的音の教師音
4無相関にする罰則条件
提案法:超解像型NMF及びハイブリッド手法
• 方位クラスタリング [Araki, 2007], [Miyabe, 2009]
– ステレオ信号による方位情報のクラスタリングを用いた分解手法
• ハイブリッド手法 [Kitamura, 2013]
L-champlitude
R-ch amplitude
:音源成分
:重心ベクトルRight cluster
L R
Center cluster
Left cluster
L R
方位クラス
タリング
方位情報を用いた分解 スペクトル情報を用いた分解
5
超解像型
教師ありNMF
• 前段: 方位クラスタリング
– スペクトログラム上でのハードクラスタリング
• 後段: 超解像型教師ありNMF [Kitamura, 2013]
– 前段処理によって生成されるバイナリマスク を用いる
– 欠落したグリッドを無視し,残った成分だけに教師ありNMFを適用
– 欠落した目的音源成分は教師スペクトルによって外挿され復元
– 同一方位に存在する非目的音源成分を分離
提案法:超解像型NMF及びハイブリッド手法
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
TimeFrequency Time
Frequency
: 欠落
Time 要素毎の積
Frequency
入力スペクトログラム バイナリマスク 分離された目的クラスタ
目的
方位成分
非目的
方位成分
6
提案法:超解像型NMF及びハイブリッド手法
Center RightLeft
Direction
sourcecomponent
z
(b)
Center RightLeft
Direction
sourcecomponent
(a)
目的音源
Center RightLeft
Direction
sourcecomponent
(c)
外挿された
目的音源成分FrequencyofFrequencyofFrequencyof
After
Input
After
signal
directional
clustering
super-
resolution-
based SNMF
方位クラス
タリング
超解像型
教師ありNMF
バイナリ
マスク
7
Time
Frequency入力スペクトログラム
目的
方位成分
非目的
方位成分
Time
Time
Frequency
外挿して復元
Frequency
: 欠落
分離された目的クラスタ
復元された目的成分
教師スペクトル
基底
教師基底外挿における正則化
• 欠落が極端に多いフレームでは外挿誤りを起こす危険がある
• 超解像処理としての正則化が必要
8
4
3
2
1
0
Frequency[kHz]
43210
Time [s]
外挿誤りの例
Frequency
: 欠落
目的成分がほぼ欠落したフレーム
分離された目的クラスタ
: それぞれ行列 の要素, : 論理反転,
フロベニウスノルム最小化による正則化
Time
: フロベニウスノルム
• 従来は「ユークリッド距離」と「一般化KLダイバージェンス」規準
のみが検討されていた
分解モデルとコスト関数
9
分解モデル:
コスト関数(ユークリッド距離規準):
教師スペクトル基底(固定)
正則化項 罰則項
: それぞれ行列 の要素,
: 正則化項と罰則項の重み係数,: 論理反転, : フロベニウスノルム
• : -divergence関数 [Eguchi, 2001]
– パラメータ の値に応じてダイバージェンスが変化
– 特に, の時にユークリッド距離, の時に一般化KLダイバー
ジェンス, の時に板倉-斎藤擬距離に対応
– 振幅ドメインのNMFによる
音源分離では,
程度が高精度
コスト関数の一般化
10
一般化コスト関数:
正則化項
罰則項
• コスト関数 を最小化することで変数 の反復型更新式
が得られる
• 最小化問題は補助関数法を用いて解くことができる
一般化コスト関数に基づく更新式
11
更新式:
• 4つのメロディからなるステレオの混合音源を作成
• 中央に2つ,左右15°に1つずつ音源を配置
• 3種の楽器編成のMIDI信号を用意,計36パターンの平均評価値
最適距離規範の確認実験 実験条件
12
Center
1
2 3
4
Left Right
目的音源
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
Dataset Melody 1 Melody 2 Midrange Bass
No. 1 Oboe Flute Piano Trombone
No. 2 Trumpet Violin Harpsichord Fagotto
No. 3 Horn Clarinet Piano Cello
• その他の実験条件
• NMFコストのダイバージェンス と正則化コストのダ
イバージェンス のすべての組み合わせ(16通り)で
実験を行い,最適な を検討
– は教師基底学習時と超解像時で常に統一
• 評価値はSDR, SIR, SARを用いる [Vincent, 2006]
最適距離規範の確認実験 実験条件
観測信号 3種のデータセット,合計36パターンのステレオMIDI信号
教師信号
目的音源と同じMIDI信号で音域をカバーする2オクターブ
の24音階からなる信号
分解ドメイン 振幅スペクトログラム
基底数 教師基底: 100, その他の基底: 30
重み係数 実験的に調整して定めた値
比較手法
モノラルにミックスダウンした信号に罰則条件付き教師あり
NMF (PSNMF)を適用
13
SDR :分離した目的音の品質
SIR :目的音と非目的音の分離度合
SAR :一連の処理で生じた歪みの少なさ
総合的な分離精度
• 各手法における評価値の平均を算出
• 従来の教師ありNMFでは が最適だったが,超解像型教
師ありNMF及びそのハイブリッド手法では が最適
– 最適なダイバージェンスがシフトしている
• 正則化コストのダイバージェンスは が極端に性能が悪く,
他の値はほとんど差が無い
最適距離規範の確認実験 実験結果
14
20
15
10
5
0
SIR[dB]
0 1 2 3
Value of NMF
10
8
6
4
2
0
SAR[dB]
0 1 2 3
Value of NMF
12
10
8
6
4
2
0
SDR[dB]
0 1 2 3
Value of NMF
0
PSNMF
Proposed hybrid method (reg =0) Proposed hybrid method (reg =1)
Proposed hybrid method (reg =2) Proposed hybrid method (reg =3)
Good
Bad
15
• 超解像型教師ありNMFには2つのタスクがある
• 仮説: 音源分離と基底外挿のそれぞれのタスクにおいて最適な
NMFコストのダイバージェンス が異なるのではないか?
• 正味の外挿能力を測る実験
– 正則化コストの は最適値であった1に固定して実験
最適ダイバージェンスシフトの原因の仮説
目的音源のみの信号 成分が欠落した信号 復元された信号
バイナリ
マスク
超解像
NMF
音源の分離 教師基底を用いた外挿
超解像型
教師ありNMF
16
• 正則化コストのダイバージェンス は最適値の1に固定
• NMFコストのダイバージェンス は1よりも少し高い方が,外
挿能力が高くなる
• ダイバージェンス が0に近づくと,学習された教師基底がスパー
スになる傾向がある
外挿能力の確認実験結果
20
15
10
5
0
SAR[dB]
0 1 2 3 4
Value of NMF
Good
Bad
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
ダイバージェンスの違いによる基底の変化
• 事前学習時において の値が小さいと,教師基底はピークと
スパース性が重視され,より局所的な特徴を捉える
• 逆に事前学習において の値が大きいと,教師基底は少し滑
らかになり,より大局的な特徴を捉える
17
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz] Attack Sustain Release
Amplitude
Time
Decay
Attack
Decay
Sustain Release
Amplitude
Time
最適ダイバージェンスのトレードオフ
• 超解像型教師ありNMF及びそのハイブリッド手法における最適な
ダイバージェンスは音源分離能力と外挿能力のトレードオフとなる
– 振幅スペクトログラムにおける従来の教師ありNMF分離では が
高性能であったが,ハイブリッド手法では が高い性能となる
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
-10
-8
-6
-4
-2
0
Amplitude[dB]
543210
Frequency [kHz]
スパース性: 強 スパース性: 弱
18
Performance
分離能力
総合性能
外挿能力
Value of
まとめ
• 超解像型教師ありNMFのコスト関数において,NMFコス
トと正則化コストを -divergenceで一般化
• 超解像型教師ありNMF及びそのハイブリッド手法におけ
る最適なダイバージェンスを実験的に確認
• 音源分離能力と教師基底外挿能力のトレードオフから,
最適なダイバージェンスがシフトする現象を確認
19

More Related Content

What's hot

Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
SaruwatariLabUTokyo
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1kame_hirokazu
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
 
Ea2015 7for ss
Ea2015 7for ssEa2015 7for ss
Ea2015 7for ss
SaruwatariLabUTokyo
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
Kitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
Yuki Saito
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
 

What's hot (19)

Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
 
Kameoka2012 talk07 1
Kameoka2012 talk07 1Kameoka2012 talk07 1
Kameoka2012 talk07 1
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Ea2015 7for ss
Ea2015 7for ssEa2015 7for ss
Ea2015 7for ss
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 

Viewers also liked

Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...
Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
Daichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
Daichi Kitamura
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
Daichi Kitamura
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
 
niconico cho kaizo
niconico cho kaizoniconico cho kaizo
niconico cho kaizo
Keisuke Ogaki
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Daichi Kitamura
 
2014/02/23 CV勉強会発表資料 nksm_r
2014/02/23 CV勉強会発表資料 nksm_r2014/02/23 CV勉強会発表資料 nksm_r
2014/02/23 CV勉強会発表資料 nksm_rnakari1124
 
コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎Norishige Fukushima
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
Shunsuke Ono
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
Fujimoto Keisuke
 
冗長変換とその画像復元応用
冗長変換とその画像復元応用冗長変換とその画像復元応用
冗長変換とその画像復元応用
Shogo Muramatsu
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26Takashi Abe
 

Viewers also liked (16)

Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...Regularized superresolution-based binaural signal separation with nonnegative...
Regularized superresolution-based binaural signal separation with nonnegative...
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
niconico cho kaizo
niconico cho kaizoniconico cho kaizo
niconico cho kaizo
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
2014/02/23 CV勉強会発表資料 nksm_r
2014/02/23 CV勉強会発表資料 nksm_r2014/02/23 CV勉強会発表資料 nksm_r
2014/02/23 CV勉強会発表資料 nksm_r
 
コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎コンピュテーショナルフォトグラフティの基礎
コンピュテーショナルフォトグラフティの基礎
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
 
L0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noiseL0TV: a new method for image restoration in the presence of impulse noise
L0TV: a new method for image restoration in the presence of impulse noise
 
冗長変換とその画像復元応用
冗長変換とその画像復元応用冗長変換とその画像復元応用
冗長変換とその画像復元応用
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
 

More from Daichi Kitamura

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
Daichi Kitamura
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Daichi Kitamura
 

More from Daichi Kitamura (10)

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 

Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

Editor's Notes

  1. 始めに,研究の背景について説明します. 音源分離技術とは,複数の音源から成る混合音から特定の音源を分離する信号処理です. 近年特に,非負値行列因子分解,通称NMFを用いた手法が盛んに研究されています. これは,スパース分解表現による特徴量抽出手法です. NMFは,このY=FGの式のように,非負値の成分からなる観測行列Yを,別の二つの非負値行列FとGの行列積に近似して分解表現する手法です. 観測スペクトログラムYを分解したとき,始めの行列の列ベクトルにはスペクトログラム中に頻出するスペクトルパターンが基底として出現し,後ろの行列にはそれぞれのパーツの時間的なゲイン変化が行ベクトルに現れます. 手前の行列を基底行列,後ろの行列をアクティベーション行列と呼びます. したがって,どのスペクトル基底がどの音源に対応しているのかが分かれば,音源の分離ができますが,特定の音源毎に基底を選別することは非常に困難です. そこで,事前に分離したい目的音源の教師情報を用いる教師ありNMFが提案されています.
  2. 次に本発表における目的について説明します. 我々はこれまでに,より頑健なマルチチャネル信号分離手法として,超解像型教師ありNMFとそれを用いたハイブリッド手法を提案してきました. これは,マルチチャネルの信号を方位に関して分解し,その後にさらに超解像型教師ありNMFを適用する手法です. 本発表においては,マルチチャネル信号を対象とした教師あり分解手法という枠組みで,この超解像型教師ありNMFに関して,コスト関数をパラメトリックに拡張した一般化ルゴリズムを提案します. そして,「スパース分解表現」と「教師による超解像処理」が統合された技術において,最適なダイバージェンスがどのようなメカニズムで決まるかを明らかにしていきます,
  3. まず教師ありNMFについて説明します. 教師ありNMFでは分離したい目的音の教師音,サンプル音を事前に学習します. 例えば,この混合音からピアノを分解したいとき,ピアノの各音階などが含まれる教師音をNMFで分解し,ピアノの教師スペクトル基底Fを作ります. そして,作成した教師基底Fを用いて,分離プロセスで混合音源をFG+HUのように分解します. 結果,FGにはピアノの音源が得られ,それ以外の音源はHUに現れます.また,PSNMFにおいては教師基底とその他の基底を無相関にする罰則条件がかけられています.
  4. この教師ありNMFをマルチチャネル信号にも適用できるように,方位クラスタリングを組み合わせたハイブリッド手法を提案してきました. 方位クラスタリングとは,チャネル間の振幅差等の情報を用いてクラスタリングする手法であり,音源を方位毎に分解することができますが,このように同一方位に存在する音源同士は分離できません. ハイブリッド手法では,先に方位に関して分解し,さらに分解しきれなかった成分を「超解像型教師ありNMF」で分解します.
  5. この超解像型教師ありNMFとは,一度失われた目的成分を教師基底から復元する教師ありNMFです. 前段の方位クラスタリングはこの図のようにスペクトログラム上でのバイナリマスキングに相当します. つまり,クラスタリングによってスペクトログラムの各グリッドに目的方位の音が存在するか否かを表現したマスクを作成し,これを掛け算して分解しているにすぎません. この結果,クラスタリングエラーが起きた箇所ではこのように目的の成分の欠落が生じ,人工的な歪みが生じてしまいます. 後段の超解像型教師ありNMFは,このバイナリマスクを用いて欠落したグリッドを無視し,見えているところだけを使って教師ありNMFを適用します. 見えている成分だけで,よくフィットする教師基底をあてがいますので,欠落した穴は外挿されて復元されます.
  6. この図は方位方向に対する音源成分の分布を表しています. 入力のステレオ信号のおいて白色の目的音源の成分と,他の非目的音源成分がこのように分布していた場合, 方位クラスタリングは境界を定めて目的方位以外を切り落とします. この時,目的成分が若干欠けてしまい,この欠けた成分がスペクトログラム上での欠落に対応します. また,同じ方位に存在する成分は残っています. さらに超解像型教師ありNMFを適用すると,教師スペクトル基底を外挿して解像度を復元しながら非目的音源成分を分離することができます.
  7. また,この基底外挿処理は,このフレームのように,欠落が極端に多いフレームではどのような教師基底でも外挿できてしまうため,外挿誤りを起こす危険があります. これを防ぐために,欠落が多いフレームは分離結果のスペクトログラムFGのフロベニウスノルムを小さくするという正則化が与えられています.
  8. 分解モデルはY=FG+HUです. コスト関数では,バイナリマスク i を用いて,欠落グリッド以外のところで距離が定義されています. また,欠落グリッドに対しては正則化項が与えられます. 従来のこの手法では,ダイバージェンス関数はユークリッド距離とKLダイバージェンスのみ導出していましたが,本報告では,メインコストのダイバージェンスと正則化項を一般化し,超解像型教師ありNMFにおける最適なダイバージェンスについて考察します.
  9. こちらが一般化したコスト関数になります. メインコストと正則化項にそれぞれβ-divergenceを導入しています. ここでβ-divergence関数とは,この式で表され,パラメータβに応じてダイバージェンスが変化する関数です. β=2の時にユークリッド距離,1の時にKLダイバージェンス,0の時に板倉斎藤擬距離に対応します. 一般的に,振幅ドメインのNMFによる音源分離では,β=1程度が高性能だと知られています. 本手法の一般化では,NMFのメインコストと正則化コストのβをそれぞれβNMFとβregとし,最適な値を見つけます.
  10. 先程のコスト関数Jを最小化することで変数G,H,Uの反復型更新式が得られます. この最小化問題は補助関数法を用いて解くことができます. 詳細は省きますが,更新式はこのようになります.
  11. 最適なβを見つける為に,評価実験を行いました. この楽譜のような4つのメロディからなるステレオの混合音源を作成し,各音源を中央に2つ,左右15°に一つずつ配置しました. 分離目的音源は常に真ん中に配置しています. そして,この表のように3種類の楽器編成のMIDI信号を用意し,合計36パターンの平均評価値を求めました. また教師音源は,この楽譜のように,目的音源の音域をカバーする2オクターブの24音から成る同じMIDIの信号を用いました.
  12. その他の実験条件はこのようになっています. 比較手法としてモノラルにミックスダウンして従来手法のPSNMFを適用した結果とも比較しました. また,NMFコストのダイバージェンスβNMFと正則化コストのダイバージェンスβregをそれぞれ0,1,2,3と変化させた時のすべての組み合わせの評価値を比較します. 評価値はSDR,SIR,SARの三つを用いました. SDRは分離した目的音の品質,SIRは分離度合,SARは一連の信号処理で生じた歪の少なさを表し,SDRがSIRとSARを含む総合的な分離精度となります.
  13. これは実験結果のグラフです. グラフは左からSDR, SIR, SARの結果を示しています. それぞれ横軸がNMFコストのβNMFであり,棒の色の違いは左端がPSNMF, 右4本はβregの違いを示しています. 最も良かった結果はNMFコストがβ=2,正則化コストがβ=1のときでした. 従来のPSNMFでは一般的に知られている通り,β=1で最高性能となりましたが,ハイブリッド手法ではβ=2最高となります.
  14. このように最適ダイバージェンスが異なる理由についてですが,超解像型教師ありNMFは「音源の分離」と「教師基底を用いた外挿」という二つのタスクがあります. そこで,この二つのタスクにおいて最適なダイバージェンスが異なるのではないか,という仮説を立てました. これを実証する為に,正味の外挿能力を測る実験を行いました. これは,目的音源のみが含まれる信号に対して適当なバイナリマスクをかけ,傷ついた信号を超解像し,その信号を評価するという内容になります. 復元された信号のSAR値が正味の外挿能力を示すことになります. この際,正則化のコストであるβregは最適値であった1に固定して実験を行います.
  15. このグラフが実験結果になります.結果から,NMFコストのダイバージェンスは1よりも高いほうが,外挿能力は高いことが確認できます. これは,βが0に近づいたとき,学習された教師基底がスパースになる傾向があります.
  16. これはあくまで傾向として言えるだけですが,βの値が小さいダイバージェンスでNMF分解をすると,教師基底はピークとスパース性が重視され,より局所的な特徴を捉えるようになります. 逆に,βの値が大きいと,教師基底は少し滑らかになり,より大局的な特徴を捉えるようになります.
  17. このようなスパースすぎる教師基底は,「見えている成分だけを使って外挿する」というタスクにおいては不向きであり,このグラフのように外挿能力が落ちてきます. 一方分離能力はβ=1付近がよくなるため,これらのトレードオフで総合性能が決まることが分かります. したがって,今回の超解像ベースの手法においてはβ=2あたりに総合性能が落ち着いたと考えられます.
  18. These results are average of evaluation scores / for 40-degree signals Where, / SDR indicates the quality of the separated target sound, / SIR indicates degree of separation / between the target and other sounds, / and SAR indicates absence of artificial distortion. Therefore, SDR is the total evaluation score that involves SIR and SAR. From these results, proposed hybrid method outperforms other methods.
  19. And, this is result for 15-degree signals. Similar to the results of 40-degree signal, / proposed hybrid method is effective and robust for the multichannel signal separation. We can confirm that directional clustering and multichannel NMF do not have sufficient performance because they cannot discriminate the sources in the same direction. In contrast, the methods using SNMF can give better results and the proposed method with superresolution-based SNMF outperforms all other methods.
  20. NMF is a type of sparse representation algorithm // that decomposes a nonnegative matrix / into two nonnegative matrices like this. Where Y is an observed spectrogram. F is a basis matrix / that involves spectral patterns of the observed signal as column vectors, // and G is an activation matrix / that corresponds to the activation of each spectral pattern.
  21. In proposed method, / we employed a new supervised NMF algorithm / as an alternative to the conventional PSNMF in the hybrid method.
  22. This is an example of spectrum at one frame, which is obtained by directional clustering. There are many spectral chasms. And, this matrix is the index of separated cluster. Where, ones indicate the grids of separated component by directional clustering, and zeros indicate the grids of chasm in the spectrogram. In proposed supervised NMF, / these spectral chasms are treated as unseen observations / using this index matrix, like this. Therefore, / supervised NMF is applied to only the observed valid components / not unseen observations like these chasms. (The directional clustering is hard clustering, binary masking. And the index matrix of directional clustering is obtained from the separated results. So, we can know where is the chasms. The ones mean observations, and zeros mean unseen observations.)
  23. In addition, the components of the target sound lost after directional clustering / can be extrapolated using supervised bases. In other words, / the resolution of the target spectrogram / is recovered with the superresolution / by the supervised basis extrapolation.
  24. (pointing (a)) This is a directional source distribution of observed stereo signal. The target source is in the center direction, / and other sources are distributed like this.
  25. Directional clustering is a binary masking in the time-frequency domain. So, / the boundary lines are determined by the k-means clustering like this, and separated cluster is obtained. Where, / left and right source components / leak in the center cluster, // and center sources lose some of their components. These lost components / correspond to the spectral chasms in the time-frequency domain. In addition, the interference source in the same direction remains.
  26. Then, after the directional clustering,
  27. the superresolution-based NMF is applied. This NMF separates the target source / and reconstructs lost components with basis extrapolation using supervised bases.
  28. This is conclusions of my talk. Thank you for your attention.
  29. SDR is the total evaluation score as the performance of separation.
  30. しかし,従来の教師ありNMFには,混合された音源の数が多くなると分離精度が低下してしまうという問題があります. これは,異なる音源の間で目的音と類似したスペクトルが現れることに起因しています. そこで,音楽信号はほとんどがステレオの2チャネル信号であるため,そのようなチャネル間の特徴を利用した分解と教師ありNMF分解を有機的に組み合わせたハイブリッド手法を提案しました. この提案手法は修士論文の内容となる予定です.
  31. Next, // we explain directional clustering method. Directional clustering can estimates sources and their direction in multichannel signal. This method can separate sources with spatial information in an observed signal. However, this method cannot separate sources in the same direction, like this.
  32. As another means of addressing multichannel signal separation, Multichannel NMF also has been proposed by Ozerov and Sawada. This method is a natural extension of NMF, and uses spectral and spatial cues. But, this unified method is very difficult optimization problem mathematically / because many variables should be optimized by one cost function. So, this method strongly depends on the initial values.
  33. This is an example of spectrum at one frame, which is obtained by directional clustering. There are many spectral chasms. And, this matrix is the index of separated cluster. Where, ones indicate the grids of separated component by directional clustering, and zeros indicate the grids of chasm in the spectrogram. In proposed supervised NMF, / these spectral chasms are treated as unseen observations / using this index matrix, like this. Therefore, / supervised NMF is applied to only the observed valid components / not unseen observations like these chasms. (The directional clustering is hard clustering, binary masking. And the index matrix of directional clustering is obtained from the separated results. So, we can know where is the chasms. The ones mean observations, and zeros mean unseen observations.)
  34. 始めに,研究の背景について説明します. 一般に音源分離技術とは,複数の音源が混合された信号を,個々の音源に分離する信号処理です. 音楽信号に対して分離を行えば,混合信号中の特定の楽器音のみの音色や音量を変えたり,ユーザが音楽をリミックスするといった能動的な音楽鑑賞が可能になります. この音源分離は,スペクトログラム上で音源毎に分離することで実現できます. このスペクトログラムは,別の音程の2つの音が生じたスペクトログラムです. これを,最初の音と2番目の音のように分離することができれば,音源分離が達成されます.