コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用

香川高専電気情報工学科
北村研究室
5年岩瀬佑太
コサイン罰則条件付き半教師あり
非負値行列因子分解と音源分離への応用
Semi-supervised nonnegative matrix factorization
with cosine penalty condition and application to audio
source separation
香川高専電気情報工学科卒業研究発表

研究背景
• 音源分離とは
1
− 混合された観測信号から個々の音源の信号を抽出・分離する技術
− 音声認識や自動採譜といったものに利用されている
− オーケストラで後から特定の楽器のメロディーのみを抽出することが可能
− 音源分離の手法の一つに非負値行列因子分解
（nonnegative matrix factorization: NMF）がある
音源分離

短時間フーリエ変換（short-time Fourier transform: STFT）
2
• STFTの概要
時間領域
フーリエ変換長
時間周波数領域
時間波形
…
離散フーリエ変換
シフト長
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
非負振幅スペクトログラム
非負（ゼロ以上）の実数要素の行列
要素毎の絶対値
窓関数

NMF [D. D. Lee, et al., 1999]
• 非負行列𝑿を別の2つの行列と行列の積で低ランク近似する
3
≈
Amplitude
Amplitude
非負の観測行列
(音の時間周波数強度)
基底行列
(音色パーツ)
アクティベーション行列
(音量と音価)
Time
Time
Frequency
Frequency
基底
: 周波数ビン数
: 時間フレーム数
: 基底数
アクティベーション
 ：音源の頻出スペクトルパターン
 ：時間的な強度変化
を含む

NMFのパラメータ推定
4
− 二乗ユークリッド距離のコスト関数
− KLダイバージェンスのコスト関数

半教師ありNMF（Semi-supervised NMF: SNMF） [P. Smaragdis, et al.,2007]
•
5
分離ステージ
学習ステージ
学習ステージで得た目的音
の基底行列
目的音の
基底行列
その他の基底
分離目的音のサンプ
ル音（教師音）
𝒀
𝑿
𝑭
𝑭
𝑸
は固定し , , のみ求める
𝑭
目的音源の基底行列のみをあらかじめ学習

SNMFにおける問題点
6
分離ステージ
学習ステージ
目的音の
基底行列
𝒀
𝑿
𝑭
𝑭
𝑸
• 似たような音はどちらの行列にも入りうる
混入

問題点の改善法
とを直交に近づける直交化罰則項を与える
7
• 直交化罰則条件付きSNMF（Penalized SNMF: PSNMF）
[D. Kitamura, et al., 2014]
直交化罰則項
事前学習した目的音源の基底
重み係数
類似させない

PSNMFの問題点
8
①
① ②
• ①と②を両方ともに小さくするを求める
( は定数)
• ②はを0行列に近づけるだけで小さくなる
①

提案手法：PSNMFの再定式化
• コサイン類似度に基づくPSNMF
⁃ コサイン類似度を罰則条件としてSNMFに付与
9
コサイン類似度
− コサイン類似度の対数和を付与
− コサイン類似度は全スペクトル総当たりで求める
コスト関数：

更新式の導出
• 各変数の更新式
10

実験条件
11
使用する楽器公開データセット（songKitamura）より
オーボエ (Ob.), トランペット (Tp.), ホルン (Hr.), フルート (Fl.),
ヴァイオリン (Vn.), クラリネット (Cl.), ピアノ (Pf.),
チェロ (Vc.),ハープシコード (Hp.), トロンボーン (Tb.),
ファゴット (Fg.)
楽器の組み合わせ
数
2楽器の混合信号を90個
2オクターブの上昇音階
Ob. or Tp. or Hr.
Fl. or Cl. or Vn.
Pf. or Hp.
Fg. or Tb. or Vc.
メロディーパート

実験結果
12
• 従来手法との比較
− Fg. と Hp. の混合音
− Tb. と Pf.の混合音
0
1
2
3
4
5
6
7
8
0.001 0.01 0.1 1 10 100 1000 10000
SDR
[dB]
重み係数
従来手法
提案手法
3
4
5
6
7
8
9
0.001 0.01 0.1 1 10 100 1000 10000
SDR
[dB]
重み係数
従来手法
提案手法

実験結果
13
− Fl. と Hp. の混合音
手法
平均値
[dB]
中央値
[dB]
SNMF (μ=0) 6.09 5.73
直交化に基づく
PSNMF
8.51 7.91
コサイン類似度に
基づくPSNMF
8.73 8.22
0
0.5
1
1.5
2
2.5
3
3.5
4
0.001 0.01 0.1 1 10 100 100010000
SDR
[dB]
重み係数
従来手法
提案手法

まとめ・今後の課題
• まとめ
• 課題
14
– 従来手法より高い分離精度が達成できた
– 重み係数の最適値がピーキー
– 多くの混合音で重み係数の値が1～50の範囲で最大値をとる
– 提案手法を実用的にするためには，楽器ごとに
SDR値が最大となる重み係数の傾向を掴む必要がある

コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Kitamura Laboratory

More from Kitamura Laboratory (20)

Recently uploaded

Recently uploaded (20)

コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用

Editor's Notes