香川高専 電気情報工学科
北村研究室
5年 岩瀬 佑太
コサイン罰則条件付き半教師あり
非負値行列因子分解と音源分離への応用
Semi-supervised nonnegative matrix factorization
with cosine penalty condition and application to audio
source separation
香川高専 電気情報工学科 卒業研究発表
研究背景
• 音源分離とは
1
− 混合された観測信号から個々の音源の信号を抽出・分離する技術
− 音声認識や自動採譜といったものに利用されている
− オーケストラで後から特定の楽器のメロディーのみを抽出することが可能
− 音源分離の手法の一つに非負値行列因子分解
(nonnegative matrix factorization: NMF)がある
音源分離
短時間フーリエ変換(short-time Fourier transform: STFT)
2
• STFTの概要
時間領域
フーリエ変換長
時間周波数領域
時間波形
…
離散フーリエ変換
シフト長
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
非負振幅スペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の絶対値
窓関数
NMF [D. D. Lee, et al., 1999]
• 非負行列𝑿を別の2つの行列 と行列 の積で低ランク近似する
3
≈
Amplitude
Amplitude
非負の観測行列
(音の時間周波数強度)
基底行列
(音色パーツ)
アクティベーション行列
(音量と音価)
Time
Time
Frequency
Frequency
基底
: 周波数ビン数
: 時間フレーム数
: 基底数
アクティベーション
 :音源の頻出スペクトルパターン
 :時間的な強度変化
を含む
NMFのパラメータ推定
4
− 二乗ユークリッド距離のコスト関数
− KLダイバージェンスのコスト関数
半教師ありNMF(Semi-supervised NMF: SNMF) [P. Smaragdis, et al.,2007]
•
5
分離ステージ
学習ステージ
学習ステージで得た目的音
の基底行列
目的音の
基底行列
その他の基底
分離目的音のサンプ
ル音(教師音)
𝒀
𝑿
𝑭
𝑭
𝑸
は固定し , , のみ求める
𝑭
目的音源の基底行列のみをあらかじめ学習
SNMFにおける問題点
6
分離ステージ
学習ステージ
目的音の
基底行列
𝒀
𝑿
𝑭
𝑭
𝑸
• 似たような音はどちらの行列にも入りうる
混入
問題点の改善法
と を直交に近づける直交化罰則項を与える
7
• 直交化罰則条件付きSNMF(Penalized SNMF: PSNMF)
[D. Kitamura, et al., 2014]
直交化罰則項
事前学習した目的音源の基底
重み係数
類似させない
PSNMFの問題点
8
①
① ②
• ①と②を両方ともに小さくする を求める
( は定数)
• ②は を0行列に近づけるだけで小さくなる
①
提案手法:PSNMFの再定式化
• コサイン類似度に基づくPSNMF
⁃ コサイン類似度を罰則条件としてSNMFに付与
9
コサイン類似度
− コサイン類似度の対数和を付与
− コサイン類似度は全スペクトル総当たりで求める
コスト関数:
更新式の導出
• 各変数の更新式
10
実験条件
11
使用する楽器 公開データセット(songKitamura)より
オーボエ (Ob.), トランペット (Tp.), ホルン (Hr.), フルート (Fl.),
ヴァイオリン (Vn.), クラリネット (Cl.), ピアノ (Pf.),
チェロ (Vc.),ハープシコード (Hp.), トロンボーン (Tb.),
ファゴット (Fg.)
楽器の組み合わせ
数
2楽器の混合信号を90個
2オクターブの上昇音階
Ob. or Tp. or Hr.
Fl. or Cl. or Vn.
Pf. or Hp.
Fg. or Tb. or Vc.
メロディーパート
実験結果
12
• 従来手法との比較
− Fg. と Hp. の混合音
− Tb. と Pf.の混合音
0
1
2
3
4
5
6
7
8
0.001 0.01 0.1 1 10 100 1000 10000
SDR
[dB]
重み係数
従来手法
提案手法
3
4
5
6
7
8
9
0.001 0.01 0.1 1 10 100 1000 10000
SDR
[dB]
重み係数
従来手法
提案手法
実験結果
13
− Fl. と Hp. の混合音
手法
平均値
[dB]
中央値
[dB]
SNMF (μ=0) 6.09 5.73
直交化に基づく
PSNMF
8.51 7.91
コサイン類似度に
基づくPSNMF
8.73 8.22
0
0.5
1
1.5
2
2.5
3
3.5
4
0.001 0.01 0.1 1 10 100 100010000
SDR
[dB]
重み係数
従来手法
提案手法
まとめ・今後の課題
• まとめ
• 課題
14
– 従来手法より高い分離精度が達成できた
– 重み係数の最適値がピーキー
– 多くの混合音で重み係数の値が1~50の範囲で最大値をとる
– 提案手法を実用的にするためには,楽器ごとに
SDR値が最大となる重み係数の傾向を掴む必要がある
FAQ
15

コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用

Editor's Notes

  • #2 今からこのような題目で北村研究室の岩瀬佑太が発表をしていきます。
  • #3 まず、音源分離とは、混合された観測信号から個々の音源の信号を抽出・分離する技術であり主に音声認識や自動採譜といったものに利用されています。 さらに、図のような音楽信号であるオーケストラのような複数の楽器が演奏されている状況から特定の楽器のメロディーのみを抽出するといった活用法があります。 本研究ではNMFを用いた手法を議論の対象として発表します。
  • #4 その前に音響信号における基本的な変換を説明します。 短時間フーリエ変換を適用して得られる非負値観測行列を扱うことが一般的です。 時間波形を短いフーリエ変換長に分割し,窓関数を乗ずることで離散フーリエ変換を適用します。この処理を任意の時間ごとに行うことにより,時間と周波数の情報を持つ二次元信号が得られます。