一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
一般化ガウス分布に基づく
非負値行列因子分解を用いた音楽音源分離
Music source separation using generalized-Gaussian-
distribution-based nonnegative matrix factorization
香川高専電気情報工学科 北村研究室
5年 田中 勇気
香川高専電気情報工学科 卒業研究発表会
• 音源分離とは
– 音声・雑音・歌声・楽器音・機械音等の音源を個々に分離する
– 人間の持つカクテルパーティ効果を機械で実現
• 「教師なし音源分離」と「教師あり音源分離」
– 教師なし:事前情報(ヒント)を使わない手法
– 教師あり:何らかの教師情報を活用する手法
研究背景
1
楽譜 各楽器の音色のサンプル 動画
本研究の俯瞰
• 内容:音楽の教師あり音源分離
• 目的1:最新手法(GGD-NMF)の実験的調査
– 一部のパラメータでIS-NMFを上回る
– 最適なパラメータは楽器の種類に依存
• 目的2:音源分離精度の事前予測法の検討
– 混ざっている楽器間の音色の類似度に着目
– 類似度から最適パラメータを予測
2
[Kitamura, 2017]
GGD-NMF
IS-NMF
[Fevotte, 2009]
従来手法
最新手法
音の時間周波数変換
• 短時間フーリエ変換(short-time Fourier transform: STFT)と非負化
– 一次元(時間)の信号を二次元(時間と周波数)の信号に変換
3
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間波形
…
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
非負スペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の
絶対値と𝑝乗 𝑿 .𝑝
X
低ランク構造のモデリング手法
• 非負値行列因子分解(nonnegative matrix factorization: NMF)
– 非負制約付きの任意基底数(𝐾本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られる非負スペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
4
Amplitude Amplitude
混合された観測行列
(非負スペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
W H
D 𝐼 × 𝐽 𝐼 × 𝐾 𝐾 × 𝐽
𝐼
𝐽
𝐼
𝐽
𝐾
𝐾
𝐼
𝐾
𝐽
• 教師ありNMF(supervised NMF)
教師ありNMFによる音源分離
5
𝑫1
𝑾1
𝑯1
𝑫2
𝑾2
𝑯2
arg min
𝑮1,𝑮2
D 𝒀||𝑾1𝑮1 + 𝑾2𝑮2
分離ステージ
𝒀
𝑾1 𝑾2
𝑮1 𝑮2
学習ステージで得られる
各楽器音の音色の辞書
𝑮1, 𝑮2のみ最適化
音色の辞書を学習
Y : 混合音楽
𝑫1 : 音階サンプル1
𝑫2 : 音階サンプル2
学習ステージ
• NMFにおける変数の最適化
– 非負行列𝑫とモデル間𝑾𝑯のダイバージェンスの最小化
– 距離関数は任意
• 例:二乗ユークリッド距離
• 非負行列𝑫またはその背後にある複素行列𝑿の
生成モデルを仮定した最尤推定と等価
• 例:二乗ユークリッド距離
NMFのパラメータ推定
6
min
𝑾,𝑯
D 𝑫||𝑾𝑯 s. t. 𝑤𝑖𝑘, ℎ𝑘𝑗 ≥ 0 ∀𝑖, 𝑗, 𝑘
𝜇𝑖𝑗 =
𝑘
𝑤𝑖𝑘ℎ𝑘𝑗
min
𝑾, 𝑯
𝑫 − 𝑾𝑯 Fr
2
0
0.5
-1 8
𝜇𝑖𝑗
𝑁 𝜇𝑖𝑗, 𝜎2
𝑑𝑖𝑗
𝑑𝑖𝑗が𝑁 𝜇𝑖𝑗, 𝜎2 から生成されると仮定
最尤となる平均値𝜇𝑖𝑗(= 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗)を推定
• 最新の手法(GGD-NMF)で使われるダイバージェンス
– 上式の最小化は下記の生成モデルの最尤推定と等価
• 複素一般化ガウス分布(generalized Gaussian distribution: GGD)
GGD-NMFの生成モデル
7
𝑝 𝑿 =
𝑖,𝑗
𝑝 𝑥𝑖𝑗 =
𝜌
1−
2
𝜌
2
1−
2
𝜌𝜋 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗
2
𝑝Γ
2
𝜌
exp −
2
𝜌
𝑥𝑖𝑗
𝑘 𝑤𝑖𝑘ℎ𝑘𝑗
1
𝑝
𝜌
𝜌:形状母数
複素GGD
の概形
min
𝑾,𝑯
𝑖=1
𝐼
𝑗=1
𝐽
1
𝜌
𝑑𝑖𝑗
𝑘 𝑤𝑖𝑘ℎ𝑘𝑗
𝜌
− log
𝑑𝑖𝑗
𝑘 𝑤𝑖𝑘ℎ𝑘𝑗
𝜌
− 1
s. t. 𝑤𝑖𝑘, ℎ𝑘𝑗 ≥ 0
∀𝑖, 𝑗, 𝑘
𝜌 = 2
𝜌 = 1 𝜌 = 4
• 実験に用いた音楽「songKitamura」データセット
• その他の実験条件
性能評価実験:条件
8
基底数 30 [本]
反復回数 200 [回]
サンプル周波数 44100 [Hz]
短時間Fourier変換 92.9 [ms] のハミング窓を窓長の1/2でシフト
初期値 0 ~ 1の一様乱数
評価指標 信号対歪み比(SDR)改善量
分離ステージで用いた
混合音の楽譜
学習ステージで用いた
教師音源の楽譜
• クラリネットとホルンの混合音の分離結果
– 𝑝 = 1の時,𝜌の値が3.5 ~ 4.5にかけて精度が高くなっている
– 𝜌の値が5.0以降はどれも精度が低くなっている
実験結果1
9
0
2
4
6
8
10
12
14
16
0.0 1.0 2.0 3.0 4.0 5.0 6.0
SDR改善量
[dB]
形状母数𝜌
p=2.0 p=1.0 p=0.4
Good
Poor
従来手法(IS-NMF)
𝑝 = 𝜌 = 2
0
2
4
6
8
10
0.0 1.0 2.0 3.0 4.0 5.0 6.0
SDR改善量
[dB]
形状母数𝜌
p=2.0 p=1.0 p=0.4
• バイオリンとハープシコードの混合音の分離結果
– 𝑝 = 2の時,𝜌の値が0.9 ~ 2.2にかけて精度が高くなっている
– 𝑝 = 1の時,𝜌の値が3.5 ~ 3.9にかけて精度が高くなっている
実験結果1
10
Good
Poor
従来手法(IS-NMF)
𝑝 = 𝜌 = 2
• トランペットとトロンボーンの混合音の分離結果
– 𝑝 = 2の時,𝜌の値が1.2 ~ 2.2にかけて精度が高くなっている
– どの𝑝においても,𝜌の値が0.2 ~ 0.5にかけて精度が高くなって
いる
実験結果1
11
0
1
2
3
4
5
6
0.0 1.0 2.0 3.0 4.0 5.0 6.0
SDR改善量
[dB]
形状母数𝜌
p=2.0 p=1.0 p=0.4
Good
Poor
従来手法(IS-NMF)
𝑝 = 𝜌 = 2
• 性能評価実験より分かったこと
– GGD-NMFの有効性を確認
• ただし音源に依存して最適なパラメータは変わる
– 音色の似た楽器の混合では精度が低くなる
• 既存の手法(IS-NMF)も同様
• 最適パラメータ予測法の検討
– 音源分離において最適なパラメータは不明
• SDR値は混合前の音源がないと算出できない
– 学習ステージを終えた段階で音源分離性能を予測したい
• 「各楽器の音色の類似度」と「音源分離性能」には相関関係がある?
GGD-NMFの最適パラメータ予測法
12
𝒀
𝑾𝟏 𝑾𝟐
𝑮𝟏 𝑮𝟐
類似度
• cos類似度の式
– 𝒂及び𝒃は同じ次元数の任意ベクトル
– 𝒂と𝒃のなす角が求められる
– cos類似度を全基底ベクトル間で測り,総和した値を
「各楽器の音色の類似度」とした
cos類似度の総和
13
Dcos 𝒂||𝒃 =
𝒂 ∙ 𝒃
𝒂 𝒃
𝒂
𝒃
この角度が知りたい
Dcos 𝑾1||𝑾2 =
𝑘1=1
𝐾1
𝑘2=1
𝐾2
Dcos 𝒘1𝑘1
||𝒘2𝑘2
𝑾1
楽器1の
基底行列
𝒘11 𝒘1𝐾1
Dcos 𝑾1||𝑾2 =
𝑾1
T
𝑾2 1
𝑾1 Fr ∙ 𝑾2 Fr
⋯
𝑾2
楽器2の
基底行列
𝒘21 𝒘2𝐾2
⋯
実験結果2
• トランペットとハープシコードの相関関係
14
• 「cos類似度の総和」と「SDR値」の相関係数
– 実験条件は同じ
– 相関係数を平均すると-0.47となった
実験結果2
15
• GGD-NMFはIS-NMFより分離性能が高い
– ただし最適パラメータは音源に強く依存する
• 「cos類似度の総和」と「音源分離性能」には中程度の
負の相関関係がある
• 今後の課題
– 混合されている音源にとって重要な周波数をより考慮するよう
な重みづけcos類似度を用いる手法
– cos類似度以外の音源分離性能とより強い相関関係を持つ基
準の検討
– GGD-NMFの音声信号に対する音源分離への適用
まとめ
16
1 of 17

Recommended

Depth Estimation of Sound Images Using Directional Clustering and Activation... by
Depth Estimation of Sound Images Using  Directional Clustering and Activation...Depth Estimation of Sound Images Using  Directional Clustering and Activation...
Depth Estimation of Sound Images Using Directional Clustering and Activation...奈良先端大 情報科学研究科
3.2K views35 slides
Online Divergence Switching for Superresolution-Based Nonnegative Matrix Fa... by
Online Divergence Switching for  Superresolution-Based  Nonnegative Matrix Fa...Online Divergence Switching for  Superresolution-Based  Nonnegative Matrix Fa...
Online Divergence Switching for Superresolution-Based Nonnegative Matrix Fa...奈良先端大 情報科学研究科
2.5K views33 slides
Ica2016 312 saruwatari by
Ica2016 312 saruwatariIca2016 312 saruwatari
Ica2016 312 saruwatariSaruwatariLabUTokyo
14.2K views18 slides
Hybrid NMF APSIPA2014 invited by
Hybrid NMF APSIPA2014 invitedHybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invitedSaruwatariLabUTokyo
14.1K views31 slides
Saito2017icassp by
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
1.3K views18 slides
Robust Sound Field Reproduction against Listener’s Movement Utilizing Image ... by
Robust Sound Field Reproduction against  Listener’s Movement Utilizing Image ...Robust Sound Field Reproduction against  Listener’s Movement Utilizing Image ...
Robust Sound Field Reproduction against Listener’s Movement Utilizing Image ...奈良先端大 情報科学研究科
12.3K views24 slides

More Related Content

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
74 views26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
67 views23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
40 views17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
79 views19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
43 views17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
52 views32 slides

More from Kitamura Laboratory(20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧

Recently uploaded

Pitchbook Repowerlab.pdf by
Pitchbook Repowerlab.pdfPitchbook Repowerlab.pdf
Pitchbook Repowerlab.pdfVictoriaGaleano
10 views12 slides
IRJET-Productivity Enhancement Using Method Study.pdf by
IRJET-Productivity Enhancement Using Method Study.pdfIRJET-Productivity Enhancement Using Method Study.pdf
IRJET-Productivity Enhancement Using Method Study.pdfSahilBavdhankar
11 views4 slides
Field Programmable Gate Arrays : Architecture by
Field Programmable Gate Arrays : ArchitectureField Programmable Gate Arrays : Architecture
Field Programmable Gate Arrays : ArchitectureUsha Mehta
33 views74 slides
Global airborne satcom market report by
Global airborne satcom market reportGlobal airborne satcom market report
Global airborne satcom market reportdefencereport78
8 views13 slides
Programmable Switches for Programmable Logic Devices by
Programmable Switches for Programmable Logic DevicesProgrammable Switches for Programmable Logic Devices
Programmable Switches for Programmable Logic DevicesUsha Mehta
37 views26 slides
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf by
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdfASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdfAlhamduKure
11 views11 slides

Recently uploaded(20)

IRJET-Productivity Enhancement Using Method Study.pdf by SahilBavdhankar
IRJET-Productivity Enhancement Using Method Study.pdfIRJET-Productivity Enhancement Using Method Study.pdf
IRJET-Productivity Enhancement Using Method Study.pdf
SahilBavdhankar11 views
Field Programmable Gate Arrays : Architecture by Usha Mehta
Field Programmable Gate Arrays : ArchitectureField Programmable Gate Arrays : Architecture
Field Programmable Gate Arrays : Architecture
Usha Mehta33 views
Programmable Switches for Programmable Logic Devices by Usha Mehta
Programmable Switches for Programmable Logic DevicesProgrammable Switches for Programmable Logic Devices
Programmable Switches for Programmable Logic Devices
Usha Mehta37 views
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf by AlhamduKure
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdfASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf
AlhamduKure11 views
BCIC - Manufacturing Conclave - Technology-Driven Manufacturing for Growth by Innomantra
BCIC - Manufacturing Conclave -  Technology-Driven Manufacturing for GrowthBCIC - Manufacturing Conclave -  Technology-Driven Manufacturing for Growth
BCIC - Manufacturing Conclave - Technology-Driven Manufacturing for Growth
Innomantra 28 views
REACTJS.pdf by ArthyR3
REACTJS.pdfREACTJS.pdf
REACTJS.pdf
ArthyR339 views
Web Dev Session 1.pptx by VedVekhande
Web Dev Session 1.pptxWeb Dev Session 1.pptx
Web Dev Session 1.pptx
VedVekhande23 views
GDSC Mikroskil Members Onboarding 2023.pdf by gdscmikroskil
GDSC Mikroskil Members Onboarding 2023.pdfGDSC Mikroskil Members Onboarding 2023.pdf
GDSC Mikroskil Members Onboarding 2023.pdf
gdscmikroskil75 views
Solution Challenge Introduction.pptx by GDSCCEC
Solution Challenge Introduction.pptxSolution Challenge Introduction.pptx
Solution Challenge Introduction.pptx
GDSCCEC13 views
REPORT Data Science EXPERT LECTURE.doc by Parulkhatri11
REPORT Data Science EXPERT LECTURE.docREPORT Data Science EXPERT LECTURE.doc
REPORT Data Science EXPERT LECTURE.doc
Parulkhatri117 views
MODULE-1 CHAPTER 3- Operators - Object Oriented Programming with JAVA by Demian Antony D'Mello
MODULE-1 CHAPTER 3- Operators - Object Oriented Programming with JAVAMODULE-1 CHAPTER 3- Operators - Object Oriented Programming with JAVA
MODULE-1 CHAPTER 3- Operators - Object Oriented Programming with JAVA

一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離

Editor's Notes

  1. まず、研究背景から説明します。音源分離とは混合音から個々の音源を推定する技術であり、人間の持つカクテルパーティ効果を機械で実現することです。これは、特定の音に注意を向けることで聞き取ることができる人間の能力のことです。音源分離は大きく分けて教師なしと教師ありの2つに分けられます。教師なしとは、ヒントとなる事前情報を使わない手法のことで、反対に教師ありとは、何らかの情報を教師として使う手法のことです。教師として使えるものとしては、例えば、楽譜、音色のサンプル、動画などが挙げられます。本研究では音色のサンプルを教師情報として使いました。
  2. 次に、本研究の俯瞰を説明します。音楽の教師あり音源分離に用いられる手法はいくつかあり、今回研究に用いたのは最新手法であるGGD-NMFと呼ばれるもので、これは従来手法であるIS-NMFを一般化したものです。GGD-NMFにはパラメータがあり、特定のパラメータにおいてIS-NMFと等価になります。まず、1つ目の目的として音源分離性能の調査が不十分であるGGD-NMFについて詳しく実験を行いました。その結果、最適なパラメータが楽器の種類に強く依存することが分かりました.そこで、2つ目の目的として音源分離精度が高いパラメータの事前予測法を検討しました。それでは次のスライドから詳細に入ります。
  3. 本研究では短時間フーリエ変換を音に適用します.今,時間波形がこのようにあるとき、図のように短い時間で区切り,それぞれに窓関数をかけてフーリエ変換していきます.こうして,縦軸周波数,横軸時間の複素数の行列Xが得られます.これをスペクトログラムと呼びます.人間の聴覚は位相の違いがあまり聞き分けられないため,Xの要素ごとに絶対値をとって,p乗することでゼロ以上の実数行列,すなわち非負行列になります。これで、時間領域から時間周波数領域に音を変換することができました。 短時間で区切ると不連続な波形となってしまい、そのまま離散フーリエ変換(DFT)すると不連続のまま繰り返すことになるので高周波として現れ、本来の波形からかけ離れてしまう。それでは都合が悪いので連続性を保つため、窓関数をかけて帳尻を合わせる。 ハミング窓採用(中間的、周波数のなまりが変わる、ダイナミックレンジと周波数の分解能のトレードオフ、ハン窓ーハミング窓ー矩形窓)
  4. 一つ前のスライドで音を非負行列に変換しましたが、非負行列から音のパーツを抽出する手法であるNMFをさらに適用します.図を見ていただきたいのですが、この左辺Dが先ほど説明した非負行列です。NMFはこれを右辺のように2つの行列WとHの掛け算に分解します。Wは基底行列と呼ばれ,Dの中の音のスペクトルを基底に含みます.Hはアクティベーション行列と呼ばれ,各スペクトル基底の時間的な強度変化を含みます.例えばこの図では,(Dを指す)1つ目の音と2つ目の音のスペクトルがWに現れ,それらの生じる時間情報がHに現れます. (このように、NMFを行うことで、I×Jの行列がI×K、K×Jの行列の掛け算で近似できます。図では基底数Kが2本であり、周波数ビンI、時間フレーム数Jよりもかなり小さな値をとっており、低ランク構造となっています。)
  5. 次に,NMFを使った教師あり音源分離の説明をします.教師ありNMFは,図のように学習ステージと分離ステージに分けられます。学習ステージでは、このような上昇音階である楽器ごとの音色のサンプルにNMFを適用することで、音色の辞書となるW1、W2を学習します。分離ステージでは、このW1、W2を基底に用いることで時間成分であるG1、G2を推定します。従って,ピアノの辞書W1を使ったW1G1はピアノの分離音となり、W2G2はベースの分離音となります.
  6. 続いて,NMFでWとHをどうやって推定するかについて説明します.(式を指しながら)NMFではDとWHの距離を最小化するようにWとHを決めます.距離関数は任意ですが,例えば,(2つ目の式を指しながら)この二乗ユークリッド距離があります.このような距離の最小化問題は,非負行列Dまたは複素行列Xの生成モデルを仮定した最尤推定と等価です.例えば,先ほどの二乗ユークリッド距離の場合は,図のようなガウス分布を仮定したときの平均値の最尤推定になります。これを踏まえて次のスライドに進みます。 最尤推定とは,観測されたデータから分布のパラメータを推定すること 距離関数を変えれば仮定している分布も変わる 分布を決めるとなにかしらの距離関数は得られる あらゆる分布から距離関数を導きだすことはできるが、逆は無理