Submit Search
Upload
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
Report
Share
Kitamura Laboratory
Kitamura Laboratory
Follow
•
0 likes
•
140 views
1
of
17
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
•
0 likes
•
140 views
Report
Share
Download Now
Download to read offline
Engineering
田中勇気, "一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離," 香川高等専門学校電気情報工学科 卒業研究論文, 34 pages, 2019年2月.
Read more
Kitamura Laboratory
Kitamura Laboratory
Follow
Recommended
Depth Estimation of Sound Images Using Directional Clustering and Activation... by
Depth Estimation of Sound Images Using Directional Clustering and Activation...
奈良先端大 情報科学研究科
3.2K views
•
35 slides
Online Divergence Switching for Superresolution-Based Nonnegative Matrix Fa... by
Online Divergence Switching for Superresolution-Based Nonnegative Matrix Fa...
奈良先端大 情報科学研究科
2.5K views
•
33 slides
Ica2016 312 saruwatari by
Ica2016 312 saruwatari
SaruwatariLabUTokyo
14.2K views
•
18 slides
Hybrid NMF APSIPA2014 invited by
Hybrid NMF APSIPA2014 invited
SaruwatariLabUTokyo
14.1K views
•
31 slides
Saito2017icassp by
Saito2017icassp
Yuki Saito
1.3K views
•
18 slides
Robust Sound Field Reproduction against Listener’s Movement Utilizing Image ... by
Robust Sound Field Reproduction against Listener’s Movement Utilizing Image ...
奈良先端大 情報科学研究科
12.3K views
•
24 slides
More Related Content
More from Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
74 views
•
26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
67 views
•
23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
40 views
•
17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
79 views
•
19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
43 views
•
17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
52 views
•
32 slides
More from Kitamura Laboratory
(20)
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
•
74 views
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
•
67 views
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
•
40 views
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
•
79 views
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
•
43 views
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
•
52 views
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
•
62 views
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
•
30 views
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
•
113 views
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
59 views
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
•
134 views
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
143 views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
•
431 views
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
•
436 views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
Kitamura Laboratory
•
133 views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Kitamura Laboratory
•
196 views
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...
Kitamura Laboratory
•
126 views
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...
Kitamura Laboratory
•
99 views
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure models
Kitamura Laboratory
•
330 views
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
•
137 views
Recently uploaded
Pitchbook Repowerlab.pdf by
Pitchbook Repowerlab.pdf
VictoriaGaleano
10 views
•
12 slides
IRJET-Productivity Enhancement Using Method Study.pdf by
IRJET-Productivity Enhancement Using Method Study.pdf
SahilBavdhankar
11 views
•
4 slides
Field Programmable Gate Arrays : Architecture by
Field Programmable Gate Arrays : Architecture
Usha Mehta
33 views
•
74 slides
Global airborne satcom market report by
Global airborne satcom market report
defencereport78
8 views
•
13 slides
Programmable Switches for Programmable Logic Devices by
Programmable Switches for Programmable Logic Devices
Usha Mehta
37 views
•
26 slides
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf by
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf
AlhamduKure
11 views
•
11 slides
Recently uploaded
(20)
Pitchbook Repowerlab.pdf by VictoriaGaleano
Pitchbook Repowerlab.pdf
VictoriaGaleano
•
10 views
IRJET-Productivity Enhancement Using Method Study.pdf by SahilBavdhankar
IRJET-Productivity Enhancement Using Method Study.pdf
SahilBavdhankar
•
11 views
Field Programmable Gate Arrays : Architecture by Usha Mehta
Field Programmable Gate Arrays : Architecture
Usha Mehta
•
33 views
Global airborne satcom market report by defencereport78
Global airborne satcom market report
defencereport78
•
8 views
Programmable Switches for Programmable Logic Devices by Usha Mehta
Programmable Switches for Programmable Logic Devices
Usha Mehta
•
37 views
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf by AlhamduKure
ASSIGNMENTS ON FUZZY LOGIC IN TRAFFIC FLOW.pdf
AlhamduKure
•
11 views
BCIC - Manufacturing Conclave - Technology-Driven Manufacturing for Growth by Innomantra
BCIC - Manufacturing Conclave - Technology-Driven Manufacturing for Growth
Innomantra
•
28 views
Here comes the Loom - Ya!vaConf.pdf by Krystian Zybała
Here comes the Loom - Ya!vaConf.pdf
Krystian Zybała
•
7 views
REACTJS.pdf by ArthyR3
REACTJS.pdf
ArthyR3
•
39 views
CPM Schedule Float.pptx by Mathew Joseph
CPM Schedule Float.pptx
Mathew Joseph
•
9 views
Web Dev Session 1.pptx by VedVekhande
Web Dev Session 1.pptx
VedVekhande
•
23 views
GDSC Mikroskil Members Onboarding 2023.pdf by gdscmikroskil
GDSC Mikroskil Members Onboarding 2023.pdf
gdscmikroskil
•
75 views
Robotics in construction enterprise by Khalid Abdel Naser Abdel Rahim
Robotics in construction enterprise
Khalid Abdel Naser Abdel Rahim
•
5 views
Solution Challenge Introduction.pptx by GDSCCEC
Solution Challenge Introduction.pptx
GDSCCEC
•
13 views
GPS Survery Presentation/ Slides by OmarFarukEmon1
GPS Survery Presentation/ Slides
OmarFarukEmon1
•
9 views
02. COLEGIO - KIT SANITARIO .pdf by RAULALEJANDROMALDONA
02. COLEGIO - KIT SANITARIO .pdf
RAULALEJANDROMALDONA
•
5 views
Automated Remote sensing GPS satellite system for managing resources and moni... by Khalid Abdel Naser Abdel Rahim
Automated Remote sensing GPS satellite system for managing resources and moni...
Khalid Abdel Naser Abdel Rahim
•
7 views
REPORT Data Science EXPERT LECTURE.doc by Parulkhatri11
REPORT Data Science EXPERT LECTURE.doc
Parulkhatri11
•
7 views
MODULE-1 CHAPTER 3- Operators - Object Oriented Programming with JAVA by Demian Antony D'Mello
MODULE-1 CHAPTER 3- Operators - Object Oriented Programming with JAVA
Demian Antony D'Mello
•
8 views
unit 1.pptx by rrbornarecm
unit 1.pptx
rrbornarecm
•
6 views
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
1.
一般化ガウス分布に基づく 非負値行列因子分解を用いた音楽音源分離 Music source separation
using generalized-Gaussian- distribution-based nonnegative matrix factorization 香川高専電気情報工学科 北村研究室 5年 田中 勇気 香川高専電気情報工学科 卒業研究発表会
2.
• 音源分離とは – 音声・雑音・歌声・楽器音・機械音等の音源を個々に分離する –
人間の持つカクテルパーティ効果を機械で実現 • 「教師なし音源分離」と「教師あり音源分離」 – 教師なし:事前情報(ヒント)を使わない手法 – 教師あり:何らかの教師情報を活用する手法 研究背景 1 楽譜 各楽器の音色のサンプル 動画
3.
本研究の俯瞰 • 内容:音楽の教師あり音源分離 • 目的1:最新手法(GGD-NMF)の実験的調査 –
一部のパラメータでIS-NMFを上回る – 最適なパラメータは楽器の種類に依存 • 目的2:音源分離精度の事前予測法の検討 – 混ざっている楽器間の音色の類似度に着目 – 類似度から最適パラメータを予測 2 [Kitamura, 2017] GGD-NMF IS-NMF [Fevotte, 2009] 従来手法 最新手法
4.
音の時間周波数変換 • 短時間フーリエ変換(short-time Fourier
transform: STFT)と非負化 – 一次元(時間)の信号を二次元(時間と周波数)の信号に変換 3 時間領域 窓関数 フーリエ変換長 シフト長 時間周波数領域 時間波形 … 離散フーリエ変換 離散フーリエ変換 離散フーリエ変換 スペクトログラム 複素数要素を持つ行列 周波数 時間 … 非負スペクトログラム 非負(ゼロ以上)の実数要素の行列 要素毎の 絶対値と𝑝乗 𝑿 .𝑝 X
5.
低ランク構造のモデリング手法 • 非負値行列因子分解(nonnegative matrix
factorization: NMF) – 非負制約付きの任意基底数(𝐾本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られる非負スペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 4 Amplitude Amplitude 混合された観測行列 (非負スペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション W H D 𝐼 × 𝐽 𝐼 × 𝐾 𝐾 × 𝐽 𝐼 𝐽 𝐼 𝐽 𝐾 𝐾 𝐼 𝐾 𝐽
6.
• 教師ありNMF(supervised NMF) 教師ありNMFによる音源分離 5 𝑫1 𝑾1 𝑯1 𝑫2 𝑾2 𝑯2 arg
min 𝑮1,𝑮2 D 𝒀||𝑾1𝑮1 + 𝑾2𝑮2 分離ステージ 𝒀 𝑾1 𝑾2 𝑮1 𝑮2 学習ステージで得られる 各楽器音の音色の辞書 𝑮1, 𝑮2のみ最適化 音色の辞書を学習 Y : 混合音楽 𝑫1 : 音階サンプル1 𝑫2 : 音階サンプル2 学習ステージ
7.
• NMFにおける変数の最適化 – 非負行列𝑫とモデル間𝑾𝑯のダイバージェンスの最小化 –
距離関数は任意 • 例:二乗ユークリッド距離 • 非負行列𝑫またはその背後にある複素行列𝑿の 生成モデルを仮定した最尤推定と等価 • 例:二乗ユークリッド距離 NMFのパラメータ推定 6 min 𝑾,𝑯 D 𝑫||𝑾𝑯 s. t. 𝑤𝑖𝑘, ℎ𝑘𝑗 ≥ 0 ∀𝑖, 𝑗, 𝑘 𝜇𝑖𝑗 = 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗 min 𝑾, 𝑯 𝑫 − 𝑾𝑯 Fr 2 0 0.5 -1 8 𝜇𝑖𝑗 𝑁 𝜇𝑖𝑗, 𝜎2 𝑑𝑖𝑗 𝑑𝑖𝑗が𝑁 𝜇𝑖𝑗, 𝜎2 から生成されると仮定 最尤となる平均値𝜇𝑖𝑗(= 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗)を推定
8.
• 最新の手法(GGD-NMF)で使われるダイバージェンス – 上式の最小化は下記の生成モデルの最尤推定と等価 •
複素一般化ガウス分布(generalized Gaussian distribution: GGD) GGD-NMFの生成モデル 7 𝑝 𝑿 = 𝑖,𝑗 𝑝 𝑥𝑖𝑗 = 𝜌 1− 2 𝜌 2 1− 2 𝜌𝜋 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗 2 𝑝Γ 2 𝜌 exp − 2 𝜌 𝑥𝑖𝑗 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗 1 𝑝 𝜌 𝜌:形状母数 複素GGD の概形 min 𝑾,𝑯 𝑖=1 𝐼 𝑗=1 𝐽 1 𝜌 𝑑𝑖𝑗 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗 𝜌 − log 𝑑𝑖𝑗 𝑘 𝑤𝑖𝑘ℎ𝑘𝑗 𝜌 − 1 s. t. 𝑤𝑖𝑘, ℎ𝑘𝑗 ≥ 0 ∀𝑖, 𝑗, 𝑘 𝜌 = 2 𝜌 = 1 𝜌 = 4
9.
• 実験に用いた音楽「songKitamura」データセット • その他の実験条件 性能評価実験:条件 8 基底数
30 [本] 反復回数 200 [回] サンプル周波数 44100 [Hz] 短時間Fourier変換 92.9 [ms] のハミング窓を窓長の1/2でシフト 初期値 0 ~ 1の一様乱数 評価指標 信号対歪み比(SDR)改善量 分離ステージで用いた 混合音の楽譜 学習ステージで用いた 教師音源の楽譜
10.
• クラリネットとホルンの混合音の分離結果 – 𝑝
= 1の時,𝜌の値が3.5 ~ 4.5にかけて精度が高くなっている – 𝜌の値が5.0以降はどれも精度が低くなっている 実験結果1 9 0 2 4 6 8 10 12 14 16 0.0 1.0 2.0 3.0 4.0 5.0 6.0 SDR改善量 [dB] 形状母数𝜌 p=2.0 p=1.0 p=0.4 Good Poor 従来手法(IS-NMF) 𝑝 = 𝜌 = 2
11.
0 2 4 6 8 10 0.0 1.0 2.0
3.0 4.0 5.0 6.0 SDR改善量 [dB] 形状母数𝜌 p=2.0 p=1.0 p=0.4 • バイオリンとハープシコードの混合音の分離結果 – 𝑝 = 2の時,𝜌の値が0.9 ~ 2.2にかけて精度が高くなっている – 𝑝 = 1の時,𝜌の値が3.5 ~ 3.9にかけて精度が高くなっている 実験結果1 10 Good Poor 従来手法(IS-NMF) 𝑝 = 𝜌 = 2
12.
• トランペットとトロンボーンの混合音の分離結果 – 𝑝
= 2の時,𝜌の値が1.2 ~ 2.2にかけて精度が高くなっている – どの𝑝においても,𝜌の値が0.2 ~ 0.5にかけて精度が高くなって いる 実験結果1 11 0 1 2 3 4 5 6 0.0 1.0 2.0 3.0 4.0 5.0 6.0 SDR改善量 [dB] 形状母数𝜌 p=2.0 p=1.0 p=0.4 Good Poor 従来手法(IS-NMF) 𝑝 = 𝜌 = 2
13.
• 性能評価実験より分かったこと – GGD-NMFの有効性を確認 •
ただし音源に依存して最適なパラメータは変わる – 音色の似た楽器の混合では精度が低くなる • 既存の手法(IS-NMF)も同様 • 最適パラメータ予測法の検討 – 音源分離において最適なパラメータは不明 • SDR値は混合前の音源がないと算出できない – 学習ステージを終えた段階で音源分離性能を予測したい • 「各楽器の音色の類似度」と「音源分離性能」には相関関係がある? GGD-NMFの最適パラメータ予測法 12 𝒀 𝑾𝟏 𝑾𝟐 𝑮𝟏 𝑮𝟐 類似度
14.
• cos類似度の式 – 𝒂及び𝒃は同じ次元数の任意ベクトル –
𝒂と𝒃のなす角が求められる – cos類似度を全基底ベクトル間で測り,総和した値を 「各楽器の音色の類似度」とした cos類似度の総和 13 Dcos 𝒂||𝒃 = 𝒂 ∙ 𝒃 𝒂 𝒃 𝒂 𝒃 この角度が知りたい Dcos 𝑾1||𝑾2 = 𝑘1=1 𝐾1 𝑘2=1 𝐾2 Dcos 𝒘1𝑘1 ||𝒘2𝑘2 𝑾1 楽器1の 基底行列 𝒘11 𝒘1𝐾1 Dcos 𝑾1||𝑾2 = 𝑾1 T 𝑾2 1 𝑾1 Fr ∙ 𝑾2 Fr ⋯ 𝑾2 楽器2の 基底行列 𝒘21 𝒘2𝐾2 ⋯
15.
実験結果2 • トランペットとハープシコードの相関関係 14
16.
• 「cos類似度の総和」と「SDR値」の相関係数 – 実験条件は同じ –
相関係数を平均すると-0.47となった 実験結果2 15
17.
• GGD-NMFはIS-NMFより分離性能が高い – ただし最適パラメータは音源に強く依存する •
「cos類似度の総和」と「音源分離性能」には中程度の 負の相関関係がある • 今後の課題 – 混合されている音源にとって重要な周波数をより考慮するよう な重みづけcos類似度を用いる手法 – cos類似度以外の音源分離性能とより強い相関関係を持つ基 準の検討 – GGD-NMFの音声信号に対する音源分離への適用 まとめ 16
Editor's Notes
まず、研究背景から説明します。音源分離とは混合音から個々の音源を推定する技術であり、人間の持つカクテルパーティ効果を機械で実現することです。これは、特定の音に注意を向けることで聞き取ることができる人間の能力のことです。音源分離は大きく分けて教師なしと教師ありの2つに分けられます。教師なしとは、ヒントとなる事前情報を使わない手法のことで、反対に教師ありとは、何らかの情報を教師として使う手法のことです。教師として使えるものとしては、例えば、楽譜、音色のサンプル、動画などが挙げられます。本研究では音色のサンプルを教師情報として使いました。
次に、本研究の俯瞰を説明します。音楽の教師あり音源分離に用いられる手法はいくつかあり、今回研究に用いたのは最新手法であるGGD-NMFと呼ばれるもので、これは従来手法であるIS-NMFを一般化したものです。GGD-NMFにはパラメータがあり、特定のパラメータにおいてIS-NMFと等価になります。まず、1つ目の目的として音源分離性能の調査が不十分であるGGD-NMFについて詳しく実験を行いました。その結果、最適なパラメータが楽器の種類に強く依存することが分かりました.そこで、2つ目の目的として音源分離精度が高いパラメータの事前予測法を検討しました。それでは次のスライドから詳細に入ります。
本研究では短時間フーリエ変換を音に適用します.今,時間波形がこのようにあるとき、図のように短い時間で区切り,それぞれに窓関数をかけてフーリエ変換していきます.こうして,縦軸周波数,横軸時間の複素数の行列Xが得られます.これをスペクトログラムと呼びます.人間の聴覚は位相の違いがあまり聞き分けられないため,Xの要素ごとに絶対値をとって,p乗することでゼロ以上の実数行列,すなわち非負行列になります。これで、時間領域から時間周波数領域に音を変換することができました。 短時間で区切ると不連続な波形となってしまい、そのまま離散フーリエ変換(DFT)すると不連続のまま繰り返すことになるので高周波として現れ、本来の波形からかけ離れてしまう。それでは都合が悪いので連続性を保つため、窓関数をかけて帳尻を合わせる。 ハミング窓採用(中間的、周波数のなまりが変わる、ダイナミックレンジと周波数の分解能のトレードオフ、ハン窓ーハミング窓ー矩形窓)
一つ前のスライドで音を非負行列に変換しましたが、非負行列から音のパーツを抽出する手法であるNMFをさらに適用します.図を見ていただきたいのですが、この左辺Dが先ほど説明した非負行列です。NMFはこれを右辺のように2つの行列WとHの掛け算に分解します。Wは基底行列と呼ばれ,Dの中の音のスペクトルを基底に含みます.Hはアクティベーション行列と呼ばれ,各スペクトル基底の時間的な強度変化を含みます.例えばこの図では,(Dを指す)1つ目の音と2つ目の音のスペクトルがWに現れ,それらの生じる時間情報がHに現れます. (このように、NMFを行うことで、I×Jの行列がI×K、K×Jの行列の掛け算で近似できます。図では基底数Kが2本であり、周波数ビンI、時間フレーム数Jよりもかなり小さな値をとっており、低ランク構造となっています。)
次に,NMFを使った教師あり音源分離の説明をします.教師ありNMFは,図のように学習ステージと分離ステージに分けられます。学習ステージでは、このような上昇音階である楽器ごとの音色のサンプルにNMFを適用することで、音色の辞書となるW1、W2を学習します。分離ステージでは、このW1、W2を基底に用いることで時間成分であるG1、G2を推定します。従って,ピアノの辞書W1を使ったW1G1はピアノの分離音となり、W2G2はベースの分離音となります.
続いて,NMFでWとHをどうやって推定するかについて説明します.(式を指しながら)NMFではDとWHの距離を最小化するようにWとHを決めます.距離関数は任意ですが,例えば,(2つ目の式を指しながら)この二乗ユークリッド距離があります.このような距離の最小化問題は,非負行列Dまたは複素行列Xの生成モデルを仮定した最尤推定と等価です.例えば,先ほどの二乗ユークリッド距離の場合は,図のようなガウス分布を仮定したときの平均値の最尤推定になります。これを踏まえて次のスライドに進みます。 最尤推定とは,観測されたデータから分布のパラメータを推定すること 距離関数を変えれば仮定している分布も変わる 分布を決めるとなにかしらの距離関数は得られる あらゆる分布から距離関数を導きだすことはできるが、逆は無理