SlideShare a Scribd company logo
Submit Search
Upload
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Report
Share
Kitamura Laboratory
Kitamura Laboratory
Follow
•
0 likes
•
192 views
1
of
19
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
•
0 likes
•
192 views
Report
Share
Download Now
Download to read offline
Engineering
岩瀬佑太, "コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離," 香川高等専門学校専攻科電気情報工学科コース 特別研究論文, 45 pages, 2022年1月.
Read more
Kitamura Laboratory
Kitamura Laboratory
Follow
Recommended
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
5.9K views
•
74 slides
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用 by
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
Kitamura Laboratory
142 views
•
16 slides
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank... by
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
8.3K views
•
67 slides
深層パーミュテーション解決法の基礎的検討 by
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
143 views
•
15 slides
論文紹介 Unsupervised training of neural mask-based beamforming by
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
1.7K views
•
26 slides
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou... by
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
12.2K views
•
68 slides
More Related Content
What's hot
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 by
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
56.5K views
•
17 slides
Kameoka2017 ieice03 by
Kameoka2017 ieice03
kame_hirokazu
2.7K views
•
58 slides
深層生成モデルに基づく音声合成技術 by
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
943 views
•
35 slides
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元 by
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
919 views
•
17 slides
独立低ランク行列分析に基づく音源分離とその発展 by
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
205 views
•
91 slides
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
1K views
•
22 slides
What's hot
(20)
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 by Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
•
56.5K views
Kameoka2017 ieice03 by kame_hirokazu
Kameoka2017 ieice03
kame_hirokazu
•
2.7K views
深層生成モデルに基づく音声合成技術 by NU_I_TODALAB
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
•
943 views
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元 by NU_I_TODALAB
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
•
919 views
独立低ランク行列分析に基づく音源分離とその発展 by Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
•
205 views
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by Naoya Takahashi
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
•
1K views
実環境音響信号処理における収音技術 by Yuma Koizumi
実環境音響信号処理における収音技術
Yuma Koizumi
•
2.1K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
深層学習を利用した音声強調 by Yuma Koizumi
深層学習を利用した音声強調
Yuma Koizumi
•
2K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
•
4.3K views
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
•
5.9K views
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by Kitamura Laboratory
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
•
263 views
Asj2017 3invited by SaruwatariLabUTokyo
Asj2017 3invited
SaruwatariLabUTokyo
•
15.5K views
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
•
2.9K views
音声合成のコーパスをつくろう by Shinnosuke Takamichi
音声合成のコーパスをつくろう
Shinnosuke Takamichi
•
8.9K views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
•
1.5K views
Neural text-to-speech and voice conversion by Yuki Saito
Neural text-to-speech and voice conversion
Yuki Saito
•
1.2K views
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
•
135 views
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価 by Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
•
1.4K views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
•
418 views
More from Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
70 views
•
26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
67 views
•
23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
40 views
•
17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
79 views
•
19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
43 views
•
17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
52 views
•
32 slides
More from Kitamura Laboratory
(20)
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
•
70 views
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
•
67 views
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
•
40 views
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
•
79 views
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
•
43 views
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
•
52 views
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
•
62 views
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
•
29 views
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
•
113 views
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
59 views
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
•
132 views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
Kitamura Laboratory
•
128 views
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...
Kitamura Laboratory
•
126 views
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...
Kitamura Laboratory
•
99 views
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure models
Kitamura Laboratory
•
317 views
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
•
178 views
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
•
73 views
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム
Kitamura Laboratory
•
96 views
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
Kitamura Laboratory
•
61 views
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
Kitamura Laboratory
•
77 views
Recently uploaded
onewedge_companyguide1 by
onewedge_companyguide1
ONEWEDGE1
54 views
•
22 slides
SSH超入門 by
SSH超入門
Toru Miyahara
457 views
•
21 slides
概要.pdf by
概要.pdf
Taira Shimizu
6 views
•
1 slide
システム概要.pdf by
システム概要.pdf
Taira Shimizu
44 views
•
1 slide
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
208 views
•
36 slides
Najah Matsuo Self Introduction by
Najah Matsuo Self Introduction
NajahMatsuo
10 views
•
29 slides
Recently uploaded
(7)
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1
ONEWEDGE1
•
54 views
SSH超入門 by Toru Miyahara
SSH超入門
Toru Miyahara
•
457 views
概要.pdf by Taira Shimizu
概要.pdf
Taira Shimizu
•
6 views
システム概要.pdf by Taira Shimizu
システム概要.pdf
Taira Shimizu
•
44 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
•
208 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self Introduction
NajahMatsuo
•
10 views
ウォーターフォール開発で生 産性を測る指標 by Kouhei Aoyagi
ウォーターフォール開発で生 産性を測る指標
Kouhei Aoyagi
•
50 views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
1.
コサイン類似度罰則条件付き 非負値行列因子分解に基づく 音楽音源分離 Music source separation
based on nonnegative matrix factorization with cosine similarity penalty 香川高専 創造工学専攻 北村研究室 岩瀬 佑太 特別研究Ⅱ 最終報告
2.
研究背景 • 音源分離 – 複数音源が混合した観測信号から混合前の音源の信号を抽出 –
音声認識,自動採譜等の前段処理 – 非負値行列因子分解(nonnegative matrix factorization: NMF) に基づく音源分離を取り扱う • 深層ニューラルネットワークのように莫大なデータセット が必要ない 1
3.
短時間フーリエ変換 (short-time Fourier
transform: STFT) • STFTの概要 2 時間領域 フーリエ変換長 時間周波数領域 時間波形 … 離散フーリエ変換 シフト長 離散フーリエ変換 離散フーリエ変換 複素スペクトログラム 複素数要素を持つ行列 周波数 時間 … 非負振幅スペクトログラム 非負(ゼロ以上)の実数要素の行列 要素毎の絶対値 窓関数
4.
NMF [Lee+, 1999] •
非負行列 を二つの非負行列 と の行列積で近似 3 非負の観測行列 (音の時間周波数強度) 基底行列 (音色パーツ) アクティベーション行列 (音量と音価) : 周波数ビン数 : 時間フレーム数 : 基底数 基底行列 :観測信号 中の頻出スペクトルパターン アクティベーション行列 :基底行列 中の 各スペクトルパターンの時間的な強度変化 振幅 時間 時間 周波数 振幅 周波数 振幅 周波数 振幅 時間
5.
NMFの変数行列の推定 • NMFにおける変数の最適化 – 観測
とモデル の距離をコストとし変数について最小化 – 一般化KLダイバージェンスのコスト関数 • 音源分離タスクで高い性能を出すことが多い 距離関数 4
6.
半教師ありNMF(semi-supervised NMF: SNMF)
[Smaragdis+,2007] • 目的音源の基底行列のみをあらかじめ学習 – 目的音源と非目的音源に類似スペクトルがある場合,目的音 源の一部が に取られるリスクがある 5 分離ステージ 学習ステージ 学習ステージで得た目的音 の基底行列 目的音の 基底行列 (音色辞書) その他の基底 分離目的音のサン プル音(教師音) は固定し , , のみ求める
7.
SNMFにおける問題 • 似たような音はどちらの行列にも入りうる 6 分離ステージ 学習ステージ 混入 目的音 非目的音
8.
罰則項の案① • 内積罰則項を付与する – すべての
と のペア対して を の下で最小となる を決定し, 全ペアの内積総和が最小となる行列 を求める 7 この幅が狭ければ 内積は小さくなる (ベクトルは類似しなくなる)
9.
従来手法 • 罰則条件付きSNMF (penalized
SNMF: PSNMF) – 内積型PSNMF [Kitamura+, 2014] • と を直交に近づける内積罰則項を追加する – ②の罰則項は ( は微小値)として をゼロ行列 に近づけるだけで小さくなる • ①の距離関数項は とすれば増加しない 8 内積罰則項 重み係数 ② ① ① 距離関数項
10.
• コサイン類似度罰則項を付与する – すべての
と のペアに対してコサイン類似度を の下で最小となる を決定し, 全ペアの の総和が最小となるような行列 を求める 罰則項の案② 9
11.
提案手法 • 罰則条件付きSNMF (penalized
SNMF: PSNMF) – 対数コサイン類似度型PSNMF(log-cos型PSNMF)[岩瀬+, 2020] • コサイン類似度の対数和を罰則条件としてSNMFに付与 • 内積型PSNMFのスケール不定問題を解決 – コサイン類似度が0の時,log 0となって数値不安定性が生じる – 距離関数項①は下限が0,罰則項③は下限が という アンバランスさの問題 10 対数コサイン類似度罰則項 距離関数項 ③ ①
12.
① 提案手法 • 罰則条件付きSNMF (penalized
SNMF: PSNMF) – コサイン類似度型PSNMF(cos型PSNMF)[岩瀬+, 2021] • Log-cos型PSNMFの罰則項から対数を排除 – 内積型PSNMF及びlog-cos型PSNMFの問題を解消 11 コサイン類似度罰則項
13.
実験条件 使用する楽器音信号 公開データセットより2楽器音の混合信号を90曲作成 オーボエ (Ob.),
トランペット (Tp.), ホルン (Hr.), フ ルート (Fl.),ヴァイオリン (Vn.), クラリネット (Cl.), ピア ノ (Pf.), チェロ (Vc.),ハープシコード (Hp.), トロンボー ン (Tb.), ファゴット (Fg.) 最適な重み係数 を探索す るための学習データ 90曲の中からランダムに45曲選出 最適な を使う音源分離テ ストデータ 学習データ以外の残りの45曲 12 Ob. or Tp. or Hr. Fl. or Cl. or Vn. Pf. or Hp. Fg. or Tb. or Vc. 音色学習信号(上昇音階) 混合信号のメロディ
14.
13 音源対歪み比(source-to-distortion: SDR) [Vincent+,
2006] :全楽器の混合音の時間信号 :目的音の時間信号 :非目的音の時間信号 に対して音源分離を適用して得られる目的音の推定信号を とすると :目的音源成分 :推定した目的音源信号に残留した非目的音源成分 :音源分離によって生じた人工的な歪み
15.
45曲の学習データによる最適重みの探索結果 • 各手法の最適な重み係数の探索 – 学習データ45曲のSDRの平均値を算出 –
SDRが最大となる重み係数を最適値とする 14 音源分離性能 Good Poor
16.
実験結果 • 各手法の評価 – 学習データで得た最適な重み係数を固定 –
テストデータ45曲より各手法の中央値と数値データ分布を得る 15 Log-cos型PSNMF (BNなし) SNMF 内積型PSNMF Log-cos型PSNMF Cos型PSNMF
17.
統計的検定 • 2種類の検定を行う 帰無仮説はそれぞれ下記である – Welchの(片側)
検定[Welch, 1947] • 各々の正規分布に従う2つの母集団 及び の平均値をそれぞれ 及び とするとき, である – Brunner-Munzel(BM)検定[Brunner+, 2000] • 2つの母集団 及び から抽出した 標本をそれぞれ 及び とするとき 及び となる 確率が等しい 16
18.
検定結果 17 • 各検定での評価 – Welchの(片側)
検定より得られた 値 – Brunner-Munzel検定より得られた 値
19.
まとめ • SNMFによる音源分離性能を向上させる3つのPSNMF の比較実験を行った • 提案手法(Log-cos型及びCos型PSNMF)が従来手法 (内積型PSNMF)より有効かを確かめるために2種類の 統計的検定を行った •
検定結果より提案手法の有効性を示すことができた • 研究業績 岩瀬佑太, 北村大地, "コサイン類似度罰則条件付き半教師あり非負値行列因子分解,“ 日本音響学会 2020年春季研究発表会講演論文集, pp. 425–428, 埼玉, 2020年3月(査読無). 岩瀬佑太, 北村大地,"コサイン類似度罰則条件付き非負値行列因子分解に基づく音源分離の実験的評価,“ 日本音響学会 2021年秋季研究発表会講演論文集, 2-1P-4, pp. 287–290, オンライン, 2021年9月(査読無). 岩瀬佑太, 北村大地,"コサイン類似度罰則条件付き非負値行列因子分解に基づく音源分離の仮説検定," 第24回日本音響学会関西支部若手研究者交流研究発表会, pp. 33, オンライン, 2021年12月(査読無). Yuta Iwase and Daichi Kitamura, "Supervised audio source separation based on nonnegative matrix factorization with cosine similarity penalty," IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, vol. E105-A, no. 6, Jun 2022(in press). 18
Editor's Notes
このような題目で発表していきます.
[0:05~1:00] まず,音源分離とは,複数の音源が混合した観測信号から混合前の音源の信号を抽出する技術で音声認識や自動採譜等の前段処理に利用されます. 本研究では,図のように,複数の楽器の演奏から特定の楽器音を抽出することを考えます. 特に,非負値行列因子分解,通称NMFに基づく音源分離を取り扱います. 昨今深層ニューラルネットワークによる機械学習モデルが有用ですが,一つの楽器につき数百時間分の学習データが必要となり,そのような音源は一般的な市場では手に入れることはできないため,実用的ではありません. ですので,データが僅かしか用意できないような状況では,NMFを用いた音源分離が現在においても有用な手であるため,本研究ではNMFによる音源分離を取り扱ます.
[1:00~1:35] 音をNMFで取り扱うために用いる短時間フーリエ変換,通称STFTについて説明します. まず,このような時間信号が観測されたとき,任意のフーリエ変換長分,フーリエ変換し,このような一本のベクトルを生成します.この処理を任意の時間ごとに行うことにより,もともとの時間信号から,時間周波数表現である複素スペクトログラムを得ます.本研究では,この複素スペクトログラムの絶対値をとって非負振幅スペクトログラムとして用います. 次にNMFを説明します. Q&A なんで絶対値を取り扱うのか NMFは非負の値を取り扱う理論であるため.そして,人間の聴覚はスペクトログラムの磯の変化をほとんど認識することができないため,問題にはならない.
[1:35~2:45] NMFとは,非負行列𝑋を別の2つの非負行列FとQの積で低ランク近似する理論です. こちらの図をご覧ください.観測行列Xは音の時間信号をSTFTすることにより得られるスペクトログラムです. この観測行列XにNMFを適用すると,XをF×Qで近似するような非負行列FとQが得られます. (指しながら) このXには,高さの違う二つの音のスペクトルが含まれています。こちらの音をお聞きください. この時間でこの高さの音が鳴り始め,それが鳴りやまぬうちに別の高さの音が鳴り始めています. 今,Fは基底行列と呼ばれ,音のスペクトルパターンが含まれています.一つ目の基底ベクトルには後半の音のスペクトルが含まれており,二つ目の基底ベクトルには最初の音のスペクトルが含まれています. Qはアクティベーション行列と呼ばれ,これらのスペクトルの時間的な強度変化を含んでいます.
[2:45~3:05] NMFの変数行列FとQは,こちらの最小化問題で推定できます. DはXとFQの距離を測る関数であり,XとFQの距離が最小となるFとQを求めます. 本研究では,音源分離で高い性能を出すことが多い一般化KLダイバージェンスと呼ばれる距離関数を用います. 最小化問題とは? 特定の集合上で定義された関数についてその値が最小となる状態を解析する問題である
[3:05~4:05] NMFに基づく音源分離の半教師ありNMF,通称SNMFを説明します. (分離ステージのYを指しながら)いま,ピアノとベースとサックスが混ざった混合音Yから,ピアノの音だけを抽出することを考えます. この場合,学習ステージでピアノの音階信号を事前に学習して,基底行列Fを得ます. このFはピアノのスペクトルパターンを含んでいる「音色辞書」のような働きをします. 分離ステージでは,Fをこのように固定し,FG+HUという形で混合信号Yを近似することで,目的音源のピアノ成分のみがFGに現れ,その他の非目的音源の成分がHUに現れます. したがって,ピアノとそれ以外に音源分離できます. しかし,SNMFには,目的音源と非目的音源の間に似たスペクトルがあると,目的音源の一部がHUに取られてしまう問題があります.
[4:25~5:35] こちらは先ほど述べたSNMFの問題点を図的に表したものです. たとえば混合音Yがピアノとシンセサイザーという似たような音色を持つ楽器で構成されているとします. このとき,Yに対してSNMFによる音源分離を行うと目的音源の一部がHU混入したり、非目的音にFGが混入することにより分離精度が劣化します. この問題を改善するためには,FとHができるだけ類似していない行列となるようにこれらを求める必要があります. ただし,Fは学習ステージで求めた定数行列なので,行列Hを求める際にFとできるだけ遠ざける必要がります. このようなアイデアを取り入れたSNMFとして罰則条件付きSNMF,通称PSNMFが提案されています. Q非目的音の一部が目的音に混入するのはわかる. 目的音が非目的音の成分側に現れるのはどうして? A理由は幾つかある.1つめとして,そもそもNMFっていうのが低ランクで特徴量を近似するもの.つまり,もともと与えられたデータを圧縮して近似したものであるので,ピアノのスペクトルパターンを完璧には学習できていない. 2つ目の理由として,学習データとして用意したデータと演奏されている楽器音が似ていない可能性がある.というのは,学習データと全く同じ楽器を利用して演奏したとしても,人によって演奏の癖があったり,同じ人が演奏しても全く同じ 演奏ができるわけではないのです.
\bm{f}_k: 教師基底ベクトル \bm{h}_l: 非目的音源の基底ベクトル \bm{f}_k\perp\bm{h}_l 二本のベクトル間の内積を小さくするためには矢印で示した幅を狭くしたらよい.即ち,h_{l}とf_{k}をできるだけ直交するように誘導すればよい [5:35~6:25] FとHの行列が類似しないように誘導するものとしてまず,内積罰則項を用いることが考えられます. Fの教師基底ベクトルとHの基底ベクトルをそれぞれ,\bm{f}_kと\bm{h}_lとすると,この二本の間の内積は,\bm{f}_k\cdot\bm{h}_lで表すことができます. 内積では\bm{h}_lが\bm{f}_kに落とす影,つまり(ポインてぃんぐ)この幅,が狭いほうが小さくなります. つまり,行列FとHに存在するすべてのベクトルのペアに対して,FG+HUをYに近づけるという制約の基で\bm{f}_k\cdot\bm{h}_lが最小となる\bm{h}_lを決定することで,全ペアの内積総和が最小となる行列Hを求めることができます.
[6:25~7:10] この処理をSNMFに付与した手法が内積型PSNMFです.SNMFの後ろに内積罰則項が付与されています. したがってこの手法は,SNMFのYとFG+HUが近くなるという点とHの基底ベクトルがFの基底ベクトルとできるだけ直交することの二点が考慮され,SNMFよりも音源分離が促進されます. muは重み係数であり罰則項の強さを制御するパラメータです. しかしこの方法には問題があります. 今回は時間の都合上詳しい説明は省かせていただきますが,NMFのスケール不定性により直交化が正しく作用しておらず理論的には無意味な罰則項となっています Q&A H←cHっていうのは何?内積罰則について詳しく説明して NMFの方程式は一意に決まらないので傾きを取ってどんどん傾きが小さくなる方向に変数を少しずつ更新していき変数行列を求めていく.そしてそれが最小化問題です.それはPSNMFも同様となります. PSNMFでは②の項を強く利かせるためにmuをつけています.muを大きくすればするほど2が強調される最適化となる.でも,muを大きくするとそれに伴って罰則項全体の大きさを小さくするためにHがcHという風に更新され②の項全体が小さくなります.つまり,muをどれだけ大きくしてもcがどこまででも小さくなるのでこの②の項が効いていないことになる. H←cHとしたらHUも小さくなりそうだがUも更新対象であるためUは1/c Uという風に更新されHUの大きさは保つことができるのです
[6:55~7:40] そこで,もう一つ,ベクトルの長さに非依存でありつつFとHの行列が類似しないように誘導する罰則項として,コサイン類似度が挙げられます. コサイン類似度は2つのベクトルの類似性を表す尺度で、2つのベクトルがなす角のコサイン値です.ですので,全ての\bm{f}_kと\bm{h}_lのペアに対して FG+HUをYに近づけるという制約の基でコサイン類似度が最小となる\bm{h}_lを決定し,全ペアの内積総和が最小となる行列\bm{H}を求めます.
[7:40~8:55] 先ほどの罰則項をSNMFに付与するんですがまずは対数を取ったコサイン類似度を付与した手法で試しました. コサイン類似度は式が複雑であり,解くのが困難ですが対数をつけることで式が簡略化され容易に解くことができます. この手法を対数コサイン類似度型PSNMF,通称Log-cos型PSNMFと呼びます. こちらの手法も,SNMFのYとFG+HUが近くなるという点とHの基底ベクトルがFの基底ベクトルとできるだけ直交することの二点が考慮され,SNMFよりも音源分離が促進されます. さらにベクトルの長さに依存しないため,スケール不定性の問題を回避することができます. しかしながら,対数をとったコサイン類似度は,コサイン類似度が0になるとlog 0になるので-∞になるという問題があり,これは計算機上では数値不安定を招きます. また,①の下限が0であるのに対して,③の下限が-∞というアンバランスさも問題となりました. Q&A 対数を取ることで,コサイン類似度の分数を引き算に分解でき,同時に乗数も係数扱いできるので最適化更新式の導出が容易になります.
[8:55~9:35] そこでもう一度立ち戻り,コサイン類似度に対数を付けずともHについて最小化できないか考えたところ,かなり複雑ですが解けることがこれまでの研究でわかりました. この提案手法を以後,cos型PSNMFと呼びます.従来手法の内積型PSNMF,提案手法のlog-cos型PSNMFのそれぞれの問題を同時に解決した手法になります. SNMF,内積型PSNMF,Log-cos型PSNMF,及びCos型PSNMFの4手法を用いて音源分離性能の比較実験を行いました.
[9:35~10:05] こちらが実験条件です. 混合音はこれらの11種類の楽器の中から同一メロディーでない,2種類の楽器音を混合して90曲作成しました。 90曲のうち45曲を開発データとし,各手法で最適な重み係数\muを推定するために使用しました. 残りの45曲では,最適な重み係数\muで音源分離を行い,その精度を評価しました.
[10:05~11:15] 評価尺度として音源対歪み比,通称SDRを用いました. SDRは音源の分離度合いと分離音の歪みの少なさを加味した総合的な指標で, 人間が聴いて音源がよく分離されていると感じる感覚と非常に強い相関があるため音源分離の界隈では誰もが扱う指標となっています. SDRの式について説明していきます. まず,全楽器の混合音の時間信号であるm[l]に対して音源分離を適用して得られる目的音の推定信号m^[l]はこのような式で表されます. m^[l]はこちらの三つの成分から構成されています. そして,最終的なSDRはこちらの式で表されます.従って,高いSDR値を達成するためには,e_n[l]とe_a[l]が少なく,e_s[l]が高精度に推定されている必要があります.すなわち,可能な限り 目的音源成分を欠かすことなく推定し,可能な限り非目的音源成分を抑圧することに相当します. m^[l]の中のe_s[l]とかe_n[l]はどうやって求めるの?今自分たちは目的音や非目的音の混合前の正解音を持っており M^[l]をs[l]に射影したものがe_s[l],...となるので求めることができます.
[11:15~11:40] 各PSNMFにおける最適な重み係数muを学習データの45曲で決めます. SDRによる音源分離性能の45曲の平均がこのグラフです.横軸が重み係数muで縦軸がSDRです. SDRが最大となる点の重み係数muを各手法での最適値と決定します SDRの説明できるように 信号ひずみ比と呼ばれ生成した信号が目的とする信号に対してどの程度ひずんでいるかを評価します.このSDR値が高いほど分離精度良いです.
[11:40~12:40] 先ほどの最適重み係数を用いて,残りの45曲で音源分離したヴァイオリン図がこのグラフです. 左からSNMF,内積型,log-cos型,cos型PSNMFです. まず,各手法の1点1点は45曲のそれぞれの音源分離結果のSDR値です. なので,各手法で45点あります. 中央の白点は全45点の中央値です.そして,各手法のヴァイオリンのような曲線は,45個の点を使ってカーネル密度推定により得られた推定分布になります.この結果より,中央値で見ても推定分布で見ても,従来法の内積型PSNMFと2つの提案手法で差が見えます.特に内積型とcos型の差は大きそうです.さらにこの差を客観的に結論付けるために,この結果を使って検定を行います. Q&A 図の広がりは何をあらわすの? その値周辺にどのくらいデータが集まっているかを表しています. ですのでデータが過疎な付近で細くなっていて,データが密なところで膨らんでいます. Q&A ボックスプロット(箱ひげ図)でいいんじゃない? ボックスプロットだと最小値から第1四分位数(しぶんいすう),第3四分位数から最大値までの区間でデータがないように見える.それに引き換えヴァイオリン図ではデータの全体分布が一目でわかります.なのでボックスプロットよりも情報量が多いと言えます. 楽器の種類により性能さが現れるのか? まだそこまで考察できていないが,予想としましては,同じ金管楽器同士だったり,音の出る原理が同じような楽器同士だと似たようなスペクトルが現れ分離がうまくいかないと予想されます. 縦棒が中央値を境に長さが違うのはなぜ? 縦棒が中央値を境に上下対称でないのは,縦棒の上端が75パーセンタイル,下端が25パーセンタイルだからです. その上下の縦棒は50パーセントタイルの範囲です.つまり縦棒の縦軸範囲に45個中半分の点が入っています. カーネル密度推定ってなに?与えられたデータ点から,そのデータを生成した確率分布(確率密度関数)を推定するノンパラメトリックな(つまり「正規分布だ!」とか仮定しない)手法の一つです.「正規分布だ!」と仮定してしまうと,一番確率値の高いピークは1つになってしまいますが,今回の実験結果みたいに複数のピークがありそうなデータではカーネル密度推定が有効です.
[12:40~13:50] 実験より得られたSDR値の集合の差が有意か確かめるために2種類の統計的検定を行いました. 一つ目のウェルチの片側t検定では,図のように正規分布に従う2つの母集団AとBの平均値をそれぞれ\mu_{A}, \mu_{B}とするとき,\mu_{A}が\mu_{B}以上であるという帰無仮説を立てます. 二つ目はブルンナームンツェル検定で,2つの母集団A及びBから抽出した標本をそれぞれs_{A}及びs_{B}とするときs_{A}がs_{B}以上となる確率とs_{A}がs_{B}より小さくなる確率が等しいという帰無仮説が立てられます. ウェルチの片側t検定では平均を考える為,正規分布を仮定する検定となっています.一方,BM検定は観測データの正規性を仮定しません. 検定では,全4手法のなかから2手法をペアとして選び,ペア毎にt検定とBM検定の両方を行い,それぞれの帰無仮説がどのくらいの有意水準で棄却できるのかを調べます. Q&A 帰無仮説って何? 仮説に対してそれを否定(棄却)することで仮説を立証させる仮説のことです ウェルチの片側t検定を例として話すと,平均値mu_{A}がmu_{B}より大きいという帰無仮説を棄却することができればmu_{B}の方が大きいことが立証されます.
[13:50~14:50] こちらが各検定で得られたp値になります. p値が0.05であれば,先ほどの帰無仮説を95%の確率で有意に棄却できます.そのため,p値が低いほど,帰無仮説は間違っている,つまり2手法で明確な差がある,という結論を出せます.ウェルチの片側t検定ではAの手法が\mu_{A}の算出に,Bの手法が\mu_{B}の算出に用いられます.分布の正規性を仮定する場合としない場合の両方において,内積型PSNMFとcos型PSNMFを比較した際のp値は十分小さいという結果になりました.つまり,統計的に十分有意な確率で両検定の帰無仮説を棄却できたので,正規分布を仮定する場合も仮定しない場合も,提案手法が従来手法よりも音源分離に有効であることが結論付けられました. Q&A 内積型PSNMFとLog-cos型PSNMFのBM検定はp値0.05以下ではないですが? Log-cos型は数値不安定性も結構あるし,我々の推しはあくまでCos型なので大丈夫です. p値とは? 棄却に対する有意性を証明するための値です.一般的に0.05以下だと有意差があるのではといわれています.
以上で発表を終わります.
導出した変数はこのようになっています。
[06:50] 詳細は割愛しますが,補助関数はこの式になります. Hの更新式は,補助関数の右辺をhで偏微分し0とすることで得られます. 偏微分=0を整理したものがこの式で,なんと偶然にもhの二次方程式になります. 従って,係数をa,b,cとおくと,二次方程式の解の公式でhの更新式が得られます.GとHの更新式は他のPSNMFと同一です.
比較手法はこの4つです.罰則項の無いSNMF,内積型PSNMF,log-cos型PSNMF,そしてcos型PSNMFです. ただし,内積型とLog-cos型PSNMFにおいては先ほど示した問題を場当たり的に回避するために反復更新毎の基底正規化を行いました. 基底正規化とは,罰則項が絡む変数行列Hの全列ベクトルを正規化する処理です.正規化係数をUに掛けることで,HUは不変となりコスト関数値は変わりません.