SlideShare a Scribd company logo
Submit Search
Upload
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
Report
Share
Kitamura Laboratory
Kitamura Laboratory
Follow
•
0 likes
•
142 views
1
of
16
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
•
0 likes
•
142 views
Report
Share
Download Now
Download to read offline
Engineering
岩瀬佑太, "コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用," 香川高等専門学校電気情報工学科 卒業研究論文, 56 pages, 2020年2月.
Read more
Kitamura Laboratory
Kitamura Laboratory
Follow
Recommended
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離 by
直交化及び距離最大化則条件を用いた教師あり非負値行列因子分解による音楽信号分離
奈良先端大 情報科学研究科
6.3K views
•
31 slides
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
5.9K views
•
27 slides
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
3.5K views
•
23 slides
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
5.9K views
•
48 slides
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
4.3K views
•
28 slides
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
4.1K views
•
26 slides
More Related Content
What's hot
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
5.9K views
•
74 slides
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank... by
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
8.3K views
•
67 slides
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
1K views
•
22 slides
音源分離における音響モデリング(Acoustic modeling in audio source separation) by
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
22.5K views
•
114 slides
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia... by
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura
4.9K views
•
20 slides
独立低ランク行列分析に基づく音源分離とその発展 by
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
205 views
•
91 slides
What's hot
(20)
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
•
5.9K views
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
•
8.3K views
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by Naoya Takahashi
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
•
1K views
音源分離における音響モデリング(Acoustic modeling in audio source separation) by Daichi Kitamura
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
•
22.5K views
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia... by Daichi Kitamura
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura
•
4.9K views
独立低ランク行列分析に基づく音源分離とその発展 by Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
•
205 views
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
•
2.1K views
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
•
2.9K views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
•
1.5K views
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by Kitamura Laboratory
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
•
263 views
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 by Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
•
56.5K views
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
•
421 views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Kitamura Laboratory
•
192 views
音声の声質を変換する技術とその応用 by NU_I_TODALAB
音声の声質を変換する技術とその応用
NU_I_TODALAB
•
8.9K views
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
•
1.8K views
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト by NU_I_TODALAB
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
NU_I_TODALAB
•
774 views
実環境音響信号処理における収音技術 by Yuma Koizumi
実環境音響信号処理における収音技術
Yuma Koizumi
•
2.1K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現
NU_I_TODALAB
•
6.2K views
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
•
134 views
論文紹介 Unsupervised training of neural mask-based beamforming by Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
•
1.7K views
More from Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
69 views
•
26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
67 views
•
23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
40 views
•
17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
79 views
•
19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
43 views
•
17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
52 views
•
32 slides
More from Kitamura Laboratory
(20)
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
•
69 views
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
•
67 views
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
•
40 views
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
•
79 views
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
•
43 views
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
•
52 views
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
•
62 views
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
•
29 views
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
•
112 views
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
59 views
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Kitamura Laboratory
•
131 views
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
143 views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
•
416 views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
Kitamura Laboratory
•
127 views
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...
Kitamura Laboratory
•
126 views
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...
Kitamura Laboratory
•
99 views
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure models
Kitamura Laboratory
•
316 views
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
•
177 views
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
•
73 views
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム
Kitamura Laboratory
•
96 views
Recently uploaded
CHEMICAL KINETICS.pdf by
CHEMICAL KINETICS.pdf
AguedaGutirrez
13 views
•
337 slides
Control Systems Feedback.pdf by
Control Systems Feedback.pdf
LGGaming5
6 views
•
39 slides
SUMIT SQL PROJECT SUPERSTORE 1.pptx by
SUMIT SQL PROJECT SUPERSTORE 1.pptx
Sumit Jadhav
15 views
•
26 slides
GDSC Mikroskil Members Onboarding 2023.pdf by
GDSC Mikroskil Members Onboarding 2023.pdf
gdscmikroskil
53 views
•
62 slides
802.11 Computer Networks by
802.11 Computer Networks
TusharChoudhary72015
10 views
•
33 slides
fakenews_DBDA_Mar23.pptx by
fakenews_DBDA_Mar23.pptx
deepmitra8
15 views
•
34 slides
Recently uploaded
(20)
CHEMICAL KINETICS.pdf by AguedaGutirrez
CHEMICAL KINETICS.pdf
AguedaGutirrez
•
13 views
Control Systems Feedback.pdf by LGGaming5
Control Systems Feedback.pdf
LGGaming5
•
6 views
SUMIT SQL PROJECT SUPERSTORE 1.pptx by Sumit Jadhav
SUMIT SQL PROJECT SUPERSTORE 1.pptx
Sumit Jadhav
•
15 views
GDSC Mikroskil Members Onboarding 2023.pdf by gdscmikroskil
GDSC Mikroskil Members Onboarding 2023.pdf
gdscmikroskil
•
53 views
802.11 Computer Networks by TusharChoudhary72015
802.11 Computer Networks
TusharChoudhary72015
•
10 views
fakenews_DBDA_Mar23.pptx by deepmitra8
fakenews_DBDA_Mar23.pptx
deepmitra8
•
15 views
K8S Roadmap.pdf by MaryamTavakkoli2
K8S Roadmap.pdf
MaryamTavakkoli2
•
8 views
Investigation of Physicochemical Changes of Soft Clay around Deep Geopolymer ... by AltinKaradagli
Investigation of Physicochemical Changes of Soft Clay around Deep Geopolymer ...
AltinKaradagli
•
12 views
MSA Website Slideshow (16).pdf by msaucla
MSA Website Slideshow (16).pdf
msaucla
•
76 views
Proposal Presentation.pptx by keytonallamon
Proposal Presentation.pptx
keytonallamon
•
42 views
Effect of deep chemical mixing columns on properties of surrounding soft clay... by AltinKaradagli
Effect of deep chemical mixing columns on properties of surrounding soft clay...
AltinKaradagli
•
9 views
START Newsletter 3 by Start Project
START Newsletter 3
Start Project
•
5 views
Design_Discover_Develop_Campaign.pptx by ShivanshSeth6
Design_Discover_Develop_Campaign.pptx
ShivanshSeth6
•
32 views
DevOps-ITverse-2023-IIT-DU.pptx by Anowar Hossain
DevOps-ITverse-2023-IIT-DU.pptx
Anowar Hossain
•
12 views
Design of Structures and Foundations for Vibrating Machines, Arya-ONeill-Pinc... by csegroupvn
Design of Structures and Foundations for Vibrating Machines, Arya-ONeill-Pinc...
csegroupvn
•
5 views
Codes and Conventions.pptx by IsabellaGraceAnkers
Codes and Conventions.pptx
IsabellaGraceAnkers
•
9 views
SPICE PARK DEC2023 (6,625 SPICE Models) by Tsuyoshi Horigome
SPICE PARK DEC2023 (6,625 SPICE Models)
Tsuyoshi Horigome
•
28 views
sam_software_eng_cv.pdf by sammyigbinovia
sam_software_eng_cv.pdf
sammyigbinovia
•
5 views
_MAKRIADI-FOTEINI_diploma thesis.pptx by fotinimakriadi
_MAKRIADI-FOTEINI_diploma thesis.pptx
fotinimakriadi
•
8 views
Investor Presentation by eser sevinç
Investor Presentation
eser sevinç
•
25 views
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
1.
香川高専 電気情報工学科 北村研究室 5年 岩瀬
佑太 コサイン罰則条件付き半教師あり 非負値行列因子分解と音源分離への応用 Semi-supervised nonnegative matrix factorization with cosine penalty condition and application to audio source separation 香川高専 電気情報工学科 卒業研究発表
2.
研究背景 • 音源分離とは 1 − 混合された観測信号から個々の音源の信号を抽出・分離する技術 −
音声認識や自動採譜といったものに利用されている − オーケストラで後から特定の楽器のメロディーのみを抽出することが可能 − 音源分離の手法の一つに非負値行列因子分解 (nonnegative matrix factorization: NMF)がある 音源分離
3.
短時間フーリエ変換(short-time Fourier transform:
STFT) 2 • STFTの概要 時間領域 フーリエ変換長 時間周波数領域 時間波形 … 離散フーリエ変換 シフト長 離散フーリエ変換 離散フーリエ変換 スペクトログラム 複素数要素を持つ行列 周波数 時間 … 非負振幅スペクトログラム 非負(ゼロ以上)の実数要素の行列 要素毎の絶対値 窓関数
4.
NMF [D. D.
Lee, et al., 1999] • 非負行列𝑿を別の2つの行列 と行列 の積で低ランク近似する 3 ≈ Amplitude Amplitude 非負の観測行列 (音の時間周波数強度) 基底行列 (音色パーツ) アクティベーション行列 (音量と音価) Time Time Frequency Frequency 基底 : 周波数ビン数 : 時間フレーム数 : 基底数 アクティベーション :音源の頻出スペクトルパターン :時間的な強度変化 を含む
5.
NMFのパラメータ推定 4 − 二乗ユークリッド距離のコスト関数 − KLダイバージェンスのコスト関数
6.
半教師ありNMF(Semi-supervised NMF: SNMF)
[P. Smaragdis, et al.,2007] • 5 分離ステージ 学習ステージ 学習ステージで得た目的音 の基底行列 目的音の 基底行列 その他の基底 分離目的音のサンプ ル音(教師音) 𝒀 𝑿 𝑭 𝑭 𝑸 は固定し , , のみ求める 𝑭 目的音源の基底行列のみをあらかじめ学習
7.
SNMFにおける問題点 6 分離ステージ 学習ステージ 目的音の 基底行列 𝒀 𝑿 𝑭 𝑭 𝑸 • 似たような音はどちらの行列にも入りうる 混入
8.
問題点の改善法 と を直交に近づける直交化罰則項を与える 7 • 直交化罰則条件付きSNMF(Penalized
SNMF: PSNMF) [D. Kitamura, et al., 2014] 直交化罰則項 事前学習した目的音源の基底 重み係数 類似させない
9.
PSNMFの問題点 8 ① ① ② • ①と②を両方ともに小さくする
を求める ( は定数) • ②は を0行列に近づけるだけで小さくなる ①
10.
提案手法:PSNMFの再定式化 • コサイン類似度に基づくPSNMF ⁃ コサイン類似度を罰則条件としてSNMFに付与 9 コサイン類似度 −
コサイン類似度の対数和を付与 − コサイン類似度は全スペクトル総当たりで求める コスト関数:
11.
更新式の導出 • 各変数の更新式 10
12.
実験条件 11 使用する楽器 公開データセット(songKitamura)より オーボエ (Ob.),
トランペット (Tp.), ホルン (Hr.), フルート (Fl.), ヴァイオリン (Vn.), クラリネット (Cl.), ピアノ (Pf.), チェロ (Vc.),ハープシコード (Hp.), トロンボーン (Tb.), ファゴット (Fg.) 楽器の組み合わせ 数 2楽器の混合信号を90個 2オクターブの上昇音階 Ob. or Tp. or Hr. Fl. or Cl. or Vn. Pf. or Hp. Fg. or Tb. or Vc. メロディーパート
13.
実験結果 12 • 従来手法との比較 − Fg.
と Hp. の混合音 − Tb. と Pf.の混合音 0 1 2 3 4 5 6 7 8 0.001 0.01 0.1 1 10 100 1000 10000 SDR [dB] 重み係数 従来手法 提案手法 3 4 5 6 7 8 9 0.001 0.01 0.1 1 10 100 1000 10000 SDR [dB] 重み係数 従来手法 提案手法
14.
実験結果 13 − Fl. と
Hp. の混合音 手法 平均値 [dB] 中央値 [dB] SNMF (μ=0) 6.09 5.73 直交化に基づく PSNMF 8.51 7.91 コサイン類似度に 基づくPSNMF 8.73 8.22 0 0.5 1 1.5 2 2.5 3 3.5 4 0.001 0.01 0.1 1 10 100 100010000 SDR [dB] 重み係数 従来手法 提案手法
15.
まとめ・今後の課題 • まとめ • 課題 14 –
従来手法より高い分離精度が達成できた – 重み係数の最適値がピーキー – 多くの混合音で重み係数の値が1~50の範囲で最大値をとる – 提案手法を実用的にするためには,楽器ごとに SDR値が最大となる重み係数の傾向を掴む必要がある
16.
FAQ 15
Editor's Notes
今からこのような題目で北村研究室の岩瀬佑太が発表をしていきます。
まず、音源分離とは、混合された観測信号から個々の音源の信号を抽出・分離する技術であり主に音声認識や自動採譜といったものに利用されています。 さらに、図のような音楽信号であるオーケストラのような複数の楽器が演奏されている状況から特定の楽器のメロディーのみを抽出するといった活用法があります。 本研究ではNMFを用いた手法を議論の対象として発表します。
その前に音響信号における基本的な変換を説明します。 短時間フーリエ変換を適用して得られる非負値観測行列を扱うことが一般的です。 時間波形を短いフーリエ変換長に分割し,窓関数を乗ずることで離散フーリエ変換を適用します。この処理を任意の時間ごとに行うことにより,時間と周波数の情報を持つ二次元信号が得られます。