調波打撃音モデルに基づく線形多チャネルブラインド音源分離

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
調波打撃音モデルに基づく
線形多チャネル音源分離
Linear multichannel blind source separation
based on harmonic/percussive sound model
AS2 7番 大藪宗一郎
北村研究室
令和3年度 創造工学専攻2年 特別研究Ⅱ中間発表会
音源分離とは
• 音源分離(audio source separation)
– 音響メディアを対象とした信号処理技術
– ある混合音源を音声,楽器音及び雑音などに分離
– 今回は調波音と打撃音の特徴に着目
音楽信号の解析(コード,テンポ,音階の推定)に応用が可能
2
混合信号 分離信号
音の時間周波数変換
• 短時間フーリエ変換(short-time Fourier transform: STFT)
– 一次元(時間)の信号を二次元(時間と周波数)の信号に変換
3
時間領域
窓関数
フーリエ変換長
シフト長
時間周波数領域
時間波形
…
スペクトログラム
複素数要素を持つ行列
周波数
時間
…
X
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
混合系
ブラインド音源分離
• ブラインド音源分離 (blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– 優決定BSS(マイク数≧分離音源数)
• 混合系が正方行列にできるので逆行列が定義可能
• 線形分離が可能なため分離音の音質が良い
– 劣決定BSS(マイク数<分離音源数)
• 混合系が正方行列にならないため逆行列が定義できない
• 線形分離が不可能なため分離音の音質が悪い
4
BSS
分離系
例. 独立ベクトル分析 (IVA) [T. Kim et al, 2007]
例. 独立低ランク行列分析 (ILRMA) [D. Kitamura et al., 2018]
例. 時間周波数マスクに基づくBSS (TFMBSS) [K. Yatabe and D. Kitamura, 2019]
低音質
高音質
例. 最適化型調波打撃音分離 (OHPSS) [N. Ono et al., 2008]
例. メディアン型調波打撃音分離 (MHPSS) [D. FitzGerald, 2010]
BSSにおける音源モデル
• 音源モデル:混合前の各音源の時間周波数構造
– 独立ベクトル分析 (IVA)
• 同じ音源の周波数成分は
同じ時間に生起することを仮定
• 優決定BSSで線形分離が可能
– 独立低ランク行列分析 (ILRMA)
• 低ランク時間周波数構造を仮定
(同じスペクトルの繰り返しが多い)
• 優決定BSSで線形分離が可能
– 調波打撃音分離 (HPSS)
• 時間方向に連続な音源
と周波数方向に連続な音源を仮定
• 劣決定BSSなので非線形
5
周波数
周波数
周波数
時間
時間
時間
音源2
音源1
TFMBSS [K. Yatabe and D. Kitamura, 2019]
• 時間周波数マスクに基づくBSS (TFMBSS)
– 様々な音源モデルに入れ替え可能なフレームワーク
– 時間周波数マスクで表現される音源モデルに基づいた線形な
優決定BSS
6
時間 [s]
周波数
[Hz]
何らかの音源モデルから
時間周波数マスクを構築
線形優決定BSSに
plug-and-playで活用可能
赤の音源の部分を”1”それ以外を”0”とするようなマスク
OHPSS [N. Ono et al., 2008]
• 最適化に基づく調波打撃音分離 (OHPSS)
– スペクトログラムの周波数,時間方向の滑らかさを関数として
定義し,最適化により分離信号を推定する手法
– 以下のコスト関数を反復更新により最小化しHとPを推定
– 計算量が多い
7
混合行列
time
frequency
打撃成分行列 調波成分行列
打撃成分
調波成分
MHPSS [D. FitzGerald, 2010]
• メディアンフィルタに基づく調波打撃音分離 (MHPSS)
– 時間または周波数方向にメディアンをとることで,各方向の滑ら
かさを強調した分離信号を推定するモノラル音源分離
– 時間・周波数方向にそれぞれ移動メディアンフィルタを適用
– 計算量が少ない
8
混合行列
time
frequency
打撃成分行列 調波成分行列
周波数方向に
メディアンを取る
時間方向に
メディアンを取る
提案アルゴリズム [S. Oyabu et al., 2021]
9
観測信号
逆STFT
STFT
HPSS
HPSS
過去のマスク
打撃分離信号
調波分離信号
時間周波数
マスク
TFMBSS
スムージング
されたマスク
Ch 1
Ch 2
調波音の
一時分離信号
Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
Time
Frequency
Time
打撃音の
一時分離信号
スムージング
スムージング
実験条件
• 実験条件
10
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2チャンネルで2音源の混合信号
サンプリング周波数16kHz,約10秒の音源
窓長(FFT長) 128 ms,ハン窓
シフト長 64 ms (1/2シフト)
反復回数(TFMBSS) 500回
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
OHPSSの反復回数 15回
MHPSSのフィルタ長 19点
2 m
5.66cm
50 50
調波音源
(ピアノ,ギターなど曲に依存)
Impulse response E2A
(reverberation time: 300 ms)
ドラム音源
• マスクのスムージングにおける影響
– スムージング処理の有用性を検証
– スムージングパラメータを変化させ,分離性能及び収束挙動を
確認
実験1の概要
11
TFMBSSにおける反復回数
実験1の実験結果(OHPSSモデル)
12
SDR改善量
[dB]
• 既存手法のBSSとの分離性能比較
変化小
変化大
実験1の実験結果(MHPSSモデル)
13
• 既存手法のBSSとの分離性能比較
TFMBSSにおける反復回数
SDR改善量
[dB]
変化小
変化大
• OHPSSモデルとMHPSSモデルの比較
– OHPSSモデルとMHPSSモデルを分離性能・速度の観点で
比較
実験2の概要
14
HPSS音源モデル
- OHPSS
- MHPSS
• 既提案のOHPSSモデルとの比較結果
実験2の実験結果
15
15
0
2
4
6
8
10
12
0 20 40 60 80 100 120 140
平均SDR改善量
[dB]
時間 [秒]
従来手法
提案手法
OHPSSモデル
MHPSSモデル
実験3の実験結果
16
• 既存のBSS手法との分離性能比較
マルチ
チャネル
HPSS
(推奨値)
単チャネル
MHPSS
マルチ
チャネル
HPSS
(調整値)
AuxIVA ILRMA MHPSS
モデル
OHPSS
モデル
単チャネル
OHPSS
平均
SDR
改善量
[dB]
20
16
18
14
12
10
6
8
4
2
-2
0
-4
優決定(線形)
劣決定(非線形)
デモンストレーション
17
• 実際の分離音源
観測信号
劣決定
OHPSS
劣決定
MHPSS
提案手法
TFMBSS
+
OHPSS
提案手法
TFMBSS
+
MHPSS
線形
推定した打撃分離音
推定した調波分離音
非線形
総括・今後の予定
• 本研究における新規性
– 従来の劣決定音源分離手法を優決定な条件で実現
– マスク生成アルゴリズムの提案
– 調波打撃音モデルの比較
• 実験結果
– パラメータの最適化
– 既存のBSSとの比較で分離性能の向上を確認
• 研究業績
18
大藪宗一郎, 北村大地, 矢田部浩平, "調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離,“
日本音響学会 2020年春季研究発表会講演論文集, 3-1-16, pp. 313–316, 埼玉, 2020年3月(査読無).
大藪宗一郎, 北村大地, 矢田部浩平, "調波打撃音分離の排他的マスキングに基づくブラインド音源分離,“
日本音響学会 2020年秋季研究発表会講演論文集, 2-R2-11, pp. 283–286, 宮城, 2020年9月(査読無).
大藪宗一郎, 北村大地, 矢田部浩平, "メディアン型HPSSを用いた時間周波数マスクに基づくブラインド音源分離,"
日本音響学会 2021年春季研究発表会講演論文集, 2-1Q-18, pp. 411–414, 東京, 2021年3月(査読無).
Soichiro Oyabu, Daichi Kitamura, and Kohei Yatabe, "Linear multichannel blind source separation based on
time-frequency mask obtained by harmonic/percussive sound separation," Proceedings of IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP 2021), pp. 201–205, Tronto, Canada, June
2021.
1 of 18

Recommended

調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
263 views17 slides
独立低ランク行列分析に基づく音源分離とその発展 by
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
205 views91 slides
深層パーミュテーション解決法の基礎的検討 by
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
143 views15 slides
音楽信号処理における基本周波数推定を応用した心拍信号解析 by
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
426 views21 slides
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea... by
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
861 views28 slides
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
5.9K views74 slides

More Related Content

What's hot

コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用 by
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用Kitamura Laboratory
142 views16 slides
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
2.1K views15 slides
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
192 views19 slides
ILRMA 20170227 danwakai by
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakaiSaruwatariLabUTokyo
14.7K views73 slides
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
1.8K views24 slides
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
5.9K views27 slides

What's hot(20)

コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用 by Kitamura Laboratory
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura2.1K views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura1.8K views
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura5.9K views
信号の独立性に基づく多チャンネル音源分離 by NU_I_TODALAB
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB393 views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura4.1K views
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by Naoya Takahashi
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi1K views
Music signal separation using supervised nonnegative matrix factorization wit... by Daichi Kitamura
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
Daichi Kitamura985 views
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura2.9K views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト by NU_I_TODALAB
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
NU_I_TODALAB774 views
付け爪型センサを用いたケプストラム分析及びMUSIC法に基づく心拍推定 by Kitamura Laboratory
付け爪型センサを用いたケプストラム分析及びMUSIC法に基づく心拍推定付け爪型センサを用いたケプストラム分析及びMUSIC法に基づく心拍推定
付け爪型センサを用いたケプストラム分析及びMUSIC法に基づく心拍推定
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura1.5K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura4.3K views
音声信号の分析と加工 - 音声を自在に変換するには? by NU_I_TODALAB
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB2.8K views
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB14.1K views
音情報処理における特徴表現 by NU_I_TODALAB
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB6.2K views
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 by Daichi Kitamura
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura1.1K views

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
70 views26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
67 views23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
40 views17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
79 views19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
43 views17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
52 views32 slides

More from Kitamura Laboratory(20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by Kitamura Laboratory
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析

Recently uploaded

概要.pdf by
概要.pdf概要.pdf
概要.pdfTaira Shimizu
6 views1 slide
onewedge_companyguide1 by
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1ONEWEDGE1
54 views22 slides
Najah Matsuo Self Introduction by
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self IntroductionNajahMatsuo
10 views29 slides
システム概要.pdf by
システム概要.pdfシステム概要.pdf
システム概要.pdfTaira Shimizu
44 views1 slide
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私修治 松浦
208 views36 slides
SSH超入門 by
SSH超入門SSH超入門
SSH超入門Toru Miyahara
457 views21 slides

Recently uploaded(6)

onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1
ONEWEDGE154 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self Introduction
NajahMatsuo10 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦208 views

調波打撃音モデルに基づく線形多チャネルブラインド音源分離

Editor's Notes

  1. 1
  2. 今日,音響信号をインプットとしたような機器の普及などに伴い音源分離技術のニーズは高まっています. 音源分離とは,音響メディアを対象とした信号処理技術であり,混合音源を音声,楽器音及び雑音などに分離する技術です. 本研究では特に,楽器ごとの音の特徴に着目して音階を持った調波音,音階を持たない打撃音に分離することを目的としています. こういった分離は,音楽信号の解析,例えばコード・テンポ・音階等の推定などに応用ができます.
  3. そして,音源分離という信号処理分野においての一般的な変換について解説します. 観測した時間信号から任意のフーリエ変換長分,離散フーリエ変換し一本のベクトルを生成します.(クリック)そしてもう一本(クリック)もう一本(クリック)というように 時間軸上に並べることで複素数要素を持った時間周波数表現であるスペクトログラムが生成されます.音源分離においては,このスペクトログラムを信号処理の対象とするのが一般的です. 次に,音源分離の中でも研究が盛んであるブラインド音源分離について解説します.
  4. ブラインド音源分離とはマイクや音源の位置などの事前情報が未知という状態から 例えば、図のような2つのマイクから観測したときの混ざり方、混合系Aの逆である分離系Wを推定するという音源分離手法です. 特に,BSSの中でも観測であるマイクの数が分離音源数以上の場合を優決定BSS,マイクの数が分離音源数未満である場合を劣決定BSSと言います. 優決定BSSにはIVA,ILRMA,TFMBSSなどが挙げられます. 劣決定BSSにはHPSSなどが挙げられます. 優決定BSSでは混合系が正方行列にできるので,未知の混合行列の逆行列を推定できれば,逆行列をかけるという計算で分離可能になります. ここで行列の乗算は線形変換なので線形な分離であると言えます.よって分離音は高音質になります. 劣決定BSSでは混合系が正方行列にならないため,線形な分離ができず分離音は低音質になってしまいます.
  5. そして先ほど紹介したBSSには音源モデルに基づくいた手法が多く提案されています. 音源モデルというのは混合前の音源の時間周波数構造に関する仮定です. 例えばILRMAであれば,低ランク時間周波数構造を仮定 というように各手法それぞれに仮定する音源モデルが存在します. IVA, ILRMAは,先ほども紹介した通り,優決定BSSであるため線形分離が可能ですが, HPSSは劣決定BSSであるため分離信号に人工歪みが発生してしまいます. そこで,本研究ではHPSSの音源モデルを用いた線形な分離を目的としています.
  6. この研究目的を達成するために本研究で使用している, 時間周波数マスクに基づくBSS TFMBSSというフレームワークを紹介します. このフレームワークは時間周波数マスクで表現される音源モデルを仮定しています. ここで,時間周波数マスクについて少し解説しておきます. 図のように,赤,青2つの音源からなる混合信号に対し 赤の音源の部分を1それ以外を0とするような行列を時間周波数マスクと言います.(クリック) TFMBSSでは,このような時間周波数マスクがBSSから構築できれば, そのBSSが持つ音源モデルに沿った線形分離が達成可能です. 加えて,時間周波数マスクを音源モデルとして仮定しているため, 様々なBSSに基づく音源モデルを入れ替えて活用が可能なフレームワークと言えます.
  7. 本発表では,TFMBSSの音源モデルとして2種類のHPSSを活用しています. その内の一つとして,最適化に基づくHPSS(OHPSS)について解説します. OHPSSは,スペクトログラムの周波数,時間方向の滑らかさを最適化問題として定義し,このコスト関数を最小化することで分離信号を推定する手法です. OHPSSは分離モデルに沿って強力に分離しますが非線形処理であるため,人工歪みが目立つことがあります.
  8. そして,もう片方のHPSSである,メディアンフィルタに基づくHPSS(MHPSS)について解説します. MHPSSは,打撃成分であれば周波数方向に,調波成分であれば時間方向に移動メディアンフィルタを取ることで軸方向の滑らかさを強調し分離信号を推定する手法です. この手法はただ,任意の点数でメディアンを取るだけの非線形処理であるため,先程のOHPSS同様,人工歪みが目立つことがあります. これら2種類のHPSSをTFMBSSの音源モデルとして活用することで,単一チャネルHPSSとTFMBSSの統合アルゴリズムを新たに提案します. 本発表では,この提案アルゴリズムによって,調波音と打撃音の線形な分離を目的としています.
  9. 次に,提案フレームワークのアルゴリズムを紹介します. ブロック図より,まず観測信号をSTFTして,その後TFMBSSに取り込まれます. ここから生成された,調波成分に対応する中間変数zH,打撃成分に対応するzPのそれぞれが, 2つの別のHPSSに観測として取り込まれ調波成分と打撃成分に分離されます. この時,HPSSブロックでは,OHPSSまたはMHPSSのいずれかを選択して適用しています. ここから,これらの分離成分を用いてそれぞれマスクを作成することによって, 分離途中のzH,zPの中に存在するそれぞれの不必要な信号成分を取り除いていきます. そして過去のマスクとスムージングを施し,新しくマスクを得ます. これをTFMBSSに返すという動作を任意の反復回数繰り返した後, 逆STFTで時間信号に変換し線形な調波信号,打撃信号を得るという流れになります.
  10. これらを踏まえて,音楽信号の分離実験を行った結果を紹介します. まず実験条件として,実験対象は,下のような状況で録音された混合音源です. TFMBSSにおける反復回数は500回です. 主観評価指標としてはSDR改善量を用います. OHPSSの反復更新回数は15回で,MHPSSのメディアンフィルタサイズは19点です. 以降の実験では,OHPSSを音源モデルとして活用したTFMBSSをOHPSSモデル, MHPSSを活用した場合をMHPSSモデルと呼びます.
  11. 1つ目の実験では,マスクのスムージング度合いによって分離性能及び収束挙動がどう変化するかを確認します. この実験を,OHPSSモデル及びMHPSSモデルそれぞれにおいて行います.
  12. OHPSSモデルにおける,実験1の結果です. 縦軸は分離性能を表すSDR改善量であり,横軸はTFMBSSにおける反復回数です. 図は,実験対象とした楽曲のうち,ある1曲の反復毎のSDRの推移になります. 線の色が薄いほど反復間のマスクの変化が大きく,線の色が濃いほどマスクの変化が小さいと言えます. 結果から,スムージングをかけない場合,安定して収束していませんが, 適切なパラメータでスムージングすると安定して収束することが確認できます.
  13. MHPSSモデルにおける,実験1の結果です. 同じく,縦軸は分離性能を表すSDR改善量,横軸はTFMBSSにおける反復回数であり, ある1曲の反復毎のSDRの推移になります. 結果から,OHPSSモデル同様に,スムージングをかけない場合,安定して収束していませんが, 適切なパラメータでスムージングすると安定して収束することが確認できます. 従って,マスクのスムージングはマスク生成に用いる手法に依存しない安定化手法であることも言えます. 以降の実験では,βoldを0.75として進めていきます.
  14. 2つ目の実験では,OHPSSモデルとMHPSSモデルの性能比較を行います.
  15. 実験2の結果です. 縦軸は分離性能を表すSDR改善量の20曲平均であり,横軸は分離に要する時間になっています. 理想的には,分離に要する時間が少なく分離性能が高いことが望ましいです. 要するに,左上にいくほど良いということになります. 結果から,OHPSSモデルでは,収束は早いのに対して平均的な性能は低く, MHPSSモデルでは,収束は遅いのに対して平均的な性能は高いことが分かります.
  16. 3つ目の実験では,既存のBSS手法との分離性能比較を行います. 縦軸は実験2と同じく平均SDR改善量で,横軸は各手法を示しています. 左の3手法は劣決定BSS,右の4手法は優決定BSSなので, 右の4手法の方が分離性能が非常に良いことは明らかです. この事からも,優決定条件での音源分離を実現する有用性は分かっていただけると思います. さらに,優決定BSSの4手法で比較しても, 提案アルゴリズムの分離性能が勝っていると言えます. OHPSSモデルとMHPSSモデルとの比較では, 中央値で見ると,OHPSSに分があると言えます. 先程の実験2の結果と併せて考えると,どちらのモデルも一長一短と言えるかなと思います. よって,状況に応じてどちらも最適な手法になり得ると考えます.
  17. 最後に実際に用意した分離音を聴いていただきます. 分離した音源は低音質である非線形分離手法を先に聴いてもらって, 高音質な線形分離手法を後に流します.これを調波音打撃音それぞれ流します. (説明追加とスライド上に線形・非線形の文字追加) まず分離前の混合音から… 次に分離された調波音源… そして打撃音源… このように提案アルゴリズムでは,既存の劣決定HPSSに比べて線形な分離が達成されていることが わかって頂けるかなと思います.
  18. 最後に総括としまして, 従来の劣決定音源分離手法を優決定な条件で実現するアルゴリズムを提案し, MHPSSモデルとOHPSSモデルの性能比較を行いました. さらに,既存のBSSとの性能比較も行いました. 実験結果として, OHPSSとMHPSSが持つ音源モデルの特徴を明らかとし, 既存のBSSと比較して分離性能の向上を確認しました. 以上で発表を終わります. (総括はこのようになっています.以上で発表を終わります.)
  19. 次に,提案フレームワークのアルゴリズムを紹介します. ブロック図より,まず観測信号をSTFTして,その後TFMBSSに取り込まれます. ここから生成された,調波成分に対応する中間変数zH,打撃成分に対応するzPのそれぞれが, 2つの別のHPSSに観測として取り込まれ調波成分と打撃成分に分離されます. この時,HPSSブロックでは,OHPSSまたはMHPSSのいずれかを選択して適用しています. ここからそれぞれマスクを作成することによって,分離途中のzH,zPの中に存在するそれぞれの不必要な信号成分を取り除いていきます. そして過去のマスクとスムージングを施し,新しくマスクを得ます. これをTFMBSSに返すという動作を任意の反復回数繰り返した後,逆STFTで時間信号に変換し線形な打撃信号,調波信号を得えるという流れになります.
  20. 次に,提案フレームワークのアルゴリズムを紹介します. ブロック図より,まず観測信号をSTFTして,その後TFMBSSに取り込まれます. ここから生成された,調波成分に対応する中間変数zH,打撃成分に対応するzPのそれぞれが, 2つの別のHPSSに観測として取り込まれ調波成分と打撃成分に分離されます. この時,HPSSブロックでは,OHPSSまたはMHPSSのいずれかを選択して適用しています. ここからそれぞれマスクを作成することによって,分離途中のzH,zPの中に存在するそれぞれの不必要な信号成分を取り除いていきます. そして過去のマスクとスムージングを施し,新しくマスクを得ます. これをTFMBSSに返すという動作を任意の反復回数繰り返した後,逆STFTで時間信号に変換し線形な打撃信号,調波信号を得えるという流れになります.
  21. スムージングの詳細
  22. 1つ目の実験では,MHPSS内のメディアンフィルタの点数によって分離性能がどう変化するかを確認します.
  23. 実験1の結果です. 縦軸は分離性能を表すSDR改善量の20曲平均であり,横軸はメディアンフィルタの点数です. 結果から,13~21点の間で平均的に高性能と言えます. 以降の実験の点数は一番高性能であった17として進めます.
  24. 2つ目の実験では,MHPSS内のメディアンフィルタの点数によって分離性能がどう変化するかを確認します.
  25. 実験2の結果です. 縦軸は実験1と同じく平均SDR改善量であり,横軸はメディアンフィルタの点数です. 結果から,13~21点の間で平均的に高性能と言えます. 以降の実験の点数は一番高性能であった17として進めます.