SlideShare a Scribd company logo
Submit Search
Upload
多重解像度時間周波数表現に基づく独立低ランク行列分析,
Report
Share
Kitamura Laboratory
Kitamura Laboratory
Follow
•
0 likes
•
130 views
1
of
14
多重解像度時間周波数表現に基づく独立低ランク行列分析,
•
0 likes
•
130 views
Report
Share
Download Now
Download to read offline
Engineering
細谷泰稚, "多重解像度時間周波数表現に基づく独立低ランク行列分析," 香川高等専門学校電気情報工学科 卒業研究論文, 55 pages, 2022年2月.
Read more
Kitamura Laboratory
Kitamura Laboratory
Follow
Recommended
深層パーミュテーション解決法の基礎的検討 by
深層パーミュテーション解決法の基礎的検討
Kitamura Laboratory
141 views
•
15 slides
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by
スペクトログラム無矛盾性に基づく独立低ランク行列分析
Kitamura Laboratory
160 views
•
19 slides
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
Kitamura Laboratory
82 views
•
24 slides
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
Kitamura Laboratory
261 views
•
17 slides
深層学習に基づく音響帯域拡張による音源分離処理の高速化 by
深層学習に基づく音響帯域拡張による音源分離処理の高速化
Kitamura Laboratory
108 views
•
16 slides
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化 by
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
Kitamura Laboratory
183 views
•
15 slides
More Related Content
What's hot
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
4.1K views
•
26 slides
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura
1.7K views
•
22 slides
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
1.8K views
•
24 slides
非負値行列因子分解を用いた被り音の抑圧 by
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
133 views
•
33 slides
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
2.1K views
•
15 slides
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
5.9K views
•
74 slides
What's hot
(20)
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
•
4.1K views
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura
•
1.7K views
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura
•
1.8K views
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
•
133 views
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
•
2.1K views
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
•
5.9K views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
•
1.5K views
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
Kitamura Laboratory
•
61 views
音源分離における音響モデリング(Acoustic modeling in audio source separation) by Daichi Kitamura
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
•
22.5K views
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
•
407 views
ILRMA 20170227 danwakai by SaruwatariLabUTokyo
ILRMA 20170227 danwakai
SaruwatariLabUTokyo
•
14.7K views
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by Daichi Kitamura
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Daichi Kitamura
•
1.2K views
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
•
5.9K views
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
•
5.9K views
Kameoka2017 ieice03 by kame_hirokazu
Kameoka2017 ieice03
kame_hirokazu
•
2.7K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura
•
4.3K views
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura
•
2.9K views
Asj2017 3invited by SaruwatariLabUTokyo
Asj2017 3invited
SaruwatariLabUTokyo
•
15.5K views
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ by Yui Sudo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
•
1.5K views
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura
•
3.5K views
Similar to 多重解像度時間周波数表現に基づく独立低ランク行列分析,
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
46 views
•
32 slides
招待講演(鶴岡) by
招待講演(鶴岡)
nozomuhamada
1.1K views
•
101 slides
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
59 views
•
35 slides
Ieice中国地区 by
Ieice中国地区
nozomuhamada
1.2K views
•
136 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
79 views
•
19 slides
独立低ランク行列分析に基づく音源分離とその発展 by
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
190 views
•
91 slides
Similar to 多重解像度時間周波数表現に基づく独立低ランク行列分析,
(10)
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法
Kitamura Laboratory
•
46 views
招待講演(鶴岡) by nozomuhamada
招待講演(鶴岡)
nozomuhamada
•
1.1K views
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
Kitamura Laboratory
•
59 views
Ieice中国地区 by nozomuhamada
Ieice中国地区
nozomuhamada
•
1.2K views
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離
Kitamura Laboratory
•
79 views
独立低ランク行列分析に基づく音源分離とその発展 by Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展
Kitamura Laboratory
•
190 views
Deep learning ultrasonic by Yoshiro Suzuki
Deep learning ultrasonic
Yoshiro Suzuki
•
1.1K views
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響 by Keiichi Yasu
加齢による聴覚特性の劣化が摩擦音・破擦音の識別に及ぼす影響
Keiichi Yasu
•
2.4K views
立体音響とインタラクション by Ryohei Suzuki
立体音響とインタラクション
Ryohei Suzuki
•
3.7K views
Study on optimal divergence for superresolution-based supervised nonnegative ... by Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura
•
1K views
More from Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
69 views
•
26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
65 views
•
23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
39 views
•
17 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
43 views
•
17 slides
Heart rate estimation of car driver using radar sensors and blind source sepa... by
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
62 views
•
23 slides
DNN-based frequency-domain permutation solver for multichannel audio source s... by
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
29 views
•
27 slides
More from Kitamura Laboratory
(19)
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
Kitamura Laboratory
•
69 views
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
Kitamura Laboratory
•
65 views
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズム
Kitamura Laboratory
•
39 views
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Kitamura Laboratory
•
43 views
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...
Kitamura Laboratory
•
62 views
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...
Kitamura Laboratory
•
29 views
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
Kitamura Laboratory
•
106 views
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Kitamura Laboratory
•
407 views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
Kitamura Laboratory
•
126 views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Kitamura Laboratory
•
188 views
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...
Kitamura Laboratory
•
125 views
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...
Kitamura Laboratory
•
99 views
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure models
Kitamura Laboratory
•
311 views
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測
Kitamura Laboratory
•
177 views
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム
Kitamura Laboratory
•
96 views
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
Kitamura Laboratory
•
74 views
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用 by Kitamura Laboratory
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
Kitamura Laboratory
•
141 views
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発 by Kitamura Laboratory
ユーザーからの補助情報を用いるインタラクティブ音源分離システムの開発
Kitamura Laboratory
•
65 views
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離 by Kitamura Laboratory
一般化ガウス分布に基づく非負値行列因子分解を用いた音楽音源分離
Kitamura Laboratory
•
133 views
Recently uploaded
lt.pptx by
lt.pptx
tomochamarika
50 views
•
13 slides
how query cost affects search behavior translated in JP by
how query cost affects search behavior translated in JP
Tobioka Ken
9 views
•
16 slides
robotics42.pptx by
robotics42.pptx
Natsutani Minoru
166 views
•
18 slides
SSH超入門 by
SSH超入門
Toru Miyahara
48 views
•
21 slides
3Dプリンタでロボット作るよ#1_黎明編 by
3Dプリンタでロボット作るよ#1_黎明編
Yoshihiro Shibata
19 views
•
7 slides
図解で理解するvetKD by
図解で理解するvetKD
ryoo toku
84 views
•
22 slides
Recently uploaded
(8)
lt.pptx by tomochamarika
lt.pptx
tomochamarika
•
50 views
how query cost affects search behavior translated in JP by Tobioka Ken
how query cost affects search behavior translated in JP
Tobioka Ken
•
9 views
robotics42.pptx by Natsutani Minoru
robotics42.pptx
Natsutani Minoru
•
166 views
SSH超入門 by Toru Miyahara
SSH超入門
Toru Miyahara
•
48 views
3Dプリンタでロボット作るよ#1_黎明編 by Yoshihiro Shibata
3Dプリンタでロボット作るよ#1_黎明編
Yoshihiro Shibata
•
19 views
図解で理解するvetKD by ryoo toku
図解で理解するvetKD
ryoo toku
•
84 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self Introduction
NajahMatsuo
•
7 views
AIで始めるRustプログラミング #SolDevHub by K Kinzal
AIで始めるRustプログラミング #SolDevHub
K Kinzal
•
20 views
多重解像度時間周波数表現に基づく独立低ランク行列分析,
1.
香川高等専門学校 電気情報工学科 卒業研究発表会 2022/3/2
15:00-15:15 多重解像度時間周波数表現に基づく 独立低ランク行列分析 Independent low-rank matrix analysis based on multi-resolution time-frequency representations 細谷泰稚(北村研究室)
2.
2 研究の背景 • 音源分離 – 複数の音源が混合した信号から個々の音源信号を推定 •
音源分離の応用例 – 音源の雑音除去(補聴器デバイス) – 音楽から楽器毎の楽譜を作成(自動採譜) – 音声認識 推定した音源信号 観測した混合信号 音源信号
3.
3 研究の背景 • ブラインド音源分離(blind source
separation: BSS) – 元の音源信号や音源の混ざり合い方(混合系)は未知 • マイクの配置や音源位置等の事前情報が不明=ブラインド – 混合系 の逆系である分離系 の推定を行う • 代表的な従来手法 – 独立成分分析(ICA) [Comon, 1994] – 独立ベクトル分析(IVA) [Kim+, 2007] – 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 推定した音源信号 観測した混合信号 音源信号(未知) ? ? ? 混合系 (未知) 分離系 (推定) 本研究の対象
4.
4 研究の背景(事前説明) • 短時間Fourier変換(STFT) – 一定の時間毎に信号を切り出し,窓関数を掛けて,離散 Fourier変換を適用 –
時間的に変化する音色(スペクトル)を表現 時間周波数領域 周波数 時間 スペクトログラム 複素数要素を持つ行列 パワースペクトログラム 非負(ゼロ以上)の実数要素の行列 要素毎の 絶対値二乗 時間領域 窓関数 シフト長 窓長 時間波形 離散 Fourier 変換
5.
5 研究の背景(事前説明) • スペクトログラムの例 – 窓長の変化に伴い,時間周波数解像度も変化 短い窓長(32ms)に対する パワースペクトログラム 長い窓長(256ms)に対する パワースペクトログラム 時間解像度:高 周波数解像度:低 時間解像度:低 周波数解像度:高
6.
6 研究の背景 • 独立低ランク行列分析(ILRMA)[Kitamura+, 2016] –
以下の1.と2.の最適化を交互に行う 1. 空間モデルの最適化 • 分離信号が「互いに独立」かつ「低ランクな時間周波数構造」を持つよう に分離行列 を更新 2. 音源モデルの最適化 • 非負値行列因子分解(NMF)[Lee, 1999]により、分離信号の時間周波数 構造(パワースペクトログラム) を2つの行列 及び の積で低 ランク近似 観測信号 空間モデル 分離信号 Time Frequency Frequency Time 分離信号が「互いに独立」かつ 「低ランクな時間周波数構造」を持つように更新 STFT NMFによる低ランク近似
7.
7 研究の動機 • 過去の実験的な調査より,下記の事実が分かっている – 空間モデル
の最適化 • STFTの窓長は観測信号の残響時間よりも十分長くあるべき – 音源モデル , の最適化 • STFTの窓長はスペクトログラムの近似精度を左右する – 「音源モデルでの最適な窓長」と「空間モデルでの最適な窓長」 は互いに異なっている可能性がある – しかし,従来のILRMAでは二つのモデルの窓長は同一
8.
8 提案手法の説明 • 多重解像度時間周波数表現に基づくILRMA – ILRMAの空間モデル及び音源モデルにおける(見かけ上の) 窓長をそれぞれ独立して設定可能な手法 –
各モデルにそれぞれ独立した解像度の時間周波数表現を導入 空間モデルの最適化 分離信号 の更新 , の更新 , の更新 混合信号 音源モデルの最適化 音源モデル 二つのモデルで 窓長を独立させる
9.
9 提案手法の説明 • 窓長の変更方法 – STFTで短時間信号に掛ける窓関数の有効幅を設定 •
細い幅の窓関数:短い窓長での時間周波数表現 • 太い幅の窓関数:長い窓長での時間周波数表現 観測信号 見かけ上の窓長 区間信号に対して 太い幅の窓関数を乗じた信号 細い幅の窓関数 見かけ上の窓長 区間信号に対して 細い幅の窓関数を乗じた信号 太い幅の窓関数 窓長
10.
10 提案手法の説明 • 使用する窓関数 – Chebyshev窓 •
「サイドローブレベル」というパラメタにより,時間領域での窓関数の有効 幅を変更可能 • 上記のパラメタの増加に伴い,窓関数の有効幅は細くなる サイドローブレベル:小 窓の有効幅:太い サイドローブレベル:大 窓の有効幅:細い
11.
11 実験条件 • インパルス応答E2Aによって2音源の畳み込み混合を行 い,10曲分の混合音源を生成 • 評価指標は信号対歪み比(SDR)[Vincent+,
2006]の改善量 であるSDRiを用いた – 10回の試行により得られたSDRiの平均値で評価 窓長 256ms(4096点) シフト長 32ms(512点,窓長の1/8) 空間モデル,音源モデルの 窓のサイドローブレベル {20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 150, 200, 300, 500, 700, 1000, 1500, 2000, 3000} NMFの基底数 10 初期値 : 単位行列 及び : 乱数行列 反復回数 200回 試行回数 異なる乱数シードで10回
12.
12 • ドラムとボーカルの混合音源に対する平均SDRi 実験結果 Good Poor Average SDRi 空間モデルのサイドローブレベル [dB] 40
50 60 70 80 90 100 120 150 200 500 1000 1500 音源モデルの サイドローブレベル [dB] 40 50 60 70 80 90 100 120 150 200 500 1000 1500 窓の有効幅 細い 太い 窓 の 有 効 幅 太 い 細 い 1.32 8.62 5.02 4.58 4.60 4.61 4.68 4.78 4.94 4.80 5.79 5.56 5.03 1.93 10.03 10.07 10.10 10.37 10.25 10.21 10.25 10.00 9.87 9.81 9.90 9.42 2.06 1.77 12.19 10.13 7.60 7.88 8.63 9.02 9.32 10.00 9.32 10.63 8.02 1.78 1.05 13.64 6.33 5.81 5.54 5.09 4.91 3.86 3.40 6.51 9.54 7.03 1.58 -0.17 14.25 8.07 5.86 6.80 5.84 4.50 4.61 3.51 4.87 6.48 6.99 1.35 0.74 9.63 13.17 3.78 5.45 5.57 4.30 3.98 3.30 4.45 6.62 6.20 -0.12 1.38 9.78 8.21 10.59 4.74 4.92 4.55 3.52 3.17 4.53 5.95 6.21 0.31 -0.08 13.65 15.32 12.84 11.30 4.49 3.95 2.59 2.56 4.25 5.28 6.26 -1.96 -0.36 12.88 11.96 6.78 2.90 6.37 3.74 2.44 2.24 3.29 4.20 4.51 -2.20 0.22 12.75 10.26 10.68 12.53 11.68 3.70 2.07 2.04 3.29 3.96 4.46 -0.09 4.27 4.15 11.16 3.84 9.17 4.61 5.59 11.12 11.92 3.40 3.21 2.67 1.08 6.96 13.10 12.43 12.41 11.74 11.64 10.31 10.49 10.39 2.83 3.39 3.26 1.65 9.04 12.67 11.61 12.15 12.30 12.05 10.92 8.81 3.20 5.24 3.46 3.37
13.
13 • 10曲全てに対する平均SDRi 実験結果 Average SDRi 空間モデルのサイドローブレベル [dB] 40
50 60 70 80 90 100 120 150 200 500 1000 1500 音源モデルの サイドローブレベル [dB] 40 50 60 70 80 90 100 120 150 200 500 1000 1500 窓の有効幅 細い 太い 窓 の 有 効 幅 太 い 細 い 3.25 4.55 1.21 1.24 1.66 1.64 1.80 1.70 1.61 1.69 2.25 1.73 0.89 3.89 6.86 4.77 4.73 4.76 4.43 4.33 4.53 5.05 5.74 5.82 4.62 3.96 2.68 6.83 9.17 7.92 7.87 6.88 6.78 6.80 6.99 6.91 6.34 5.29 4.22 2.02 5.87 6.96 8.42 6.96 6.85 6.50 6.20 5.80 5.41 5.29 5.19 4.07 1.18 3.28 7.20 8.10 7.58 7.66 7.08 6.63 6.28 5.84 4.96 4.73 3.82 0.58 1.16 6.61 8.39 7.62 7.61 7.32 6.80 6.47 6.07 4.79 4.52 3.66 0.22 0.80 5.86 7.72 8.19 7.62 7.38 6.89 6.41 5.82 4.93 4.42 3.44 -0.45 0.00 4.60 6.68 8.30 8.03 7.38 6.75 6.33 5.70 5.01 4.33 3.46 -1.32 -0.56 4.08 4.20 6.56 6.23 7.49 6.65 6.21 5.64 4.84 4.22 3.16 -2.41 -1.92 5.19 4.29 4.93 6.73 7.12 6.15 6.22 5.67 4.61 4.14 3.26 0.34 2.31 4.46 4.13 4.35 4.19 3.63 2.93 3.53 4.80 4.25 3.88 3.24 -0.49 3.70 4.74 4.33 4.32 3.97 3.70 3.45 3.55 2.95 4.44 3.65 2.96 1.43 3.79 4.53 3.90 3.96 4.21 3.93 4.10 3.50 2.38 3.82 3.48 2.94 Good Poor
14.
14 まとめ • ILRMAの空間モデルと音源モデルの最適化に,それぞ れ独立した解像度の時間周波数表現を導入 • 提案手法ではChebyshev窓を用いて,STFTの見かけ上 の窓長を設定し,時間周波数解像度を変化させた •
空間モデル及び音源モデルの窓長が同一のときよりも, 互いに異なっているときの方が高い分離性能を示す場合 が存在することを確認 – 各モデルの最適化に同一の解像度の時間周波数表現を用い ることが,必ずしも最良の分離性能を与えるとは限らない
Editor's Notes
音楽は同じような音色(スペクトル)の繰り返しが多い→各音源の時間毎のスペクトルを少数のスペクトルパターンの足し合わせで近似
空間モデル:「音源の混合が時間周波数領域での瞬時混合として表せる」というILRMAの仮定を成り立たせるため ILRMAによる分離が原理的に成り立たない 音源モデル:STFTの窓長を変更すると,近似すべきスペクトログラムの様相は変化する
「サイドローブレベル」により、周波数領域における窓関数のサイドローブピークの最大値を設定できる サイドローブレベルと窓関数の有効幅(メインローブ幅)はトレードオフの関係にある