スペクトログラム無矛盾性に基づく独立低ランク行列分析

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
スペクトログラム無矛盾性に基づく
独立低ランク行列分析
Independent low-rank matrix analysis
based on spectrogram consistency
豊島直(北村研究室)
香川高等専門学校電気情報工学科卒業研究発表会
研究背景
• 音源分離技術
– 複数の音声や楽器音の混合から個々の音源を推定する技術
音源分離
混合信号 分離された音源信号
• 自動採譜の前段処理
• 音声認識の精度向上
• 音声通信の音質向上 等
応用例
2
研究背景
• ブラインド音源分離(blind source separation: BSS)
– 音源位置やマイクロフォン位置が未知の状態での音源分離
– 混合系 の逆行列 を周波数毎に推定
– 既存のBSS
• 独立成分分析(ICA) [Comon, 1994]
• 独立ベクトル分析(IVA) [Kim+, 2007]
• 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 等
音源信号 混合信号 分離信号
混合系 分離系
3
問題と目的
• 解決すべき問題
– 従来のILRMAの分離信号推定時はスペクトログラム無矛盾性
が考慮されていなかった
– スペクトログラム無矛盾性
• 時間波形を時間周波数領域に変換した信号の共起関係の一貫性
• 時間周波数領域での信号処理によって通常失われる性質
– IVAでスペクトログラム無矛盾性を考慮すると性能向上 [Yatabe+, 2020]
• ILRMAでは未確認
• 研究目的
– ILRMAの反復最適化時にスペクトログラム無矛盾性を担保する
新しいアルゴリズムを提案
– スペクトログラム無矛盾性が分離性能の向上に寄与するか
実験的に調査
4
研究背景
• スペクトログラム:時間信号の時間周波数表現
– 音の時間周波数表現
– 短時間フーリエ変換(Short-time Fourier transform: STFT)
5
時間領域
窓関数
時間周波数領域
時間波形
…
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数の要素を持つ行列
周波数
時間
…
フーリエ変換長
シフト長
スペクトログラム無矛盾性
• 無矛盾性の適用によるスペクトログラムの変化
無矛盾なスペクトログラムは
時間と周波数の両方向に滲んでいる(共起している)
STFTの窓関数の乗算やオーバーラップシフトが原因
矛盾 無矛盾
6
提案手法
• スペクトログラム無矛盾性
無矛盾なスペクト
ログラムの集合
時間領域の波形の集合
時間周波数領域の集合
周波数
時間
時間
7
提案手法
• スペクトログラム無矛盾性
STFT
時間領域の波形の集合
時間周波数領域の集合
逆STFT
8
提案手法
• スペクトログラム無矛盾性
時間領域の波形の集合
時間周波数領域の集合
矛盾したスペクトログラム
(共起関係に一貫性がない)
BSS等の何らかの
信号処理
9
提案手法
• スペクトログラム無矛盾性
時間領域の波形の集合
時間周波数領域の集合
射影
逆STFT
10
スペクトログラム無矛盾性
• 無矛盾性の適用によるスペクトログラムの変化
無矛盾なスペクトログラムはSTFTの窓掛けやオーバー
ラップシフトで時間周波数の両方向に滲んでいる
矛盾 無矛盾
11
ILRMA
• ILRMA
– 周波数ビン毎のICA+各音源の時間周波数構造を非負値行列
因子分解で低ランクモデル化
– 周波数毎の分離行列 と低ランク音源モデル を
同時に最適化
12
アルゴリズム
• 従来のILRMAのアルゴリズム
低ランクモデルの
更新
分離行列の更新
13
アルゴリズム
• スペクトログラム無矛盾性を考慮したILRMAの
アルゴリズム
分離信号の周波数毎の
大きさの任意性を解消
(詳細説明は割愛)
矛盾した推定分離スペクトログ
ラム を無矛盾な領域へ射影
14
提案手法
• ILRMAへのスペクトログラム無矛盾性の適用
無矛盾なスペクト
ログラムの集合
時間領域の波形の集合
時間周波数領域の集合
矛盾したスペクト
ログラムの集合
従来手法
提案手法
STFT
15
比較実験
• 実験条件
2m
5.66cm
60 60
JR2インパルス応答(RWCP)
(残響時間: = 470 ms)
音源1 音源2
16
窓関数 ハン窓
窓長 128, 256, 512, 768 ms
シフト長 窓長の1/2
基底数 音楽10,音声2
初期値
単位行列
and 乱数行列
反復回数 100 回
試行回数 乱数シードを変えて5回
実験結果
• 音楽信号の音源分離実験
– STFTの窓長が長い場合提案手法が明らかに従来手法を
上回る
Poor
Good
17
実験結果
• 音声信号の音源分離実験
– STFTの窓長が512 msの場合に提案手法が従来手法を
上回る
Poor
Good
18
まとめ
• 本研究の概要
– ILRMAへのスペクトログラム矛盾性の適用
• 実験結果の考察
– 音源分離が成功する程提案手法の有効性が顕著になることを
確認
– 分離が成功した場合,推定スペクトログラムは無矛盾な
スペクトログラムに近づくためと推測される
19
1 of 19

Recommended

音源分離における音響モデリング(Acoustic modeling in audio source separation) by
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
22.6K views114 slides
【解説】 一般逆行列 by
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
80.6K views28 slides
Bayesian Neural Networks : Survey by
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
5K views68 slides
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会) by
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
134.3K views107 slides
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係) by
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Teppei Kurita
2.2K views40 slides
猫でも分かるVariational AutoEncoder by
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
131.6K views51 slides

More Related Content

What's hot

Optimizer入門&最新動向 by
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
23K views21 slides
Anomaly detection 系の論文を一言でまとめた by
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
4.5K views33 slides
全力解説!Transformer by
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.6K views43 slides
SSII2019企画: 点群深層学習の研究動向 by
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
8.3K views27 slides
実装レベルで学ぶVQVAE by
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAEぱんいち すみもと
12.7K views23 slides

What's hot(20)

全力解説!Transformer by Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.6K views
SSII2019企画: 点群深層学習の研究動向 by SSII
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII8.3K views
[DL輪読会]ドメイン転移と不変表現に関するサーベイ by Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K views
畳み込みニューラルネットワークの高精度化と高速化 by Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K views
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou... by Daichi Kitamura
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura12.2K views
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ by Yui Sudo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo1.5K views
【DL輪読会】時系列予測 Transfomers の精度向上手法 by Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP3.1K views
Active Learning 入門 by Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K views
最近のDeep Learning (NLP) 界隈におけるAttention事情 by Yuta Kikuchi
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi72.3K views
環境音の特徴を活用した音響イベント検出・シーン分類 by Keisuke Imoto
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto2.1K views
深層生成モデルを用いたマルチモーダル学習 by Masahiro Suzuki
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki9.5K views
PRMLの線形回帰モデル(線形基底関数モデル) by Yasunori Ozaki
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki45.5K views
Attentionの基礎からTransformerの入門まで by AGIRobots
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots40.6K views
クラシックな機械学習入門:付録:よく使う線形代数の公式 by Hiroshi Nakagawa
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
Hiroshi Nakagawa17.5K views

Similar to スペクトログラム無矛盾性に基づく独立低ランク行列分析

時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
79 views19 slides
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
266 views17 slides
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 by
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
1.1K views24 slides
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価Kitamura Laboratory
82 views24 slides
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
5.9K views74 slides
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
1.5K views91 slides

Similar to スペクトログラム無矛盾性に基づく独立低ランク行列分析(12)

時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by Kitamura Laboratory
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 by Daichi Kitamura
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura1.1K views
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 by Kitamura Laboratory
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura5.9K views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura1.5K views
独立低ランク行列分析に基づく音源分離とその発展 by Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura4.1K views
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by Daichi Kitamura
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
Daichi Kitamura1.7K views

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
74 views26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
67 views23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
40 views17 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
43 views17 slides
Heart rate estimation of car driver using radar sensors and blind source sepa... by
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
62 views23 slides
DNN-based frequency-domain permutation solver for multichannel audio source s... by
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
30 views27 slides

More from Kitamura Laboratory(20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
音楽信号処理における基本周波数推定を応用した心拍信号解析 by Kitamura Laboratory
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
非負値行列因子分解を用いた被り音の抑圧 by Kitamura Laboratory
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価 by Kitamura Laboratory
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

スペクトログラム無矛盾性に基づく独立低ランク行列分析

Editor's Notes

  1. 標記のタイトルで北村研究室の豊島が発表します.
  2. まず,研究背景について説明します. 本研究の大枠である音源分離とは,複数の音声や楽器音の混合から個々の音源を推定する技術です. 自動採譜の前段処理や音声認識の精度向上,音声通信の音質向上などに用いられています.
  3. 音源分離でも特に,音源やマイクロフォンの空間的な位置等の事前情報が分からないという条件で,観測された混合音のみから分離信号を推定する技術をブラインド音源分離,BSSといいます. これは,音が空間を伝搬して混ざる過程を行列Aとしたとき,Aの逆行列Wを推定する問題です. 当然,混合行列Aは分からないので,「分離信号が互いに統計的に独立」になるような分離行列Wを推定します. また,音響信号の混合は残響に畳み込みになりますので,実際のBSSでは,時間周波数領域で周波数毎の分離行列Wを推定します. BSSは独立成分分析,ICAを起源とし,その拡張である独立ベクトル分析IVA,及び独立低ランク行列分析ILRMAが最も成功したアルゴリズムです. 本研究は,ILRMAを対象としています.
  4. 従来のILRMAでは,分離行列や音源パラメータの反復最適化計算を行いますが,その最適化の過程で,「スペクトログラム無矛盾性」と呼ばれる性質が考慮されていません. このスペクトログラム無矛盾性とは,時間波形を時間周波数領域に変換した信号の,時間周波数領域上での共起関係の一貫性のことです. 時間周波数領域で何らかの信号処理を適用した場合は,この一貫性が通常失われてしまいます. このスペクトログラム無矛盾性を,古いBSSであるIVAで考慮した場合,音源分離性能が向上することが報告されましたが,ILRMAでは未確認でした. そこで,本研究の目的として,ILRMAの反復最適化時にスぺクトログラム無矛盾性を担保する新しいアルゴリズムを提案し,分離性能の向上に寄与するかを実験的に調査します.
  5. それでは,スペクトログラムについて説明します. スペクトログラムとは,1次元の時間信号を,時間と周波数の2次元領域で表現したものです. 時間波形に対して,このように短時間区間に分割しその一つ一つに窓関数を掛けて離散フーリエ変換することで,横軸時間,縦軸周波数の行列ができます. この行列Xをスペクトログラムと呼び,この変換を短時間フーリエ変換,通称STFTと呼びます.
  6. 本研究で重要となる,スペクトログラムの矛盾・無矛盾について説明します. いま,左側のスペクトログラムは矛盾,右側のスペクトログラムは無矛盾な状態です.黄色い場所ほどパワーが強いことを表しています. 左側のスペクトログラムは人工的に作成したものであり,中央のある時間周波数グリッド1つにだけ強いパワーを持たせています. このスペクトログラムは実は矛盾しており,これに直接対応する時間波形は存在しません. この矛盾スペクトログラムを一度逆STFTして時間領域に戻し,再びSTFTして得られたスペクトログラムが右側です. 実はこの右側は,矛盾のない,即ち無矛盾なスペクトログラムです. 図からわかる通り,パワーの強い時間周波数グリッドの上下左右の近傍も,ある程度の大きさのパワーがあり,パワーが連動・共起していることが分かります. この共起関係が,一貫してすべてのグリッドで保たれているスペクトログラムが,「無矛盾なスペクトログラム」です.
  7. このスペクトログラムの矛盾と無矛盾について,集合を用いて説明します. まず,時間領域の波形の集合と時間周波数領域の集合を定義します. 時間領域の音の波形は,この赤線で描いた集合の要素です. 時間周波数領域のスペクトログラムはこの青線で描いた集合の要素です. 重要なのは時間周波数領域の集合は時間領域より次元が高いことです. この時間周波数領域の中で,無矛盾なスペクトログラムの集合は,三次元空間中の平面のように一部だけの集合となります.
  8. いま,ある時間波形sをSTFTすると,時間周波数領域の無矛盾なスペクトログラムに射影されます. このスペクトログラムSは無矛盾なので,直接対応する時間波形が小文字のsとして存在します. もちろん,Sを逆STFTすると元の時間波形sに戻ります.
  9. 時間周波数領域の無矛盾なスペクトログラムSに対して,音源分離等の何らかの信号処理を加えると,先ほどの一貫した共起関係は崩れてしまい,矛盾したスペクトログラムS’となります. S’には「直接対応する時間波形」が存在しません.
  10. この矛盾したスペクトログラムS’を逆STFTすると,S’は一番近い無矛盾なスペクトログラムS’’に射影された上で,S’’の時間波形s’’へと変換されます.
  11. なので,先ほどお見せしたように,スペクトログラムを逆STFTして時間領域に戻し,もう一度STFTして時間周波数領域に戻ってくるだけで,どんな矛盾したスペクトログラムも無矛盾なスペクトログラムに変換できます. 以上がスペクトログラムの無矛盾性に関する説明です.
  12. 本研究が対象とする音源分離アルゴリズムであるILRMAについて簡単に説明します. ILRMAとは,観測信号から周波数毎の分離行列Wを推定するBSSアルゴリズムです. このとき,分離信号が互いに独立になることに加えて,各分離信号の時間周波数構造が低ランク行列でモデル化されます. この低ランク行列によるモデル化によって,音源分離が促進されます. そのモデルを使って,再び分離行列を推定する,という処理を反復しています.
  13. ILRMAのアルゴリズムはこのスライドの3行目から8行目の計算の反復です. 3行目と4行目で低ランクモデルの更新,5~8行目で分離行列の更新をしています.
  14. こちらが,スペクトログラム無矛盾性を毎回の反復で担保する提案手法のアルゴリズムです. 赤色の行が従来のILRMAに追加された処理です. 3行目で,分離信号を逆STFTしてSTFTすることで,無矛盾なスペクトログラムに変換しています. さらに,10から12行目で分離信号の周波数毎の大きさの任意性を解消する処理を適用しており,これも新規性のある個所なのですが,詳しい説明は割愛します.
  15. これは従来手法と提案手法の違いのイメージを表した図です. 橙色の矢印は提案手法における反復毎の無矛盾なスペクトログラムへの射影を表しており,青色の矢印は従来手法の反復最適化処理を表しています. この反復毎の射影によって,提案手法は真の分離信号Sに常に近づきながら音源分離を進めることができます.
  16. それでは実験について説明します. この表は実験条件を示したものです. 本実験では,2つのマイクで2つの音源の混合を観測した状況でのBSSを行います. 観測信号は2つの楽器音又は2つの音声信号の混合になります. ILRMAの反復回数は100回とし,提案手法は毎回スペクトログラム無矛盾性を担保しています. またSTFTの窓長をいろいろと変えて比較しました.
  17. コチラが音楽信号の分離結果です. この図の縦軸はSDRと呼ばれる音源分離における精度の指標を表す値です. STFTの窓長を変化させて4つ示しています. 音楽信号の音源分離では,STFTの窓長が長い場合に提案手法が明らかに従来手法を上回っていることが確認できます.
  18. こちらは音声信号の音源分離の結果です. 音声は音楽信号と異なり,窓長が512msのときに性能が高くなり,そのときに従来手法と提案手法の差も開いています. このことから,提案手法は従来のILRMAの音源分離が成功する程,改善が得られることが分かります.
  19. 最後に本研究発表のまとめに移ります. 本研究の概要はILRMAへのスペクトログラム無矛盾性の適用です. 実験結果から,従来手法において音源分離が成功するほど,提案手法の有効性が顕著になることが確認できます. これは分離が成功した場合,推定スペクトログラムは無矛盾なスペクトログラムに近づくためだと推測できます. これで発表を終わります. まとめは時間が無かったら読まない
  20. 次に,パーミュテーション問題について説明します. これは,ICAを周波数毎の複素時系列に適用して周波数事に音源分離すると,周波数によって分離信号の音源順序がランダムに変わってしまうという問題です. この図は横が時間,奥行きが周波数を表していますが,分離結果がこのように音源2,音源1,音源2,音源1,音源1といったふうになってしまいます. 単に周波数毎の複素時系列にICAを適用しただけではこのように,音源分離の後にパーミュテーション問題の解決,つまり音源の並び替えをする必要がありますが,IRLMAでは「分離信号が低ランクな時間周波数構造を持つ」という仮定を導入することによりパーミュテーション問題を回避しています.
  21. この図は,パーミュテーション問題を起こしたスペクトログラムにスペクトログラム無矛盾性を担保した際に,スペクトログラムにどのような変化が起きているかを表している図です. 左側のスペクトログラムは音楽信号をSTFTして得られたスペクトログラムです. 中央は左側のスペクトログラムに対して,人工的にパーミュテーション問題を起こしたスペクトログラムです. 右側のスペクトログラムは真ん中のスペクトログラムに対し逆STFTをして,再びSTFTをすることにより得られた無矛盾なスペクトログラムです. この図より,スペクトログラムの周波数方向にパワーが滲み,パーミュテーション問題が緩和していることが確認できます.