局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

Kitamura Laboratory
Kitamura LaboratoryKitamura Laboratory
局所時間周波数構造に基づく
深層パーミュテーション解決法の実験的評価
北村研究室
AS2 40
山地 修平
はじめに
 音源分離とは
 音源分離の応用先
• 音声認識
• スマートスピーカー
• 補聴器の高性能化
2
音源分離
補聴器
スマート
スピーカー
ブラインド音源分離
 独立成分分析(ICA)とは?
3
ならば となり分離可能
ここで
独立信号 混合信号 推定信号
実際の混合は残響による畳込み混合
周波数領域へ拡張(frequency domain ICA: FDICA)
FDICAとパーミュテーション問題
 FDICAの問題点
• 周波数毎に音源成分(赤青)が入れ替わる可能性がある
• この不定性はパーミュテーション問題と呼ばれている
4
FDICA
All frequency
components
Source 1
Source 2
Observed 1
Observed 2
Estimated signal
Estimated signal
Non-aligned signal
Permutation
Solver
Time
特別研究Ⅰ
 局所時間周波数構造に基づく
深層パーミュテーション解決法[Yamaji., 2020]
 問題点
• 実際のFDICAでは,完全に分離されていない周波数ビンも存在する
• 中間周波数ビンで1回でもパーミュテーション解決を誤ると
分離精度が大きく劣化する可能性がある
5
Time
Separated
signal
Non-aligned signal
Non-aligned signal
Separated
signal
DNN
DNN
 入力
• 分離信号から2つの周波数の短時間時系列パワーを抽出&結合
 出力
•
DNNの入出力
6
例) と の短時間時系
列パワーを抽出
0(同一音源)
1(異なる音源)
Time
Frequency
 シンプルな全結合構成
DNNモデルの構成
7
Hidden
Layer
1
(128
units)
ReLU
Input
Layer
(160
units)
Hidden
Layer
2
(128
units)
ReLU
Hidden
Layer
4
(64
units)
ReLU
Hidden
Layer
3
(128
units)
ReLU
Hidden
Layer
5
(64
units)
ReLU
Hidden
Layer
6
(1
units)
Sigmoid
Output
Layer
(1
units)
Target
label
(1
units)
Minimum
MSE
0
or
1
 パーミュテーション解決の流れ
• サブバンド領域でパーミュテーション解決
• 上記処理を時間方向及び周波数方向に走査
DNN
DNN
DNN
DNN
DNN
DNN
提案手法の全体像
8
Time
Frequency
Separated signal
Non-aligned signal
 DNNに基づいたパーミュテーション解決
• パーミュテーション問題が発生した周波数は推定結果が1
• 推定結果が1の周波数成分のみ入れかえ
→ サブバンド領域でのパーミュテーション解決
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
サブバンド領域でのパーミュテーション解決
9
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源
Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
Majority
decision
1
1
0
1
0
Stride
…
DNN
outputs
Subband
permutation
vector
DNN推定結果 サブバンド
ベクトル
多数決処理
時間方向への多数決処理
 パーミュテーション問題の不変性
• パーミュテーション問題は全時間フレームで固定
→ DNNの正解値は変わらない
10
フルバンドベクトルの構成方法
 サブバンド領域間での対応付けの必要性
• 各サブバンド領域では,中心周波数の成分を基に並び変えられる
• すべてのサブバンド領域で,音源順の統一が必要
11
が中心周波数
が中心周波数
Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
1. Set
Fullband
permutation
vector
2. Set
フルバンドベクトルの構成(1/3)
12
フルバンド
ベクトル
1.セット
2.セット
フルバンド
ベクトル
 目的
• 各領域のサブバンドベクトルを用いて,音源と ”0” 及び ”1” が
統一したフルバンドのパーミュテーションベクトルを構成する
 STEP1
• 最も低い周波数のサブバンドベクトルによって,
音源と ”0” 及び “1” の対応を決定
13
 STEP2
• 隣接周波数における
• MSEが小さい方をメモリに格納周波数毎に多数決を行いフルバンド
ベクトルを更新
Time
Frequency
1
0
0
1
0
1
1
0
1
0
0
1
1
0
1
0
1
1
0
1
0
2. Set
0
1
1
0
1
1. Similarity comparison
3.
Majority
decision
Fullband
permutation
vector
フルバンド
ベクトル
1.類似度比較
1.類似度比較
2.セット
3.多数決処理
フルバンドベクトルの構成(2/3)
14
フルバンドベクトル の対応部と平均二乗誤差(MSE)で比較
サブバンドベクトル
論理反転ベクトル
の2つのベクトルを
フルバンドベクトルの構成(3/3)
 STEP3
• 最終的に構成されたフルバンドベクトルをもとに,
周波数成分を入れ替えてパーミュテーション解決
15
1
1
0
1
0
0
1
1
0
1
1
0
0
1
1
0
0
1
1
0
1
0
0
1
1
0
1
0
Majority
decision
Time
Frequency
Replace
Fullband
permutation
vector
フルバンド
ベクトル
多数決処理
入れ替え
実験条件
16
θ1
2 m
5.66 cm
Source 1 Source 2
θ2
学習用音声信号
JVSコーパスの音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成,2チャネルで2音源の混合信号
テスト用音声信号
SiSEC2011の音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成,2チャネルで2音源の混合信号
比較手法
理想的にパーミュテーション解決されたFDICA,
独立低ランク行列分析(ILRMA)(基底数2,3及び4)
FFT長 8192 点 (512 ms, ハミング窓)
スライド長 2048 点
主観評価値 SDR改善値
残響時間 470 ms
学習用
音源到来方向
テスト用
音源到来方向
実験結果
17
Good
Poor
SDR
improvement
[dB]
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
0
-2
-4
2
4
6
8
10
12
14
発表文献
 査読付き国際発表
1. Shuhei Yamaji and Daichi Kitamura, “DNN-based permutation solver for
frequency-domain independent component analysis in two-source mixture
case,” Proceedings of Asia-pacific signal and information processing
associationannual summit and conference, 2020.
 国内発表
1. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法,” 日本音響学会2020年春季研究発表会講演論文集, pp. 317-320, 2020.
2. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価,” 日本音響学会2020年秋季研究発表会講演論文集, pp. 265-
268, 2020.
18
まとめ
 本研究では
• 実際のFDCIAの分離信号であっても,パーミュテーション解決が
可能なモデルへと拡張した
• 高残響の音声混合信号で実験を行い,平均的に8dB程度のSDR改善量
を達成した
 今後の課題
• 現在のアルゴリズムでは3音源以上の分離信号に対して
組み合わせ爆発を起こす
19
デモンストレーション
20
源信号
観測信号
理想的に解決したFDICA
提案手法を用いたFDICA
Ch1 Ch2
1 of 20

Recommended

非負値行列因子分解を用いた被り音の抑圧 by
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
134 views33 slides
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
5.9K views27 slides
Evaluation of separation accuracy for various real instruments based on super... by
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
676 views29 slides
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined... by
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
1.7K views22 slides
音楽信号処理における基本周波数推定を応用した心拍信号解析 by
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
418 views21 slides
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m... by
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Daichi Kitamura
1.2K views19 slides

More Related Content

What's hot

ILRMA 20170227 danwakai by
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakaiSaruwatariLabUTokyo
14.7K views73 slides
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
1.8K views24 slides
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Daichi Kitamura
566 views23 slides
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
5.9K views48 slides
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
4.1K views26 slides
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
4.3K views28 slides

What's hot(20)

ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura1.8K views
Optimal divergence diversity for superresolution-based nonnegative matrix fac... by Daichi Kitamura
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Daichi Kitamura566 views
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura5.9K views
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura4.1K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura4.3K views
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離 by Kitamura Laboratory
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura1.5K views
調波打撃音モデルに基づく線形多チャネルブラインド音源分離 by Kitamura Laboratory
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 by Daichi Kitamura
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura1.1K views
Divergence optimization based on trade-off between separation and extrapolati... by Daichi Kitamura
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura917 views
Study on optimal divergence for superresolution-based supervised nonnegative ... by Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura1K views
音源分離における音響モデリング(Acoustic modeling in audio source separation) by Daichi Kitamura
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura22.5K views
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura2.9K views
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化 by Kitamura Laboratory
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく周波数帯域補間手法による音源分離処理の高速化
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura3.5K views
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by Daichi Kitamura
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura5.9K views

More from Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
69 views26 slides
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
67 views23 slides
ギタータブ譜からのギターリフ抽出アルゴリズム by
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
40 views17 slides
時間微分スペクトログラムに基づくブラインド音源分離 by
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
79 views19 slides
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
43 views17 slides
周波数双方向再帰に基づく深層パーミュテーション解決法 by
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
46 views32 slides

More from Kitamura Laboratory(20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定 by Kitamura Laboratory
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定 by Kitamura Laboratory
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
ギタータブ譜からのギターリフ抽出アルゴリズム by Kitamura Laboratory
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
時間微分スペクトログラムに基づくブラインド音源分離 by Kitamura Laboratory
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and... by Kitamura Laboratory
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
周波数双方向再帰に基づく深層パーミュテーション解決法 by Kitamura Laboratory
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
Heart rate estimation of car driver using radar sensors and blind source sepa... by Kitamura Laboratory
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
DNN-based frequency-domain permutation solver for multichannel audio source s... by Kitamura Laboratory
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価 by Kitamura Laboratory
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
多重解像度時間周波数表現に基づく独立低ランク行列分析, by Kitamura Laboratory
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
深層パーミュテーション解決法の基礎的検討 by Kitamura Laboratory
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
深層学習に基づく音響特徴量からの振幅スペクトログラム予測 by Kitamura Laboratory
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
Linear multichannel blind source separation based on time-frequency mask obta... by Kitamura Laboratory
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
Prior distribution design for music bleeding-sound reduction based on nonnega... by Kitamura Laboratory
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
Blind audio source separation based on time-frequency structure models by Kitamura Laboratory
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
独立成分分析に基づく信号源分離精度の予測 by Kitamura Laboratory
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
独立低ランク行列分析を用いたインタラクティブ音源分離システム by Kitamura Laboratory
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用 by Kitamura Laboratory
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
スペクトログラム無矛盾性に基づく独立低ランク行列分析 by Kitamura Laboratory
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析

Recently uploaded

how query cost affects search behavior translated in JP by
how query cost affects search behavior translated in JPhow query cost affects search behavior translated in JP
how query cost affects search behavior translated in JPTobioka Ken
9 views16 slides
図解で理解するvetKD by
図解で理解するvetKD図解で理解するvetKD
図解で理解するvetKDryoo toku
86 views22 slides
システム概要.pdf by
システム概要.pdfシステム概要.pdf
システム概要.pdfTaira Shimizu
40 views1 slide
AIで始めるRustプログラミング #SolDevHub by
AIで始めるRustプログラミング #SolDevHubAIで始めるRustプログラミング #SolDevHub
AIで始めるRustプログラミング #SolDevHubK Kinzal
22 views25 slides
onewedge_companyguide1 by
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1ONEWEDGE1
27 views22 slides
SSH超入門 by
SSH超入門SSH超入門
SSH超入門Toru Miyahara
363 views21 slides

Recently uploaded(9)

how query cost affects search behavior translated in JP by Tobioka Ken
how query cost affects search behavior translated in JPhow query cost affects search behavior translated in JP
how query cost affects search behavior translated in JP
Tobioka Ken9 views
図解で理解するvetKD by ryoo toku
図解で理解するvetKD図解で理解するvetKD
図解で理解するvetKD
ryoo toku86 views
AIで始めるRustプログラミング #SolDevHub by K Kinzal
AIで始めるRustプログラミング #SolDevHubAIで始めるRustプログラミング #SolDevHub
AIで始めるRustプログラミング #SolDevHub
K Kinzal22 views
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1
ONEWEDGE127 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦122 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self Introduction
NajahMatsuo7 views

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

Editor's Notes

  1. はじめに 本研究では音源分離を扱っており,この音源分離とは,様々な音が混ざった状態から,ひとつひとつの音へ分離する技術です. たとえば,複数人が同時に発話した内容をそれぞれの音声に分けたい場合に,役立つような技術です. 近年では,スマートスピーカーのような音声認識技術を用いた製品が増えている中で, 雑音などに起因した,音声認識精度の低下を回避するためにも,目的話者のみのクリアな単一音声信号が求められています. その他にも,イヤホンのノイズキャンセリング機能のように,人間の聴覚機能をサポートする面でも音源分離の応用先は数多く存在します.
  2. ブラインド音源分離 次に音源分離のなかでも,本研究で扱っている独立成分分析について説明します この図では解説のために独立信号を S, 今後信号を X, 分離された推定信号をY と定義します. またtは時間を表しています. ここで 混合信号Xは混合系をあ表す行列Aを用いてASで表すことができ. 同様に分離信号Yも分離行列Wを用いてWXで表せます. この分離行列Wが混合行列Aのインバースになるように推定を行うことで音源の分離を行いますが,実際はAは分からないので,音源の統計的性質から推定します. しかし,実際の混合信号には残響がかかり,残響は時間領域では畳み込み混合として考えられ, 音源分離の際に逆畳み込みを計算することは簡単ではありません. そこで,畳み込み混合を時間領域ではなく,周波数領域で掛け算として扱うことでこの問題を解決する,FDICAと呼ばれる手法がが開発されました.
  3. FDICAとパーミュテーション問題 そのイメージ図がこちらになります . ここにある各信号は,時間領域の信号に短時間フーリエ変換を適用した,時間周波数領域の信号を表しており,よこ軸が時間,縦軸が周波数表しています. FDICAでは,周波数ごとの成分を分離する様にICAを適用します. その結果,この図の真ん中のように,同じ周波数ごとに見ると分離はできていますが, 全体としては周波数ごとに音源の順番がバラバラになっていることがわかります. この問題はパーミテーション問題と呼ばれており FDICA の課題とされています. 本研究ではこのパーミテーション問題を扱っており,図の右側のように周波数毎の成分を同じ音源成分に統一させるようなパーミテーションソルバを作ることが目的となっております.
  4. 先行研究 次に特別研究Ⅰの内容について説明します 特研Ⅰの研究発表では,これまでの成果として(DNN)を用いたパーミテーション解決方を新たに提案しました . その時は,隣接した二つの周波数における時系列信号をDNNに入力し,その入力のパーミュテーションが正しいか否かを推定するモデルを作成しました. そして,そのモデルを全ての周波数に順番に走査していくことで,パーミュテーション解決を行うといったものでした. しかし,過去の提案手法の課題点としましては, FDICIA が理想的に分離を行った時以外は失敗する可能性があること. また,DNN推定を順番に走査していくなかで,途中の周波数で一回でも間違えてしまうと,(click) それ以降の周波数がすべてひっくり返る可能性,がありました. そこで本研究では,これらの課題点を解決することを目的とし, 特別研究1の手法を,実際のFDCIA の分離結果でも適用できるように,より頑健なモデルへ拡張しました. 1:00
  5. DNNの入出力 次に本研究で用いた深層学習の入力と出力について解説します. この話は前回の中間発表と同じです. まずFDICAを適用したパーミュテーション問題が残る分離信号Y1Y2から,(click) 二つの周波数の短時間時系列パワーを抽出し結合します. さらに結合したベクトルに正規化を行い,DNNへ入力しています. 深層学習の出力は,入力された二つの周波数成分が 同一音源の場合は0を,異なる音源の場合は1を出力するように学習されます. 例として,この図の場合は,選ばれた二つの周波数,f3とf5を確認すると, f3は赤色の音源なのに対し f5は青色の音源であるためパーミテーション問題が発生しており,1が出力されるように学習されます.
  6. DNNの構成 提案するDNNの構造は,入力層,隠れ層6層,及び出力層の計8層からなる全結合構成となっており, 1~5番目の隠れ層には ReLU関数,最終隠れ層にはsigmoid関数を適用しています. 予測結果と正解ラベルとの誤差関数には,平均二乗誤差を使用しています.
  7. 提案手法について 次に深層学習の推定結果をパーミュテーション解決にどのように用いるかについて解説します. 全体の流れとしては,(click) まずはじめにサブバンド領域でのパーミテーション解決を行います. その次のステップで,(click) サブバンド領域の推定を時間方向と周波数方向に走査していき,フルバンドでのパーミテーション解決を行います. ここで,サブバンド領域とは,全周波数が8000Hz近くある中の60Hz程度の局所的な範囲をサブバンド領域と呼んでおります
  8. サブバンド領域でのパーテーション解決はこの図のように処理されます. ここでは例として周波数が F 1から F 5までのサブバンド周波数帯域 におけるパーミテーション解決を図に表しています ここでDNNの入力として二つの周波数を選択するわけですが, そのうち1つを参照周波数として,サブバンド領域の中心に位置する周波数f3に固定します. もう1方の周波数はサブバンド領域内のいずれか1つを選択します. 結果として,f3とf5,f3とf4の様に,参照周波数を基準とした2本の時系列パワーの全組み合わせでDNN推定を行います. これによってサブバンド領域内の周波数毎の成分が,参照周波数の成分と同一音源または異なる音源かがわかります.  このようにして,サブバンド領域 におけるパーミテーション解決が行われます.  2:00
  9. 時間方向への多数決(8) 次に時間方向の多数決処理について解説 します. ここでは,この図のようにDNN入力ベクトルの選択範囲を時間方向にシフトさせることで全時間フレームにDNN推定を走査します ここでパーミテーション問題の発生箇所は時間軸に沿って 常に一定になってることが分かります. そのため 入力ベクトルの選択範囲を時間方向に ずらしても DNN の正解値は変わりません 最後に,それぞれの時間フレームにおける DNNの予測結果を周波数ごとに多数決を取ることで,予測誤差の悪影響を大幅に軽減したサブバンパーミュテーションドベクトルを得ることができます. 0:50
  10. フルバンドベクトル ここではサブバンド領域の解決結果を用いた,フルバンドのパーミュテーション解決について解説します. これまでのサブバンド領域でのパーミュテーション解決は,あくまでも中心周波数の成分をもとに並び替えられています. そのため,あるサブバンド領域では赤い音源を元にパーミテーション解決を行っているのに対し, その隣接したサブバンド領域では,青い音源をもとにパーミュテーション解決を行っていると言ったことが発生します. その結果この図のように,サブバンド領域間での音源の順番が反転する可能性があります. この問題を解決するため,全てのサブバンド領域の推定結果において,0を赤い音源,1を青い音源のように統一する必要があります.
  11. STEP1(10分弱) 以降は,実際のフルバンドベクトルの構成方法について解説します. まずステップ1では,最も低いサブバンド領域の  DNN 推定結果を メモリとフルバンドベクトルの対応する周波数に格納します. この時に音源と01の対応関係が決定されており,この図の場合は ゼロが赤い音源, 1が青い音源となっています. また,これ以降のサブバンド領域においても, 音源と01の対応関係が統一されるように処理が行われます.
  12. STEP2 ステップ2では先ほどと隣接しているサブバンド領域を考えます. ここでは単純な DNNの推定結果であるサブバンドベクトルと,その論理反転ベクトルの二つのベクトルを用意します. これら2種類を現在のフルバンドベクトルの対応する部分と,平均二乗誤差を用いて比較し, その値の小さい方をメモリに格納します. 最後にメモリを参照して,周波数ごとに多数決を行いフルバンドベクトルを更新します.
  13. STEP3 step2の処理を反復的に繰り返すことで完全なフルバンド ベクトルが推定されます. 求められたフルバンドベクトル基づいて周波数成分を入れ替える事で,パーミュテーションの解決を行います. 以上が,提案手法の内容になります.
  14. 実験条件(11:20) 提案したパーミュテーション解決法を評価するために, 残響の強い,音声混合信号を用いて評価実験を行いました.. 実験では,パーミュテーション問題が理想的に解決されたFDICA ,ブラインド音源分離の性能が良いとされるILRMA ,及び提案手法を用いたFDICA の3 手法を比較しました. 実験に用いた混合信号は,下の図のように,「異なる2つの角度から到来する音声を2つのマイクで録音する」状況をシミュレーションして作成しています. 使用する角度の組み合わせは,学習用音声信号には60度と120度の1種類を,テスト用音声信号には60と120,70と110及び60と100の3種類を使用しました. そのため,提案手法のパーミュテーション解決性能だけでなく,「学習用データの音源到来方向に依存するか否か」,についても注目した実験となっています. また,シミュレーション内における部屋の残響長は,470msとなっています.
  15. 実験結果 実験結果です. この図は,各提案手法の分離性能を表しており,それぞれの箱ひげ図は,56個の分離結果から作成されています. 図の縦軸は,SDR改善量をしめしており,この値が高いほど,高精度な分離ができているという指標になっています. 青色でプロットされているものは,本来は未知であるはずの音源信号を用いることで,パーミュテーション問題を完璧に解決したFDICAです. そのため,平均的に10dB 以上の改善を達成しておりますが,あくまでもFDICAの上限性能及び参考値となっています. ILRMA の分離性能は,いずれの音源到来方向においても平均的に4dB 程度の改善であることが確認できます. この結果から,高残響下にある音声混合信号の分離タスクに対して,ILRMAはしばしば分離に失敗している事がわかります. 一方で,提案手法を用いたFDICA は,平均的に8dB 以上の改善を達成しており, うまく分離できた場合は,SDR改善量が13dBに達成するなど,青色の上限性能に比較的近い性能も示しています. しかし,DNNの推定間違いなどが原因で並び替えに失敗することもあり,その場合は,0dB以下のSDR改善量となることが確認できました. 次に音源到来方向の違いによる,分離性能の差,に注目します. 実験条件でも説明した通り,学習用データの音源到来方向は(60度と120度)の組み合わせのみであり, (70度と110度)及び(60度と100度)の組み合わせは学習データに含まれておりません. しかしながら,グラフから分かるように,いずれの音源到来方向であっても,パーミュテーション解決性能には大きな差がありませんでした. これは,DNNの学習データに,あらゆる到来方向の組み合わせを準備することが,現実的には不可能であることを考えると, 音源到来方向に依存しないという面で,大きな利点であると考えられる.
  16. 発表文献 以上の研究成果をもって,これらの学会で発表を行いました.
  17. まとめ まとめです 本研究では特別研究1の課題を解決し,実際の FDICA の後処理として適用できるように,拡張を行いました. 拡張された提案手法は,平均的にILRMAを上回る分離性能であること示しました. また,音源の到来方向に依存しないことから,FDICAの一般的な後処理として,適用可能であることも実験的に示した. その一方で,現時点では3音源以上の分離信号には適用できないことが課題として挙げられます. そのため,今後はより多くの音源に適応できるように,DNNの拡張や,並び替えアルゴリズムの改良が必要であると考えます.