周波数双方向再帰に基づく深層パーミュテーション解決法

第37回信号処理シンポジウム
2022年12月15日 9:20〜9:40
周波数方向再帰に基づく
深層パーミュテーション解決法
Deep Permutation Solver Based on Frequency
Bidirectional Recursion
蓮池郁也*，北村大地*，渡辺瑠伊，川口翔也*
*香川高等専門学校
北陸先端科学技術大学院大学
†
†
信号処理若手奨励賞審査対象

2
• 音源分離とは
– 音声，雑音，歌声，楽器音，機械音等の音源を個々に分離
• 音源分離の応用先
⁃ 音声認識
⁃ AI スピーカー
⁃ 補聴器の高機能化
⁃ ノイズキャンセリング etc.
はじめに
音源分離

3
• ブラインド音源分離 (blind source separation: BSS)
– 混合系が未知の条件で分離系を推定
– 優決定BSS（マイク数≧分離したい音源の数）
• 混合系が正方行列にできるので逆行列が定義可能
• 線形分離が可能なため分離音の音質が良い
• 本研究では，優決定BSSについて取り扱う
– 高音質であり，様々な分野に適用可能
ブラインド音源分離
例. 独立成分分析（ICA） [Comon, 1994]
例. 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006]
例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2016]
混合系
BSS
分離系

4
BSSの歴史
周波数領域独立成分分析 (FDICA) フルランク空間共分散分析 (FCA)
[Smaragdis, 1998] [Duong+, 2010]
パーミュテーション問題発生
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
局所周波数領域に基づく深層パーミュ
テーション解決法 [Yamaji+, 2020]
パーミュテーション問題
を回避する手法
パーミュテーション問題を
解決する手法
提案手法
周波数間相関に基づく解決法
DOAに基づく解決法
[Saruwatari+, 2006]
[Murata+, 2001],
[Sawada+, 2004]
教師あり手法
教師なし手法
MLPを用いた深層パーミュテーション
解決法 [Hasuike+, 2022]

5
本発表の目次
• 従来手法
– 独立成分分析（ICA）と周波数領域ICA（FDICA）におけるパー
ミュテーション問題
– パーミュテーションを回避する手法
– 従来の深層パーミュテーション解決法
• 提案手法
– 概要とパーミュテーション行列の推定方法
– 推定分離信号の作成と損失の計上
– テストデータに対する処理
• 実験
• まとめ

6
本発表の目次
• 従来手法
• 提案手法
• 実験
• まとめ

7
• FDICAやFCAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
ICA
or
FCA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
パーミュテーション
不整合信号1
不整合信号2
各周波数では音源分離されているが，分離信号の順序が周波数間
で不揃いになっている状態（パーミュテーション問題）

8
パーミュテーション問題を回避する手法
• 独立ベクトル分析（IVA）
– 各信号源は全周波数成分の
強弱が同期すると仮定
• 独立低ランク行列分析（ILRMA）
– 各信号源は時間周波数構造が
低ランクな構造（繰り返しを多分
に含む）を持つと仮定
Time
Frequency
IVAの音源モデル
M
icrophone Frequency
ILRMAの音源モデル
Time M
icrophone
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
を避ける手法

9
深層パーミュテーション解決法の動機
• 音源ごとの時間周波数構造の違い
– 音源モデルが音源に適していない場合，IVAやILRMAのBSS
の精度は低下
– さまざまな音源に適応する万能な音源モデルの作成は困難
• パーミュテーション問題の解決のみをDNNを用いて実装
– さまざまな音源に適応するモデルを作成できる可能性あり
Drums Guitar
Vocals
深層パーミュテーション解決法 [Yamaji+, 2020] が提案される

10
先行研究：深層パーミュテーション解決法
• 局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価 [Yamaji+, 2020]
– DNNを用いて参照周波数成分と近傍の周波数成分が一致して
いるか異なるかを判断
– 推定結果が1の場合は周波数成分が異なる音源である
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源

11
Time
Frequency
DNN
DNN
Input vector
DNN
outputs
・
・
・
・
・
・
・
・
・
1 : 異なる⾳源
1 : 異なる⾳源
0 : 同⼀⾳源
1 : 異なる⾳源
0 : 同⼀⾳源
先行研究：3音源以上でアルゴリズムが複雑化
• 入力が3音源以上での問題点
– DNNの予測が「1:異なる音源」の時，音源の組み合わせが一
意に定まらない
音源の組み合わせ
が不明
音源数分の組み合わせの処理を行う必要があり，
処理が複雑になる
入力ベクトル出力ベクトル

12
MLPを用いた深層パーミュテーション解決法
• パーミュテーション行列をMLPを用いて推定する手法
[Hasuike+, 2022]
Frequency
1
0
0
0
0
0
0
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0
入力ベクトル
全結合層
全結合層
出力層
出力層
全結合層
3層の隠れ層
出力ベクトル
2個の出力層
出力行列
従来手法の
ネットワーク構造
ブロックパーミュテーション問題にしか適用できない

13
本発表の目次
• 従来手法
• 提案手法
• 実験
• まとめ

14
• パーミュテーション不整合信号を並び替えるようなパー
ミュテーション行列をDNNを用いて予測
– 周波数方向再帰に基づき予測
提案手法の概要（従来手法[Hasuike+, 2022] と共通）
周波数方向再帰に基づくDNNを用いて推定
行列積
解析可能
推定する
2音源のパーミュテーション行列
不整合信号
推定分離信号

15
前処理（従来手法[Hasuike+, 2022] と共通）
• パーミュテーション不整合信号に対して正規化処理を
行う [Sawada+, 2007]
– 同一音源の成分の相関を強調できる
– DNNの入力の値を区間 [0,1] に制限できる
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Frequency
Frequency
Time
Frequency
Time
Time
Time

16
DNNの構造
• DNNは入力層，BiLSTM層3層，出力層の計5層で構成
– 出力層にSoftmax関数をかけて，各周波数成分の値が足して1
になる（確率値）制約を設けた
Frequency
LSTM LSTM
LSTM LSTM
LSTM LSTM
LSTM LSTM
LSTM LSTM
Softmax
Softmax
Softmax
LSTM LSTM
Three BiLSTM layers Freq.-wise dense layer
Product
Product
Product
Product
Product
Product
3層のBiLSTM層周波数ビン単位の全結合層

17
推定パーミュテーション行列の導出（従来手法[Hasuike+, 2022] と共通）
• DNNの出力値（確率値）を用いて，推定パーミュテーショ
ン行列を作成
– 確率値をパーミュテーション行列の係数とする
– 2音源の場合，2つのパーミュテーション行列を足し合わせて推
定パーミュテーション行列を作成
推定パーミュテーション
行列へ変換
Frequency
1.0
0.1
0.9
0.1
0.5
0.0
0.9
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0

18
局所時間推定分離信号の導出（従来手法 [Hasuike+, 2022] と共通）
• 推定パーミュテーション行列と局所時間スペクトログラム
との間で行列積を取り，推定分離信号を作成
– パーミュテーション行列の値によっては2つの音源が混合
行列積
推定分離信号
不整合信号

19
損失の導出方法（従来手法[Hasuike+, 2022] と共通）
• 損失関数の設計
– 推定分離信号と完全分離信号との間で平均二乗誤差（mean
squared error: MSE）を導入
– 分離信号の順序は予測の対象としないため，順序不変学習
（permutation invariant training: PIT）[Yu+, 2017] を導入
Frequency
Time Time
Frequency
Time Time
Frequency
Frequency
MSE & PIT

20
Frequency
Time
Frequency
Time
テストデータに対する多数決処理（従来手法 [Hasuike+, 2022] と共通）
• 各局所時間スペクトログラムに対してDNNで予測を行い
多数決処理を施す
行列へ変換
行列へ変換
行列へ変換
多数決処理

21
本発表の目次
• 従来手法
• 提案手法
• 実験
• まとめ

22
• 比較手法
– 局所時間に基づく深層パーミュテーション解決法 [Yamaji+, 2020]
– MLPを用いた深層パーミュテーション解決法 [Hasuike+, 2022]
– 提案手法
• 評価指標
– SDR（Source-to-distortion ratio）[Vincent+, 2006]
• 実験データ
– SiSEC2011より男女の音声及びドラムとギターの音楽信号
実験条件
音響の種類音響信号ファイル名信号長 [s]
音声
男性 dev2_male4_inst_src_2 10.0
女性 dev3_female4_inst_src_2 10.0
音楽
ドラム dev1_wdrums_src_3 11.0
ギター Dev1_wdrums_src_2 11.0

23
• 学習データ
– 音声信号及び音楽信号の時間周波数信号を周波数ビン単位
でランダムにシャッフルしたデータ
– シャッフルパターンは150
• テストデータ
– 学習データとは重複しない10パターン
を用いてランダムに入れ替えたデータ
• 2つのモデル作成
– 音声モデル：男女の音声信号（2種類）を用いて作成
– 音楽モデル：ギターとドラムの音楽信号（2種類）を用いて作成
• 2種類のテスト条件：in-domainとout-of-domain
– In-domain: 学習データとテストデータの音源が同じ
– Out-of-domain: 学習データとテストデータの音源が異なる
実験条件
ランダムに
シャッフル
ランダムに
シャッフル
ランダムに
シャッフル

24
実験条件
• テスト条件：in-domain
• テスト条件：out-of-domain
学習データと重複しない
パーミュテーションパターン
音
声
DNN
学習
音声で評価
音
声
DNN
学習
音楽で評価

25
実験結果（in-domainデータセット）
• BiLSTM手法においてSDRの改善が見られた
• MLP手法ではSDRの改善が見られず，パーミュテーショ
ン問題を解決できていない
テストデータ
パターン
観測信号従来手法
提案手法
MLP BiLSTM
1 -6.25 3.60 -8.45 44.5
2 -6.85 4.65 -7.45 44.5
3 -5.40 3.60 -9.10 44.5
4 -6.45 3.55 -6.20 44.5
5 -6.60 4.70 -7.95 44.5
6 -6.45 4.65 -8.50 44.5
7 -6.35 3.60 -6.80 44.5
8 -5.50 4.65 -8.45 44.5
9 -5.85 3.60 -7.65 44.5
10 -5.55 4.65 -7.70 44.5
音声信号のin-domainに対するSDR値 [dB] 音楽信号のin-domainに対するSDR値 [dB]
テストデータ
パターン
提案手法
MLP BiLSTM
1 -0.95 2.95 1.80 64.75
2 2.00 2.95 -0.20 64.75
3 0.55 2.95 2.75 155.00
4 1.25 2.95 2.25 64.75
5 -1.00 2.95 -1.25 66.65
6 -1.00 2.95 -1.40 61.15
7 -0.85 2.95 -1.95 66.65
8 -0.15 2.95 2.10 64.75
9 0.60 2.95 0.70 64.75
10 -0.35 2.95 -0.80 61.15

26
実験結果（out-of-domainデータセット）
テストデータ
パターン
提案手法
MLP BiLSTM
1 -0.95 5.05 4.85 3.35
2 2.00 5.05 -0.50 1.75
3 0.55 5.05 2.55 3.35
4 1.25 11.35 0.40 3.35
5 -1.00 11.35 0.50 3.35
6 -1.00 11.35 2.05 3.35
7 -0.85 11.35 0.30 3.35
8 -0.15 5.05 -0.40 3.35
9 0.60 5.05 -0.35 3.35
10 -0.35 5.05 -1.25 1.75
音声信号のout-of-domainに
対するSDR値 [dB]
音楽信号のout-of-domainに
対するSDR値 [dB]
テストデータ
パターン
提案手法
MLP BiLSTM
1 -6.25 -8.00 -4.45 33.55
2 -6.85 -5.85 -5.00 22.85
3 -5.40 -7.20 -6.25 33.85
4 -6.45 -7.60 -6.60 23.50
5 -6.60 -7.40 -5.90 22.00
6 -6.45 -7.25 -4.95 24.05
7 -6.35 -1.40 -5.65 23.60
8 -5.50 -7.65 -6.70 26.65
9 -5.85 -6.40 -4.75 25.15
10 -5.55 -7.90 -5.45 24.05
• 音楽信号のout-of-domainに対してBiLSTM手法はSDR
の改善が見られた
• 音声信号のout-of-domainに対してBiLSTM手法でSDR
値の改善は見られたものの従来手法が優勢

27
0 1
1 2
2 3
3 4
4 5
5
0
4
4
2
2
3
3
1
1
0
0
Frequency
[kHz]
Time [s]
実験結果（音声信号のout-of-domain）
BiLSTM手法
MLP手法

28
Time [s]
1
0.5
0
0
0 1
1 2
2 3
3 4
4 5
5
1
0.5
0
Frequency
[kHz] 実験結果（音声信号のout-of-domain）
BiLSTM手法
MLP手法

29
0 1
1 2
2 3
3 4
4 5
5
0
4
4
2
2
3
3
1
1
0
0
Frequency
[kHz]
Time [s]
実験結果（音楽信号のout-of-domain）
BiLSTM手法
MLP手法

30
Time [s]
1
0.5
0
0
0 1
1 2
2 3
3 4
4 5
5
1
0.5
0
Frequency
[kHz] 実験結果（音楽信号のout-of-domain）
BiLSTM手法
MLP手法

31
本発表の目次
• 従来手法
• 提案手法
• 実験
• まとめ

32
まとめ
• 目的
– 周波数ビン単位のパーミュテーション問題の解決
– 省サンプルデータで汎用性が高いモデルの作成
• 提案手法
– 周波数方向再帰の基づく深層パーミュテーション解決法を提案
– DNNの出力をパーミュテーション行列の係数とし，足し合わせ
ることで推定パーミュテーション行列を作成
• 結果
– 省サンプルデータで周波数ビン単位のパーミュテーション問題
を解決できた

周波数双方向再帰に基づく深層パーミュテーション解決法

More Related Content

What's hot

Similar to 周波数双方向再帰に基づく深層パーミュテーション解決法

More from Kitamura Laboratory

周波数双方向再帰に基づく深層パーミュテーション解決法

Editor's Notes