局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

局所時間周波数構造に基づく
深層パーミュテーション解決法の実験的評価
北村研究室
AS2 40
山地修平

はじめに
 音源分離とは
 音源分離の応用先
• 音声認識
• スマートスピーカー
• 補聴器の高性能化
2
音源分離
補聴器
スマート
スピーカー

ブラインド音源分離
 独立成分分析(ICA)とは？
3
ならばとなり分離可能
ここで
独立信号混合信号推定信号
実際の混合は残響による畳込み混合
周波数領域へ拡張（frequency domain ICA: FDICA）

FDICAとパーミュテーション問題
 FDICAの問題点
• 周波数毎に音源成分（赤青）が入れ替わる可能性がある
• この不定性はパーミュテーション問題と呼ばれている
4
FDICA
All frequency
components
Source 1
Source 2
Observed 1
Observed 2
Estimated signal
Estimated signal
Non-aligned signal
Permutation
Solver
Time

特別研究Ⅰ
 局所時間周波数構造に基づく
深層パーミュテーション解決法[Yamaji., 2020]
 問題点
• 実際のFDICAでは，完全に分離されていない周波数ビンも存在する
• 中間周波数ビンで1回でもパーミュテーション解決を誤ると
分離精度が大きく劣化する可能性がある
5
Time
Separated
signal
Non-aligned signal
Non-aligned signal
Separated
signal
DNN
DNN

 入力
• 分離信号から2つの周波数の短時間時系列パワーを抽出＆結合
 出力
•
DNNの入出力
6
例）との短時間時系
列パワーを抽出
0（同一音源）
1（異なる音源）
Time
Frequency

 シンプルな全結合構成
DNNモデルの構成
7
Hidden
Layer
1
(128
units)
ReLU
Input
Layer
(160
units)
Hidden
Layer
2
(128
units)
ReLU
Hidden
Layer
4
(64
units)
ReLU
Hidden
Layer
3
(128
units)
ReLU
Hidden
Layer
5
(64
units)
ReLU
Hidden
Layer
6
(1
units)
Sigmoid
Output
Layer
(1
units)
Target
label
(1
units)
Minimum
MSE
0
or
1

 パーミュテーション解決の流れ
• サブバンド領域でパーミュテーション解決
• 上記処理を時間方向及び周波数方向に走査
DNN
DNN
DNN
DNN
DNN
DNN
提案手法の全体像
8
Time
Frequency
Separated signal
Non-aligned signal

 DNNに基づいたパーミュテーション解決
• パーミュテーション問題が発生した周波数は推定結果が1
• 推定結果が1の周波数成分のみ入れかえ
→ サブバンド領域でのパーミュテーション解決
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
サブバンド領域でのパーミュテーション解決
9
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源

Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
Majority
decision
1
1
0
1
0
Stride
…
DNN
outputs
Subband
permutation
vector
DNN推定結果サブバンド
ベクトル
多数決処理
時間方向への多数決処理
 パーミュテーション問題の不変性
• パーミュテーション問題は全時間フレームで固定
→ DNNの正解値は変わらない
10

フルバンドベクトルの構成方法
 サブバンド領域間での対応付けの必要性
• 各サブバンド領域では，中心周波数の成分を基に並び変えられる
• すべてのサブバンド領域で，音源順の統一が必要
11
が中心周波数
が中心周波数

Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
1. Set
Fullband
permutation
vector
2. Set
フルバンドベクトルの構成（1/3）
12
フルバンド
ベクトル
1.セット
2.セット
フルバンド
ベクトル
 目的
• 各領域のサブバンドベクトルを用いて，音源と ”0” 及び ”1” が
統一したフルバンドのパーミュテーションベクトルを構成する
 STEP1
• 最も低い周波数のサブバンドベクトルによって，
音源と ”0” 及び “1” の対応を決定

 STEP2
• 隣接周波数における
• MSEが小さい方をメモリに格納周波数毎に多数決を行いフルバンド
ベクトルを更新
Time
Frequency
1
0
0
1
0
1
1
0
1
0
0
1
1
0
1
0
1
1
0
1
0
2. Set
0
1
1
0
1
1. Similarity comparison
3.
Majority
decision
Fullband
permutation
vector
フルバンド
ベクトル
1.類似度比較
1.類似度比較
2.セット
3.多数決処理
14
フルバンドベクトルの対応部と平均二乗誤差（MSE）で比較
サブバンドベクトル
論理反転ベクトル
の2つのベクトルを

 STEP3
• 最終的に構成されたフルバンドベクトルをもとに，
周波数成分を入れ替えてパーミュテーション解決
15
1
1
0
1
0
0
1
1
0
1
1
0
0
1
1
0
0
1
1
0
1
0
0
1
1
0
1
0
Majority
decision
Time
Frequency
Replace
Fullband
permutation
vector
フルバンド
ベクトル
多数決処理
入れ替え

実験条件
16
θ1
2 m
5.66 cm
Source 1 Source 2
θ2
学習用音声信号
JVSコーパスの音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成，2チャネルで2音源の混合信号
テスト用音声信号
SiSEC2011の音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成，2チャネルで2音源の混合信号
比較手法
理想的にパーミュテーション解決されたFDICA，
独立低ランク行列分析（ILRMA）（基底数2，3及び4）
FFT長 8192 点 (512 ms, ハミング窓)
スライド長 2048 点
主観評価値 SDR改善値
残響時間 470 ms
学習用
音源到来方向
テスト用
音源到来方向

実験結果
17
Good
Poor
SDR
improvement
[dB]
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
0
-2
-4
2
4
6
8
10
12
14

発表文献
 査読付き国際発表
1. Shuhei Yamaji and Daichi Kitamura, “DNN-based permutation solver for
frequency-domain independent component analysis in two-source mixture
case,” Proceedings of Asia-pacific signal and information processing
associationannual summit and conference, 2020.
 国内発表
1. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法,” 日本音響学会2020年春季研究発表会講演論文集, pp. 317-320, 2020.
2. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価,” 日本音響学会2020年秋季研究発表会講演論文集, pp. 265-
268, 2020.
18

まとめ
 本研究では
• 実際のFDCIAの分離信号であっても，パーミュテーション解決が
可能なモデルへと拡張した
• 高残響の音声混合信号で実験を行い，平均的に8dB程度のSDR改善量
を達成した
 今後の課題
• 現在のアルゴリズムでは3音源以上の分離信号に対して
組み合わせ爆発を起こす
19

デモンストレーション
20
源信号
観測信号
理想的に解決したFDICA
提案手法を用いたFDICA
Ch1 Ch2

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

More Related Content

What's hot

Similar to 局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

More from Kitamura Laboratory

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

Editor's Notes