局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

局所時間周波数構造に基づく
深層パーミュテーション解決法の実験的評価
北村研究室
AS2 40
山地修平

はじめに
 音源分離とは
 音源分離の応用先
• 音声認識
• スマートスピーカー
• 補聴器の高性能化
2
音源分離
補聴器
スマート
スピーカー

ブラインド音源分離
 独立成分分析(ICA)とは？
3
ならばとなり分離可能
ここで
独立信号混合信号推定信号
実際の混合は残響による畳込み混合
周波数領域へ拡張（frequency domain ICA: FDICA）

FDICAとパーミュテーション問題
 FDICAの問題点
• 周波数毎に音源成分（赤青）が入れ替わる可能性がある
• この不定性はパーミュテーション問題と呼ばれている
4
FDICA
All frequency
components
Source 1
Source 2
Observed 1
Observed 2
Estimated signal
Estimated signal
Non-aligned signal
Permutation
Solver
Time

特別研究Ⅰ
 局所時間周波数構造に基づく
深層パーミュテーション解決法[Yamaji., 2020]
 問題点
• 実際のFDICAでは，完全に分離されていない周波数ビンも存在する
• 中間周波数ビンで1回でもパーミュテーション解決を誤ると
分離精度が大きく劣化する可能性がある
5
Time
Separated
signal
Non-aligned signal
Non-aligned signal
Separated
signal
DNN
DNN

 入力
• 分離信号から2つの周波数の短時間時系列パワーを抽出＆結合
 出力
•
DNNの入出力
6
例）との短時間時系
列パワーを抽出
0（同一音源）
1（異なる音源）
Time
Frequency

 シンプルな全結合構成
DNNモデルの構成
7
Hidden
Layer
1
(128
units)
ReLU
Input
Layer
(160
units)
Hidden
Layer
2
(128
units)
ReLU
Hidden
Layer
4
(64
units)
ReLU
Hidden
Layer
3
(128
units)
ReLU
Hidden
Layer
5
(64
units)
ReLU
Hidden
Layer
6
(1
units)
Sigmoid
Output
Layer
(1
units)
Target
label
(1
units)
Minimum
MSE
0
or
1

 パーミュテーション解決の流れ
• サブバンド領域でパーミュテーション解決
• 上記処理を時間方向及び周波数方向に走査
DNN
DNN
DNN
DNN
DNN
DNN
提案手法の全体像
8
Time
Frequency
Separated signal
Non-aligned signal

 DNNに基づいたパーミュテーション解決
• パーミュテーション問題が発生した周波数は推定結果が1
• 推定結果が1の周波数成分のみ入れかえ
→ サブバンド領域でのパーミュテーション解決
Time
Frequency
…
DNN
DNN
1 : Diff.
1 : Diff.
0 : Same
1 : Diff.
0 : Same
Input vector
DNN
outputs
…
DNN
…
…
サブバンド領域でのパーミュテーション解決
9
入力ベクトル DNN推定結果
1 : 異なる音源
1 : 異なる音源
0 : 同一音源
1 : 異なる音源
0 : 同一音源

Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
Majority
decision
1
1
0
1
0
Stride
…
DNN
outputs
Subband
permutation
vector
DNN推定結果サブバンド
ベクトル
多数決処理
時間方向への多数決処理
 パーミュテーション問題の不変性
• パーミュテーション問題は全時間フレームで固定
→ DNNの正解値は変わらない
10

フルバンドベクトルの構成方法
 サブバンド領域間での対応付けの必要性
• 各サブバンド領域では，中心周波数の成分を基に並び変えられる
• すべてのサブバンド領域で，音源順の統一が必要
11
が中心周波数
が中心周波数

Time
Frequency
1
1
0
1
0
1
1
0
1
0
1
1
0
1
0
1. Set
Fullband
permutation
vector
2. Set
フルバンドベクトルの構成（1/3）
12
フルバンド
ベクトル
1.セット
2.セット
フルバンド
ベクトル
 目的
• 各領域のサブバンドベクトルを用いて，音源と ”0” 及び ”1” が
統一したフルバンドのパーミュテーションベクトルを構成する
 STEP1
• 最も低い周波数のサブバンドベクトルによって，
音源と ”0” 及び “1” の対応を決定

 STEP2
• 隣接周波数における
• MSEが小さい方をメモリに格納周波数毎に多数決を行いフルバンド
ベクトルを更新
Time
Frequency
1
0
0
1
0
1
1
0
1
0
0
1
1
0
1
0
1
1
0
1
0
2. Set
0
1
1
0
1
1. Similarity comparison
3.
Majority
decision
Fullband
permutation
vector
フルバンド
ベクトル
1.類似度比較
1.類似度比較
2.セット
3.多数決処理
14
フルバンドベクトルの対応部と平均二乗誤差（MSE）で比較
サブバンドベクトル
論理反転ベクトル
の2つのベクトルを

 STEP3
• 最終的に構成されたフルバンドベクトルをもとに，
周波数成分を入れ替えてパーミュテーション解決
15
1
1
0
1
0
0
1
1
0
1
1
0
0
1
1
0
0
1
1
0
1
0
0
1
1
0
1
0
Majority
decision
Time
Frequency
Replace
Fullband
permutation
vector
フルバンド
ベクトル
多数決処理
入れ替え

実験条件
16
θ1
2 m
5.66 cm
Source 1 Source 2
θ2
学習用音声信号
JVSコーパスの音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成，2チャネルで2音源の混合信号
テスト用音声信号
SiSEC2011の音声信号にRWCPデータベースのマイクアレー
インパルス応答を畳み込んで作成，2チャネルで2音源の混合信号
比較手法
理想的にパーミュテーション解決されたFDICA，
独立低ランク行列分析（ILRMA）（基底数2，3及び4）
FFT長 8192 点 (512 ms, ハミング窓)
スライド長 2048 点
主観評価値 SDR改善値
残響時間 470 ms
学習用
音源到来方向
テスト用
音源到来方向

実験結果
17
Good
Poor
SDR
improvement
[dB]
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
FDICA
+
IPS
(reference)
FDICA
+
Proposed
method
ILRMA
(2
bases)
ILRMA
(3
bases)
ILRMA
(4
bases)
0
-2
-4
2
4
6
8
10
12
14

発表文献
 査読付き国際発表
1. Shuhei Yamaji and Daichi Kitamura, “DNN-based permutation solver for
frequency-domain independent component analysis in two-source mixture
case,” Proceedings of Asia-pacific signal and information processing
associationannual summit and conference, 2020.
 国内発表
1. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法,” 日本音響学会2020年春季研究発表会講演論文集, pp. 317-320, 2020.
2. 山地修平, 北村大地, “局所時間周波数構造に基づく深層パーミュテーション解
決法の実験的評価,” 日本音響学会2020年秋季研究発表会講演論文集, pp. 265-
268, 2020.
18

まとめ
 本研究では
• 実際のFDCIAの分離信号であっても，パーミュテーション解決が
可能なモデルへと拡張した
• 高残響の音声混合信号で実験を行い，平均的に8dB程度のSDR改善量
を達成した
 今後の課題
• 現在のアルゴリズムでは3音源以上の分離信号に対して
組み合わせ爆発を起こす
19

デモンストレーション
20
源信号
観測信号
理想的に解決したFDICA
提案手法を用いたFDICA
Ch1 Ch2

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Kitamura Laboratory

More from Kitamura Laboratory (20)

局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価

Editor's Notes