(ICASSP2019音声&音響論文読み会)
TEACHER-STUDENT DEEP CLUSTERING
FOR LOW-DELAY SINGLE CHANNEL
SPEECH SEPARATION
Ryo Aihara, Toshiyuki Hanazawa, Yohei Okato
(Mitsubishi Electric Corp.)
Gordon Wichern, Jonathan Le Roux
(Mitsubishi Electric Research Labs.)
相原 龍 (あいはら りょう)
 経歴
 2014年 神戸大学システム情報学研究科 博士前期課程 修了
「非負値行列因子分解による構音障害者のための声質変換」
 2017年 神戸大学システム情報学研究科 博士後期課程 修了
「非負値行列因子分解による声質変換とその実課題への応用」
 2017年~ 三菱電機株式会社 情報技術総合研究所
知識情報処理技術部 言語メディア処理技術グループ
「Deep Clusteringに基づく音声分離」
2
自己紹介
 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
3
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減 分離精度劣化低減
Chimera-
network
4
シングルチャネル音声分離
okay
cool
great
 話者ごとのマスク推定問題
 音源位置情報を用いない
 話者・言語非依存
 Permutation Problemが発生
okaycoolgreat
 直接的なマスクの推定を避ける
 スペクトルの(時間ー周波数)ビンに対して「埋め込みベクトル」を推定
 埋め込みベクトルをK-meansしてマスクを推定
 Kに話者数を与えることで、アルゴリズム上は何人でも分離可
5
Deep Clustering [J. R. Hershey et al., 2016]
埋め込みベクトル
tV
FxD
F
D
行列化 F
C
クラスラベル
t}{Y
F
tX
混合発話スペクトル
ベクトル
T
BLSTM
K-means Mask
D
 直接的なマスクの推定
 求めるマスクは、ランダム値で初期化
 2つのペアで誤差の小さい方を教師とする
6
Mask Inference Learning
[J. R. Hershey et al., 2016]
[D. Yu et al., 2017]
BLSTM
Speaker A + B
Target
Speaker A
Estimated
Mask ?
Target
Speaker B
Estimated
Mask ?
 Deep Clustering + Mask Inference Learning
 分離時にはMIで推定されたマスクを使用
 汎化能力の向上によって、分離性精度が向上する
7
Chimera Network [Z.-Q. Wang et al., 2018]
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
 BLSTMではオンライン処理が不可能。
 発話全体を入力とするため、発話長以上の遅延が発生。
 まずは、処理開始までの遅延を削減したい。
 関連研究
“LOW-LATENCY DEEP CLUSTERING FOR SPEECH
SEPARATION”, S. Wang et. al., ICASSP2019.
 LSTMでDeep Clusteringを実装。
 K-meansをブロック化。
 BLSTMと比較して大幅な精度劣化は避けられない。
8
Our motivation
 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
9
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減 分離精度劣化低減
Chimera-
network
10
Latency-controlled BLSTM
Forward
Backward
LC-BLSTMBLSTM
Forward
Backward
Time
Input
Hidden
Output
Forward
Backward
Time
Hidden
Ns
発話長以上の
遅延が発生
メインブロック
補助ブロック
Input
遅延
Nm+Ns
Output
Ns分の情報が伝播
Nm
Ns分の情報が伝播
11
Latency-controlled BLSTM
Forward
Backward
LC-BLSTMBLSTM
Forward
Backward
Time
Input
Hidden
Output
Forward
Backward
Time
Hidden
Nm Ns
発話長以上の
遅延が発生
Input
遅延
Nm+Ns
Output
Nm
前ブロックの
セルを引き継ぐ
12
Teacher-student学習
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
BLSTMs
RNNs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
RNNs
Teacher Student
最終層の重みを教師に
遅延の大きいネットワーク
の情報を伝える
(L1またはL2距離)
 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
13
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減 分離精度劣化低減
Chimera-
network
 データベース:Wall Street Journal (WSJ0)
 Training: 20,000発話 (約30時間)
 Validation: 5,000発話 (約10時間)
 Test: 3,000発話(約5時間)
 特徴量: 129次元log-magnitudeスペクトル
 サンプリング周波数: 8k[Hz], フレームシフト: 8[ms]
 分析窓: Hann窓, 窓幅:32[ms]
 ネットワークと学習
 Chimera Network (BLSTM, LSTM, LC-BLSTM)
 Adam ( )
 学習エポック数:100
 評価指標
 Signal-to-Distortion Ratio (SDR) [dB] 14
実験条件
15
実験結果 (1/3)
Teacher-student学習LSTM
+0.04
 LSTMでは十分な分離精度が得られない
 Teacher-student学習によりわずかではあるが向上
16
実験結果 (2/3)
9.8
10
10.2
10.4
10.6
10.8
11
Teacher-student学習BLSTM LC-BLSTM
BLSTM LC-BLSTM TS-LC-BLSTM
×
- (150,0) (100,50) (50,100) (100,50)(100,50)
TS距離 - - - - L1 L2
SDR[dB]
0.27
0.23
(Teacher)
遅延
発話長
以上 1.2 [s] 1.2 [s]1.2 [s] 1.2 [s] 1.2 [s]
r
Better
1.2[s]遅延 0.50[dB]の向上を実現
17
実験結果 (3/3)
9.8
10
10.2
10.4
10.6
10.8
11
Teacher-student学習BLSTM LC-BLSTM
BLSTM LC-BLSTM TS-LC-BLSTM
×
- (75,0) (50,25) (25,50) (50,25)(50,25)
TS距離 - - - - L1 L2
SDR[dB]
0.27
0.12
(Teacher)
遅延
発話長
以上 0.6 [s] 0.6 [s]0.6 [s] 0.6 [s] 0.6 [s]
r
Better
0.6[s]遅延 0.39[dB]の向上を実現
 シングルチャネル音声分離の低遅延化手法を提案
18
まとめ
Latency-controlled
BLSTM
Teacher-student
学習
BLSTM
発話長以上遅延
10.99[dB]
0.6[s]遅延
10.19[dB]
0.6[s]遅延
10.31[dB]
 今後の課題
 さらなる遅延時間の削減
 Teacher-student学習によるネットワークの小規模化?
ネットワークの
小規模化?

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION