Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

622 views

Published on

ICASSP2019音声&音響論文読み会@DeNA

Published in: Technology
  • Be the first to comment

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

  1. 1. (ICASSP2019音声&音響論文読み会) TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION Ryo Aihara, Toshiyuki Hanazawa, Yohei Okato (Mitsubishi Electric Corp.) Gordon Wichern, Jonathan Le Roux (Mitsubishi Electric Research Labs.)
  2. 2. 相原 龍 (あいはら りょう)  経歴  2014年 神戸大学システム情報学研究科 博士前期課程 修了 「非負値行列因子分解による構音障害者のための声質変換」  2017年 神戸大学システム情報学研究科 博士後期課程 修了 「非負値行列因子分解による声質変換とその実課題への応用」  2017年~ 三菱電機株式会社 情報技術総合研究所 知識情報処理技術部 言語メディア処理技術グループ 「Deep Clusteringに基づく音声分離」 2 自己紹介
  3. 3.  シングルチャネル音声分離  低遅延化のため2つの手法を導入 3 発表概要 Deep Clustering Mask Inference Learning BLSTMの利用による 発話長以上の遅延 Latency-controlled BLSTM Teacher-student 学習× 遅延時間削減 分離精度劣化低減 Chimera- network
  4. 4. 4 シングルチャネル音声分離 okay cool great  話者ごとのマスク推定問題  音源位置情報を用いない  話者・言語非依存  Permutation Problemが発生 okaycoolgreat
  5. 5.  直接的なマスクの推定を避ける  スペクトルの(時間ー周波数)ビンに対して「埋め込みベクトル」を推定  埋め込みベクトルをK-meansしてマスクを推定  Kに話者数を与えることで、アルゴリズム上は何人でも分離可 5 Deep Clustering [J. R. Hershey et al., 2016] 埋め込みベクトル tV FxD F D 行列化 F C クラスラベル t}{Y F tX 混合発話スペクトル ベクトル T BLSTM K-means Mask D
  6. 6.  直接的なマスクの推定  求めるマスクは、ランダム値で初期化  2つのペアで誤差の小さい方を教師とする 6 Mask Inference Learning [J. R. Hershey et al., 2016] [D. Yu et al., 2017] BLSTM Speaker A + B Target Speaker A Estimated Mask ? Target Speaker B Estimated Mask ?
  7. 7.  Deep Clustering + Mask Inference Learning  分離時にはMIで推定されたマスクを使用  汎化能力の向上によって、分離性精度が向上する 7 Chimera Network [Z.-Q. Wang et al., 2018] BLSTMs Linear Sigmoid Masks Spectrogram Linear Sigmoid + Unit-norm Embeddings
  8. 8.  BLSTMではオンライン処理が不可能。  発話全体を入力とするため、発話長以上の遅延が発生。  まずは、処理開始までの遅延を削減したい。  関連研究 “LOW-LATENCY DEEP CLUSTERING FOR SPEECH SEPARATION”, S. Wang et. al., ICASSP2019.  LSTMでDeep Clusteringを実装。  K-meansをブロック化。  BLSTMと比較して大幅な精度劣化は避けられない。 8 Our motivation
  9. 9.  シングルチャネル音声分離  低遅延化のため2つの手法を導入 9 発表概要 Deep Clustering Mask Inference Learning BLSTMの利用による 発話長以上の遅延 Latency-controlled BLSTM Teacher-student 学習× 遅延時間削減 分離精度劣化低減 Chimera- network
  10. 10. 10 Latency-controlled BLSTM Forward Backward LC-BLSTMBLSTM Forward Backward Time Input Hidden Output Forward Backward Time Hidden Ns 発話長以上の 遅延が発生 メインブロック 補助ブロック Input 遅延 Nm+Ns Output Ns分の情報が伝播 Nm Ns分の情報が伝播
  11. 11. 11 Latency-controlled BLSTM Forward Backward LC-BLSTMBLSTM Forward Backward Time Input Hidden Output Forward Backward Time Hidden Nm Ns 発話長以上の 遅延が発生 Input 遅延 Nm+Ns Output Nm 前ブロックの セルを引き継ぐ
  12. 12. 12 Teacher-student学習 BLSTMs Linear Sigmoid Masks Spectrogram Linear Sigmoid + Unit-norm Embeddings BLSTMs RNNs Linear Sigmoid Masks Spectrogram Linear Sigmoid + Unit-norm Embeddings RNNs Teacher Student 最終層の重みを教師に 遅延の大きいネットワーク の情報を伝える (L1またはL2距離)
  13. 13.  シングルチャネル音声分離  低遅延化のため2つの手法を導入 13 発表概要 Deep Clustering Mask Inference Learning BLSTMの利用による 発話長以上の遅延 Latency-controlled BLSTM Teacher-student 学習× 遅延時間削減 分離精度劣化低減 Chimera- network
  14. 14.  データベース:Wall Street Journal (WSJ0)  Training: 20,000発話 (約30時間)  Validation: 5,000発話 (約10時間)  Test: 3,000発話(約5時間)  特徴量: 129次元log-magnitudeスペクトル  サンプリング周波数: 8k[Hz], フレームシフト: 8[ms]  分析窓: Hann窓, 窓幅:32[ms]  ネットワークと学習  Chimera Network (BLSTM, LSTM, LC-BLSTM)  Adam ( )  学習エポック数:100  評価指標  Signal-to-Distortion Ratio (SDR) [dB] 14 実験条件
  15. 15. 15 実験結果 (1/3) Teacher-student学習LSTM +0.04  LSTMでは十分な分離精度が得られない  Teacher-student学習によりわずかではあるが向上
  16. 16. 16 実験結果 (2/3) 9.8 10 10.2 10.4 10.6 10.8 11 Teacher-student学習BLSTM LC-BLSTM BLSTM LC-BLSTM TS-LC-BLSTM × - (150,0) (100,50) (50,100) (100,50)(100,50) TS距離 - - - - L1 L2 SDR[dB] 0.27 0.23 (Teacher) 遅延 発話長 以上 1.2 [s] 1.2 [s]1.2 [s] 1.2 [s] 1.2 [s] r Better 1.2[s]遅延 0.50[dB]の向上を実現
  17. 17. 17 実験結果 (3/3) 9.8 10 10.2 10.4 10.6 10.8 11 Teacher-student学習BLSTM LC-BLSTM BLSTM LC-BLSTM TS-LC-BLSTM × - (75,0) (50,25) (25,50) (50,25)(50,25) TS距離 - - - - L1 L2 SDR[dB] 0.27 0.12 (Teacher) 遅延 発話長 以上 0.6 [s] 0.6 [s]0.6 [s] 0.6 [s] 0.6 [s] r Better 0.6[s]遅延 0.39[dB]の向上を実現
  18. 18.  シングルチャネル音声分離の低遅延化手法を提案 18 まとめ Latency-controlled BLSTM Teacher-student 学習 BLSTM 発話長以上遅延 10.99[dB] 0.6[s]遅延 10.19[dB] 0.6[s]遅延 10.31[dB]  今後の課題  さらなる遅延時間の削減  Teacher-student学習によるネットワークの小規模化? ネットワークの 小規模化?

×