Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

論文紹介 Unsupervised training of neural mask-based beamforming

https://connpass.com/event/152316/

  • Be the first to comment

  • Be the first to like this

論文紹介 Unsupervised training of neural mask-based beamforming

  1. 1. 論文紹介 Unsupervised training of neural mask-based beamforming 早稲田大学 升山義紀
  2. 2. 自己紹介 ◼ 升山 義紀 (Masuyama Yoshiki) ◼ 経歴 ◦ 2015.04-2019.03 早稲田大学 基幹理工学部 ◦ 2019.03-現在 同大学院 ◦ 2019.03-2019.09 アルバイト@LINE ◦ 2019.11-現在 RA@AIST ◼ 研究テーマ ◦ 位相を考慮した音響信号処理(位相復元,楽器音強調・分離) ◦ 多チャンネル音響信号処理(DNNを用いた音源分離)
  3. 3. 本スライドの内容は個人の解釈であり,誤りの可能性があります.
  4. 4. Unsupervised training of neural mask-based beamforming Lukas Drude, Jahn Heymann, Reinhold Haeb-Umbach (Paderborn University) Session: Far-field Speech Recognition
  5. 5. 音声認識のための多チャンネル音声強調 ◼ 目的音方向が未知の場合のビームフォーミング ◦ 目的音,妨害音の空間相関行列を推定 ◦ 推定した空間相関行列からビームフォーマの設計 研究背景
  6. 6. 研究目的 音声強調のためのDNNの教師なし学習 ◼ 教師あり手法 ◦ クリーン音声とノイジーな音声のペアデータが必要 ◦ 実(多チャンネル録音の)ペアデータの準備はコスト高 ◦ 多くの研究がシミュレーションデータを利用 • ロンバード効果などのシミュレーションは困難 • 拡散性の雑音のシミュレーションは困難 ◼ 提案手法 ◦ ノイジーな多チャンネル録音のみから学習が可能 ◦ 多チャンネル観測信号の確率モデルの尤度最大化で学習
  7. 7. Mask-based Beamforming システム概要 ◼ 大きく分けて3-step ◦ 時間周波数マスクを推定(e.g., DNN) ◦ 空間相関行列(SCM)の計算 ◦ ビームフォーミング(e.g., GEVビームフォーマ, …) マスク推定 SCM計算 ビーム フォーミング
  8. 8. Mask-based Beamforming システム概要 ◼ 大きく分けて3-step ◦ 時間周波数マスクを推定(e.g., DNN) ◦ 空間相関行列(SCM)の計算 ◦ ビームフォーミング(e.g., GEVビームフォーマ, …) マスク推定 SCM計算 ビーム フォーミング
  9. 9. Mask-based Beamforming 各ブロックの実装 ◼ SCMの計算 ◼ ビームフォーマの設計 ◦ MVDRビームフォーマ: 目的音をひずみなく抽出するように設計 ◦ GEVビームフォーマ: SNRが最大になるように設計
  10. 10. 従来手法: 教師あり学習 NN based spectral mask estimation [Heymann+ 2016] ◼ DNNを用いたmask-based beamformingの初期の論文 ◦ モノラルのクリーン音声と雑音を学習に利用 ◦ バイナリマスクをターゲットとしてDNNを学習
  11. 11. End-to-end学習 BeamNet [Heymann+ 2017] ◼ ASRの結果にもとづいたend-to-end学習 ◦ 音声認識におけるcross-entropy最小化で2つのDNNを学習 • チャンネルごとに時間周波数マスク推定を行うDNN • 音響特徴量を推定するDNN ◦ 複素数の多チャンネル信号処理に関しても誤差逆伝搬を適用 マスク推定DNN 音響特徴量推定DNN
  12. 12. 疑似教師あり学習 Unsupervised Deep Clustering ◼ 教師データを信号処理で作成 ◦ 多チャンネル混合音に従来のBSS手法の分離を適用し教師に利用 ◦ 推論時はモノラルの混合音のみから時間周波数マスク推定可能 ◦ ICASSP2019で乱立 • 位相差にもとづき教師作成 [Tzinis+ 2019], [Seetharaman+ 2019] • cACGMMにもとづき教師作成 [Drude+ 2019] 多チャンネル 信号処理 DNNによる 埋め込み DC Loss
  13. 13. 疑似教師あり学習 Unsupervised training of DC ◼ 確率モデルにもとづいた信号処理結果を利用 ◦ cACGMM [Ito+ 2016]: チャンネル間の位相差・振幅差に注目 ◦ 空間的な性質にもとづいて時間周波数マスク推定 ◦ CGMM + ビームフォーマはCHiME3で高性能 [Higuchi+ 2016]
  14. 14. 疑似教師あり学習 Unsupervised training of DC ◼ DNNの学習 ◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法 ◦ 学習には理想バイナリマスクを利用 ⇒ cACGMMのクラス割り当ての事後確率で代用
  15. 15. 疑似教師あり学習 Unsupervised training of DC ◼ DNNの学習 ◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法 ◦ 学習には理想バイナリマスクを利用 ⇒ cACGMMのクラス割り当ての事後確率で代用 • 教師データ作成のためにEM アルゴリズムが必要 • 教師データがノイジー
  16. 16. Unsupervised training of neural mask-based beamforming
  17. 17. Overview cACGMMの尤度を直接最大化 ◼ EMアルゴリズムの結果がよくなるようにDNNを学習 ◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓 [𝑘] )を推定 ◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算 ◦ 尤度にもとづいて学習 チャンネルごとマスク推定 (学習するのはこの部分)
  18. 18. Overview cACGMMの尤度を直接最大化 ◼ EMアルゴリズムの結果がよくなるようにDNNを学習 ◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓 [𝑘] )を推定 ◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算 ◦ 尤度にもとづいて学習 cACGMMの EMアルゴリズム
  19. 19. Overview cACGMMの尤度を直接最大化 ◼ EMアルゴリズムの結果がよくなるようにDNNを学習 ◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓 [𝑘] )を推定 ◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算 ◦ 尤度にもとづいて学習 尤度を上昇させる ように勾配計算
  20. 20. cACGMMにもとづいたロス関数 尤度最大化によるDNNの学習 ◼ cACGMMのパラメータ(𝜋 𝑓 [𝑘] , 𝐁 𝑓 [𝑘] )をマスクから計算 ◦ 𝐁 𝑓 [𝑘] の計算には反復が必要だが,1回で代用 ◦ EMアルゴリズムのMステップに対応
  21. 21. cACGMMにもとづいたロス関数 尤度最大化によるDNNの学習 ◼ 具体的な目的関数() ◦ 対数尤度 ◦ クラス割り当ての事前確率を等確率にしたもの ◦ Q関数に対応するもの
  22. 22. cACGMMにもとづいたロス関数 尤度最大化によるDNNの学習 ◼ 具体的な目的関数() ◦ 対数尤度 ◦ クラス割り当ての事前確率を等確率にしたもの ◦ Q関数に対応するもの 文献式(14)にはなし
  23. 23. 実験: 多チャンネル音声認識 実験条件 ◼ データセット: CHiME 4 ◼ DNN ◦ Mask estimator: BiLSTM + Dense×3 ◦ Acoustic model: Wideband bi-directional residual network ◼ 提案手法 ◦ ロス3種類, 𝛾𝑡,𝑓 [𝑘] の再推定あり/なし,EMアップデート(1回) サンプリング周波数 16 kHz 窓長 32 ms シフト長 25 ms FFTサイズ 10 ms
  24. 24. 実験: 多チャンネル音声認識 実験結果1: ロス関数の比較 ◦ クラス割り当ての事前確率が等しいという仮定が最高性能 ◦ 追加のEMアルゴリズムで性能改善
  25. 25. 実験: 多チャンネル音声認識 実験結果2: 他手法との比較 ◦ 教師ありと遜色ない性能を教師なしで実現 ◦ 追加のEMアルゴリズムは提案手法と相性がいい
  26. 26. まとめ ◼ 目的 ◦ 多チャンネルの音声認識のためのビームフォーマ ◦ マスク推定DNNの教師なし学習 ◼ ポイント ◦ BSSで使われてきたcACGMMを利用 ◦ 確率モデルの尤度最大化で直接DNNを学習 ◼ 結果 ◦ 追加のEMステップ適用で教師ありと同程度の性能を獲得 ◼ 課題 ◦ 学習時にDNNの出力マスクに周波数方向のパーミュテーション 問題が発生 ◼ 発展手法 ◦ 時間周波数マスクに加え音源方向もDNNで推定 [Bando+ 2019] ⇒ 周波数方向のパーミュテーション問題が発生しない

×