More Related Content
More from Shinnosuke Takamichi (20)
論文紹介 Unsupervised training of neural mask-based beamforming
- 2. 自己紹介
◼ 升山 義紀 (Masuyama Yoshiki)
◼ 経歴
◦ 2015.04-2019.03 早稲田大学 基幹理工学部
◦ 2019.03-現在 同大学院
◦ 2019.03-2019.09 アルバイト@LINE
◦ 2019.11-現在 RA@AIST
◼ 研究テーマ
◦ 位相を考慮した音響信号処理(位相復元,楽器音強調・分離)
◦ 多チャンネル音響信号処理(DNNを用いた音源分離)
- 4. Unsupervised training of neural
mask-based beamforming
Lukas Drude, Jahn Heymann, Reinhold Haeb-Umbach
(Paderborn University)
Session: Far-field Speech Recognition
- 10. 従来手法: 教師あり学習
NN based spectral mask estimation [Heymann+ 2016]
◼ DNNを用いたmask-based beamformingの初期の論文
◦ モノラルのクリーン音声と雑音を学習に利用
◦ バイナリマスクをターゲットとしてDNNを学習
- 11. End-to-end学習
BeamNet [Heymann+ 2017]
◼ ASRの結果にもとづいたend-to-end学習
◦ 音声認識におけるcross-entropy最小化で2つのDNNを学習
• チャンネルごとに時間周波数マスク推定を行うDNN
• 音響特徴量を推定するDNN
◦ 複素数の多チャンネル信号処理に関しても誤差逆伝搬を適用
マスク推定DNN 音響特徴量推定DNN
- 12. 疑似教師あり学習
Unsupervised Deep Clustering
◼ 教師データを信号処理で作成
◦ 多チャンネル混合音に従来のBSS手法の分離を適用し教師に利用
◦ 推論時はモノラルの混合音のみから時間周波数マスク推定可能
◦ ICASSP2019で乱立
• 位相差にもとづき教師作成 [Tzinis+ 2019], [Seetharaman+ 2019]
• cACGMMにもとづき教師作成 [Drude+ 2019]
多チャンネル
信号処理
DNNによる
埋め込み
DC Loss
- 13. 疑似教師あり学習
Unsupervised training of DC
◼ 確率モデルにもとづいた信号処理結果を利用
◦ cACGMM [Ito+ 2016]: チャンネル間の位相差・振幅差に注目
◦ 空間的な性質にもとづいて時間周波数マスク推定
◦ CGMM + ビームフォーマはCHiME3で高性能 [Higuchi+ 2016]
- 15. 疑似教師あり学習
Unsupervised training of DC
◼ DNNの学習
◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法
◦ 学習には理想バイナリマスクを利用
⇒ cACGMMのクラス割り当ての事後確率で代用
• 教師データ作成のためにEM
アルゴリズムが必要
• 教師データがノイジー
- 23. 実験: 多チャンネル音声認識
実験条件
◼ データセット: CHiME 4
◼ DNN
◦ Mask estimator: BiLSTM + Dense×3
◦ Acoustic model: Wideband bi-directional residual network
◼ 提案手法
◦ ロス3種類, 𝛾𝑡,𝑓
[𝑘]
の再推定あり/なし,EMアップデート(1回)
サンプリング周波数 16 kHz
窓長 32 ms
シフト長 25 ms
FFTサイズ 10 ms
- 26. まとめ
◼ 目的
◦ 多チャンネルの音声認識のためのビームフォーマ
◦ マスク推定DNNの教師なし学習
◼ ポイント
◦ BSSで使われてきたcACGMMを利用
◦ 確率モデルの尤度最大化で直接DNNを学習
◼ 結果
◦ 追加のEMステップ適用で教師ありと同程度の性能を獲得
◼ 課題
◦ 学習時にDNNの出力マスクに周波数方向のパーミュテーション
問題が発生
◼ 発展手法
◦ 時間周波数マスクに加え音源方向もDNNで推定 [Bando+ 2019]
⇒ 周波数方向のパーミュテーション問題が発生しない