論文紹介 Unsupervised training of neural mask-based beamforming

論文紹介
Unsupervised training of neural
mask-based beamforming
早稲田大学升山義紀

自己紹介
◼ 升山義紀 (Masuyama Yoshiki)
◼ 経歴
◦ 2015.04-2019.03 早稲田大学基幹理工学部
◦ 2019.03-現在同大学院
◦ 2019.03-2019.09 アルバイト@LINE
◦ 2019.11-現在 RA＠AIST
◼ 研究テーマ
◦ 位相を考慮した音響信号処理（位相復元，楽器音強調・分離）
◦ 多チャンネル音響信号処理（DNNを用いた音源分離）

本スライドの内容は個人の解釈であり，誤りの可能性があります．

Lukas Drude, Jahn Heymann, Reinhold Haeb-Umbach
(Paderborn University)
Session: Far-field Speech Recognition

音声認識のための多チャンネル音声強調
◼ 目的音方向が未知の場合のビームフォーミング
◦ 目的音，妨害音の空間相関行列を推定
◦ 推定した空間相関行列からビームフォーマの設計
研究背景

研究目的
音声強調のためのDNNの教師なし学習
◼ 教師あり手法
◦ クリーン音声とノイジーな音声のペアデータが必要
◦ 実(多チャンネル録音の)ペアデータの準備はコスト高
◦ 多くの研究がシミュレーションデータを利用
• ロンバード効果などのシミュレーションは困難
• 拡散性の雑音のシミュレーションは困難
◼ 提案手法
◦ ノイジーな多チャンネル録音のみから学習が可能
◦ 多チャンネル観測信号の確率モデルの尤度最大化で学習

Mask-based Beamforming
システム概要
◼ 大きく分けて3-step
◦ 時間周波数マスクを推定（e.g., DNN）
◦ 空間相関行列（SCM）の計算
◦ ビームフォーミング（e.g., GEVビームフォーマ, …）
マスク推定 SCM計算
ビーム
フォーミング

Mask-based Beamforming
各ブロックの実装
◼ SCMの計算
◼ ビームフォーマの設計
◦ MVDRビームフォーマ: 目的音をひずみなく抽出するように設計
◦ GEVビームフォーマ: SNRが最大になるように設計

従来手法: 教師あり学習
NN based spectral mask estimation [Heymann+ 2016]
◼ DNNを用いたmask-based beamformingの初期の論文
◦ モノラルのクリーン音声と雑音を学習に利用
◦ バイナリマスクをターゲットとしてDNNを学習

End-to-end学習
BeamNet [Heymann+ 2017]
◼ ASRの結果にもとづいたend-to-end学習
◦ 音声認識におけるcross-entropy最小化で2つのDNNを学習
• チャンネルごとに時間周波数マスク推定を行うDNN
• 音響特徴量を推定するDNN
◦ 複素数の多チャンネル信号処理に関しても誤差逆伝搬を適用
マスク推定DNN 音響特徴量推定DNN

疑似教師あり学習
Unsupervised Deep Clustering
◼ 教師データを信号処理で作成
◦ 多チャンネル混合音に従来のBSS手法の分離を適用し教師に利用
◦ 推論時はモノラルの混合音のみから時間周波数マスク推定可能
◦ ICASSP2019で乱立
• 位相差にもとづき教師作成 [Tzinis+ 2019], [Seetharaman+ 2019]
• cACGMMにもとづき教師作成 [Drude+ 2019]
多チャンネル
信号処理
DNNによる
埋め込み
DC Loss

Unsupervised training of DC
◼ 確率モデルにもとづいた信号処理結果を利用
◦ cACGMM [Ito+ 2016]: チャンネル間の位相差・振幅差に注目
◦ 空間的な性質にもとづいて時間周波数マスク推定
◦ CGMM + ビームフォーマはCHiME3で高性能 [Higuchi+ 2016]

◼ DNNの学習
◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法
◦ 学習には理想バイナリマスクを利用
⇒ cACGMMのクラス割り当ての事後確率で代用

◼ DNNの学習
◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法
◦ 学習には理想バイナリマスクを利用
⇒ cACGMMのクラス割り当ての事後確率で代用
• 教師データ作成のためにEM
アルゴリズムが必要
• 教師データがノイジー

Overview
cACGMMの尤度を直接最大化
◼ EMアルゴリズムの結果がよくなるようにDNNを学習
◦ DNNで時間周波数マスク（以下文献に合わせ𝛾𝑡,𝑓
[𝑘]
）を推定
◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算
◦ 尤度にもとづいて学習
チャンネルごとマスク推定
（学習するのはこの部分）

Overview
[𝑘]
）を推定
cACGMMの
EMアルゴリズム

Overview
[𝑘]
）を推定
尤度を上昇させる
ように勾配計算

cACGMMにもとづいたロス関数
尤度最大化によるDNNの学習
◼ cACGMMのパラメータ（𝜋 𝑓
[𝑘]
, 𝐁 𝑓
[𝑘]
）をマスクから計算
◦ 𝐁 𝑓
[𝑘]
の計算には反復が必要だが，1回で代用
◦ EMアルゴリズムのMステップに対応

◼ 具体的な目的関数（）
◦ 対数尤度
◦ クラス割り当ての事前確率を等確率にしたもの
◦ Q関数に対応するもの

◼ 具体的な目的関数（）
◦ 対数尤度
◦ クラス割り当ての事前確率を等確率にしたもの
◦ Q関数に対応するもの文献式(14)にはなし

実験: 多チャンネル音声認識
実験条件
◼ データセット: CHiME 4
◼ DNN
◦ Mask estimator: BiLSTM + Dense×3
◦ Acoustic model: Wideband bi-directional residual network
◼ 提案手法
◦ ロス3種類， 𝛾𝑡,𝑓
[𝑘]
の再推定あり/なし，EMアップデート（１回）
サンプリング周波数 16 kHz
窓長 32 ms
シフト長 25 ms
FFTサイズ 10 ms

実験結果1: ロス関数の比較
◦ クラス割り当ての事前確率が等しいという仮定が最高性能
◦ 追加のEMアルゴリズムで性能改善

実験結果2: 他手法との比較
◦ 教師ありと遜色ない性能を教師なしで実現
◦ 追加のEMアルゴリズムは提案手法と相性がいい

まとめ
◼ 目的
◦ 多チャンネルの音声認識のためのビームフォーマ
◦ マスク推定DNNの教師なし学習
◼ ポイント
◦ BSSで使われてきたcACGMMを利用
◦ 確率モデルの尤度最大化で直接DNNを学習
◼ 結果
◦ 追加のEMステップ適用で教師ありと同程度の性能を獲得
◼ 課題
◦ 学習時にDNNの出力マスクに周波数方向のパーミュテーション
問題が発生
◼ 発展手法
◦ 時間周波数マスクに加え音源方向もDNNで推定 [Bando+ 2019]
⇒ 周波数方向のパーミュテーション問題が発生しない

論文紹介 Unsupervised training of neural mask-based beamforming

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shinnosuke Takamichi

More from Shinnosuke Takamichi (20)

Recently uploaded

Recently uploaded (10)

論文紹介 Unsupervised training of neural mask-based beamforming