SlideShare a Scribd company logo
1 of 26
Download to read offline
論文紹介
Unsupervised training of neural
mask-based beamforming
早稲田大学 升山義紀
自己紹介
◼ 升山 義紀 (Masuyama Yoshiki)
◼ 経歴
◦ 2015.04-2019.03 早稲田大学 基幹理工学部
◦ 2019.03-現在 同大学院
◦ 2019.03-2019.09 アルバイト@LINE
◦ 2019.11-現在 RA@AIST
◼ 研究テーマ
◦ 位相を考慮した音響信号処理(位相復元,楽器音強調・分離)
◦ 多チャンネル音響信号処理(DNNを用いた音源分離)
本スライドの内容は個人の解釈であり,誤りの可能性があります.
Unsupervised training of neural
mask-based beamforming
Lukas Drude, Jahn Heymann, Reinhold Haeb-Umbach
(Paderborn University)
Session: Far-field Speech Recognition
音声認識のための多チャンネル音声強調
◼ 目的音方向が未知の場合のビームフォーミング
◦ 目的音,妨害音の空間相関行列を推定
◦ 推定した空間相関行列からビームフォーマの設計
研究背景
研究目的
音声強調のためのDNNの教師なし学習
◼ 教師あり手法
◦ クリーン音声とノイジーな音声のペアデータが必要
◦ 実(多チャンネル録音の)ペアデータの準備はコスト高
◦ 多くの研究がシミュレーションデータを利用
• ロンバード効果などのシミュレーションは困難
• 拡散性の雑音のシミュレーションは困難
◼ 提案手法
◦ ノイジーな多チャンネル録音のみから学習が可能
◦ 多チャンネル観測信号の確率モデルの尤度最大化で学習
Mask-based Beamforming
システム概要
◼ 大きく分けて3-step
◦ 時間周波数マスクを推定(e.g., DNN)
◦ 空間相関行列(SCM)の計算
◦ ビームフォーミング(e.g., GEVビームフォーマ, …)
マスク推定 SCM計算
ビーム
フォーミング
Mask-based Beamforming
システム概要
◼ 大きく分けて3-step
◦ 時間周波数マスクを推定(e.g., DNN)
◦ 空間相関行列(SCM)の計算
◦ ビームフォーミング(e.g., GEVビームフォーマ, …)
マスク推定 SCM計算
ビーム
フォーミング
Mask-based Beamforming
各ブロックの実装
◼ SCMの計算
◼ ビームフォーマの設計
◦ MVDRビームフォーマ: 目的音をひずみなく抽出するように設計
◦ GEVビームフォーマ: SNRが最大になるように設計
従来手法: 教師あり学習
NN based spectral mask estimation [Heymann+ 2016]
◼ DNNを用いたmask-based beamformingの初期の論文
◦ モノラルのクリーン音声と雑音を学習に利用
◦ バイナリマスクをターゲットとしてDNNを学習
End-to-end学習
BeamNet [Heymann+ 2017]
◼ ASRの結果にもとづいたend-to-end学習
◦ 音声認識におけるcross-entropy最小化で2つのDNNを学習
• チャンネルごとに時間周波数マスク推定を行うDNN
• 音響特徴量を推定するDNN
◦ 複素数の多チャンネル信号処理に関しても誤差逆伝搬を適用
マスク推定DNN 音響特徴量推定DNN
疑似教師あり学習
Unsupervised Deep Clustering
◼ 教師データを信号処理で作成
◦ 多チャンネル混合音に従来のBSS手法の分離を適用し教師に利用
◦ 推論時はモノラルの混合音のみから時間周波数マスク推定可能
◦ ICASSP2019で乱立
• 位相差にもとづき教師作成 [Tzinis+ 2019], [Seetharaman+ 2019]
• cACGMMにもとづき教師作成 [Drude+ 2019]
多チャンネル
信号処理
DNNによる
埋め込み
DC Loss
疑似教師あり学習
Unsupervised training of DC
◼ 確率モデルにもとづいた信号処理結果を利用
◦ cACGMM [Ito+ 2016]: チャンネル間の位相差・振幅差に注目
◦ 空間的な性質にもとづいて時間周波数マスク推定
◦ CGMM + ビームフォーマはCHiME3で高性能 [Higuchi+ 2016]
疑似教師あり学習
Unsupervised training of DC
◼ DNNの学習
◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法
◦ 学習には理想バイナリマスクを利用
⇒ cACGMMのクラス割り当ての事後確率で代用
疑似教師あり学習
Unsupervised training of DC
◼ DNNの学習
◦ Deep clustering [Hershey+ 2016]: 単チャネルの話者分離手法
◦ 学習には理想バイナリマスクを利用
⇒ cACGMMのクラス割り当ての事後確率で代用
• 教師データ作成のためにEM
アルゴリズムが必要
• 教師データがノイジー
Unsupervised training of neural
mask-based beamforming
Overview
cACGMMの尤度を直接最大化
◼ EMアルゴリズムの結果がよくなるようにDNNを学習
◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓
[𝑘]
)を推定
◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算
◦ 尤度にもとづいて学習
チャンネルごとマスク推定
(学習するのはこの部分)
Overview
cACGMMの尤度を直接最大化
◼ EMアルゴリズムの結果がよくなるようにDNNを学習
◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓
[𝑘]
)を推定
◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算
◦ 尤度にもとづいて学習
cACGMMの
EMアルゴリズム
Overview
cACGMMの尤度を直接最大化
◼ EMアルゴリズムの結果がよくなるようにDNNを学習
◦ DNNで時間周波数マスク(以下文献に合わせ𝛾𝑡,𝑓
[𝑘]
)を推定
◦ cACGMMのEMアルゴリズムのM(+E)ステップを一回計算
◦ 尤度にもとづいて学習
尤度を上昇させる
ように勾配計算
cACGMMにもとづいたロス関数
尤度最大化によるDNNの学習
◼ cACGMMのパラメータ(𝜋 𝑓
[𝑘]
, 𝐁 𝑓
[𝑘]
)をマスクから計算
◦ 𝐁 𝑓
[𝑘]
の計算には反復が必要だが,1回で代用
◦ EMアルゴリズムのMステップに対応
cACGMMにもとづいたロス関数
尤度最大化によるDNNの学習
◼ 具体的な目的関数()
◦ 対数尤度
◦ クラス割り当ての事前確率を等確率にしたもの
◦ Q関数に対応するもの
cACGMMにもとづいたロス関数
尤度最大化によるDNNの学習
◼ 具体的な目的関数()
◦ 対数尤度
◦ クラス割り当ての事前確率を等確率にしたもの
◦ Q関数に対応するもの 文献式(14)にはなし
実験: 多チャンネル音声認識
実験条件
◼ データセット: CHiME 4
◼ DNN
◦ Mask estimator: BiLSTM + Dense×3
◦ Acoustic model: Wideband bi-directional residual network
◼ 提案手法
◦ ロス3種類, 𝛾𝑡,𝑓
[𝑘]
の再推定あり/なし,EMアップデート(1回)
サンプリング周波数 16 kHz
窓長 32 ms
シフト長 25 ms
FFTサイズ 10 ms
実験: 多チャンネル音声認識
実験結果1: ロス関数の比較
◦ クラス割り当ての事前確率が等しいという仮定が最高性能
◦ 追加のEMアルゴリズムで性能改善
実験: 多チャンネル音声認識
実験結果2: 他手法との比較
◦ 教師ありと遜色ない性能を教師なしで実現
◦ 追加のEMアルゴリズムは提案手法と相性がいい
まとめ
◼ 目的
◦ 多チャンネルの音声認識のためのビームフォーマ
◦ マスク推定DNNの教師なし学習
◼ ポイント
◦ BSSで使われてきたcACGMMを利用
◦ 確率モデルの尤度最大化で直接DNNを学習
◼ 結果
◦ 追加のEMステップ適用で教師ありと同程度の性能を獲得
◼ 課題
◦ 学習時にDNNの出力マスクに周波数方向のパーミュテーション
問題が発生
◼ 発展手法
◦ 時間周波数マスクに加え音源方向もDNNで推定 [Bando+ 2019]
⇒ 周波数方向のパーミュテーション問題が発生しない

More Related Content

What's hot

What's hot (20)

深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 

More from Shinnosuke Takamichi

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 

Recently uploaded

Recently uploaded (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

論文紹介 Unsupervised training of neural mask-based beamforming