Deep Learning for Source Separation
and Enhancement I
東京大学 特任助教
うどん(@UDN48_udon)
北村大地
ICASSP2017読み会(関東編)
2017年6月24日(土)
15:40-16:05
AASP-L3:
自己紹介
• 名前
– 北村大地(きたむらだいち)
• 所属
– 東京大学情報理工学系研究科システム情報学専攻 特任助教
• 第一研究室(猿渡研)
• 経歴
– 2014年 奈良先端科学技術大学院大学 修士(工学)
– 2017年 総合研究大学院大学 博士(情報学)
• 研究内容
– 音源分離・統計的信号処理
• 確率的生成モデル周り
• 非負値行列因子分解(nonnegative matrix factorization)
• 独立成分分析(independent component analysis)
– (DNNはあんまり知らない・・・) 2/39
• トピック:source separation and enhancement
– 音源分離(audio source separation)
• 複数の音源が混合された信号を音源毎に分離する信号処理
– 音声強調(speech enhancement)
• 音声信号を目的音源として外部雑音等を抑圧する信号処理
– ほぼ全ての音響システムのフロントエンドに応用可能
• 音声認識,補聴器,会議アーカイブ,音楽編集,自動採譜…
– 関連キーワード
• ビームフォーミング,独立成分分析(ICA),非負値行列因子分解(NMF),
時間周波数マスキング,Denoising Autoencoder(DAE)
セッション背景
3/39
音楽CD
音源分離
• 三菱電機(MERL)のプレスリリース(2017年5月24日付)
– 「ディープクラスタリング」:時間周波数クラスタリングをDNNで
http://www.mitsubishielectric.co.jp/news/2017/0524-e.html
– 詳細は今日の紹介(AASP-L3.1)と下記も参照
• J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and
separation,” Proc. ICASSP, pp. 31-35, 2016.
• Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech,
pp. 545-549, 2016.
– 下記でデモンストレーションも公開されている
• http://www.merl.com/demos/deep-clustering
関連ニュース
4/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
5/39
TFマスク推定
TFマスク推定
TFマスク推定
オートエンコーダ
TFマスク選択
オートエンコーダ
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
6/39
単一チャネル音源分離:deep clustering
• 時間周波数マスクの推定問題
– 単一チャネル観測信号に対する音源分離
– 非目的音源を時間周波数領域でマスキングする非線形処理
• 時間周波数領域のクラスタリング問題として定式化
• 時間周波数マスク(binary or soft)の推定
7/39
time [s]
frequency[Hz]
時間周波数マスクの推定にDNNを使う
音声の時間周波数構造を学習から獲得
mixture
separated
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 学習話者に非依存な単一チャネル信号の複数音声分離
– は観測の時間周波数信号
• ここで (時間フレーム数×周波数ビン数)
• 短時間フーリエ変換(STFT)で得られる複素数行列をベクタライズ
– 特徴量マッピング
• ここで
• つまりDNNは
• はクラスタ数(モデルの次元),多めにとっておいてもOK(らしい?)
• は各時間周波数スロットにおける各クラスタへの寄与度のようなもの
– は学習時の正解データ
• ここで は音源数インデクスで
• つまり は正解のクラスタリング結果(0と1)
– 分離時のSN比を最大化するようなバイナリマスク,学習データなら作成可
• なので を に近づけるようにDNNを学習する必要がある
8/39
これがDNN
の例
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– なんとなくのイメージ
9/39
時間と周波数
要素は
複素数
時間と周波数
モデルの次元
要素は
実数
近づけたい
この想い
時間と周波数
音源数
要素は
0と1のみ
DNNの学習
DNNによる
すごーい変換
制約 制約
というかバイナリ
なのでone-hot vector
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– サイズが違うのでそのままでは と 間の距離が測れない
• なら測れるけれど,モデルの次元は大きくしたい
– 相互相関行列(affinity matrix)を計算
• と ,いずれもサイズは
• はある時間周波数スロット と別の時間周波数スロット
が同じ音源に属する場合は大きな値を取り,異なる音源に
属する場合は小さな値を取る
• も同様だが,こちらは1か0かのバイナリになる
• これは一般的な音声信号(学習に使う信号)の時間周波数
間の共変構造を表している
– DNN( )を学習するためのコスト関数
10/39
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– コスト関数の解釈
– 学習のイメージ(各点が ,色は によって振られる)
11/39
同じ音源に属する2つの時間周波数成分
を一つのクラスタとしてどんどん近づける
全ての時間周波数成分
を互いに遠ざける
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 偏微分は超簡単(matrix cookbook参照)
– DNN学習後,実際に特徴量から時間周波数マスクを推定する
ときはk-means等で各音源にクラスタリング
• K-meansの場合
– が推定バイナリマスクそのものなので, が音源分離
12/39
テスト信号をDNNに入力して得られる特徴量推定クラスタリング結果
は要素毎の積
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 詳細な実験条件等はペーパー参照(下記,いくつか抜粋)
• 30時間のtraining音声と10時間のvalidation音声
• 2層のbi-directional long short-term memory (BLSTM)の
後に1層のfeedforward
– LSTMなので時間フレーム毎の周波数ベクトルを入力している
• 各BLSTMは600 hidden cells,feedforwardはD次元
• 確率的勾配法
– どの程度分離できるのか?
• http://www.merl.com/demos/deep-clustering
で公開されているスライドで確認
13/39
単一チャネル音源分離:deep clustering
14/39
Noisy Conventional MERL
Target
Estimate
http://www.merl.com/demos/deep-clustering引用元:
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– Deep clusteringと従来のマスク推定ネットワークのマルチタス
ク学習による歌声分離(「歌声」と「その他伴奏」)
• Deep clusteringのマスク推定部分にクラスタリングが必要であった
ネットワーク学習のコスト関数にクラスタリングは考慮されていない
– k-meansで終わらせていた
• 従来のDNNによるマスク推定はこのクラスタリング部分に対応
– Deep clusteringの特徴量マッピングとマスク推定(クラスタリング)
の両コストを一つのネットワーク学習で用いる拡張が考えられる
– 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが,
「音源分離」という最終的な目的は共通
• DNNは最後の非線形関数以外は共通,学習のコスト関数は2つ
– 身体は1つ,頭が2つの「キメラネットワーク」と表現
– ネーミングセンスが良い
15/39
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– キメラネットワークの各頭
• Deep clusteringのコスト関数
• マスク推定のコスト関数
– 全体のコスト関数
• 両者の結合
16/39
もしくは MixtureMask (0~1)
Source ref.
Mask ref.
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– 結果(V,MはそれぞれVocalsとMusic(伴奏),値はSDR)
17/39この値がα,1.0がDCで0.0がMI
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– 結果
18/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
19/39
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– ビームフォーミング
• マイク間の録音信号の違い(パワー差,位相差)を
用いて特定の方向の音だけを得る技術
• 非定常な拡散性背景雑音の除去
– 様々な手法がある(浅野太, “音のアレイ信号処理,” コロナ社)
• 遅延和法,空間Wienerフィルタ,MVDR,一般化サイドローブキャンセラ
• 「マイクアレイ形状が既知」,「目的音源のステアリングベクトルが既知」
等の条件(仮定)が必要
• できるだけ少ない仮定でビームフォーミングしたい
• 今回は「音源位置は急激には動かない」,「雑音は非定常」のみを使う
– SPP: speech presence probability
• 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク
• これが分かれば一般化サイドローブキャンセラが動く(論文(10)式参照)
– ほんならDNNでSPPを推定しましょうかねぇ 20/39
マイクアレイ
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 観測信号(時間周波数領域):
– 観測の空間相関行列:
– 次のカーネルを周波数毎に定義
• 論文に詳細な記述はないが に時間インデクスが付いているので,
恐らく瞬時空間相関行列 の固有値分解から得ている
• このカーネルの特徴
– 現在といくらか前の時刻の固有ベクトルのコサイン距離
– 固有ベクトルの時間的な変化を考慮できる
– 観測チャネルは内積なので平均を取るように圧縮
– このカーネルをまとめたベクトル
をDNNの入力とする(Kernelized DNN) 21/39
Speech Noise(非定常)
マイク数
固有値 固有ベクトル
は最大固有値に対応する固有ベクトル
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– DNNの構造
• 2段のAutoencoderによるGenerative component(周波数毎に独立)
• Softmax regressionで全周波数情報をまとめて確率値を得る
discriminative component
• 「BLSTMでも似たことが実現できるが,こちらのほうがシンプルで実装と学習が楽」らしい
– 出力の確率値そのものがSPP(音声の確率)として活用可能22/39
Generative component Discriminative component
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 実験結果
23/39
CHiME4の世界一位
(NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術)
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 実験結果
24/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
25/39
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来のDNNで時間周波数マスクを推定するタスク
• パラメタ更新(コスト関数)はMMSE規範
• 入力ベクトル
– 前後数フレームの周波数ベクトル
• ネットワーク
• 出力
26/39
理想的なマスク(教師から算出可) DNNの出力のマスク
,
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来法の問題点と動機
• 性能改善のためには大規模な学習データによる長時間の学習が必要
– 現実的なデータがそんなに大量に手に入るのか?
• MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない
– 一番良いのは主観評価
– 次点で人間の知覚をある程度考慮した評価尺度
» Perceptual evaluation of speech quality (PESQ)
» Perceptual evaluation methods for audio source separation (PEASS)
– 知覚的な評価尺度(PESQとPEASS)をコスト関数に報酬として
用いた最適化
• 学習データからMMSE基準の理想的時間周波数マスクを大量に用意
– 時間周波数マスクのテンプレートとしてデータベース的に扱う
• 与えられた入力(観測時間フレーム)に対して,学習済みのテンプレート
から最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを
学習する
27/39
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来の時間周波数マスク推定DNN
• DNNの出力
– 提案する時間周波数マスクテンプレート選択DNN
• マスクのテンプレート(学習済)
• DNNの出力
• パラメタ更新(コスト関数)
28/39
,
,
,
Softmax
主観評価スコアを含む関数(教師)
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 提案法の全体的構成
– 従来の単純なDNNマスク推定の出力分離音
– 提案のマスクテンプレート選択DNNによる出力分離音
29/39
マスクテンプレート
知覚評価尺度
両分離音の知覚評価尺度を比較して後者がより
高いスコアとなるようにパラメタが学習される
(そのように が設計されている)
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 実験結果
30/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
31/39
AASP-L3.6: NMFからNonnegative AEへ
• 非負値行列因子分解(NMF) [Lee+, 1999]
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
32/39
Amplitude Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
AASP-L3.6: NMFからNonnegative AEへ
• 教師ありNMFによる音源分離 [Smaragdis+, 2007]
– 混合されている各音源の基底行列をあらかじめ学習しておく
– 学習済基底は各音源の「スペクトル辞書」のようなもの
33/39
学習ステージ
,
分離ステージ 学習済基底は固定
アクティベーションだけを更新
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 非負の係数を出力する次元圧縮と考える
• 第一層:
• 第二層:
• しかし擬似逆行列は非負性
の保証がない
– Nonnegative autoencoder (NAE)
• 第一層:
• 第二層:
• 非負値に変換する非線形関数(RELUとか絶対値関数とか)
• もはや の非負性は不要
– コスト関数(NMFではおなじみの一般化KLダイバージェンス)
34/39
Encoder Decoder
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
35/39
ピアノ音信号の分解
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– ほんならディープにしますかね
• 層が増えた分モデリング能力は向上
• この形でRNNやconvolutionalな層を持つものに拡張可能
– NAEを用いた音源分離
• 各音源のネットワークモデル を学習しておく
• 混合信号 に対して をNAEか
ら推定する
• と を や の微分
から求める 36/39
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 実験結果(2音声混合,上が1層,下が4層のNAE,ランクがユニット数)
37/39
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 実験結果(2音声混合,左が1層,右が4層のNAE,ランクがユニット数)
38/39
• DNNをどのように音源分離問題に活用するか
– 分離信号or時間周波数マスクをDNNで推定する方針(人気)
• 単一チャネルに適用可能
• Autoencoder, denoising autoencoder, nonnegative autoencoder
– 古典的なアルゴリズムで音源分離をするが,必要なパラメタを
DNNで推定する方針
• マルチチャネルを対象とすることが多い
• ステアリングベクトルの推定,Speech presence probabilityの推定
– 条件・用途に応じたDNN活用法の開拓・深化
• 観測信号の条件はどうか(チャネル数,音源数)
• 求めているものは何か(絶対的な雑音抑圧能力,分離音の品質)
• 学習データセット構築の現実的可能性はどうか
– 音源はもはや学習できる
– 伝達系等の空間情報は?
セッションまとめ
39/39

ICASSP2017読み会(関東編)・AASP_L3(北村担当分)

  • 1.
    Deep Learning forSource Separation and Enhancement I 東京大学 特任助教 うどん(@UDN48_udon) 北村大地 ICASSP2017読み会(関東編) 2017年6月24日(土) 15:40-16:05 AASP-L3:
  • 2.
    自己紹介 • 名前 – 北村大地(きたむらだいち) •所属 – 東京大学情報理工学系研究科システム情報学専攻 特任助教 • 第一研究室(猿渡研) • 経歴 – 2014年 奈良先端科学技術大学院大学 修士(工学) – 2017年 総合研究大学院大学 博士(情報学) • 研究内容 – 音源分離・統計的信号処理 • 確率的生成モデル周り • 非負値行列因子分解(nonnegative matrix factorization) • 独立成分分析(independent component analysis) – (DNNはあんまり知らない・・・) 2/39
  • 3.
    • トピック:source separationand enhancement – 音源分離(audio source separation) • 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声強調(speech enhancement) • 音声信号を目的音源として外部雑音等を抑圧する信号処理 – ほぼ全ての音響システムのフロントエンドに応用可能 • 音声認識,補聴器,会議アーカイブ,音楽編集,自動採譜… – 関連キーワード • ビームフォーミング,独立成分分析(ICA),非負値行列因子分解(NMF), 時間周波数マスキング,Denoising Autoencoder(DAE) セッション背景 3/39 音楽CD 音源分離
  • 4.
    • 三菱電機(MERL)のプレスリリース(2017年5月24日付) – 「ディープクラスタリング」:時間周波数クラスタリングをDNNで http://www.mitsubishielectric.co.jp/news/2017/0524-e.html –詳細は今日の紹介(AASP-L3.1)と下記も参照 • J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and separation,” Proc. ICASSP, pp. 31-35, 2016. • Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech, pp. 545-549, 2016. – 下記でデモンストレーションも公開されている • http://www.merl.com/demos/deep-clustering 関連ニュース 4/39
  • 5.
    セッション目次 • AASP-L3.1: Deepclustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 5/39 TFマスク推定 TFマスク推定 TFマスク推定 オートエンコーダ TFマスク選択 オートエンコーダ
  • 6.
    セッション目次 • AASP-L3.1: Deepclustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 6/39
  • 7.
    単一チャネル音源分離:deep clustering • 時間周波数マスクの推定問題 –単一チャネル観測信号に対する音源分離 – 非目的音源を時間周波数領域でマスキングする非線形処理 • 時間周波数領域のクラスタリング問題として定式化 • 時間周波数マスク(binary or soft)の推定 7/39 time [s] frequency[Hz] 時間周波数マスクの推定にDNNを使う 音声の時間周波数構造を学習から獲得 mixture separated
  • 8.
    単一チャネル音源分離:deep clustering • Deepclustering [J. R. Hershey+, 2016] – 学習話者に非依存な単一チャネル信号の複数音声分離 – は観測の時間周波数信号 • ここで (時間フレーム数×周波数ビン数) • 短時間フーリエ変換(STFT)で得られる複素数行列をベクタライズ – 特徴量マッピング • ここで • つまりDNNは • はクラスタ数(モデルの次元),多めにとっておいてもOK(らしい?) • は各時間周波数スロットにおける各クラスタへの寄与度のようなもの – は学習時の正解データ • ここで は音源数インデクスで • つまり は正解のクラスタリング結果(0と1) – 分離時のSN比を最大化するようなバイナリマスク,学習データなら作成可 • なので を に近づけるようにDNNを学習する必要がある 8/39 これがDNN の例
  • 9.
    単一チャネル音源分離:deep clustering • Deepclustering [J. R. Hershey+, 2016] – なんとなくのイメージ 9/39 時間と周波数 要素は 複素数 時間と周波数 モデルの次元 要素は 実数 近づけたい この想い 時間と周波数 音源数 要素は 0と1のみ DNNの学習 DNNによる すごーい変換 制約 制約 というかバイナリ なのでone-hot vector
  • 10.
    単一チャネル音源分離:deep clustering • Deepclustering [J. R. Hershey+, 2016] – サイズが違うのでそのままでは と 間の距離が測れない • なら測れるけれど,モデルの次元は大きくしたい – 相互相関行列(affinity matrix)を計算 • と ,いずれもサイズは • はある時間周波数スロット と別の時間周波数スロット が同じ音源に属する場合は大きな値を取り,異なる音源に 属する場合は小さな値を取る • も同様だが,こちらは1か0かのバイナリになる • これは一般的な音声信号(学習に使う信号)の時間周波数 間の共変構造を表している – DNN( )を学習するためのコスト関数 10/39
  • 11.
    単一チャネル音源分離:deep clustering • Deepclustering [J. R. Hershey+, 2016] – コスト関数の解釈 – 学習のイメージ(各点が ,色は によって振られる) 11/39 同じ音源に属する2つの時間周波数成分 を一つのクラスタとしてどんどん近づける 全ての時間周波数成分 を互いに遠ざける
  • 12.
    単一チャネル音源分離:deep clustering • Deepclustering [J. R. Hershey+, 2016] – 偏微分は超簡単(matrix cookbook参照) – DNN学習後,実際に特徴量から時間周波数マスクを推定する ときはk-means等で各音源にクラスタリング • K-meansの場合 – が推定バイナリマスクそのものなので, が音源分離 12/39 テスト信号をDNNに入力して得られる特徴量推定クラスタリング結果 は要素毎の積
  • 13.
    単一チャネル音源分離:deep clustering • Deepclustering [J. R. Hershey+, 2016] – 詳細な実験条件等はペーパー参照(下記,いくつか抜粋) • 30時間のtraining音声と10時間のvalidation音声 • 2層のbi-directional long short-term memory (BLSTM)の 後に1層のfeedforward – LSTMなので時間フレーム毎の周波数ベクトルを入力している • 各BLSTMは600 hidden cells,feedforwardはD次元 • 確率的勾配法 – どの程度分離できるのか? • http://www.merl.com/demos/deep-clustering で公開されているスライドで確認 13/39
  • 14.
    単一チャネル音源分離:deep clustering 14/39 Noisy ConventionalMERL Target Estimate http://www.merl.com/demos/deep-clustering引用元:
  • 15.
    AASP-L3.1: キメラネットワークによるマスク推定 • Deepclustering and conventional mask estimation – Deep clusteringと従来のマスク推定ネットワークのマルチタス ク学習による歌声分離(「歌声」と「その他伴奏」) • Deep clusteringのマスク推定部分にクラスタリングが必要であった ネットワーク学習のコスト関数にクラスタリングは考慮されていない – k-meansで終わらせていた • 従来のDNNによるマスク推定はこのクラスタリング部分に対応 – Deep clusteringの特徴量マッピングとマスク推定(クラスタリング) の両コストを一つのネットワーク学習で用いる拡張が考えられる – 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが, 「音源分離」という最終的な目的は共通 • DNNは最後の非線形関数以外は共通,学習のコスト関数は2つ – 身体は1つ,頭が2つの「キメラネットワーク」と表現 – ネーミングセンスが良い 15/39
  • 16.
    AASP-L3.1: キメラネットワークによるマスク推定 • Deepclustering and conventional mask estimation – キメラネットワークの各頭 • Deep clusteringのコスト関数 • マスク推定のコスト関数 – 全体のコスト関数 • 両者の結合 16/39 もしくは MixtureMask (0~1) Source ref. Mask ref.
  • 17.
    AASP-L3.1: キメラネットワークによるマスク推定 • Deepclustering and conventional mask estimation – 結果(V,MはそれぞれVocalsとMusic(伴奏),値はSDR) 17/39この値がα,1.0がDCで0.0がMI
  • 18.
    AASP-L3.1: キメラネットワークによるマスク推定 • Deepclustering and conventional mask estimation – 結果 18/39
  • 19.
    セッション目次 • AASP-L3.1: Deepclustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 19/39
  • 20.
    AASP-L3.2: DNNによるビームフォーミング • DNN-basedSPP estimation for beamforming – ビームフォーミング • マイク間の録音信号の違い(パワー差,位相差)を 用いて特定の方向の音だけを得る技術 • 非定常な拡散性背景雑音の除去 – 様々な手法がある(浅野太, “音のアレイ信号処理,” コロナ社) • 遅延和法,空間Wienerフィルタ,MVDR,一般化サイドローブキャンセラ • 「マイクアレイ形状が既知」,「目的音源のステアリングベクトルが既知」 等の条件(仮定)が必要 • できるだけ少ない仮定でビームフォーミングしたい • 今回は「音源位置は急激には動かない」,「雑音は非定常」のみを使う – SPP: speech presence probability • 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク • これが分かれば一般化サイドローブキャンセラが動く(論文(10)式参照) – ほんならDNNでSPPを推定しましょうかねぇ 20/39 マイクアレイ
  • 21.
    AASP-L3.2: DNNによるビームフォーミング • DNN-basedSPP estimation for beamforming – 観測信号(時間周波数領域): – 観測の空間相関行列: – 次のカーネルを周波数毎に定義 • 論文に詳細な記述はないが に時間インデクスが付いているので, 恐らく瞬時空間相関行列 の固有値分解から得ている • このカーネルの特徴 – 現在といくらか前の時刻の固有ベクトルのコサイン距離 – 固有ベクトルの時間的な変化を考慮できる – 観測チャネルは内積なので平均を取るように圧縮 – このカーネルをまとめたベクトル をDNNの入力とする(Kernelized DNN) 21/39 Speech Noise(非定常) マイク数 固有値 固有ベクトル は最大固有値に対応する固有ベクトル
  • 22.
    AASP-L3.2: DNNによるビームフォーミング • DNN-basedSPP estimation for beamforming – DNNの構造 • 2段のAutoencoderによるGenerative component(周波数毎に独立) • Softmax regressionで全周波数情報をまとめて確率値を得る discriminative component • 「BLSTMでも似たことが実現できるが,こちらのほうがシンプルで実装と学習が楽」らしい – 出力の確率値そのものがSPP(音声の確率)として活用可能22/39 Generative component Discriminative component
  • 23.
    AASP-L3.2: DNNによるビームフォーミング • DNN-basedSPP estimation for beamforming – 実験結果 23/39 CHiME4の世界一位 (NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術)
  • 24.
    AASP-L3.2: DNNによるビームフォーミング • DNN-basedSPP estimation for beamforming – 実験結果 24/39
  • 25.
    セッション目次 • AASP-L3.1: Deepclustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 25/39
  • 26.
    AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-basedself-optimization using sound quality – 従来のDNNで時間周波数マスクを推定するタスク • パラメタ更新(コスト関数)はMMSE規範 • 入力ベクトル – 前後数フレームの周波数ベクトル • ネットワーク • 出力 26/39 理想的なマスク(教師から算出可) DNNの出力のマスク ,
  • 27.
    AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-basedself-optimization using sound quality – 従来法の問題点と動機 • 性能改善のためには大規模な学習データによる長時間の学習が必要 – 現実的なデータがそんなに大量に手に入るのか? • MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない – 一番良いのは主観評価 – 次点で人間の知覚をある程度考慮した評価尺度 » Perceptual evaluation of speech quality (PESQ) » Perceptual evaluation methods for audio source separation (PEASS) – 知覚的な評価尺度(PESQとPEASS)をコスト関数に報酬として 用いた最適化 • 学習データからMMSE基準の理想的時間周波数マスクを大量に用意 – 時間周波数マスクのテンプレートとしてデータベース的に扱う • 与えられた入力(観測時間フレーム)に対して,学習済みのテンプレート から最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを 学習する 27/39
  • 28.
    AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-basedself-optimization using sound quality – 従来の時間周波数マスク推定DNN • DNNの出力 – 提案する時間周波数マスクテンプレート選択DNN • マスクのテンプレート(学習済) • DNNの出力 • パラメタ更新(コスト関数) 28/39 , , , Softmax 主観評価スコアを含む関数(教師)
  • 29.
    AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-basedself-optimization using sound quality – 提案法の全体的構成 – 従来の単純なDNNマスク推定の出力分離音 – 提案のマスクテンプレート選択DNNによる出力分離音 29/39 マスクテンプレート 知覚評価尺度 両分離音の知覚評価尺度を比較して後者がより 高いスコアとなるようにパラメタが学習される (そのように が設計されている)
  • 30.
    AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-basedself-optimization using sound quality – 実験結果 30/39
  • 31.
    セッション目次 • AASP-L3.1: Deepclustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 31/39
  • 32.
    AASP-L3.6: NMFからNonnegative AEへ •非負値行列因子分解(NMF) [Lee+, 1999] – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 32/39 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション
  • 33.
    AASP-L3.6: NMFからNonnegative AEへ •教師ありNMFによる音源分離 [Smaragdis+, 2007] – 混合されている各音源の基底行列をあらかじめ学習しておく – 学習済基底は各音源の「スペクトル辞書」のようなもの 33/39 学習ステージ , 分離ステージ 学習済基底は固定 アクティベーションだけを更新
  • 34.
    AASP-L3.6: NMFからNonnegative AEへ •NMFのネットワークとしての解釈 – 非負の係数を出力する次元圧縮と考える • 第一層: • 第二層: • しかし擬似逆行列は非負性 の保証がない – Nonnegative autoencoder (NAE) • 第一層: • 第二層: • 非負値に変換する非線形関数(RELUとか絶対値関数とか) • もはや の非負性は不要 – コスト関数(NMFではおなじみの一般化KLダイバージェンス) 34/39 Encoder Decoder
  • 35.
    AASP-L3.6: NMFからNonnegative AEへ •NMFのネットワークとしての解釈 35/39 ピアノ音信号の分解
  • 36.
    AASP-L3.6: NMFからNonnegative AEへ •NMFのネットワークとしての解釈 – ほんならディープにしますかね • 層が増えた分モデリング能力は向上 • この形でRNNやconvolutionalな層を持つものに拡張可能 – NAEを用いた音源分離 • 各音源のネットワークモデル を学習しておく • 混合信号 に対して をNAEか ら推定する • と を や の微分 から求める 36/39
  • 37.
    AASP-L3.6: NMFからNonnegative AEへ •NMFのネットワークとしての解釈 – 実験結果(2音声混合,上が1層,下が4層のNAE,ランクがユニット数) 37/39
  • 38.
    AASP-L3.6: NMFからNonnegative AEへ •NMFのネットワークとしての解釈 – 実験結果(2音声混合,左が1層,右が4層のNAE,ランクがユニット数) 38/39
  • 39.
    • DNNをどのように音源分離問題に活用するか – 分離信号or時間周波数マスクをDNNで推定する方針(人気) •単一チャネルに適用可能 • Autoencoder, denoising autoencoder, nonnegative autoencoder – 古典的なアルゴリズムで音源分離をするが,必要なパラメタを DNNで推定する方針 • マルチチャネルを対象とすることが多い • ステアリングベクトルの推定,Speech presence probabilityの推定 – 条件・用途に応じたDNN活用法の開拓・深化 • 観測信号の条件はどうか(チャネル数,音源数) • 求めているものは何か(絶対的な雑音抑圧能力,分離音の品質) • 学習データセット構築の現実的可能性はどうか – 音源はもはや学習できる – 伝達系等の空間情報は? セッションまとめ 39/39