ICASSP2017読み会(関東編)・AASP_L3(北村担当分)

Daichi Kitamura
Daichi KitamuraAssistant Professor at National Institute of Technology, Kagawa College
Deep Learning for Source Separation
and Enhancement I
東京大学 特任助教
うどん(@UDN48_udon)
北村大地
ICASSP2017読み会(関東編)
2017年6月24日(土)
15:40-16:05
AASP-L3:
自己紹介
• 名前
– 北村大地(きたむらだいち)
• 所属
– 東京大学情報理工学系研究科システム情報学専攻 特任助教
• 第一研究室(猿渡研)
• 経歴
– 2014年 奈良先端科学技術大学院大学 修士(工学)
– 2017年 総合研究大学院大学 博士(情報学)
• 研究内容
– 音源分離・統計的信号処理
• 確率的生成モデル周り
• 非負値行列因子分解(nonnegative matrix factorization)
• 独立成分分析(independent component analysis)
– (DNNはあんまり知らない・・・) 2/39
• トピック:source separation and enhancement
– 音源分離(audio source separation)
• 複数の音源が混合された信号を音源毎に分離する信号処理
– 音声強調(speech enhancement)
• 音声信号を目的音源として外部雑音等を抑圧する信号処理
– ほぼ全ての音響システムのフロントエンドに応用可能
• 音声認識,補聴器,会議アーカイブ,音楽編集,自動採譜…
– 関連キーワード
• ビームフォーミング,独立成分分析(ICA),非負値行列因子分解(NMF),
時間周波数マスキング,Denoising Autoencoder(DAE)
セッション背景
3/39
音楽CD
音源分離
• 三菱電機(MERL)のプレスリリース(2017年5月24日付)
– 「ディープクラスタリング」:時間周波数クラスタリングをDNNで
http://www.mitsubishielectric.co.jp/news/2017/0524-e.html
– 詳細は今日の紹介(AASP-L3.1)と下記も参照
• J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and
separation,” Proc. ICASSP, pp. 31-35, 2016.
• Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech,
pp. 545-549, 2016.
– 下記でデモンストレーションも公開されている
• http://www.merl.com/demos/deep-clustering
関連ニュース
4/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
5/39
TFマスク推定
TFマスク推定
TFマスク推定
オートエンコーダ
TFマスク選択
オートエンコーダ
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
6/39
単一チャネル音源分離:deep clustering
• 時間周波数マスクの推定問題
– 単一チャネル観測信号に対する音源分離
– 非目的音源を時間周波数領域でマスキングする非線形処理
• 時間周波数領域のクラスタリング問題として定式化
• 時間周波数マスク(binary or soft)の推定
7/39
time [s]
frequency[Hz]
時間周波数マスクの推定にDNNを使う
音声の時間周波数構造を学習から獲得
mixture
separated
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 学習話者に非依存な単一チャネル信号の複数音声分離
– は観測の時間周波数信号
• ここで (時間フレーム数×周波数ビン数)
• 短時間フーリエ変換(STFT)で得られる複素数行列をベクタライズ
– 特徴量マッピング
• ここで
• つまりDNNは
• はクラスタ数(モデルの次元),多めにとっておいてもOK(らしい?)
• は各時間周波数スロットにおける各クラスタへの寄与度のようなもの
– は学習時の正解データ
• ここで は音源数インデクスで
• つまり は正解のクラスタリング結果(0と1)
– 分離時のSN比を最大化するようなバイナリマスク,学習データなら作成可
• なので を に近づけるようにDNNを学習する必要がある
8/39
これがDNN
の例
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– なんとなくのイメージ
9/39
時間と周波数
要素は
複素数
時間と周波数
モデルの次元
要素は
実数
近づけたい
この想い
時間と周波数
音源数
要素は
0と1のみ
DNNの学習
DNNによる
すごーい変換
制約 制約
というかバイナリ
なのでone-hot vector
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– サイズが違うのでそのままでは と 間の距離が測れない
• なら測れるけれど,モデルの次元は大きくしたい
– 相互相関行列(affinity matrix)を計算
• と ,いずれもサイズは
• はある時間周波数スロット と別の時間周波数スロット
が同じ音源に属する場合は大きな値を取り,異なる音源に
属する場合は小さな値を取る
• も同様だが,こちらは1か0かのバイナリになる
• これは一般的な音声信号(学習に使う信号)の時間周波数
間の共変構造を表している
– DNN( )を学習するためのコスト関数
10/39
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– コスト関数の解釈
– 学習のイメージ(各点が ,色は によって振られる)
11/39
同じ音源に属する2つの時間周波数成分
を一つのクラスタとしてどんどん近づける
全ての時間周波数成分
を互いに遠ざける
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 偏微分は超簡単(matrix cookbook参照)
– DNN学習後,実際に特徴量から時間周波数マスクを推定する
ときはk-means等で各音源にクラスタリング
• K-meansの場合
– が推定バイナリマスクそのものなので, が音源分離
12/39
テスト信号をDNNに入力して得られる特徴量推定クラスタリング結果
は要素毎の積
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 詳細な実験条件等はペーパー参照(下記,いくつか抜粋)
• 30時間のtraining音声と10時間のvalidation音声
• 2層のbi-directional long short-term memory (BLSTM)の
後に1層のfeedforward
– LSTMなので時間フレーム毎の周波数ベクトルを入力している
• 各BLSTMは600 hidden cells,feedforwardはD次元
• 確率的勾配法
– どの程度分離できるのか?
• http://www.merl.com/demos/deep-clustering
で公開されているスライドで確認
13/39
単一チャネル音源分離:deep clustering
14/39
Noisy Conventional MERL
Target
Estimate
http://www.merl.com/demos/deep-clustering引用元:
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– Deep clusteringと従来のマスク推定ネットワークのマルチタス
ク学習による歌声分離(「歌声」と「その他伴奏」)
• Deep clusteringのマスク推定部分にクラスタリングが必要であった
ネットワーク学習のコスト関数にクラスタリングは考慮されていない
– k-meansで終わらせていた
• 従来のDNNによるマスク推定はこのクラスタリング部分に対応
– Deep clusteringの特徴量マッピングとマスク推定(クラスタリング)
の両コストを一つのネットワーク学習で用いる拡張が考えられる
– 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが,
「音源分離」という最終的な目的は共通
• DNNは最後の非線形関数以外は共通,学習のコスト関数は2つ
– 身体は1つ,頭が2つの「キメラネットワーク」と表現
– ネーミングセンスが良い
15/39
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– キメラネットワークの各頭
• Deep clusteringのコスト関数
• マスク推定のコスト関数
– 全体のコスト関数
• 両者の結合
16/39
もしくは MixtureMask (0~1)
Source ref.
Mask ref.
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– 結果(V,MはそれぞれVocalsとMusic(伴奏),値はSDR)
17/39この値がα,1.0がDCで0.0がMI
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– 結果
18/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
19/39
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– ビームフォーミング
• マイク間の録音信号の違い(パワー差,位相差)を
用いて特定の方向の音だけを得る技術
• 非定常な拡散性背景雑音の除去
– 様々な手法がある(浅野太, “音のアレイ信号処理,” コロナ社)
• 遅延和法,空間Wienerフィルタ,MVDR,一般化サイドローブキャンセラ
• 「マイクアレイ形状が既知」,「目的音源のステアリングベクトルが既知」
等の条件(仮定)が必要
• できるだけ少ない仮定でビームフォーミングしたい
• 今回は「音源位置は急激には動かない」,「雑音は非定常」のみを使う
– SPP: speech presence probability
• 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク
• これが分かれば一般化サイドローブキャンセラが動く(論文(10)式参照)
– ほんならDNNでSPPを推定しましょうかねぇ 20/39
マイクアレイ
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 観測信号(時間周波数領域):
– 観測の空間相関行列:
– 次のカーネルを周波数毎に定義
• 論文に詳細な記述はないが に時間インデクスが付いているので,
恐らく瞬時空間相関行列 の固有値分解から得ている
• このカーネルの特徴
– 現在といくらか前の時刻の固有ベクトルのコサイン距離
– 固有ベクトルの時間的な変化を考慮できる
– 観測チャネルは内積なので平均を取るように圧縮
– このカーネルをまとめたベクトル
をDNNの入力とする(Kernelized DNN) 21/39
Speech Noise(非定常)
マイク数
固有値 固有ベクトル
は最大固有値に対応する固有ベクトル
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– DNNの構造
• 2段のAutoencoderによるGenerative component(周波数毎に独立)
• Softmax regressionで全周波数情報をまとめて確率値を得る
discriminative component
• 「BLSTMでも似たことが実現できるが,こちらのほうがシンプルで実装と学習が楽」らしい
– 出力の確率値そのものがSPP(音声の確率)として活用可能22/39
Generative component Discriminative component
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 実験結果
23/39
CHiME4の世界一位
(NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術)
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 実験結果
24/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
25/39
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来のDNNで時間周波数マスクを推定するタスク
• パラメタ更新(コスト関数)はMMSE規範
• 入力ベクトル
– 前後数フレームの周波数ベクトル
• ネットワーク
• 出力
26/39
理想的なマスク(教師から算出可) DNNの出力のマスク
,
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来法の問題点と動機
• 性能改善のためには大規模な学習データによる長時間の学習が必要
– 現実的なデータがそんなに大量に手に入るのか?
• MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない
– 一番良いのは主観評価
– 次点で人間の知覚をある程度考慮した評価尺度
» Perceptual evaluation of speech quality (PESQ)
» Perceptual evaluation methods for audio source separation (PEASS)
– 知覚的な評価尺度(PESQとPEASS)をコスト関数に報酬として
用いた最適化
• 学習データからMMSE基準の理想的時間周波数マスクを大量に用意
– 時間周波数マスクのテンプレートとしてデータベース的に扱う
• 与えられた入力(観測時間フレーム)に対して,学習済みのテンプレート
から最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを
学習する
27/39
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来の時間周波数マスク推定DNN
• DNNの出力
– 提案する時間周波数マスクテンプレート選択DNN
• マスクのテンプレート(学習済)
• DNNの出力
• パラメタ更新(コスト関数)
28/39
,
,
,
Softmax
主観評価スコアを含む関数(教師)
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 提案法の全体的構成
– 従来の単純なDNNマスク推定の出力分離音
– 提案のマスクテンプレート選択DNNによる出力分離音
29/39
マスクテンプレート
知覚評価尺度
両分離音の知覚評価尺度を比較して後者がより
高いスコアとなるようにパラメタが学習される
(そのように が設計されている)
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 実験結果
30/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
31/39
AASP-L3.6: NMFからNonnegative AEへ
• 非負値行列因子分解(NMF) [Lee+, 1999]
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
32/39
Amplitude Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
AASP-L3.6: NMFからNonnegative AEへ
• 教師ありNMFによる音源分離 [Smaragdis+, 2007]
– 混合されている各音源の基底行列をあらかじめ学習しておく
– 学習済基底は各音源の「スペクトル辞書」のようなもの
33/39
学習ステージ
,
分離ステージ 学習済基底は固定
アクティベーションだけを更新
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 非負の係数を出力する次元圧縮と考える
• 第一層:
• 第二層:
• しかし擬似逆行列は非負性
の保証がない
– Nonnegative autoencoder (NAE)
• 第一層:
• 第二層:
• 非負値に変換する非線形関数(RELUとか絶対値関数とか)
• もはや の非負性は不要
– コスト関数(NMFではおなじみの一般化KLダイバージェンス)
34/39
Encoder Decoder
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
35/39
ピアノ音信号の分解
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– ほんならディープにしますかね
• 層が増えた分モデリング能力は向上
• この形でRNNやconvolutionalな層を持つものに拡張可能
– NAEを用いた音源分離
• 各音源のネットワークモデル を学習しておく
• 混合信号 に対して をNAEか
ら推定する
• と を や の微分
から求める 36/39
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 実験結果(2音声混合,上が1層,下が4層のNAE,ランクがユニット数)
37/39
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 実験結果(2音声混合,左が1層,右が4層のNAE,ランクがユニット数)
38/39
• DNNをどのように音源分離問題に活用するか
– 分離信号or時間周波数マスクをDNNで推定する方針(人気)
• 単一チャネルに適用可能
• Autoencoder, denoising autoencoder, nonnegative autoencoder
– 古典的なアルゴリズムで音源分離をするが,必要なパラメタを
DNNで推定する方針
• マルチチャネルを対象とすることが多い
• ステアリングベクトルの推定,Speech presence probabilityの推定
– 条件・用途に応じたDNN活用法の開拓・深化
• 観測信号の条件はどうか(チャネル数,音源数)
• 求めているものは何か(絶対的な雑音抑圧能力,分離音の品質)
• 学習データセット構築の現実的可能性はどうか
– 音源はもはや学習できる
– 伝達系等の空間情報は?
セッションまとめ
39/39
1 of 39

Recommended

音源分離における音響モデリング(Acoustic modeling in audio source separation) by
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
22.5K views114 slides
深層学習を利用した音声強調 by
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
2K views26 slides
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep... by
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
5.9K views74 slides
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3 by
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
1K views22 slides
信号の独立性に基づく多チャンネル音源分離 by
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
393 views21 slides
論文紹介 Unsupervised training of neural mask-based beamforming by
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
1.7K views26 slides

More Related Content

What's hot

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
4.1K views26 slides
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
1.5K views91 slides
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ by
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
1.5K views26 slides
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
5.9K views48 slides
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 by
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
1.1K views24 slides
実環境音響信号処理における収音技術 by
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
2.1K views76 slides

What's hot(20)

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura4.1K views
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura1.5K views
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~ by Yui Sudo
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo1.5K views
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto... by Daichi Kitamura
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura5.9K views
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価 by Daichi Kitamura
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura1.1K views
実環境音響信号処理における収音技術 by Yuma Koizumi
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi2.1K views
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析 by Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi56.5K views
環境音の特徴を活用した音響イベント検出・シーン分類 by Keisuke Imoto
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto2.1K views
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition by YosukeKashiwagi1
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi12.6K views
異常音検知に対する深層学習適用事例 by NU_I_TODALAB
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB3.3K views
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス by Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
MIRU2016 チュートリアル by Shunsuke Ono
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
Shunsuke Ono25.5K views
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese) by Daichi Kitamura
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura5.9K views
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe... by Deep Learning JP
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP923 views
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法 by Daichi Kitamura
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
Daichi Kitamura3.5K views
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou... by Daichi Kitamura
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura12.2K views
WaveNetが音声合成研究に与える影響 by NU_I_TODALAB
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB14.1K views
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離 by Kitamura Laboratory
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析 by Junya Koguchi
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
Junya Koguchi151 views

Similar to ICASSP2017読み会(関東編)・AASP_L3(北村担当分)

Convolutional Neural Netwoks で自然言語処理をする by
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
21.1K views28 slides
Paper: seq2seq 20190320 by
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320Yusuke Fujimoto
203 views30 slides
Study on optimal divergence for superresolution-based supervised nonnegative ... by
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
1K views47 slides
独立低ランク行列分析に基づく音源分離とその発展 by
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
205 views91 slides
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS by
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
2K views20 slides
DNN音響モデルにおける特徴量抽出の諸相 by
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
15.3K views74 slides

Similar to ICASSP2017読み会(関東編)・AASP_L3(北村担当分)(20)

Convolutional Neural Netwoks で自然言語処理をする by Daiki Shimada
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada21.1K views
Study on optimal divergence for superresolution-based supervised nonnegative ... by Daichi Kitamura
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
Daichi Kitamura1K views
独立低ランク行列分析に基づく音源分離とその発展 by Kitamura Laboratory
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS by Deep Learning JP
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP2K views
DNN音響モデルにおける特徴量抽出の諸相 by Takuya Yoshioka
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka15.3K views
形態素解析も辞書も言語モデルもいらないend-to-end音声認識 by Tomoki Hayashi
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
Tomoki Hayashi5.9K views
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog... by Deep Learning JP
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP1.1K views
End-to-end learning of keypoint detector and descriptor for pose invariant 3D... by YasuakiMori2
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
YasuakiMori248 views
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016) by Toru Fujino
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino535 views
Deep Forest: Towards An Alternative to Deep Neural Networks by harmonylab
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
harmonylab7.8K views
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. by Satoshi Kato
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato8.1K views
2017-05-30_deepleaning-and-chainer by Keisuke Umezawa
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
Keisuke Umezawa648 views
[DL輪読会]Dense Captioning分野のまとめ by Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP2K views
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob... by Deep Learning JP
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
Deep Learning JP1.2K views
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj... by Takumi Ohkuma
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
Takumi Ohkuma41 views
Deep learning for acoustic modeling in parametric speech generation by Yuki Saito
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito761 views

More from Daichi Kitamura

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも) by
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
2.8K views67 slides
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank... by
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
8.3K views67 slides
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
2.1K views15 slides
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm) by
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
2K views22 slides
Blind source separation based on independent low-rank matrix analysis and its... by
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
1.4K views50 slides
Blind source separation based on independent low-rank matrix analysis and its... by
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
1.6K views47 slides

More from Daichi Kitamura(20)

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも) by Daichi Kitamura
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Daichi Kitamura2.8K views
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank... by Daichi Kitamura
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura8.3K views
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen... by Daichi Kitamura
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura2.1K views
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm) by Daichi Kitamura
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
Daichi Kitamura2K views
Blind source separation based on independent low-rank matrix analysis and its... by Daichi Kitamura
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura1.4K views
Blind source separation based on independent low-rank matrix analysis and its... by Daichi Kitamura
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
Daichi Kitamura1.6K views
Experimental analysis of optimal window length for independent low-rank matri... by Daichi Kitamura
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
Daichi Kitamura850 views
Audio Source Separation Based on Low-Rank Structure and Statistical Independence by Daichi Kitamura
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Daichi Kitamura2.5K views
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on... by Daichi Kitamura
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
Daichi Kitamura2.9K views
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法 by Daichi Kitamura
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
Daichi Kitamura4.3K views
Efficient initialization for nonnegative matrix factorization based on nonneg... by Daichi Kitamura
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
Daichi Kitamura2.8K views
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia... by Daichi Kitamura
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
Daichi Kitamura4.9K views
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi... by Daichi Kitamura
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
Daichi Kitamura1.8K views
Relaxation of rank-1 spatial constraint in overdetermined blind source separa... by Daichi Kitamura
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Daichi Kitamura1.6K views
Music signal separation using supervised nonnegative matrix factorization wit... by Daichi Kitamura
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
Daichi Kitamura985 views
擬似ハムバッキングピックアップの弦振動応答 (in Japanese) by Daichi Kitamura
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
Daichi Kitamura1.1K views
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese) by Daichi Kitamura
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
Daichi Kitamura1.3K views
Evaluation of separation accuracy for various real instruments based on super... by Daichi Kitamura
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
Daichi Kitamura676 views
Divergence optimization based on trade-off between separation and extrapolati... by Daichi Kitamura
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
Daichi Kitamura917 views
Depth estimation of sound images using directional clustering and activation-... by Daichi Kitamura
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
Daichi Kitamura919 views

ICASSP2017読み会(関東編)・AASP_L3(北村担当分)

  • 1. Deep Learning for Source Separation and Enhancement I 東京大学 特任助教 うどん(@UDN48_udon) 北村大地 ICASSP2017読み会(関東編) 2017年6月24日(土) 15:40-16:05 AASP-L3:
  • 2. 自己紹介 • 名前 – 北村大地(きたむらだいち) • 所属 – 東京大学情報理工学系研究科システム情報学専攻 特任助教 • 第一研究室(猿渡研) • 経歴 – 2014年 奈良先端科学技術大学院大学 修士(工学) – 2017年 総合研究大学院大学 博士(情報学) • 研究内容 – 音源分離・統計的信号処理 • 確率的生成モデル周り • 非負値行列因子分解(nonnegative matrix factorization) • 独立成分分析(independent component analysis) – (DNNはあんまり知らない・・・) 2/39
  • 3. • トピック:source separation and enhancement – 音源分離(audio source separation) • 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声強調(speech enhancement) • 音声信号を目的音源として外部雑音等を抑圧する信号処理 – ほぼ全ての音響システムのフロントエンドに応用可能 • 音声認識,補聴器,会議アーカイブ,音楽編集,自動採譜… – 関連キーワード • ビームフォーミング,独立成分分析(ICA),非負値行列因子分解(NMF), 時間周波数マスキング,Denoising Autoencoder(DAE) セッション背景 3/39 音楽CD 音源分離
  • 4. • 三菱電機(MERL)のプレスリリース(2017年5月24日付) – 「ディープクラスタリング」:時間周波数クラスタリングをDNNで http://www.mitsubishielectric.co.jp/news/2017/0524-e.html – 詳細は今日の紹介(AASP-L3.1)と下記も参照 • J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and separation,” Proc. ICASSP, pp. 31-35, 2016. • Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech, pp. 545-549, 2016. – 下記でデモンストレーションも公開されている • http://www.merl.com/demos/deep-clustering 関連ニュース 4/39
  • 5. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 5/39 TFマスク推定 TFマスク推定 TFマスク推定 オートエンコーダ TFマスク選択 オートエンコーダ
  • 6. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 6/39
  • 7. 単一チャネル音源分離:deep clustering • 時間周波数マスクの推定問題 – 単一チャネル観測信号に対する音源分離 – 非目的音源を時間周波数領域でマスキングする非線形処理 • 時間周波数領域のクラスタリング問題として定式化 • 時間周波数マスク(binary or soft)の推定 7/39 time [s] frequency[Hz] 時間周波数マスクの推定にDNNを使う 音声の時間周波数構造を学習から獲得 mixture separated
  • 8. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – 学習話者に非依存な単一チャネル信号の複数音声分離 – は観測の時間周波数信号 • ここで (時間フレーム数×周波数ビン数) • 短時間フーリエ変換(STFT)で得られる複素数行列をベクタライズ – 特徴量マッピング • ここで • つまりDNNは • はクラスタ数(モデルの次元),多めにとっておいてもOK(らしい?) • は各時間周波数スロットにおける各クラスタへの寄与度のようなもの – は学習時の正解データ • ここで は音源数インデクスで • つまり は正解のクラスタリング結果(0と1) – 分離時のSN比を最大化するようなバイナリマスク,学習データなら作成可 • なので を に近づけるようにDNNを学習する必要がある 8/39 これがDNN の例
  • 9. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – なんとなくのイメージ 9/39 時間と周波数 要素は 複素数 時間と周波数 モデルの次元 要素は 実数 近づけたい この想い 時間と周波数 音源数 要素は 0と1のみ DNNの学習 DNNによる すごーい変換 制約 制約 というかバイナリ なのでone-hot vector
  • 10. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – サイズが違うのでそのままでは と 間の距離が測れない • なら測れるけれど,モデルの次元は大きくしたい – 相互相関行列(affinity matrix)を計算 • と ,いずれもサイズは • はある時間周波数スロット と別の時間周波数スロット が同じ音源に属する場合は大きな値を取り,異なる音源に 属する場合は小さな値を取る • も同様だが,こちらは1か0かのバイナリになる • これは一般的な音声信号(学習に使う信号)の時間周波数 間の共変構造を表している – DNN( )を学習するためのコスト関数 10/39
  • 11. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – コスト関数の解釈 – 学習のイメージ(各点が ,色は によって振られる) 11/39 同じ音源に属する2つの時間周波数成分 を一つのクラスタとしてどんどん近づける 全ての時間周波数成分 を互いに遠ざける
  • 12. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – 偏微分は超簡単(matrix cookbook参照) – DNN学習後,実際に特徴量から時間周波数マスクを推定する ときはk-means等で各音源にクラスタリング • K-meansの場合 – が推定バイナリマスクそのものなので, が音源分離 12/39 テスト信号をDNNに入力して得られる特徴量推定クラスタリング結果 は要素毎の積
  • 13. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – 詳細な実験条件等はペーパー参照(下記,いくつか抜粋) • 30時間のtraining音声と10時間のvalidation音声 • 2層のbi-directional long short-term memory (BLSTM)の 後に1層のfeedforward – LSTMなので時間フレーム毎の周波数ベクトルを入力している • 各BLSTMは600 hidden cells,feedforwardはD次元 • 確率的勾配法 – どの程度分離できるのか? • http://www.merl.com/demos/deep-clustering で公開されているスライドで確認 13/39
  • 14. 単一チャネル音源分離:deep clustering 14/39 Noisy Conventional MERL Target Estimate http://www.merl.com/demos/deep-clustering引用元:
  • 15. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – Deep clusteringと従来のマスク推定ネットワークのマルチタス ク学習による歌声分離(「歌声」と「その他伴奏」) • Deep clusteringのマスク推定部分にクラスタリングが必要であった ネットワーク学習のコスト関数にクラスタリングは考慮されていない – k-meansで終わらせていた • 従来のDNNによるマスク推定はこのクラスタリング部分に対応 – Deep clusteringの特徴量マッピングとマスク推定(クラスタリング) の両コストを一つのネットワーク学習で用いる拡張が考えられる – 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが, 「音源分離」という最終的な目的は共通 • DNNは最後の非線形関数以外は共通,学習のコスト関数は2つ – 身体は1つ,頭が2つの「キメラネットワーク」と表現 – ネーミングセンスが良い 15/39
  • 16. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – キメラネットワークの各頭 • Deep clusteringのコスト関数 • マスク推定のコスト関数 – 全体のコスト関数 • 両者の結合 16/39 もしくは MixtureMask (0~1) Source ref. Mask ref.
  • 17. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – 結果(V,MはそれぞれVocalsとMusic(伴奏),値はSDR) 17/39この値がα,1.0がDCで0.0がMI
  • 18. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – 結果 18/39
  • 19. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 19/39
  • 20. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – ビームフォーミング • マイク間の録音信号の違い(パワー差,位相差)を 用いて特定の方向の音だけを得る技術 • 非定常な拡散性背景雑音の除去 – 様々な手法がある(浅野太, “音のアレイ信号処理,” コロナ社) • 遅延和法,空間Wienerフィルタ,MVDR,一般化サイドローブキャンセラ • 「マイクアレイ形状が既知」,「目的音源のステアリングベクトルが既知」 等の条件(仮定)が必要 • できるだけ少ない仮定でビームフォーミングしたい • 今回は「音源位置は急激には動かない」,「雑音は非定常」のみを使う – SPP: speech presence probability • 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク • これが分かれば一般化サイドローブキャンセラが動く(論文(10)式参照) – ほんならDNNでSPPを推定しましょうかねぇ 20/39 マイクアレイ
  • 21. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 観測信号(時間周波数領域): – 観測の空間相関行列: – 次のカーネルを周波数毎に定義 • 論文に詳細な記述はないが に時間インデクスが付いているので, 恐らく瞬時空間相関行列 の固有値分解から得ている • このカーネルの特徴 – 現在といくらか前の時刻の固有ベクトルのコサイン距離 – 固有ベクトルの時間的な変化を考慮できる – 観測チャネルは内積なので平均を取るように圧縮 – このカーネルをまとめたベクトル をDNNの入力とする(Kernelized DNN) 21/39 Speech Noise(非定常) マイク数 固有値 固有ベクトル は最大固有値に対応する固有ベクトル
  • 22. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – DNNの構造 • 2段のAutoencoderによるGenerative component(周波数毎に独立) • Softmax regressionで全周波数情報をまとめて確率値を得る discriminative component • 「BLSTMでも似たことが実現できるが,こちらのほうがシンプルで実装と学習が楽」らしい – 出力の確率値そのものがSPP(音声の確率)として活用可能22/39 Generative component Discriminative component
  • 23. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 実験結果 23/39 CHiME4の世界一位 (NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術)
  • 24. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 実験結果 24/39
  • 25. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 25/39
  • 26. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来のDNNで時間周波数マスクを推定するタスク • パラメタ更新(コスト関数)はMMSE規範 • 入力ベクトル – 前後数フレームの周波数ベクトル • ネットワーク • 出力 26/39 理想的なマスク(教師から算出可) DNNの出力のマスク ,
  • 27. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来法の問題点と動機 • 性能改善のためには大規模な学習データによる長時間の学習が必要 – 現実的なデータがそんなに大量に手に入るのか? • MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない – 一番良いのは主観評価 – 次点で人間の知覚をある程度考慮した評価尺度 » Perceptual evaluation of speech quality (PESQ) » Perceptual evaluation methods for audio source separation (PEASS) – 知覚的な評価尺度(PESQとPEASS)をコスト関数に報酬として 用いた最適化 • 学習データからMMSE基準の理想的時間周波数マスクを大量に用意 – 時間周波数マスクのテンプレートとしてデータベース的に扱う • 与えられた入力(観測時間フレーム)に対して,学習済みのテンプレート から最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを 学習する 27/39
  • 28. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来の時間周波数マスク推定DNN • DNNの出力 – 提案する時間周波数マスクテンプレート選択DNN • マスクのテンプレート(学習済) • DNNの出力 • パラメタ更新(コスト関数) 28/39 , , , Softmax 主観評価スコアを含む関数(教師)
  • 29. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 提案法の全体的構成 – 従来の単純なDNNマスク推定の出力分離音 – 提案のマスクテンプレート選択DNNによる出力分離音 29/39 マスクテンプレート 知覚評価尺度 両分離音の知覚評価尺度を比較して後者がより 高いスコアとなるようにパラメタが学習される (そのように が設計されている)
  • 30. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 実験結果 30/39
  • 31. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 31/39
  • 32. AASP-L3.6: NMFからNonnegative AEへ • 非負値行列因子分解(NMF) [Lee+, 1999] – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 32/39 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション
  • 33. AASP-L3.6: NMFからNonnegative AEへ • 教師ありNMFによる音源分離 [Smaragdis+, 2007] – 混合されている各音源の基底行列をあらかじめ学習しておく – 学習済基底は各音源の「スペクトル辞書」のようなもの 33/39 学習ステージ , 分離ステージ 学習済基底は固定 アクティベーションだけを更新
  • 34. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 非負の係数を出力する次元圧縮と考える • 第一層: • 第二層: • しかし擬似逆行列は非負性 の保証がない – Nonnegative autoencoder (NAE) • 第一層: • 第二層: • 非負値に変換する非線形関数(RELUとか絶対値関数とか) • もはや の非負性は不要 – コスト関数(NMFではおなじみの一般化KLダイバージェンス) 34/39 Encoder Decoder
  • 35. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 35/39 ピアノ音信号の分解
  • 36. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – ほんならディープにしますかね • 層が増えた分モデリング能力は向上 • この形でRNNやconvolutionalな層を持つものに拡張可能 – NAEを用いた音源分離 • 各音源のネットワークモデル を学習しておく • 混合信号 に対して をNAEか ら推定する • と を や の微分 から求める 36/39
  • 37. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 実験結果(2音声混合,上が1層,下が4層のNAE,ランクがユニット数) 37/39
  • 38. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 実験結果(2音声混合,左が1層,右が4層のNAE,ランクがユニット数) 38/39
  • 39. • DNNをどのように音源分離問題に活用するか – 分離信号or時間周波数マスクをDNNで推定する方針(人気) • 単一チャネルに適用可能 • Autoencoder, denoising autoencoder, nonnegative autoencoder – 古典的なアルゴリズムで音源分離をするが,必要なパラメタを DNNで推定する方針 • マルチチャネルを対象とすることが多い • ステアリングベクトルの推定,Speech presence probabilityの推定 – 条件・用途に応じたDNN活用法の開拓・深化 • 観測信号の条件はどうか(チャネル数,音源数) • 求めているものは何か(絶対的な雑音抑圧能力,分離音の品質) • 学習データセット構築の現実的可能性はどうか – 音源はもはや学習できる – 伝達系等の空間情報は? セッションまとめ 39/39