SlideShare a Scribd company logo
1 of 39
Deep Learning for Source Separation
and Enhancement I
東京大学 特任助教
うどん(@UDN48_udon)
北村大地
ICASSP2017読み会(関東編)
2017年6月24日(土)
15:40-16:05
AASP-L3:
自己紹介
• 名前
– 北村大地(きたむらだいち)
• 所属
– 東京大学情報理工学系研究科システム情報学専攻 特任助教
• 第一研究室(猿渡研)
• 経歴
– 2014年 奈良先端科学技術大学院大学 修士(工学)
– 2017年 総合研究大学院大学 博士(情報学)
• 研究内容
– 音源分離・統計的信号処理
• 確率的生成モデル周り
• 非負値行列因子分解(nonnegative matrix factorization)
• 独立成分分析(independent component analysis)
– (DNNはあんまり知らない・・・) 2/39
• トピック:source separation and enhancement
– 音源分離(audio source separation)
• 複数の音源が混合された信号を音源毎に分離する信号処理
– 音声強調(speech enhancement)
• 音声信号を目的音源として外部雑音等を抑圧する信号処理
– ほぼ全ての音響システムのフロントエンドに応用可能
• 音声認識,補聴器,会議アーカイブ,音楽編集,自動採譜…
– 関連キーワード
• ビームフォーミング,独立成分分析(ICA),非負値行列因子分解(NMF),
時間周波数マスキング,Denoising Autoencoder(DAE)
セッション背景
3/39
音楽CD
音源分離
• 三菱電機(MERL)のプレスリリース(2017年5月24日付)
– 「ディープクラスタリング」:時間周波数クラスタリングをDNNで
http://www.mitsubishielectric.co.jp/news/2017/0524-e.html
– 詳細は今日の紹介(AASP-L3.1)と下記も参照
• J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and
separation,” Proc. ICASSP, pp. 31-35, 2016.
• Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech,
pp. 545-549, 2016.
– 下記でデモンストレーションも公開されている
• http://www.merl.com/demos/deep-clustering
関連ニュース
4/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
5/39
TFマスク推定
TFマスク推定
TFマスク推定
オートエンコーダ
TFマスク選択
オートエンコーダ
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
6/39
単一チャネル音源分離:deep clustering
• 時間周波数マスクの推定問題
– 単一チャネル観測信号に対する音源分離
– 非目的音源を時間周波数領域でマスキングする非線形処理
• 時間周波数領域のクラスタリング問題として定式化
• 時間周波数マスク(binary or soft)の推定
7/39
time [s]
frequency[Hz]
時間周波数マスクの推定にDNNを使う
音声の時間周波数構造を学習から獲得
mixture
separated
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 学習話者に非依存な単一チャネル信号の複数音声分離
– は観測の時間周波数信号
• ここで (時間フレーム数×周波数ビン数)
• 短時間フーリエ変換(STFT)で得られる複素数行列をベクタライズ
– 特徴量マッピング
• ここで
• つまりDNNは
• はクラスタ数(モデルの次元),多めにとっておいてもOK(らしい?)
• は各時間周波数スロットにおける各クラスタへの寄与度のようなもの
– は学習時の正解データ
• ここで は音源数インデクスで
• つまり は正解のクラスタリング結果(0と1)
– 分離時のSN比を最大化するようなバイナリマスク,学習データなら作成可
• なので を に近づけるようにDNNを学習する必要がある
8/39
これがDNN
の例
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– なんとなくのイメージ
9/39
時間と周波数
要素は
複素数
時間と周波数
モデルの次元
要素は
実数
近づけたい
この想い
時間と周波数
音源数
要素は
0と1のみ
DNNの学習
DNNによる
すごーい変換
制約 制約
というかバイナリ
なのでone-hot vector
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– サイズが違うのでそのままでは と 間の距離が測れない
• なら測れるけれど,モデルの次元は大きくしたい
– 相互相関行列(affinity matrix)を計算
• と ,いずれもサイズは
• はある時間周波数スロット と別の時間周波数スロット
が同じ音源に属する場合は大きな値を取り,異なる音源に
属する場合は小さな値を取る
• も同様だが,こちらは1か0かのバイナリになる
• これは一般的な音声信号(学習に使う信号)の時間周波数
間の共変構造を表している
– DNN( )を学習するためのコスト関数
10/39
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– コスト関数の解釈
– 学習のイメージ(各点が ,色は によって振られる)
11/39
同じ音源に属する2つの時間周波数成分
を一つのクラスタとしてどんどん近づける
全ての時間周波数成分
を互いに遠ざける
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 偏微分は超簡単(matrix cookbook参照)
– DNN学習後,実際に特徴量から時間周波数マスクを推定する
ときはk-means等で各音源にクラスタリング
• K-meansの場合
– が推定バイナリマスクそのものなので, が音源分離
12/39
テスト信号をDNNに入力して得られる特徴量推定クラスタリング結果
は要素毎の積
単一チャネル音源分離:deep clustering
• Deep clustering [J. R. Hershey+, 2016]
– 詳細な実験条件等はペーパー参照(下記,いくつか抜粋)
• 30時間のtraining音声と10時間のvalidation音声
• 2層のbi-directional long short-term memory (BLSTM)の
後に1層のfeedforward
– LSTMなので時間フレーム毎の周波数ベクトルを入力している
• 各BLSTMは600 hidden cells,feedforwardはD次元
• 確率的勾配法
– どの程度分離できるのか?
• http://www.merl.com/demos/deep-clustering
で公開されているスライドで確認
13/39
単一チャネル音源分離:deep clustering
14/39
Noisy Conventional MERL
Target
Estimate
http://www.merl.com/demos/deep-clustering引用元:
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– Deep clusteringと従来のマスク推定ネットワークのマルチタス
ク学習による歌声分離(「歌声」と「その他伴奏」)
• Deep clusteringのマスク推定部分にクラスタリングが必要であった
ネットワーク学習のコスト関数にクラスタリングは考慮されていない
– k-meansで終わらせていた
• 従来のDNNによるマスク推定はこのクラスタリング部分に対応
– Deep clusteringの特徴量マッピングとマスク推定(クラスタリング)
の両コストを一つのネットワーク学習で用いる拡張が考えられる
– 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが,
「音源分離」という最終的な目的は共通
• DNNは最後の非線形関数以外は共通,学習のコスト関数は2つ
– 身体は1つ,頭が2つの「キメラネットワーク」と表現
– ネーミングセンスが良い
15/39
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– キメラネットワークの各頭
• Deep clusteringのコスト関数
• マスク推定のコスト関数
– 全体のコスト関数
• 両者の結合
16/39
もしくは MixtureMask (0~1)
Source ref.
Mask ref.
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– 結果(V,MはそれぞれVocalsとMusic(伴奏),値はSDR)
17/39この値がα,1.0がDCで0.0がMI
AASP-L3.1: キメラネットワークによるマスク推定
• Deep clustering and conventional mask estimation
– 結果
18/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
19/39
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– ビームフォーミング
• マイク間の録音信号の違い(パワー差,位相差)を
用いて特定の方向の音だけを得る技術
• 非定常な拡散性背景雑音の除去
– 様々な手法がある(浅野太, “音のアレイ信号処理,” コロナ社)
• 遅延和法,空間Wienerフィルタ,MVDR,一般化サイドローブキャンセラ
• 「マイクアレイ形状が既知」,「目的音源のステアリングベクトルが既知」
等の条件(仮定)が必要
• できるだけ少ない仮定でビームフォーミングしたい
• 今回は「音源位置は急激には動かない」,「雑音は非定常」のみを使う
– SPP: speech presence probability
• 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク
• これが分かれば一般化サイドローブキャンセラが動く(論文(10)式参照)
– ほんならDNNでSPPを推定しましょうかねぇ 20/39
マイクアレイ
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 観測信号(時間周波数領域):
– 観測の空間相関行列:
– 次のカーネルを周波数毎に定義
• 論文に詳細な記述はないが に時間インデクスが付いているので,
恐らく瞬時空間相関行列 の固有値分解から得ている
• このカーネルの特徴
– 現在といくらか前の時刻の固有ベクトルのコサイン距離
– 固有ベクトルの時間的な変化を考慮できる
– 観測チャネルは内積なので平均を取るように圧縮
– このカーネルをまとめたベクトル
をDNNの入力とする(Kernelized DNN) 21/39
Speech Noise(非定常)
マイク数
固有値 固有ベクトル
は最大固有値に対応する固有ベクトル
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– DNNの構造
• 2段のAutoencoderによるGenerative component(周波数毎に独立)
• Softmax regressionで全周波数情報をまとめて確率値を得る
discriminative component
• 「BLSTMでも似たことが実現できるが,こちらのほうがシンプルで実装と学習が楽」らしい
– 出力の確率値そのものがSPP(音声の確率)として活用可能22/39
Generative component Discriminative component
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 実験結果
23/39
CHiME4の世界一位
(NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術)
AASP-L3.2: DNNによるビームフォーミング
• DNN-based SPP estimation for beamforming
– 実験結果
24/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
25/39
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来のDNNで時間周波数マスクを推定するタスク
• パラメタ更新(コスト関数)はMMSE規範
• 入力ベクトル
– 前後数フレームの周波数ベクトル
• ネットワーク
• 出力
26/39
理想的なマスク(教師から算出可) DNNの出力のマスク
,
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来法の問題点と動機
• 性能改善のためには大規模な学習データによる長時間の学習が必要
– 現実的なデータがそんなに大量に手に入るのか?
• MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない
– 一番良いのは主観評価
– 次点で人間の知覚をある程度考慮した評価尺度
» Perceptual evaluation of speech quality (PESQ)
» Perceptual evaluation methods for audio source separation (PEASS)
– 知覚的な評価尺度(PESQとPEASS)をコスト関数に報酬として
用いた最適化
• 学習データからMMSE基準の理想的時間周波数マスクを大量に用意
– 時間周波数マスクのテンプレートとしてデータベース的に扱う
• 与えられた入力(観測時間フレーム)に対して,学習済みのテンプレート
から最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを
学習する
27/39
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 従来の時間周波数マスク推定DNN
• DNNの出力
– 提案する時間周波数マスクテンプレート選択DNN
• マスクのテンプレート(学習済)
• DNNの出力
• パラメタ更新(コスト関数)
28/39
,
,
,
Softmax
主観評価スコアを含む関数(教師)
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 提案法の全体的構成
– 従来の単純なDNNマスク推定の出力分離音
– 提案のマスクテンプレート選択DNNによる出力分離音
29/39
マスクテンプレート
知覚評価尺度
両分離音の知覚評価尺度を比較して後者がより
高いスコアとなるようにパラメタが学習される
(そのように が設計されている)
AASP-L3.5: 知覚評価を使った音源分離最適化
• DNN-based self-optimization using sound quality
– 実験結果
30/39
セッション目次
• AASP-L3.1: Deep clustering and conventional networks for music
separation: stronger together
– Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani
• AASP-L3.2: DNN-based speech mask estimation for eigenvector
beamforming
– Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf
• AASP-L3.3: Recurrent deep stacking networks for supervised speech
separation
– Z.-Q. Wang, and D.L. Wang
• AASP-L3.4: Collaborative deep learning for speech enhancement: a run-
time model selection method using autoencoders
– M. Kim
• AASP-L3.5: DNN-based source enhancement self-optimized by
reinforcement learning using sound quality measurements
– Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda
• AASP-L3.6: A neural network alternative to non-negative audio models
– P. Smaragdis and S. Venkataramani
31/39
AASP-L3.6: NMFからNonnegative AEへ
• 非負値行列因子分解(NMF) [Lee+, 1999]
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
32/39
Amplitude Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
AASP-L3.6: NMFからNonnegative AEへ
• 教師ありNMFによる音源分離 [Smaragdis+, 2007]
– 混合されている各音源の基底行列をあらかじめ学習しておく
– 学習済基底は各音源の「スペクトル辞書」のようなもの
33/39
学習ステージ
,
分離ステージ 学習済基底は固定
アクティベーションだけを更新
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 非負の係数を出力する次元圧縮と考える
• 第一層:
• 第二層:
• しかし擬似逆行列は非負性
の保証がない
– Nonnegative autoencoder (NAE)
• 第一層:
• 第二層:
• 非負値に変換する非線形関数(RELUとか絶対値関数とか)
• もはや の非負性は不要
– コスト関数(NMFではおなじみの一般化KLダイバージェンス)
34/39
Encoder Decoder
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
35/39
ピアノ音信号の分解
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– ほんならディープにしますかね
• 層が増えた分モデリング能力は向上
• この形でRNNやconvolutionalな層を持つものに拡張可能
– NAEを用いた音源分離
• 各音源のネットワークモデル を学習しておく
• 混合信号 に対して をNAEか
ら推定する
• と を や の微分
から求める 36/39
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 実験結果(2音声混合,上が1層,下が4層のNAE,ランクがユニット数)
37/39
AASP-L3.6: NMFからNonnegative AEへ
• NMFのネットワークとしての解釈
– 実験結果(2音声混合,左が1層,右が4層のNAE,ランクがユニット数)
38/39
• DNNをどのように音源分離問題に活用するか
– 分離信号or時間周波数マスクをDNNで推定する方針(人気)
• 単一チャネルに適用可能
• Autoencoder, denoising autoencoder, nonnegative autoencoder
– 古典的なアルゴリズムで音源分離をするが,必要なパラメタを
DNNで推定する方針
• マルチチャネルを対象とすることが多い
• ステアリングベクトルの推定,Speech presence probabilityの推定
– 条件・用途に応じたDNN活用法の開拓・深化
• 観測信号の条件はどうか(チャネル数,音源数)
• 求めているものは何か(絶対的な雑音抑圧能力,分離音の品質)
• 学習データセット構築の現実的可能性はどうか
– 音源はもはや学習できる
– 伝達系等の空間情報は?
セッションまとめ
39/39

More Related Content

What's hot

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタToshihisa Tanaka
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 

What's hot (20)

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 

Similar to ICASSP2017読み会(関東編)・AASP_L3(北村担当分)

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...YasuakiMori2
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networksharmonylab
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainerKeisuke Umezawa
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...Deep Learning JP
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...Takumi Ohkuma
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 

Similar to ICASSP2017読み会(関東編)・AASP_L3(北村担当分) (20)

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 

More from Daichi Kitamura

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Daichi Kitamura
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Daichi Kitamura
 

More from Daichi Kitamura (19)

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

ICASSP2017読み会(関東編)・AASP_L3(北村担当分)

  • 1. Deep Learning for Source Separation and Enhancement I 東京大学 特任助教 うどん(@UDN48_udon) 北村大地 ICASSP2017読み会(関東編) 2017年6月24日(土) 15:40-16:05 AASP-L3:
  • 2. 自己紹介 • 名前 – 北村大地(きたむらだいち) • 所属 – 東京大学情報理工学系研究科システム情報学専攻 特任助教 • 第一研究室(猿渡研) • 経歴 – 2014年 奈良先端科学技術大学院大学 修士(工学) – 2017年 総合研究大学院大学 博士(情報学) • 研究内容 – 音源分離・統計的信号処理 • 確率的生成モデル周り • 非負値行列因子分解(nonnegative matrix factorization) • 独立成分分析(independent component analysis) – (DNNはあんまり知らない・・・) 2/39
  • 3. • トピック:source separation and enhancement – 音源分離(audio source separation) • 複数の音源が混合された信号を音源毎に分離する信号処理 – 音声強調(speech enhancement) • 音声信号を目的音源として外部雑音等を抑圧する信号処理 – ほぼ全ての音響システムのフロントエンドに応用可能 • 音声認識,補聴器,会議アーカイブ,音楽編集,自動採譜… – 関連キーワード • ビームフォーミング,独立成分分析(ICA),非負値行列因子分解(NMF), 時間周波数マスキング,Denoising Autoencoder(DAE) セッション背景 3/39 音楽CD 音源分離
  • 4. • 三菱電機(MERL)のプレスリリース(2017年5月24日付) – 「ディープクラスタリング」:時間周波数クラスタリングをDNNで http://www.mitsubishielectric.co.jp/news/2017/0524-e.html – 詳細は今日の紹介(AASP-L3.1)と下記も参照 • J. R. Hershey et al., “Deep clustering: discriminative embeddings for segmentation and separation,” Proc. ICASSP, pp. 31-35, 2016. • Y. Isik, et al., “Single-channel multi-speaker separation using deep clustering”, Proc. Interspeech, pp. 545-549, 2016. – 下記でデモンストレーションも公開されている • http://www.merl.com/demos/deep-clustering 関連ニュース 4/39
  • 5. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 5/39 TFマスク推定 TFマスク推定 TFマスク推定 オートエンコーダ TFマスク選択 オートエンコーダ
  • 6. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 6/39
  • 7. 単一チャネル音源分離:deep clustering • 時間周波数マスクの推定問題 – 単一チャネル観測信号に対する音源分離 – 非目的音源を時間周波数領域でマスキングする非線形処理 • 時間周波数領域のクラスタリング問題として定式化 • 時間周波数マスク(binary or soft)の推定 7/39 time [s] frequency[Hz] 時間周波数マスクの推定にDNNを使う 音声の時間周波数構造を学習から獲得 mixture separated
  • 8. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – 学習話者に非依存な単一チャネル信号の複数音声分離 – は観測の時間周波数信号 • ここで (時間フレーム数×周波数ビン数) • 短時間フーリエ変換(STFT)で得られる複素数行列をベクタライズ – 特徴量マッピング • ここで • つまりDNNは • はクラスタ数(モデルの次元),多めにとっておいてもOK(らしい?) • は各時間周波数スロットにおける各クラスタへの寄与度のようなもの – は学習時の正解データ • ここで は音源数インデクスで • つまり は正解のクラスタリング結果(0と1) – 分離時のSN比を最大化するようなバイナリマスク,学習データなら作成可 • なので を に近づけるようにDNNを学習する必要がある 8/39 これがDNN の例
  • 9. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – なんとなくのイメージ 9/39 時間と周波数 要素は 複素数 時間と周波数 モデルの次元 要素は 実数 近づけたい この想い 時間と周波数 音源数 要素は 0と1のみ DNNの学習 DNNによる すごーい変換 制約 制約 というかバイナリ なのでone-hot vector
  • 10. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – サイズが違うのでそのままでは と 間の距離が測れない • なら測れるけれど,モデルの次元は大きくしたい – 相互相関行列(affinity matrix)を計算 • と ,いずれもサイズは • はある時間周波数スロット と別の時間周波数スロット が同じ音源に属する場合は大きな値を取り,異なる音源に 属する場合は小さな値を取る • も同様だが,こちらは1か0かのバイナリになる • これは一般的な音声信号(学習に使う信号)の時間周波数 間の共変構造を表している – DNN( )を学習するためのコスト関数 10/39
  • 11. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – コスト関数の解釈 – 学習のイメージ(各点が ,色は によって振られる) 11/39 同じ音源に属する2つの時間周波数成分 を一つのクラスタとしてどんどん近づける 全ての時間周波数成分 を互いに遠ざける
  • 12. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – 偏微分は超簡単(matrix cookbook参照) – DNN学習後,実際に特徴量から時間周波数マスクを推定する ときはk-means等で各音源にクラスタリング • K-meansの場合 – が推定バイナリマスクそのものなので, が音源分離 12/39 テスト信号をDNNに入力して得られる特徴量推定クラスタリング結果 は要素毎の積
  • 13. 単一チャネル音源分離:deep clustering • Deep clustering [J. R. Hershey+, 2016] – 詳細な実験条件等はペーパー参照(下記,いくつか抜粋) • 30時間のtraining音声と10時間のvalidation音声 • 2層のbi-directional long short-term memory (BLSTM)の 後に1層のfeedforward – LSTMなので時間フレーム毎の周波数ベクトルを入力している • 各BLSTMは600 hidden cells,feedforwardはD次元 • 確率的勾配法 – どの程度分離できるのか? • http://www.merl.com/demos/deep-clustering で公開されているスライドで確認 13/39
  • 14. 単一チャネル音源分離:deep clustering 14/39 Noisy Conventional MERL Target Estimate http://www.merl.com/demos/deep-clustering引用元:
  • 15. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – Deep clusteringと従来のマスク推定ネットワークのマルチタス ク学習による歌声分離(「歌声」と「その他伴奏」) • Deep clusteringのマスク推定部分にクラスタリングが必要であった ネットワーク学習のコスト関数にクラスタリングは考慮されていない – k-meansで終わらせていた • 従来のDNNによるマスク推定はこのクラスタリング部分に対応 – Deep clusteringの特徴量マッピングとマスク推定(クラスタリング) の両コストを一つのネットワーク学習で用いる拡張が考えられる – 「特徴量マッピング」と「クラスタリング」のマルチタスク学習だが, 「音源分離」という最終的な目的は共通 • DNNは最後の非線形関数以外は共通,学習のコスト関数は2つ – 身体は1つ,頭が2つの「キメラネットワーク」と表現 – ネーミングセンスが良い 15/39
  • 16. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – キメラネットワークの各頭 • Deep clusteringのコスト関数 • マスク推定のコスト関数 – 全体のコスト関数 • 両者の結合 16/39 もしくは MixtureMask (0~1) Source ref. Mask ref.
  • 17. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – 結果(V,MはそれぞれVocalsとMusic(伴奏),値はSDR) 17/39この値がα,1.0がDCで0.0がMI
  • 18. AASP-L3.1: キメラネットワークによるマスク推定 • Deep clustering and conventional mask estimation – 結果 18/39
  • 19. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 19/39
  • 20. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – ビームフォーミング • マイク間の録音信号の違い(パワー差,位相差)を 用いて特定の方向の音だけを得る技術 • 非定常な拡散性背景雑音の除去 – 様々な手法がある(浅野太, “音のアレイ信号処理,” コロナ社) • 遅延和法,空間Wienerフィルタ,MVDR,一般化サイドローブキャンセラ • 「マイクアレイ形状が既知」,「目的音源のステアリングベクトルが既知」 等の条件(仮定)が必要 • できるだけ少ない仮定でビームフォーミングしたい • 今回は「音源位置は急激には動かない」,「雑音は非定常」のみを使う – SPP: speech presence probability • 時間周波数の各スロットの成分が音声である確率≒時間周波数マスク • これが分かれば一般化サイドローブキャンセラが動く(論文(10)式参照) – ほんならDNNでSPPを推定しましょうかねぇ 20/39 マイクアレイ
  • 21. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 観測信号(時間周波数領域): – 観測の空間相関行列: – 次のカーネルを周波数毎に定義 • 論文に詳細な記述はないが に時間インデクスが付いているので, 恐らく瞬時空間相関行列 の固有値分解から得ている • このカーネルの特徴 – 現在といくらか前の時刻の固有ベクトルのコサイン距離 – 固有ベクトルの時間的な変化を考慮できる – 観測チャネルは内積なので平均を取るように圧縮 – このカーネルをまとめたベクトル をDNNの入力とする(Kernelized DNN) 21/39 Speech Noise(非定常) マイク数 固有値 固有ベクトル は最大固有値に対応する固有ベクトル
  • 22. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – DNNの構造 • 2段のAutoencoderによるGenerative component(周波数毎に独立) • Softmax regressionで全周波数情報をまとめて確率値を得る discriminative component • 「BLSTMでも似たことが実現できるが,こちらのほうがシンプルで実装と学習が楽」らしい – 出力の確率値そのものがSPP(音声の確率)として活用可能22/39 Generative component Discriminative component
  • 23. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 実験結果 23/39 CHiME4の世界一位 (NTTのMVDRビームフォーマのステアリングベクトルをDNNで推定する技術)
  • 24. AASP-L3.2: DNNによるビームフォーミング • DNN-based SPP estimation for beamforming – 実験結果 24/39
  • 25. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 25/39
  • 26. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来のDNNで時間周波数マスクを推定するタスク • パラメタ更新(コスト関数)はMMSE規範 • 入力ベクトル – 前後数フレームの周波数ベクトル • ネットワーク • 出力 26/39 理想的なマスク(教師から算出可) DNNの出力のマスク ,
  • 27. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来法の問題点と動機 • 性能改善のためには大規模な学習データによる長時間の学習が必要 – 現実的なデータがそんなに大量に手に入るのか? • MMSE規範の最適マスクが必ずしも人間の知覚に適切とは限らない – 一番良いのは主観評価 – 次点で人間の知覚をある程度考慮した評価尺度 » Perceptual evaluation of speech quality (PESQ) » Perceptual evaluation methods for audio source separation (PEASS) – 知覚的な評価尺度(PESQとPEASS)をコスト関数に報酬として 用いた最適化 • 学習データからMMSE基準の理想的時間周波数マスクを大量に用意 – 時間周波数マスクのテンプレートとしてデータベース的に扱う • 与えられた入力(観測時間フレーム)に対して,学習済みのテンプレート から最も評価尺度が最大となる時間周波数マスクを選ぶようなDNNを 学習する 27/39
  • 28. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 従来の時間周波数マスク推定DNN • DNNの出力 – 提案する時間周波数マスクテンプレート選択DNN • マスクのテンプレート(学習済) • DNNの出力 • パラメタ更新(コスト関数) 28/39 , , , Softmax 主観評価スコアを含む関数(教師)
  • 29. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 提案法の全体的構成 – 従来の単純なDNNマスク推定の出力分離音 – 提案のマスクテンプレート選択DNNによる出力分離音 29/39 マスクテンプレート 知覚評価尺度 両分離音の知覚評価尺度を比較して後者がより 高いスコアとなるようにパラメタが学習される (そのように が設計されている)
  • 30. AASP-L3.5: 知覚評価を使った音源分離最適化 • DNN-based self-optimization using sound quality – 実験結果 30/39
  • 31. セッション目次 • AASP-L3.1: Deep clustering and conventional networks for music separation: stronger together – Y. Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani • AASP-L3.2: DNN-based speech mask estimation for eigenvector beamforming – Lukas Pfeifenberger, Matthias Zöhrer, and Franz Pernkopf • AASP-L3.3: Recurrent deep stacking networks for supervised speech separation – Z.-Q. Wang, and D.L. Wang • AASP-L3.4: Collaborative deep learning for speech enhancement: a run- time model selection method using autoencoders – M. Kim • AASP-L3.5: DNN-based source enhancement self-optimized by reinforcement learning using sound quality measurements – Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda • AASP-L3.6: A neural network alternative to non-negative audio models – P. Smaragdis and S. Venkataramani 31/39
  • 32. AASP-L3.6: NMFからNonnegative AEへ • 非負値行列因子分解(NMF) [Lee+, 1999] – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 32/39 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション
  • 33. AASP-L3.6: NMFからNonnegative AEへ • 教師ありNMFによる音源分離 [Smaragdis+, 2007] – 混合されている各音源の基底行列をあらかじめ学習しておく – 学習済基底は各音源の「スペクトル辞書」のようなもの 33/39 学習ステージ , 分離ステージ 学習済基底は固定 アクティベーションだけを更新
  • 34. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 非負の係数を出力する次元圧縮と考える • 第一層: • 第二層: • しかし擬似逆行列は非負性 の保証がない – Nonnegative autoencoder (NAE) • 第一層: • 第二層: • 非負値に変換する非線形関数(RELUとか絶対値関数とか) • もはや の非負性は不要 – コスト関数(NMFではおなじみの一般化KLダイバージェンス) 34/39 Encoder Decoder
  • 35. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 35/39 ピアノ音信号の分解
  • 36. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – ほんならディープにしますかね • 層が増えた分モデリング能力は向上 • この形でRNNやconvolutionalな層を持つものに拡張可能 – NAEを用いた音源分離 • 各音源のネットワークモデル を学習しておく • 混合信号 に対して をNAEか ら推定する • と を や の微分 から求める 36/39
  • 37. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 実験結果(2音声混合,上が1層,下が4層のNAE,ランクがユニット数) 37/39
  • 38. AASP-L3.6: NMFからNonnegative AEへ • NMFのネットワークとしての解釈 – 実験結果(2音声混合,左が1層,右が4層のNAE,ランクがユニット数) 38/39
  • 39. • DNNをどのように音源分離問題に活用するか – 分離信号or時間周波数マスクをDNNで推定する方針(人気) • 単一チャネルに適用可能 • Autoencoder, denoising autoencoder, nonnegative autoencoder – 古典的なアルゴリズムで音源分離をするが,必要なパラメタを DNNで推定する方針 • マルチチャネルを対象とすることが多い • ステアリングベクトルの推定,Speech presence probabilityの推定 – 条件・用途に応じたDNN活用法の開拓・深化 • 観測信号の条件はどうか(チャネル数,音源数) • 求めているものは何か(絶対的な雑音抑圧能力,分離音の品質) • 学習データセット構築の現実的可能性はどうか – 音源はもはや学習できる – 伝達系等の空間情報は? セッションまとめ 39/39