SlideShare a Scribd company logo
1 of 15
Download to read offline
独立深層学習行列分析に基づく
多チャネル音源分離
☆角野隼斗, 北村大地, 高宗典玄, 高道慎之介, 猿渡洋 (東大),
小野順貴 (首都大)
/ 15
n 観測信号を利用し,混合前の音源信号を推定する技術
※ 以下の条件を仮定している
n 優決定条件(観測マイク数 ≧ 音源数)
n 周波数領域上での瞬時混合(ランク1空間モデル)
多チャネル音源分離
2
音源信号 観測信号 分離信号
混合系 分離系
未知 既知 推定
sij xij yij
sij,1
sij,2 xij,2
xij,1 yij,1
yij,2
Ai Wi
:周波数インデクスi
j:時間インデクス
, は行列Ai Wi
= Aisij = Wixij
/ 15
本研究の位置付け
2018年3月13日 3提案手法
/ 15
n 生成モデル:多変量複素ガウス分布(Duongモデル [Duong+, 2009] )
Duong+DNN法 [Nugraha+, 2016]
4
空間相関行列
EMアルゴリズムに基づき空間モデル最適化
n 尤度関数
音源の分散(パワー)
n EMアルゴリズムの反復に必要な計算量が多い
n 分離系を推定する手法は混合系を推定する手法に比べ高精度な分離が
可能 [Kitamura+, 2016]
xij
sij,1
sij,2 xij,2
xij,1 yij,1
yij,2
混合系 分離系
Ai Wi
xij
DNNで推定 ↓
/ 15
生成モデル:時間周波数分散変動型複素ガウス分布 [Févotte+, 2009]
観測信号の負対数尤度
定式化
5
時間周波数の各スロットで
定義された複素ガウス分布
時間周波数に依存する分散
(= のパワー)
複素要素の時間周波数行列
(I × J次元)
:音源インデクスn
音源モデル 空間モデル
/ 15
観測信号
空間モデル
(周波数ごとに
個別な分離行列)
分離信号 音源モデル(低ランク行列)
xij yij
Wi
Frequency
Frequency
Time
独立低ランク行列分析(ILRMA) [Kitamura+, 2016]
2018年3月13日
音源モデル (低ランク性) 空間モデル (音源間が独立)
交互に最適化
分離行列
n 空間モデル(Wの推定):各音源が統計的に独立となる分離行列を推定
n 音源モデル(Rの推定):各音源の分散時間周波数行列の低ランク近似
分散行列
6
/ 15
独立低ランク行列分析(ILRMA) [Kitamura+, 2016]
2018年3月13日
音源モデル (低ランク性) 空間モデル (音源間が独立)
7
事前に学習データを用いて音源モデル
の分散を推定する写像を作る
音源によっては低ランク性が
成り立たない場合がある
音源・マイク位置,部屋の形状,
残響時間などの膨大な物理要因に依存
学習データの用意は非現実的
ブラインドに推定
DNNによる汎用的な音源モデルの構成
/ 15
n 空間モデル:各音源が統計的に独立となる分離行列を推定
n 音源モデル:分散行列 を推定するDNNを各音源ごとに構成
n IDLMA(Independent Deeply Learned Matrix Analysis)
提案手法:独立深層学習行列分析
2018年3月13日 8
音源モデル (DNN) 空間モデル (音源間が独立)
交互に最適化
観測信号
空間モデル
分離信号 音源モデル(DNN)
xij yij
Wi Time
Frequency
Frequency
Time
Frequency
Frequency
/ 15
n IDLMA(Independent Deeply Learned Matrix Analysis)
提案手法:独立深層学習行列分析
2018年3月13日 9
n DNN音源モデル(音源ごとに構成)
DNN学習時のコスト関数
(IS divergence)
→ Minimize
n IS divergenceに基づく最適化は の赤枠部分の最小化(最尤推定)と等価
混合信号
(パワー)
DNN
推定分散
分離信号
(パワー)
/ 15
2 m
Vo.
5.66 cm
40
40
E2A impulse
response
T60 = 300 ms
(a)
2 m
2.83 cm
20
(b)
40
E2A impulse
response
T60 = 300 ms
Ba. or Dr. Ba. or Dr.
Vo.
評価実験
学習信号 DSD100(音楽データセット)Dev 50曲(Vo./Ba. & Vo./Dr.)
評価信号
DSD100 Test 25曲に対し,以下の配置のE2Aインパルス応答
(RT60 = 300 ms)を畳み込んだ信号
サンプリング周波数 8 kHz
STFTの設定 窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分
評価指標 Signal-to-Distortion Ratio (SDR) の改善量
比較手法
ILRMA / DNN+WF法 [Uhlich+, 2015] /
Duong+DNN法 / 提案手法(IDLMA)
10
配置1 配置2
/ 15
n DNNの入出力
DNNの学習方法
2018年3月13日 11
DNNの構造 全結合NN 隠れ層4層(各層ユニット数1024)
活性化関数 ReLU(隠れ層及び出力層)
音源ごとにDNNを学習
n モデル
/ 15
n STFTの窓長と音源分離性能(平均SDR改善量) [dB]
n Vo./Ba.では窓長512 ms,Vo./Dr.では窓長256 msが最も性能が良い
n IDLMAの性能は窓長に関してトレードオフが存在
実験結果(STFTの窓長と性能の関係)
2018年3月13日 12
窓長 [ms] 128 256 512 1024
Vo ./Ba. (ILRMA) 3.67 4.98 6.48 4.39
Vo ./Ba. (IDLMA) 11.03 12.30 13.04 11.11
Vo ./Dr. (ILRMA) 5.45 6.39 6.18 4.82
Vo ./Dr. (IDLMA) 6.89 10.09 5.77 6.02
※配置1と配置2の平均
長い短い
統計バイアス増加
DNNのパラメータ数増加
瞬時混合仮定が不成立
/ 15
実験結果(従来手法との性能比較)
2018年3月13日 13
Proposed method (IDLMA)
Good
n 10回に1回 DNNで分散行列を更新
DNN+WF
ILRMA
Duong+DNN
教師あり
ブラインド
n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.)
/ 15
実験結果(従来手法との性能比較)
2018年3月13日 14
Proposed method (IDLMA)
Good
n 10回に1回 DNNで分散行列を更新
DNN+WF
ILRMA
Duong+DNN
n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.)
26.56 [s]
287.06 [s]
23.31 [s]
実計算時間例
/ 15
まとめ
n 従来のブラインド音源分離手法(ILRMA)において,音源モデル
をDNNによって推定する教師あり拡張手法(IDLMA)を提案した
n 提案手法(IDLMA)は,既存手法に対し優れた分離性能を示し,
分離系の推定が混合系の推定よりも高速かつ高精度であることを
示した
2018年3月13日 15
観測信号
空間モデル
分離信号 音源モデル(DNN)
xij yij
Wi Time
Frequency
Frequency
Time
Frequency
Frequency

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 

More from Daichi Kitamura

More from Daichi Kitamura (19)

Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on independent deeply learned matrix analysis)

  • 2. / 15 n 観測信号を利用し,混合前の音源信号を推定する技術 ※ 以下の条件を仮定している n 優決定条件(観測マイク数 ≧ 音源数) n 周波数領域上での瞬時混合(ランク1空間モデル) 多チャネル音源分離 2 音源信号 観測信号 分離信号 混合系 分離系 未知 既知 推定 sij xij yij sij,1 sij,2 xij,2 xij,1 yij,1 yij,2 Ai Wi :周波数インデクスi j:時間インデクス , は行列Ai Wi = Aisij = Wixij
  • 4. / 15 n 生成モデル:多変量複素ガウス分布(Duongモデル [Duong+, 2009] ) Duong+DNN法 [Nugraha+, 2016] 4 空間相関行列 EMアルゴリズムに基づき空間モデル最適化 n 尤度関数 音源の分散(パワー) n EMアルゴリズムの反復に必要な計算量が多い n 分離系を推定する手法は混合系を推定する手法に比べ高精度な分離が 可能 [Kitamura+, 2016] xij sij,1 sij,2 xij,2 xij,1 yij,1 yij,2 混合系 分離系 Ai Wi xij DNNで推定 ↓
  • 5. / 15 生成モデル:時間周波数分散変動型複素ガウス分布 [Févotte+, 2009] 観測信号の負対数尤度 定式化 5 時間周波数の各スロットで 定義された複素ガウス分布 時間周波数に依存する分散 (= のパワー) 複素要素の時間周波数行列 (I × J次元) :音源インデクスn 音源モデル 空間モデル
  • 6. / 15 観測信号 空間モデル (周波数ごとに 個別な分離行列) 分離信号 音源モデル(低ランク行列) xij yij Wi Frequency Frequency Time 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 2018年3月13日 音源モデル (低ランク性) 空間モデル (音源間が独立) 交互に最適化 分離行列 n 空間モデル(Wの推定):各音源が統計的に独立となる分離行列を推定 n 音源モデル(Rの推定):各音源の分散時間周波数行列の低ランク近似 分散行列 6
  • 7. / 15 独立低ランク行列分析(ILRMA) [Kitamura+, 2016] 2018年3月13日 音源モデル (低ランク性) 空間モデル (音源間が独立) 7 事前に学習データを用いて音源モデル の分散を推定する写像を作る 音源によっては低ランク性が 成り立たない場合がある 音源・マイク位置,部屋の形状, 残響時間などの膨大な物理要因に依存 学習データの用意は非現実的 ブラインドに推定 DNNによる汎用的な音源モデルの構成
  • 8. / 15 n 空間モデル:各音源が統計的に独立となる分離行列を推定 n 音源モデル:分散行列 を推定するDNNを各音源ごとに構成 n IDLMA(Independent Deeply Learned Matrix Analysis) 提案手法:独立深層学習行列分析 2018年3月13日 8 音源モデル (DNN) 空間モデル (音源間が独立) 交互に最適化 観測信号 空間モデル 分離信号 音源モデル(DNN) xij yij Wi Time Frequency Frequency Time Frequency Frequency
  • 9. / 15 n IDLMA(Independent Deeply Learned Matrix Analysis) 提案手法:独立深層学習行列分析 2018年3月13日 9 n DNN音源モデル(音源ごとに構成) DNN学習時のコスト関数 (IS divergence) → Minimize n IS divergenceに基づく最適化は の赤枠部分の最小化(最尤推定)と等価 混合信号 (パワー) DNN 推定分散 分離信号 (パワー)
  • 10. / 15 2 m Vo. 5.66 cm 40 40 E2A impulse response T60 = 300 ms (a) 2 m 2.83 cm 20 (b) 40 E2A impulse response T60 = 300 ms Ba. or Dr. Ba. or Dr. Vo. 評価実験 学習信号 DSD100(音楽データセット)Dev 50曲(Vo./Ba. & Vo./Dr.) 評価信号 DSD100 Test 25曲に対し,以下の配置のE2Aインパルス応答 (RT60 = 300 ms)を畳み込んだ信号 サンプリング周波数 8 kHz STFTの設定 窓長 128, 256, 512, 1024 ms / シフト長: 窓長の半分 評価指標 Signal-to-Distortion Ratio (SDR) の改善量 比較手法 ILRMA / DNN+WF法 [Uhlich+, 2015] / Duong+DNN法 / 提案手法(IDLMA) 10 配置1 配置2
  • 11. / 15 n DNNの入出力 DNNの学習方法 2018年3月13日 11 DNNの構造 全結合NN 隠れ層4層(各層ユニット数1024) 活性化関数 ReLU(隠れ層及び出力層) 音源ごとにDNNを学習 n モデル
  • 12. / 15 n STFTの窓長と音源分離性能(平均SDR改善量) [dB] n Vo./Ba.では窓長512 ms,Vo./Dr.では窓長256 msが最も性能が良い n IDLMAの性能は窓長に関してトレードオフが存在 実験結果(STFTの窓長と性能の関係) 2018年3月13日 12 窓長 [ms] 128 256 512 1024 Vo ./Ba. (ILRMA) 3.67 4.98 6.48 4.39 Vo ./Ba. (IDLMA) 11.03 12.30 13.04 11.11 Vo ./Dr. (ILRMA) 5.45 6.39 6.18 4.82 Vo ./Dr. (IDLMA) 6.89 10.09 5.77 6.02 ※配置1と配置2の平均 長い短い 統計バイアス増加 DNNのパラメータ数増加 瞬時混合仮定が不成立
  • 13. / 15 実験結果(従来手法との性能比較) 2018年3月13日 13 Proposed method (IDLMA) Good n 10回に1回 DNNで分散行列を更新 DNN+WF ILRMA Duong+DNN 教師あり ブラインド n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.)
  • 14. / 15 実験結果(従来手法との性能比較) 2018年3月13日 14 Proposed method (IDLMA) Good n 10回に1回 DNNで分散行列を更新 DNN+WF ILRMA Duong+DNN n 空間モデル更新毎のSDR改善量(窓長512 ms,配置1,Vo./Ba.) 26.56 [s] 287.06 [s] 23.31 [s] 実計算時間例
  • 15. / 15 まとめ n 従来のブラインド音源分離手法(ILRMA)において,音源モデル をDNNによって推定する教師あり拡張手法(IDLMA)を提案した n 提案手法(IDLMA)は,既存手法に対し優れた分離性能を示し, 分離系の推定が混合系の推定よりも高速かつ高精度であることを 示した 2018年3月13日 15 観測信号 空間モデル 分離信号 音源モデル(DNN) xij yij Wi Time Frequency Frequency Time Frequency Frequency