Successfully reported this slideshow.
Your SlideShare is downloading. ×

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA)

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 26 Ad

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA)

Download to read offline

北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018.
Daichi Kitamura, Hayato Sumino, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, and Nobutaka Ono, "Experimental evaluation of multichannel audio source separation based on IDLMA," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018 (in Japanese)

北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018.
Daichi Kitamura, Hayato Sumino, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, and Nobutaka Ono, "Experimental evaluation of multichannel audio source separation based on IDLMA," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018 (in Japanese)

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

More from Daichi Kitamura (17)

Advertisement

Recently uploaded (20)

Advertisement

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA)

  1. 1. 独立深層学習行列分析に基づく 多チャネル音源分離の実験的評価 Experimental evaluation of multichannel audio source separation based on IDLMA 北村大地, 角野隼斗,高宗典玄, 高道慎之介, 猿渡洋(東大) 小野順貴(首都大東京) 日本音響学会2018年春季研究発表会 2018年3月19日10:00–11:40 午前EA/SPオーガナイズドセッション (音声音響信号処理研究における機械学習技術の研究と応用) EA-3.
  2. 2. 背景 • ブラインド音源分離(blind source separation: BSS) – 混合系 (マイクや音源位置の部屋の形状等)が未知 • 優決定条件(マイク数≧音源数)のBSS – 音源間の独立性に基づく分離系 の推定 • 独立成分分析(ICA)[P. Comon, 1994] • 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・ • 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] • 劣決定条件(マイク数<音源数)のBSS – 混合系 の推定(時間周波数マスク) • Sparse coding [P. Bofill+, 2001], [S. Araki+, 2007] • Duong法 [N. Q. K. Duong+, 2010] 2 混合系 分離系
  3. 3. 音源分離の歴史と発展(関連手法のみ掲載) 3 1994 1998 2013 1999 2012 パーミュテーション問題 の解決法 数理モデルの拡張 生成モデル的解釈の発見 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF (ISNMF) 独立ベクトル分析(IVA) 2016 2009 2006 2011 補助関数IVA(AuxIVA) 非負値行列因子分解 (NMF) 独立低ランク行列分析 (ILRMA) 時変複素ガウスIVA 多チャネルNMF 2018 独立深層学習行列分析 (IDLMA) 多チャネル信号 優決定条件 劣決定条件 単一チャネル信号 Duong法 Duong+DNN法 深層ニューラルネットワーク (DNN) 独立成分分析(ICA) [Comon],[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … [Smaragdis] [Saruwatari], [Murata], [Morgan], [Sawada], … [Hiroe], [Kim] [Ono] [Ono] [Kitamura] [Kitamura] [Nugraha] [Sawada] [Duong] [Févotte] [Lee] [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … [Hinton], … 2010
  4. 4. • 優決定条件(マイク数≧音源数)が対象 – 混合系 の逆系(分離系 )が存在 • BSSで活用されるモデル – 空間モデル:分離系 推定の仮定 • 音源間の独立性と種は数領域での瞬時混合(ICA,IVA,ILRMA) – 音源モデル:分離信号の時間周波数構造の仮定 • グループスパース性(IVA),低ランク性(ILRMA) – 不適切な音源モデルによる性能の劣化 • パーミュテーション問題 • 独立深層学習行列分析(IDLMA) – ICA由来の「独立性に基づく分離系推定」 • 空間モデル(分離系 )はブラインド推定 – DNNで構築する「教師あり音源モデル」 • 音源モデルは学習データ(教師)より獲得 本発表の概要 4 ICA IVA ILRMA IDLMA ブラインド 音源モデル 教師あり 推定対象 分離系
  5. 5. • 音源数 ,マイク数(チャネル数) – 決定系条件 を考える • 短時間フーリエ変換(STFT)して得られる各信号 – 多チャネル観測信号 – 混合行列の逆行列 が存在するとき, 多チャネル分離信号 • 時間周波数行列としての表記 – 要素毎の絶対値および指数演算を で表す • 例: チャネルの観測パワースペクトログラム 記号の定義と定式化 5 時不変混合行列周波数 時間 ただし 音源スペクトログラム 観測スペクトログラム 分離スペクトログラム とおくと
  6. 6. • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散 の独立な原点対称複素 ガウス分布に従う 音源の生成モデル 6 分散(パワーの期待値) Frequencybin Time frame : パワースペクトログラム パワーが大=分散が大 大振幅の複素数も生成しうる 濃淡がパワーの 大きさを示す パワーが小=分散が小 0付近の複素数しか生成しない
  7. 7. • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散 の独立な原点対称複素 ガウス分布に従う • 分散の最尤推定は板倉斎藤擬距離の最小化と等価 音源の生成モデル 7 板倉斎藤 擬距離 での 偏微分は 同じ 分散(パワーの期待値)
  8. 8. • 多チャネル観測信号の負対数尤度 • 原点対称複素ガウス分布 のとき 独立性に基づく最適化 8 独立性仮定 音源の生成モデル 独立性に基づく分離行列 の推定 (空間モデル) 生成モデルに基づく分散行列 の推定 (音源モデル)
  9. 9. • 分離信号 や分散 に何も仮定をおかない(FDICA) – 分離行列 が周波数に関して非依存(separable) パーミュテーション問題を引き起こす 音源モデル:分散の構造的仮定 9 分離 行列 音源1 音源2 観測1 観測2 パーミュテーション の整合 分離信号1 分離信号2Time
  10. 10. • 分離信号のパワースペクトログラム に対して グループスパース性を仮定 – 同時に生起する周波数成分は同じ音源 としてまとまる パーミュテーション問題の回避 – 独立ベクトル分析(IVA) [A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] • 生成モデルの分散行列 に対して低ランク構造を仮定 – 各音源の低ランク構造( )を推定 パーミュテーション問題を回避 – 低ランクな音源が混ざるとランクは増える 低ランクに誘導することで音源が分離される – 独立低ランク行列分析(ILRMA) [D. Kitamura, 2016] 音源モデル:分散の構造的仮定 10 Frequency Time Frequency Time NMFによる表現(ランク )
  11. 11. • 不適切な音源モデルを仮定してしまうと分離精度が劣化 – 例:ボーカルや音声は楽器音ほど低ランクではない (ダイナミックにピッチが変動するため) • 音源モデルの教師あり学習 – DNNに基づく単一チャネルの音源分離モデル • 音楽や音声など「ソロ音源の学習データ」は利用可能な時代 • 空間モデルは学習可能? – 部屋の形状,残響時間,マイクロホン位置,音源位置,音速等 膨大な物理要因に依存 非現実的! – 独立性に基づくブラインドな推定は有用 提案手法:動機 11 Drums GuitarVocals
  12. 12. • 独立低ランク行列分析(ILRMA) • 独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA) – 統計的独立性と教師ありDNN音源モデルに基づく音源分離 提案手法:独立深層学習行列分析 12 観測信号 周波数毎の 分離行列 分離信号 DNN音源モデルによる分散推定 Time Frequency Frequency Time STFT Time Frequency Frequency Time 観測信号 周波数毎の 分離行列 分離信号 Time Frequency Frequency Time 分離信号が「互いに独立」かつ「低ランクな時 間周波数構造」を持つように分離行列を更新 STFT NMFによる低ランク近似 分離信号が「互いに独立」かつ「学習済みの DNNで表現されるような時間周波数構造」を 持つように分離行列を更新 音源モデルを教師あり化
  13. 13. • DNNの特徴量 • DNNの損失関数 提案手法:DNN音源モデルの学習 13 Frequency Time Frequency Time ランダムな 振幅値 を乗じて混合 音源1(学習データ) 音源2(学習データ) 混合ベクトル 正解 ベクトル 推定 ベクトル 損失関数 最小化 最小化 損失関数 ( ) 音源2を分離 するDNN 音源1を分離 するDNN 正解 推定 微小値 板倉斎藤擬距離を使うことで 複素ガウス分布生成モデル の最尤推定となる
  14. 14. • 原点対称複素ガウス分布の負対数尤度 提案手法:分離行列と分散行列の最適化 14 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 空間モデルの更新
  15. 15. • 原点対称複素ガウス分布の負対数尤度 • 反復射影法(iterative projection: IP) [N. Ono, 2011] – 分離行列を行毎( 毎)に更新 提案手法:分離行列と分散行列の最適化 15 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 空間モデルの更新 … 更新 固定 分散 の更新 固定 … 固定 更新 固定 … 固定 固定 更新 番目の要素が1, 他が0の縦ベクトル
  16. 16. • 原点対称複素ガウス分布の負対数尤度 • 学習済DNN音源モデルの適用 – 分離信号 を入力し分散を推定 – IPの数値安定性向上のためフロア処理 提案手法:分離行列と分散行列の最適化 16 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 空間モデルの更新 要素毎のmax演算 を施した行列を返す 微小フロアリング値 Time Frequency Time Frequency Time Frequency フロア 処理
  17. 17. 評価実験:条件(1/2) 17 学習信号 SiSEC2016 DSD100音楽データセット 開発データ50曲(Ba., Vo., Dr.の3音源) 評価信号 SiSEC2016 DSD100音楽データセット テストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース 収録のE2Aインパルス応答で畳み込んで観測した信号 サンプリング周波数 8 kHzにダウンサンプリング STFTの設定 窓長128, 256, 512, 1024 msのハミング窓 シフト長は常に窓長の半分 評価指標 信号対歪み比(signal-to-distortion ratio: SDR)の改善量 2 m Vo. 5.66cm 40 40 Ba. or Dr. RWCP収録 E2Aインパルス応答 T60 = 300ms
  18. 18. 評価実験:条件(2/2) 18 DNNの構造 全結合型フィードフォワード 隠れ層4層,各層のユニット数1024 活性化関数 ReLU(隠れ層及び出力層) 比較手法 ILRMA(ブラインド),DNN+WF, Duong+DNN,提案手法(IDLMA) ILRMA: DNN+WF: Duong+DNN: IDLMA: ブラインド多チャネル分離 分離行列 をIPで推定 音源モデル教師あり単一チャネル分離, 各音源のDNN出力からWienerフィルタを構築・適用 音源モデル教師あり多チャネル分離, 音源モデルにDNNを活用, 混合系(フルランク空間相関行列)をEMで推定 音源モデル教師あり多チャネル分離 音源モデルにDNNを活用 分離行列 をIPで推定 [D. Kitamura+, 2016] [S. Uhlich+, 2015] [A. A. Nagraha+, 2016] 提案手法
  19. 19. 評価実験:結果(1/4) 19 真の分散 (Ba.) DNN推定分散 (Ba.) 真の分散 (Vo.) DNN推定分散 (Vo.)
  20. 20. • 様々な窓長に対する性能比較(25曲の平均) 評価実験:結果(2/4) 20 0 2 4 6 8 10 12 14 128 256 512 1024 SDRimprovement[dB] Window length in STFT [ms] 0 2 4 6 8 10 12 14 128 256 512 1024 SDRimprovement[dB] Window length in STFT [ms] Ba./Vo.の分離結果 Dr./Vo.の分離結果 IDLMA IDLMA Duong+DNN Duong+DNN ILRMA(ブラインド) ILRMA(ブラインド) DNN+WF(単一チャネル) DNN+WF(単一チャネル)
  21. 21. • 反復回数に対する性能比較(25曲の平均) 14 12 10 8 6 4 2 0 SDRimprovement[dB] 1009080706050403020100 Iteration step ILRMA DNN+WF Duong+DNN IDLMA 評価実験:結果(3/4) 21 Ba./Vo.の分離結果(512 ms窓) 14 12 10 8 6 4 2 0 SDRimprovement[dB] 1009080706050403020100 Iteration step ILRMA DNN+WF Duong+DNN IDLMA IDLMA Duong+DNN DNN+WF ILRMA IDLMA Duong+DNN DNN+WF ILRMA DNNによる 性能改善 DNNによる 性能改善 Dr./Vo.の分離結果(256 ms窓)
  22. 22. • 100回更新時の計算時間例比較(30秒の観測信号) – Python 3.5.2+Chainer 2.1.0環境 – Intel Core i7-6850K(3.60 GHz,6コア) – DNN音源モデルによる分散推定はGeForce GTX 1080 Ti 評価実験:結果(4/4) 22 0 50 100 150 200 250 300 350 ILRMA Duong+DNN IDLMA Computationaltime[s] 23.31 s 26.56 s 287.06 s
  23. 23. • 分離行列の最適化(IP)は分離フィルタの更新順に依存 – 例:2音源の場合 • 今回はグリーディに全通り( 通り)の更新順を試行 – DNN音源モデルを用いた推定SN比を算出し高い結果を採用 IP最適化の性能不安定性 23 更新 固定 分散 の更新 固定 更新 音源インデクスの昇順 固定 更新 分散 の更新 更新 固定 音源インデクスの降順 IPによる分離フィルタ の更新式 よりよい分離行列の推定の為には 分散行列 が高精度に推定でき た音源を先に更新すべき 推定分散分離行列
  24. 24. • DNN音源モデルに基づく推定SN比 – 現在の分離信号 を音源モデル に入力した際の出力 – 現在の分離信号 中の音源 の成分と残留する他音源 の成分をDNN音源モデルより推定しSN比を算出 • 全時間周波数の総パワーによる推定SN比 • 各時間周波数グリッドの推定SN比の時間周波数平均 – IPの更新順の全通りの結果について上記を算出 • 推定SN比が高くなる結果を採用 IPの更新順の選択基準 24 全音源に 関して平均 全音源に 関して平均
  25. 25. • 条件は先の評価実験と同様 評価実験:IPの更新順選択実験 25 Ba./Vo.の分離結果 Dr./Vo.の分離結果 14 13 12 11 10 9 8 7 SDRimprovement[dB] 1009080706050403020100 Iteration step Ascending order Descending order -based order -based order 12 11 10 9 8 7 6 SDRimprovement[dB] 1009080706050403020100 Iteration step Ascending order Descending order -based order -based order
  26. 26. • 独立深層学習行列分析(IDLMA,アイドルエムエー) – 分離系を高速・安定・高精度に推定する多チャネル音源分離 – 音源モデル:DNNを用いた教師あり推定 – 空間モデル:統計的独立性に基づくブラインド推定 – フルランク空間相関行列を推定するDuong+DNN(低速) – 分離行列を推定するIDLMA(高精度・高速) • IPによる分離フィルタの更新順の問題 – DNN音源モデルに基づく選択基準を提案 まとめ 26 Sound Demo: http://d-kitamura.net/demo_idlma.htm

Editor's Notes

  • 初めに本研究の背景です.
    本研究では,音源分離問題を取り扱います.音源分離問題は,特にブラインド音源分離と呼ばれる技術が盛んに研究されています.これは,マイクや音源の位置等の「混合系A」の情報が未知な状況での音源分離です.
    音源の数とマイクの数が同じかマイクが多い場合を優決定条件,逆にマイク数が少ない場合を劣決定条件と呼びます.
    優決定条件では,音源間の独立性に基づいて,混合系の逆システムである「分離系W」を推定する技術がこれまで発展してきました.独立成分分析,ICAが周波数領域へ拡張され,独立ベクトル分析,IVAという技術も登場しました.
    一方で,劣決定条件では,何らかの仮定の下で混合系Aを推定する手法がこれまで研究されています.
  • こちらは右から単一チャネル,劣決定,優決定での音源分離手法の発展をまとめた図です.
    単一チャネルでは,非負値行列因子分解,NMFの登場により発展しましたが,現在はDNNが主流となっています.
    劣決定条件では2010年に登場したDuong法が有名であり,NMFを取り入れた多チャネルNMFやDNNを取り入れたDuong+DNN法として発展しています.
    優決定条件ではICAの登場以降,音源モデルの高度化が進み,NMFを取り入れた独立低ランク行列分析,ILRMAが2016年に提案されました.
    本日の発表では,このILRMAの音源モデルをDNNに置き換えた教師あり多チャネル音源分離手法を提案します.
  • 本発表の概要です.本発表では優決定条件を対象とし,分離系Wを推定します.
    この分離系の推定には「空間モデル」と「音源モデル」の2つが必要であり,特に音源モデルは分離性能を大きく左右します.つまり,不適切な音源モデルを仮定してしまうと,性能が劣化してしまうということです.
    そこで,学習データからDNNで構築する適切な音源モデルと,従来通りのブラインドな空間モデル推定を組み合わせた新しい手法の「独立深層学習行列分析,アイドルエムエー」を提案します.
    これまでのIVAやILRMAは空間も音源もブラインドに推定しましたが,IDLMAでは音源に関して教師あり,というアプローチを採用します.(3.00)
  • それでは詳細に入ります.まず,記号の定義と定式化を簡単に説明します.
    今,N個の音源の混合信号をM個のマイクで観測します.ただし,M=Nという条件を以後仮定します.
    観測信号をSTFTして,x_ijという多チャネル観測信号を得ます.iは周波数,jは時間です.このxは,音源信号sが時不変な混合行列Aiを通して観測されています.Aがフルランクならば,その逆の分離行列を推定することで分離信号yを得ます.
    これらの信号は多チャネルベクトルではなく,I×Jというスペクトログラムの形でも定義しておきます.また,ドット付き指数と絶対値を,要素毎の絶対値および指数演算と定義します.3.55
  • 次に,従来のILRMAや今回の提案手法のIDLMAで仮定されている音源の統計的な生成モデルについて説明します.
    ここでは,音源の時間周波数の各複素成分が平均0,分散r_ijを持つ独立な原点対称複素ガウス分布に従うと仮定します.分散r_ijは,時間周波数に依存するので,これは即ちその音源のパワースペクトログラムの期待値そのものになります.
    たとえばパワーの小さい時間周波数スロットでは,この図のように分散が小さくなり,0付近の複素数しか生成しません.
    逆に,スペクトルのピークのように,パワーの大きい時間周波数スロットは大きな分散となるため,このように絶対値の大きな複素数も生成しうる,というような生成モデルです.5.00
  • この生成モデルの分散r_ijの最尤推定を考えると,負対数尤度はこの中央の式のようになります.この式をr_ijで偏微分することを考えると,これはすなわちNMF等で有名な板倉斎藤擬距離の偏微分と同じになりますので,実はこの生成モデルの分散の最尤推定は板倉斎藤擬距離の最小化問題と等価になります.5.25
  • さて,分離行列Wiの最適化問題について説明します.
    音源間の独立性を仮定したときの分離行列Wiの最適化問題は,ICAの理論より,多チャネル観測信号の尤度を使った最尤推定問題と考えることができます.
    観測の負対数尤度関数を計算すると,こちらの式のようになりますが,ここに音源の生成モデルp(Y)の項がでてきます.
    ここに,先ほど説明した複素ガウス分布の生成モデルを代入すると,下の式のようになり,これは(クリック)
    分離行列Wiを推定する項,即ち空間モデル項と,(クリック)
    分散の時間周波数行列である「分散行列Rn」を推定する項,即ち音源モデル項の二つから構成されます.
    これらのモデルを交互に最適化することを考えます.
  • 先ほどの尤度関数は周波数に関して非依存,separableなので,分離信号Yや分散rに何のモデルも仮定しないと,いわゆるパーミュテーション問題がおきてしまいます.
    これは,一つ一つの周波数で独立に動くICAの出力が,音源の順番に関してバラバラになってしまうことから,分離行列を推定した後にポスト処理として周波数方向にアラインメントを取らないといけない問題です.
    このポスト処理としてのパーミュテーション解法は様々な規範が提案されましたが,そもそも分離行列Wiを推定する段階でパーミュテーションを起こさないようにする,という手法へと発展していきます.7.04
  • 例えば,分離信号Ynのパワースペクトログラムに対してグループスパース性を仮定すると,右上の図のように同時に生起する周波数成分が一つの音源とみなされるため,パーミュテーション問題を回避しながら分離行列が推定できるようになります.このグループスパース音源モデルを導入した手法が即ち独立ベクトル分析,IVAです.
    あるいは,分散行列Rnに対して,NMFによる低ランク構造を仮定したものがILRMAです.分散行列はR=TVという一定ランクの行列でモデル化され,基底行列Tとアクティベーション行列Vを分離行列Wと同時に推定することで,分離された信号が低ランクな時間周波数構造をもつような制約が課されます.通常複数の音源が混ざると,混合信号のランクはふえていきますので,その逆をやることで音源分離を促進し,同時にパーミュテーション問題を回避できます.8.05
  • このように,パーミュテーション問題の回避には,各音源の時間周波数の統計的,あるいは構造的な仮定を置く必要がありました.このような仮定を改めて音源モデルと呼びます.しかし,不適切な音源モデルを仮定してしまうと,パーミュテーション問題が解けずに分離精度が劣化します.
    例えば,ボーカルや音声信号は,この図を見てわかる通り,ドラムやギターほど極端に低ランクではないため,低ランク音源モデルを仮定するILRMAでは,音声の高精度な分離は失敗しがちです.
    万能な音源モデルがあればよいのですが,ブラインドな条件ではそれは非常に困難な問題です.しかし,もし音源毎の十分な学習データがあるならば,適切な音源モデルを構築することは容易です.例えば,DNNに基づく単一チャネルの音源分離モデルは最たる例であり,ある程度成功しています.実際に,音楽や音声などのソロ音源の学習データは利用可能な時代になりつつありますので,音源モデルの教師あり化は現実的です.
    一方で,空間モデルは学習可能か,という疑問も生まれます.しかし一般に空間モデルは,部屋の形状や残響時間,マイク位置,音源位置,音速等,膨大な物理要因に依存するため,これらを網羅的に学習することができる多チャネルの学習データを用意することは不可能です.従って,従来のIVAやILRMAのように,空間モデルのブラインド推定は非常に有用といえます.
    以上の動機より,本発表では,音源モデルはDNNによる教師あり,空間モデルはブラインド推定という手法を提案し,これを独立深層学習行列分析,アイドルエムエーと呼びます.
  • ILRMAとIDLMAの違いを簡単に説明します.
    ILRMAでは,右上のように現在の分離信号をNMFで低ランク近似することによって少し分離を進め,これを新たな分散Rとして分離行列Wの最適化に利用し,このループを繰り返します.
    本発表の提案手法である独立深層学習行列分析,アイドルエムエーでは,このNMF音源モデルを教師ありのDNN音源モデルに置き換えます.現在の分離信号YnをDNN音源モデルでさらに分離し,推定された信号を分散行列Rとして分離行列Wの最適化に利用します.このループを繰り返します.ここで用いているDNN音源モデルというのは,混合信号から特定の音源をのみ強調する学習済みのネットワークであり,音源毎に用意していると仮定します.
  • DNN音源モデルの学習手順はこの図のようになっています.今音源1と音源2の学習データを,ランダムなSN比で混合し,混合ベクトルを作ります.これをDNNの入力として,出力と正解ベクトルの損失関数を最小化することで,目的の音源だけが協調されるにDNNを学習します.
    学習時の損失関数には,下に示した板倉斎藤擬距離を使います.こうすることで,このDNNは,冒頭に説明した複素ガウス分布の分散を最尤推定するブラックボックスと解釈でき,IDLMAの音源モデルの更新にそのまま使うことができるようになります.
  • こちらはIDLMAのコスト関数,即ち負対数尤度の再掲です.IDLMAでは,空間モデルWiの更新と音源モデルRnの更新を交互に行います.
  • 空間モデル,即ち分離行列Wの更新はILRMAと同様で,反復射影法,IPと呼ばれる最適化理論が適用できます.これはこの図のように,分離行列Wiを行毎に更新していく高速かつ安定なアルゴリズムです.具体的な計算は右下のようになっていますが,現在の推定分散値rを使って,計算されます.
  • 一方,音源モデル,即ち分散行列Rの更新は学習済みの音源毎のDNNを通すだけです.現在の分離信号YnのパワースペクトログラムをDNNに入力し,出てきた出力に微小値のフロアリングを施してこれを推定分散行列Rnとします.
    このような分離行列と分散行列の推定を繰り返すことで,最適化が進んでいく,という仕組みです.
  • それでは実験を説明します.DNN音源モデルの学習にはSiSEC2016のDSD100音楽データセットの内開発データ50曲,ベースとボーカルとドラムを用いました.音源分離の評価信号は,同じデータセットのテストデータ25曲に対して,下の図のインパルス応答を畳み込んで作成しました.音源の組み合わせは「ベースとボーカル」,「ドラムとボーカル」という2種類を実験しました.
  • DNNは全結合型のフィードフォワード,隠れ層4層,各層のユニット数は1024です.隠れ層と出力層にはReLUを用いています.
    比較手法として,
    ブラインド多チャネル分離のILRMA,
    教師あり単一チャネル分離のDNN+WF,これは各音源用DNNの出力でWienerフィルタを適用しています,
    さらに提案手法と同様のアプローチのDuong+DNN,これは音源モデルにDNNを活用し,空間相関行列をブラインドにEMで推定する手法です.そして,提案手法のIDLMAの4つです.DNNをつかうこの3の手法は,フェアな比較のために,学習済みの同じDNNを使ってます.14.00
  • こちらは,上側が真のベースおよびボーカルの分散値と,下側がDNN音源モデルの推定分散の一例を示しています.これをみると,多くの成分でうまく推定できており,生成モデルの分散としては非常に信頼のおけるものになっていることが分かります.これを用いて分離行列Wiが更新され,よりよい分離音が得られます.
  • こちらは様々な窓長に対する25曲の平均です.左がベースボーカル,右がドラムボーカルの分離結果で,横軸がSTFTの窓長,縦軸が分離精度を表します.この結果より,IDLMAはどの手法よりも高い性能を示しています.窓長に関しては,短くなると瞬時混合仮定が成り立たず,長くなると統計バイアスの増加やDNNの学習が難しくなることから,IDLMAはトレードオフがあるようです.
  • こちらは横軸が空間モデルの更新回数,縦軸が分離性能です.DNN+WFは反復をしない手法ですので,緑の水平線で表しています.IDLMAとDuong+DNN法は,空間モデルを10回更新するたびにDNN音源モデルを1回通していますので,そのタイミングで大きな性能改善が確認できます.ただし,Duong+DNN法は途中でDNNが足を引っ張っており,IDLMAよりも低い精度でとまってしまっていることが分かります.
  • こちらは先ほどの結果の計算時間の比較です.やはり空間相関行列を推定するDuong法は計算量が多く,信号長の10倍弱かかってしまっていますが,IDLMAはILRMAと同程度の高速性を保っています.15.55
  • さて,ILRMAやIDLMAで用いられている空間モデル最適化のIPは,行ベクトルの更新する順番に依存して性能が変化します.
    例えば2音源の場合,この図のように1,2という昇順でやるか,2,1という降順でやるかがあります.
    IPの更新式は,前回の行更新の結果を次の行更新に引き継ぐため,この順番によって得られる解が変わります.
    従ってよりよい分離行列の推定には,分散行列Rが高精度に推定できた音源を先に更新するべきです.
    今回は,グリーディに全通りの更新順を試行し,DNN音源モデルを用いて現在の推定SN比を算出して高い結果を採用する,という手法をとりました.
  • この方法では,現在のYnという推定分離音の中の,音源nの成分とそれ以外の成分を,DNN音源モデルでそれぞれ推定し,推定SN比を計算します.本発表では,2種類の推定SN比を定義しました.
    一つ目は時間周波数の総パワーの推定SN比,二つ目は各時間周波数の推定SN比の総和であり,これらは全音源について求めて平均します.
    IPの更新順の全通りの結果についてこれらを算出し,推定SN比が高くなる結果を採用します.
  • こちらが実験結果です.条件は先の評価実験と同様です.
    まず,IPの更新順が昇順と降順とで,ベースボーカルでは2dB以上もの差が開いています.
    実は調べてみると,25曲中24曲でベースを先に更新した方が精度が上がることが分かりました.
    先ほどの推定SN比で順番を選択する方法では,ほとんど最高性能に近い結果になっていることが分かります.
    どちらの推定SN比が良いかは音源に依存してしまいましたが,どちらも改善が得られるようです.

×