Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
独立深層学習行列分析に基づく
多チャネル音源分離の実験的評価
Experimental evaluation of multichannel
audio source separation based on IDLMA
北村大地, 角野隼斗,高...
背景
• ブラインド音源分離(blind source separation: BSS)
– 混合系 (マイクや音源位置の部屋の形状等)が未知
• 優決定条件(マイク数≧音源数)のBSS
– 音源間の独立性に基づく分離系 の推定
• 独立成分分...
音源分離の歴史と発展(関連手法のみ掲載)
3
1994
1998
2013
1999
2012
パーミュテーション問題
の解決法
数理モデルの拡張
生成モデル的解釈の発見
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF (ISNMF)
独...
• 優決定条件(マイク数≧音源数)が対象
– 混合系 の逆系(分離系 )が存在
• BSSで活用されるモデル
– 空間モデル:分離系 推定の仮定
• 音源間の独立性と種は数領域での瞬時混合(ICA,IVA,ILRMA)
– 音源モデル:分離信号...
• 音源数 ,マイク数(チャネル数)
– 決定系条件 を考える
• 短時間フーリエ変換(STFT)して得られる各信号
– 多チャネル観測信号
– 混合行列の逆行列 が存在するとき,
多チャネル分離信号
• 時間周波数行列としての表記
– 要素毎...
• 時間周波数分散変動型複素ガウス分布 [Févotte, 2009]
– 時間周波数の各成分が平均0分散 の独立な原点対称複素
ガウス分布に従う
音源の生成モデル
6
分散(パワーの期待値)
Frequencybin
Time frame
:...
• 時間周波数分散変動型複素ガウス分布 [Févotte, 2009]
– 時間周波数の各成分が平均0分散 の独立な原点対称複素
ガウス分布に従う
• 分散の最尤推定は板倉斎藤擬距離の最小化と等価
音源の生成モデル
7
板倉斎藤
擬距離
での
...
• 多チャネル観測信号の負対数尤度
• 原点対称複素ガウス分布 のとき
独立性に基づく最適化
8
独立性仮定
音源の生成モデル
独立性に基づく分離行列 の推定
(空間モデル)
生成モデルに基づく分散行列 の推定
(音源モデル)
• 分離信号 や分散 に何も仮定をおかない(FDICA)
– 分離行列 が周波数に関して非依存(separable)
パーミュテーション問題を引き起こす
音源モデル:分散の構造的仮定
9
分離
行列
音源1
音源2
観測1
観測2
パーミュテー...
• 分離信号のパワースペクトログラム に対して
グループスパース性を仮定
– 同時に生起する周波数成分は同じ音源
としてまとまる パーミュテーション問題の回避
– 独立ベクトル分析(IVA) [A. Hiroe, 2006], [T. Kim+...
• 不適切な音源モデルを仮定してしまうと分離精度が劣化
– 例:ボーカルや音声は楽器音ほど低ランクではない
(ダイナミックにピッチが変動するため)
• 音源モデルの教師あり学習
– DNNに基づく単一チャネルの音源分離モデル
• 音楽や音声など...
• 独立低ランク行列分析(ILRMA)
• 独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA)
– 統計的独立性と教師ありDNN音源モデルに基づく音源分離
提案手法:独立深...
• DNNの特徴量
• DNNの損失関数
提案手法:DNN音源モデルの学習
13
Frequency
Time
Frequency
Time
ランダムな
振幅値
を乗じて混合
音源1(学習データ)
音源2(学習データ)
混合ベクトル
正解
ベク...
• 原点対称複素ガウス分布の負対数尤度
提案手法:分離行列と分散行列の最適化
14
現在の分離信号 を学習済の
DNN音源モデルに入力して分散
を更新することで最小化可能
音源モデルの更新
ILRMAと同様に反復射影法(IP)
を適用し分離行列...
• 原点対称複素ガウス分布の負対数尤度
• 反復射影法(iterative projection: IP) [N. Ono, 2011]
– 分離行列を行毎( 毎)に更新
提案手法:分離行列と分散行列の最適化
15
現在の分離信号 を学習済の
...
• 原点対称複素ガウス分布の負対数尤度
• 学習済DNN音源モデルの適用
– 分離信号 を入力し分散を推定
– IPの数値安定性向上のためフロア処理
提案手法:分離行列と分散行列の最適化
16
現在の分離信号 を学習済の
DNN音源モデルに入力...
評価実験:条件(1/2)
17
学習信号
SiSEC2016 DSD100音楽データセット
開発データ50曲(Ba., Vo., Dr.の3音源)
評価信号
SiSEC2016 DSD100音楽データセット
テストデータ25曲のBa./Vo.及...
評価実験:条件(2/2)
18
DNNの構造
全結合型フィードフォワード
隠れ層4層,各層のユニット数1024
活性化関数 ReLU(隠れ層及び出力層)
比較手法
ILRMA(ブラインド),DNN+WF,
Duong+DNN,提案手法(IDLM...
評価実験:結果(1/4)
19
真の分散
(Ba.)
DNN推定分散
(Ba.)
真の分散
(Vo.)
DNN推定分散
(Vo.)
• 様々な窓長に対する性能比較(25曲の平均)
評価実験:結果(2/4)
20
0
2
4
6
8
10
12
14
128 256 512 1024
SDRimprovement[dB]
Window length in STFT [ms]
...
• 反復回数に対する性能比較(25曲の平均)
14
12
10
8
6
4
2
0
SDRimprovement[dB]
1009080706050403020100
Iteration step
ILRMA
DNN+WF
Duong+DNN
...
• 100回更新時の計算時間例比較(30秒の観測信号)
– Python 3.5.2+Chainer 2.1.0環境
– Intel Core i7-6850K(3.60 GHz,6コア)
– DNN音源モデルによる分散推定はGeForce G...
• 分離行列の最適化(IP)は分離フィルタの更新順に依存
– 例:2音源の場合
• 今回はグリーディに全通り( 通り)の更新順を試行
– DNN音源モデルを用いた推定SN比を算出し高い結果を採用
IP最適化の性能不安定性
23
更新
固定
分散...
• DNN音源モデルに基づく推定SN比
– 現在の分離信号 を音源モデル に入力した際の出力
– 現在の分離信号 中の音源 の成分と残留する他音源
の成分をDNN音源モデルより推定しSN比を算出
• 全時間周波数の総パワーによる推定SN比
• ...
• 条件は先の評価実験と同様
評価実験:IPの更新順選択実験
25
Ba./Vo.の分離結果 Dr./Vo.の分離結果
14
13
12
11
10
9
8
7
SDRimprovement[dB]
1009080706050403020100...
• 独立深層学習行列分析(IDLMA,アイドルエムエー)
– 分離系を高速・安定・高精度に推定する多チャネル音源分離
– 音源モデル:DNNを用いた教師あり推定
– 空間モデル:統計的独立性に基づくブラインド推定
– フルランク空間相関行列を推...
Upcoming SlideShare
Loading in …5
×

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA)

1,031 views

Published on

北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018.
Daichi Kitamura, Hayato Sumino, Norihiro Takamune, Shinnosuke Takamichi, Hiroshi Saruwatari, and Nobutaka Ono, "Experimental evaluation of multichannel audio source separation based on IDLMA," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13–20, Okinawa, March 2018 (in Japanese)

Published in: Engineering
  • Be the first to comment

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio source separation based on IDLMA)

  1. 1. 独立深層学習行列分析に基づく 多チャネル音源分離の実験的評価 Experimental evaluation of multichannel audio source separation based on IDLMA 北村大地, 角野隼斗,高宗典玄, 高道慎之介, 猿渡洋(東大) 小野順貴(首都大東京) 日本音響学会2018年春季研究発表会 2018年3月19日10:00–11:40 午前EA/SPオーガナイズドセッション (音声音響信号処理研究における機械学習技術の研究と応用) EA-3.
  2. 2. 背景 • ブラインド音源分離(blind source separation: BSS) – 混合系 (マイクや音源位置の部屋の形状等)が未知 • 優決定条件(マイク数≧音源数)のBSS – 音源間の独立性に基づく分離系 の推定 • 独立成分分析(ICA)[P. Comon, 1994] • 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・ • 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] • 劣決定条件(マイク数<音源数)のBSS – 混合系 の推定(時間周波数マスク) • Sparse coding [P. Bofill+, 2001], [S. Araki+, 2007] • Duong法 [N. Q. K. Duong+, 2010] 2 混合系 分離系
  3. 3. 音源分離の歴史と発展(関連手法のみ掲載) 3 1994 1998 2013 1999 2012 パーミュテーション問題 の解決法 数理モデルの拡張 生成モデル的解釈の発見 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF (ISNMF) 独立ベクトル分析(IVA) 2016 2009 2006 2011 補助関数IVA(AuxIVA) 非負値行列因子分解 (NMF) 独立低ランク行列分析 (ILRMA) 時変複素ガウスIVA 多チャネルNMF 2018 独立深層学習行列分析 (IDLMA) 多チャネル信号 優決定条件 劣決定条件 単一チャネル信号 Duong法 Duong+DNN法 深層ニューラルネットワーク (DNN) 独立成分分析(ICA) [Comon],[Bell and Sejnowski], [Cardoso], [Amari], [Cichocki], … [Smaragdis] [Saruwatari], [Murata], [Morgan], [Sawada], … [Hiroe], [Kim] [Ono] [Ono] [Kitamura] [Kitamura] [Nugraha] [Sawada] [Duong] [Févotte] [Lee] [Virtanen], [Smaragdis], [Kameoka], [Ozerov], … [Hinton], … 2010
  4. 4. • 優決定条件(マイク数≧音源数)が対象 – 混合系 の逆系(分離系 )が存在 • BSSで活用されるモデル – 空間モデル:分離系 推定の仮定 • 音源間の独立性と種は数領域での瞬時混合(ICA,IVA,ILRMA) – 音源モデル:分離信号の時間周波数構造の仮定 • グループスパース性(IVA),低ランク性(ILRMA) – 不適切な音源モデルによる性能の劣化 • パーミュテーション問題 • 独立深層学習行列分析(IDLMA) – ICA由来の「独立性に基づく分離系推定」 • 空間モデル(分離系 )はブラインド推定 – DNNで構築する「教師あり音源モデル」 • 音源モデルは学習データ(教師)より獲得 本発表の概要 4 ICA IVA ILRMA IDLMA ブラインド 音源モデル 教師あり 推定対象 分離系
  5. 5. • 音源数 ,マイク数(チャネル数) – 決定系条件 を考える • 短時間フーリエ変換(STFT)して得られる各信号 – 多チャネル観測信号 – 混合行列の逆行列 が存在するとき, 多チャネル分離信号 • 時間周波数行列としての表記 – 要素毎の絶対値および指数演算を で表す • 例: チャネルの観測パワースペクトログラム 記号の定義と定式化 5 時不変混合行列周波数 時間 ただし 音源スペクトログラム 観測スペクトログラム 分離スペクトログラム とおくと
  6. 6. • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散 の独立な原点対称複素 ガウス分布に従う 音源の生成モデル 6 分散(パワーの期待値) Frequencybin Time frame : パワースペクトログラム パワーが大=分散が大 大振幅の複素数も生成しうる 濃淡がパワーの 大きさを示す パワーが小=分散が小 0付近の複素数しか生成しない
  7. 7. • 時間周波数分散変動型複素ガウス分布 [Févotte, 2009] – 時間周波数の各成分が平均0分散 の独立な原点対称複素 ガウス分布に従う • 分散の最尤推定は板倉斎藤擬距離の最小化と等価 音源の生成モデル 7 板倉斎藤 擬距離 での 偏微分は 同じ 分散(パワーの期待値)
  8. 8. • 多チャネル観測信号の負対数尤度 • 原点対称複素ガウス分布 のとき 独立性に基づく最適化 8 独立性仮定 音源の生成モデル 独立性に基づく分離行列 の推定 (空間モデル) 生成モデルに基づく分散行列 の推定 (音源モデル)
  9. 9. • 分離信号 や分散 に何も仮定をおかない(FDICA) – 分離行列 が周波数に関して非依存(separable) パーミュテーション問題を引き起こす 音源モデル:分散の構造的仮定 9 分離 行列 音源1 音源2 観測1 観測2 パーミュテーション の整合 分離信号1 分離信号2Time
  10. 10. • 分離信号のパワースペクトログラム に対して グループスパース性を仮定 – 同時に生起する周波数成分は同じ音源 としてまとまる パーミュテーション問題の回避 – 独立ベクトル分析(IVA) [A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007] • 生成モデルの分散行列 に対して低ランク構造を仮定 – 各音源の低ランク構造( )を推定 パーミュテーション問題を回避 – 低ランクな音源が混ざるとランクは増える 低ランクに誘導することで音源が分離される – 独立低ランク行列分析(ILRMA) [D. Kitamura, 2016] 音源モデル:分散の構造的仮定 10 Frequency Time Frequency Time NMFによる表現(ランク )
  11. 11. • 不適切な音源モデルを仮定してしまうと分離精度が劣化 – 例:ボーカルや音声は楽器音ほど低ランクではない (ダイナミックにピッチが変動するため) • 音源モデルの教師あり学習 – DNNに基づく単一チャネルの音源分離モデル • 音楽や音声など「ソロ音源の学習データ」は利用可能な時代 • 空間モデルは学習可能? – 部屋の形状,残響時間,マイクロホン位置,音源位置,音速等 膨大な物理要因に依存 非現実的! – 独立性に基づくブラインドな推定は有用 提案手法:動機 11 Drums GuitarVocals
  12. 12. • 独立低ランク行列分析(ILRMA) • 独立深層学習行列分析(independent deeply learned matrix analysis: IDLMA) – 統計的独立性と教師ありDNN音源モデルに基づく音源分離 提案手法:独立深層学習行列分析 12 観測信号 周波数毎の 分離行列 分離信号 DNN音源モデルによる分散推定 Time Frequency Frequency Time STFT Time Frequency Frequency Time 観測信号 周波数毎の 分離行列 分離信号 Time Frequency Frequency Time 分離信号が「互いに独立」かつ「低ランクな時 間周波数構造」を持つように分離行列を更新 STFT NMFによる低ランク近似 分離信号が「互いに独立」かつ「学習済みの DNNで表現されるような時間周波数構造」を 持つように分離行列を更新 音源モデルを教師あり化
  13. 13. • DNNの特徴量 • DNNの損失関数 提案手法:DNN音源モデルの学習 13 Frequency Time Frequency Time ランダムな 振幅値 を乗じて混合 音源1(学習データ) 音源2(学習データ) 混合ベクトル 正解 ベクトル 推定 ベクトル 損失関数 最小化 最小化 損失関数 ( ) 音源2を分離 するDNN 音源1を分離 するDNN 正解 推定 微小値 板倉斎藤擬距離を使うことで 複素ガウス分布生成モデル の最尤推定となる
  14. 14. • 原点対称複素ガウス分布の負対数尤度 提案手法:分離行列と分散行列の最適化 14 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 空間モデルの更新
  15. 15. • 原点対称複素ガウス分布の負対数尤度 • 反復射影法(iterative projection: IP) [N. Ono, 2011] – 分離行列を行毎( 毎)に更新 提案手法:分離行列と分散行列の最適化 15 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 空間モデルの更新 … 更新 固定 分散 の更新 固定 … 固定 更新 固定 … 固定 固定 更新 番目の要素が1, 他が0の縦ベクトル
  16. 16. • 原点対称複素ガウス分布の負対数尤度 • 学習済DNN音源モデルの適用 – 分離信号 を入力し分散を推定 – IPの数値安定性向上のためフロア処理 提案手法:分離行列と分散行列の最適化 16 現在の分離信号 を学習済の DNN音源モデルに入力して分散 を更新することで最小化可能 音源モデルの更新 ILRMAと同様に反復射影法(IP) を適用し分離行列 を更新する ことで最小化可能 空間モデルの更新 要素毎のmax演算 を施した行列を返す 微小フロアリング値 Time Frequency Time Frequency Time Frequency フロア 処理
  17. 17. 評価実験:条件(1/2) 17 学習信号 SiSEC2016 DSD100音楽データセット 開発データ50曲(Ba., Vo., Dr.の3音源) 評価信号 SiSEC2016 DSD100音楽データセット テストデータ25曲のBa./Vo.及びDr./Vo.をRWCPデータベース 収録のE2Aインパルス応答で畳み込んで観測した信号 サンプリング周波数 8 kHzにダウンサンプリング STFTの設定 窓長128, 256, 512, 1024 msのハミング窓 シフト長は常に窓長の半分 評価指標 信号対歪み比(signal-to-distortion ratio: SDR)の改善量 2 m Vo. 5.66cm 40 40 Ba. or Dr. RWCP収録 E2Aインパルス応答 T60 = 300ms
  18. 18. 評価実験:条件(2/2) 18 DNNの構造 全結合型フィードフォワード 隠れ層4層,各層のユニット数1024 活性化関数 ReLU(隠れ層及び出力層) 比較手法 ILRMA(ブラインド),DNN+WF, Duong+DNN,提案手法(IDLMA) ILRMA: DNN+WF: Duong+DNN: IDLMA: ブラインド多チャネル分離 分離行列 をIPで推定 音源モデル教師あり単一チャネル分離, 各音源のDNN出力からWienerフィルタを構築・適用 音源モデル教師あり多チャネル分離, 音源モデルにDNNを活用, 混合系(フルランク空間相関行列)をEMで推定 音源モデル教師あり多チャネル分離 音源モデルにDNNを活用 分離行列 をIPで推定 [D. Kitamura+, 2016] [S. Uhlich+, 2015] [A. A. Nagraha+, 2016] 提案手法
  19. 19. 評価実験:結果(1/4) 19 真の分散 (Ba.) DNN推定分散 (Ba.) 真の分散 (Vo.) DNN推定分散 (Vo.)
  20. 20. • 様々な窓長に対する性能比較(25曲の平均) 評価実験:結果(2/4) 20 0 2 4 6 8 10 12 14 128 256 512 1024 SDRimprovement[dB] Window length in STFT [ms] 0 2 4 6 8 10 12 14 128 256 512 1024 SDRimprovement[dB] Window length in STFT [ms] Ba./Vo.の分離結果 Dr./Vo.の分離結果 IDLMA IDLMA Duong+DNN Duong+DNN ILRMA(ブラインド) ILRMA(ブラインド) DNN+WF(単一チャネル) DNN+WF(単一チャネル)
  21. 21. • 反復回数に対する性能比較(25曲の平均) 14 12 10 8 6 4 2 0 SDRimprovement[dB] 1009080706050403020100 Iteration step ILRMA DNN+WF Duong+DNN IDLMA 評価実験:結果(3/4) 21 Ba./Vo.の分離結果(512 ms窓) 14 12 10 8 6 4 2 0 SDRimprovement[dB] 1009080706050403020100 Iteration step ILRMA DNN+WF Duong+DNN IDLMA IDLMA Duong+DNN DNN+WF ILRMA IDLMA Duong+DNN DNN+WF ILRMA DNNによる 性能改善 DNNによる 性能改善 Dr./Vo.の分離結果(256 ms窓)
  22. 22. • 100回更新時の計算時間例比較(30秒の観測信号) – Python 3.5.2+Chainer 2.1.0環境 – Intel Core i7-6850K(3.60 GHz,6コア) – DNN音源モデルによる分散推定はGeForce GTX 1080 Ti 評価実験:結果(4/4) 22 0 50 100 150 200 250 300 350 ILRMA Duong+DNN IDLMA Computationaltime[s] 23.31 s 26.56 s 287.06 s
  23. 23. • 分離行列の最適化(IP)は分離フィルタの更新順に依存 – 例:2音源の場合 • 今回はグリーディに全通り( 通り)の更新順を試行 – DNN音源モデルを用いた推定SN比を算出し高い結果を採用 IP最適化の性能不安定性 23 更新 固定 分散 の更新 固定 更新 音源インデクスの昇順 固定 更新 分散 の更新 更新 固定 音源インデクスの降順 IPによる分離フィルタ の更新式 よりよい分離行列の推定の為には 分散行列 が高精度に推定でき た音源を先に更新すべき 推定分散分離行列
  24. 24. • DNN音源モデルに基づく推定SN比 – 現在の分離信号 を音源モデル に入力した際の出力 – 現在の分離信号 中の音源 の成分と残留する他音源 の成分をDNN音源モデルより推定しSN比を算出 • 全時間周波数の総パワーによる推定SN比 • 各時間周波数グリッドの推定SN比の時間周波数平均 – IPの更新順の全通りの結果について上記を算出 • 推定SN比が高くなる結果を採用 IPの更新順の選択基準 24 全音源に 関して平均 全音源に 関して平均
  25. 25. • 条件は先の評価実験と同様 評価実験:IPの更新順選択実験 25 Ba./Vo.の分離結果 Dr./Vo.の分離結果 14 13 12 11 10 9 8 7 SDRimprovement[dB] 1009080706050403020100 Iteration step Ascending order Descending order -based order -based order 12 11 10 9 8 7 6 SDRimprovement[dB] 1009080706050403020100 Iteration step Ascending order Descending order -based order -based order
  26. 26. • 独立深層学習行列分析(IDLMA,アイドルエムエー) – 分離系を高速・安定・高精度に推定する多チャネル音源分離 – 音源モデル:DNNを用いた教師あり推定 – 空間モデル:統計的独立性に基づくブラインド推定 – フルランク空間相関行列を推定するDuong+DNN(低速) – 分離行列を推定するIDLMA(高精度・高速) • IPによる分離フィルタの更新順の問題 – DNN音源モデルに基づく選択基準を提案 まとめ 26 Sound Demo: http://d-kitamura.net/demo_idlma.htm

×