信号の独立性に基づく多チャンネル
音源分離
李莉
NTT コミュニケーション科学基礎研究所
名古屋大学 戸田研究室
令和4年度 電気・電子・情報関係学会 東海支部連合大会
OS2「 音響学の次世代を担う若手研究者による異分野融合セッション」
• 音声:人間が外部とコミュニケーションを取る最も基本的な手段の一つ
2
日常生活に潜めている音源分離の需要
人と人の会話 音声による機械の操作
理想的な環境
実世界に存在する問題 背景雑音
聴覚障害
干渉音
発声機能障害 信号伝達による劣化
音声強調
音源分離
• 同時に収録された様々な音からなる混合信号を個々の音に分ける技術
– 聞きたい音(ターゲット音)とその他の音(非ターゲット音)に分ければ音声強調に
も適用できる
• 音源数 とマイク数 の関係による分類
• 音源数=マイク数の場合、信号の独立性を手がかりに分離を行える
3
音源分離技術
優決定条件
音源数 <= マイク数
劣決定条件
音源数 > マイク数
シングルチャンネル: マイク数 = 1
◆ 良設定問題、解きやすい
◆ 実応用では仮定が成り立ちにくい
◆ 不良設定問題、解きにくい
◆ 実応用ではよくある条件
• 分離信号の独立性を測る規準
– 分離信号の同時確率 とそれぞれ確率の積 のカルバック・ライ
ブラダイバージェンス(Kullback-Leibler divergence: KL)
– 小さいほど分離信号が独立であることを意味する
• 周波数領域における異なる音源モデルを仮定した様々な手法
– 周波数独立成分分析(FDICA) [Smaragdis’98]
– 独立ベクトル分析(IVA) [Kim+’06, Hiroe’06]
– 独立低ランク行列分析(ILRMA) [Kitamura+’16]
– 多チャンネル変分自己符号化器法(MVAE) [Kameoka+’18, ‘19]
– 独立深層学習行列分析(IDLMA) [Mogami+’18]
4
独立性に基づく音源分離
音源モデル:分離信号の音源らしさを評価する
信号処理
深層学習
分離系を利用
• 瞬時混合モデルと局所ガウス音源モデル
– 音源信号 と観測信号 の関係:
– 局所ガウス音源モデル[Févotte+’05]:
5
周波数領域における定式化
観測信号
チャンネル
分離信号
チャンネル
分離行列
◆ 目的関数
– 分離行列と音源モデルの負対数尤度
音源モデルに関連する項
音源モデルに関連する項 分離行列に関連する項
観測信号
音源信号
周波数
フレーム
パーミュテーションの任意性が生じる
• 独立低ランク行列分析(ILRMA)[Kitamura+’16]
– 音源の低ランク性を仮定し、非負値行列因子分解
(NMF)により音源モデルを表現する
• 独立深層学習行列分析(IDLMA)[Mogami+’18]
– 多層ニューラルネットワークで各音源スペクトルの
分散への写像を学習する
• 多チャンネル変分自己符号化器法(MVAE)と
その高速アルゴリズム [Kameoka+’18, Li+’20, ’21]
– 条件付きVAE(CVAE)のデコーダ分布でスペクトロ
グラムの生成分布を学習する
6
周波数間の関係をモデリングする音源モデル
Time
Frequency
Basis
Frequency
Basis
Time
Frequency
Time
Frequency
Decoder
Frequency
Time
Time
Frequency
Frequency
Time
Frequency
Time
周波数ごとの音源分離とパーミュテーション整合の同時解決を可能となる
• 条件付き変分自己符号化器(CVAE)により音源モデル
– 深層学習の非線形表現を用いて柔軟かつ精緻なスペクトログラムの表現を可能
– 音声サンプルを用いてスペクトログラム の分布をCVAEで事前学習
7
多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19]
スケール係数 分散(デコーダ出力)
潜在変数 話者ラベル
局所ガウス音源モデル 同形
正規化された複素スペ
クトログラム の生成
確率分布の分散行列
正規化された振幅
スペクトログラム
Time
Frequency
Encoder Decoder
音源ラベル CVAE音源モデル
• 目的関数の単調減少が保証される反復最適化アルゴリズム
8
多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19]
Separation matrix
Decoder
Backpropagation (BP)
CVAE source model
Variance matrices
Forward calculation
Time
Frequency
Time
Frequency
Time
Normalization
STFT
Step 2. により を更新
Step 1. 誤差逆伝播法により を更新
Step 3. 反復射影法[Ono’11]により を更新
Observed signals
• しかし...
– 誤差逆伝播法による最適なパラメータ探索に多大な計算コストを要する
• キーアイディア
– 近似計算:
– 誤差逆伝播による最適化を順伝搬計算で近似的に行う
• ChimeraACVAE音源モデル
– エンコーダとクラス識別器を一体化したマルチタスクエンコーダ
9
FastMVAE2法 [Li+’21]
エンコーダ分布 クラス識別器分布
10
知識蒸留に基づく学習規準
ACVAE学習規準
① CVAEの学習規準
② デコーダ出力のクラス識別規準
③ 学習データのクラス識別規準
推定されたラベルによる算出したデコーダ出力に
対する正則化項
④ 再構築規準
⑤ クラス識別規準
知識蒸留に基づく教師と生徒モデル間の学習規準
⑥ 潜在変数分布間の類似度
⑦ 正解ラベルによるデコーダ出力が分散となる
正規分布間の類似度
⑧ 推定されたラベルによるデコーダ出力が分散
となる正規分布間の類似度
① ② ③ ④ ⑤ ⑥ ⑦ ⑧
( は重み係数)
*定式化は[Li+’21]をお参照ください
• MVAE法との違い
– 1つの順伝搬計算により を同時に更新
11
FastMVAE2法の最適化アルゴリズム
Decoder
Classifier
Encoder
Time
Frequency
Time
Frequency
Time
Observed signals
STFT
Separation matrix
Normalization
ChimeraACVAE source model
Source 1
Source 2
Step 1. マルチタスクエンコーダにより
と を同時更新
Step 2. により を更新
Step 3. 反復射影法[Ono’11]により を更新
12
任意話者分離の実験条件
学習データ WSJ0から101話者 (≈25時間)
テストデータ WSJ0から学習データと異なる18話者
混合話者数 2, 3, 6, 9, 12, 15, 18
テストサンプル数 10サンプル / 条件
残響時間 約50 ms
サンプリング周波数 16 kHz
窓長/窓シフト 256 ms / 128 ms (ハンミング窓)
比較手法 ILRMA, MVAE, FastMVAE, FastMVAE2
反復回数 60
混合行列の初期値 単位行列
ILRMAの基底数 2
• 各反復の平均計算時間
– Intel(R)Xeon(R) Gold 6130 CPU @ 2.10GHz とTesla V100 GPU
13
アルゴリズム速度
• 信号対歪み比改善量[dB]
– Source-to-distortions ratio improvement: SDRi
14
分離性能
観測信号
18話者の分離に成功
デモページ
• 分離の高精度化・高速化
– 音源モデルの精細化 [Kameoka+’18, Li+’19, Mogami+’18, Nugraha+’20, Li+’20(1), Scheibler+’21(1)]
– 分離系の更新法則 [Ono’11, Scheibler+’20(1), Ono’18, Scheibler+’20(2), Scheibler’21(2), Ikeshita’22]
• マイク数制限の緩和(マイク数≠音源数)
[Amari’99, Araki+’04, Scheibler+’19, Koldovsky+’18, Ikeshita+’20]
• 残響除去やビームフォーミングなどと統合した手法
[Yoshioka+’11, Kagami+’18, Nakatani+’20, Nakashima+’21, Saruwatari+’06, Bredel+’20, Li+’20(2)]
• パーミュテーション整合など後処理の改良
[Sawada+’04, Yamaji+’20, Oshima+’21, Li+’22]
• 深層学習ベース手法の問題
– モデルの学習方法
– 未知データに対するモデル適応
– ユニバーサル音源分離
15
関連する研究トピック
16
ご清聴ありがとうございました!
• [Smaragdis’98]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22, pp.
21–34, 1998.
• [Kim+’06]: T. Kim, et al., "Independent vector analysis: An extension of ICA to multivariate components," in Proc. ICA, pp.
165–172, 2006.
• [Hiroe’06]: A. Hiroe, "Solution of permutation problem in frequency domain ICA using multivariate probability density
functions," in Proc. ICA, pp. 601–608, 2006.
• [Kiramura+’16]: D. Kitamura, et al., "Determined blind source separation unifying independent vector analysis and
nonnegative matrix factorization," IEEE/ACM TASLP, 24(9), pp. 1626–1641, 2016.
• [Kameoka+’18]: H. Kameoka, et al., "Semi-blind source separation with multichannel variational autoencoder,"
arXiv:1808.00892 [stat.ML], 2018.
• [Kameoka+’19]: H. Kameoka, et al., “Supervised Determined Source Separation with Multichannel Variational Autoencoder,"
Neural Computation, 31(9), pp. 1891-1914, 2019.
• [Mogami+’18]: S. Mogami, et al., “Independent deeply learned matrix analysis for multichannel audio source separation,” in
Proc. EUSIPCO, pp. 1571-1575, 2018.
• [Févotte+’05]: C. Févotte, et al., “Maximum likelihood approach for blind audio source separation using time-frequency
Gaussian models,” in Proc. WASPAA, pp. 78–81, 2005.
• [Li+’20]: L. Li, et al., "FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method," IEEE
Access, vol. 8, pp. 228740-228753, 2020.
• [Li+’21]: L. Li, et al., "FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation
algorithm for determined mixtures," arXiv:2109.13496, 2021.
• [Ono’11]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in
Proc. WASPAA, pp. 189–192, 2011.
• [Li+’19]: L. Li, et al.,"Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational
autoencoder with auxiliary classifier," in Proc. ICASSP, pp. 546-550, 2019. 17
参考文献(1/3)
• [Nugraha+’20]: A. A. Nugraha, et al., “Flow-Based Independent Vector Analysis for Blind Source Separation,” IEEE SPL, 28, pp.
2173–2177, 2020.
• [Li+’20(1)]: L. Li, et al., "Determined Audio Source Separation with Multichannel Star Generative Adversarial Network," in
Proc. MLSP, 2020.
• [Scheibler+’21(1)] R. Scheibler, et al., “Surrogate Source Model Learning for Determined Source Separation,” in Proc. ICASSP,
pp. 176-180, 2021
• [Scheibler+’20(1)]: R. Scheibler, et al., “Fast independent vector extraction by iterative SINR maximization,” in Proc. ICASSP,
pp. 601-605, 2020
• [Ono’18]: N. Ono, “Fast algorithm for independent component/vector/low-rank matrix analysis with three or more sources,”
in Proc. Acoustical Society of Japan, pp. 437–438, 2018.
• [Scheibler’21(2)]: R. Scheibler, “Independent vector analysis via log-quadratically penalized quadratic minimization,” IEEE TSP,
69, pp.2509-2524, 2021. .
• [Scheibler+’20(2)]: R. Scheibler, et al., “MM algorithms for joint independent subspace analysis with application to blind
single and multi-source extraction,” arXiv:2004.03926, 2020.
• [Ikeshita+22]: R. Ikeshita, et al., “ISS2: An Extension of Iterative Source Steering Algorithm for Majorization-Minimization-
Based Independent Vector Analysis”, arXiv: arXiv:2202.00875, 2022.
• [Amari’99]: S. Amari, “Natural gradient learning for over- and undercomplete bases in ICA,” Neural computation, 11(8),
• pp. 1875–1883, 1999.
• [Araki+’04]: S. Araki, et al., “Underdetermined blind separation for speech in real environments with sparseness and ICA,” in
Proc. ICASSP, pp. iii-881, 2004.
• [Scheibler’+19]: R. Scheibler, et al., “Independent vector analysis with more microphones than sources,” in Proc. WASPAA,
pp. 185-189, 2019.
• [Koldovsky+’18] Z. Koldovsky et al., “Gradient algorithms for complex non-gaussian independent component/vector
extraction, question of convergence,” IEEE TSP, 67(4), pp. 1050–1064, 2018. 18
参考文献(2/3)
• [Ikeshita+’20]: R. Ikeshita, et al., “Overdetermined independent vector analysis,” in Proc. ICASSP, pp. 591-595, 2020.
• [Yoshioka+’11]: T. Yoshioka, et al., “Blind separation and dereverberation of speech mixtures by joint optimization,”
IEEE/ACM TASLP, 19(1), pp. 69–84, 2011.
• [Kagami+’18]: H. Kagami, et al., “Joint separation and dereverberation of reverberant mixtures with determined multichannel
non-negative matrix factorization,” in Proc. ICASSP, pp. 31–35, 2018.
• [Nakatani+’20]: T. Nakatani, et al.. “Jointly optimal denoising, dereverberation, and source separation,” IEEE/ACM TASLP, 28,
pp. 2267-2282, 2020.
• [Nakashima+’21]: T. Nakashima, et al., “Joint Dereverberation and Separation With Iterative Source Steering,” in Proc. ICASSP,
pp. 216-220, 2021
• [Saruwatari+’06]: H. Saruwatari, et al., “Blind source separation based on a fast-convergence algorithm combining ICA and
beamforming," EEE TASLP, 14(2), pp. 666-678, 2006.
• [Bredel+’20]: A. Brendel, et al., “A unified probabilistic view on spatially informed source separation and extraction based on
independent vector analysis," IEEE TSP, vol. 68, pp. 3545-3558, 2020.
• [Li+’20(2)]: L. Li, et al., “Geometrically constrained independent vector analysis for directional speech enhancement," in Proc.
ICASSP, pp. 846-850, 2020.
• [Sawada+’04]: H. Sawada, et al., “A robust and precise method for solving the permutation problem of frequency-domain
blind source separation,” IEEE TSAP, vol. 12(5), pp. 530-538, 2004.
• [Yamaji+’20]: S. Yamaji, et al., “DNN-based permutation solver for frequency-domain independent component analysis in
two-source mixture case,” in Proc. APSIPA, pp. 781-787, 2020.
• [Oshima+’21]: F. Oshima, et al., “Interactive speech source separation based on independent low-rank matrix analysis,"
Acoustical Science and Technology, vol. 42(4), pp. 222-225, 2021.
• [Li+’22]: L. Li, et al., “HBP: An efficient block permutation solver using Hungarian algorithm and spectrogram inpainting for
multichannel audio source separation,” in Proc. ICASSP, pp. 516-520, 2022.
19
参考文献(3/3)
20
補足
• MVAE法の高速アルゴリズム 約70倍高速
– 近似計算
– 音源クラス識別器付きVAE(ACVAE)により音源モデルを学習
21
FastMVAE法 [Li+’19, ‘20]
Decoder
Classifier
Encoder
Time
Frequency
Time
Frequency
Time
Observed signals
STFT
Separation matrix
Normalization
ACVAE source model
Source 1
Source 2
Step 3. により を更新
Step 4. 反復射影法[Ono’11]により を更新
Step 1. 識別器の出力により を更新
Step 2. エンコーダの平均値により を更新
エンコーダ分布 クラス識別器分布

信号の独立性に基づく多チャンネル音源分離

  • 1.
    信号の独立性に基づく多チャンネル 音源分離 李莉 NTT コミュニケーション科学基礎研究所 名古屋大学 戸田研究室 令和4年度電気・電子・情報関係学会 東海支部連合大会 OS2「 音響学の次世代を担う若手研究者による異分野融合セッション」
  • 2.
  • 3.
    • 同時に収録された様々な音からなる混合信号を個々の音に分ける技術 – 聞きたい音(ターゲット音)とその他の音(非ターゲット音)に分ければ音声強調に も適用できる •音源数 とマイク数 の関係による分類 • 音源数=マイク数の場合、信号の独立性を手がかりに分離を行える 3 音源分離技術 優決定条件 音源数 <= マイク数 劣決定条件 音源数 > マイク数 シングルチャンネル: マイク数 = 1 ◆ 良設定問題、解きやすい ◆ 実応用では仮定が成り立ちにくい ◆ 不良設定問題、解きにくい ◆ 実応用ではよくある条件
  • 4.
    • 分離信号の独立性を測る規準 – 分離信号の同時確率とそれぞれ確率の積 のカルバック・ライ ブラダイバージェンス(Kullback-Leibler divergence: KL) – 小さいほど分離信号が独立であることを意味する • 周波数領域における異なる音源モデルを仮定した様々な手法 – 周波数独立成分分析(FDICA) [Smaragdis’98] – 独立ベクトル分析(IVA) [Kim+’06, Hiroe’06] – 独立低ランク行列分析(ILRMA) [Kitamura+’16] – 多チャンネル変分自己符号化器法(MVAE) [Kameoka+’18, ‘19] – 独立深層学習行列分析(IDLMA) [Mogami+’18] 4 独立性に基づく音源分離 音源モデル:分離信号の音源らしさを評価する 信号処理 深層学習 分離系を利用
  • 5.
    • 瞬時混合モデルと局所ガウス音源モデル – 音源信号と観測信号 の関係: – 局所ガウス音源モデル[Févotte+’05]: 5 周波数領域における定式化 観測信号 チャンネル 分離信号 チャンネル 分離行列 ◆ 目的関数 – 分離行列と音源モデルの負対数尤度 音源モデルに関連する項 音源モデルに関連する項 分離行列に関連する項 観測信号 音源信号 周波数 フレーム パーミュテーションの任意性が生じる
  • 6.
    • 独立低ランク行列分析(ILRMA)[Kitamura+’16] – 音源の低ランク性を仮定し、非負値行列因子分解 (NMF)により音源モデルを表現する •独立深層学習行列分析(IDLMA)[Mogami+’18] – 多層ニューラルネットワークで各音源スペクトルの 分散への写像を学習する • 多チャンネル変分自己符号化器法(MVAE)と その高速アルゴリズム [Kameoka+’18, Li+’20, ’21] – 条件付きVAE(CVAE)のデコーダ分布でスペクトロ グラムの生成分布を学習する 6 周波数間の関係をモデリングする音源モデル Time Frequency Basis Frequency Basis Time Frequency Time Frequency Decoder Frequency Time Time Frequency Frequency Time Frequency Time 周波数ごとの音源分離とパーミュテーション整合の同時解決を可能となる
  • 7.
    • 条件付き変分自己符号化器(CVAE)により音源モデル – 深層学習の非線形表現を用いて柔軟かつ精緻なスペクトログラムの表現を可能 –音声サンプルを用いてスペクトログラム の分布をCVAEで事前学習 7 多チャンネル変分自己符号化器法 [Kameoka+’18, ‘19] スケール係数 分散(デコーダ出力) 潜在変数 話者ラベル 局所ガウス音源モデル 同形 正規化された複素スペ クトログラム の生成 確率分布の分散行列 正規化された振幅 スペクトログラム Time Frequency Encoder Decoder 音源ラベル CVAE音源モデル
  • 8.
    • 目的関数の単調減少が保証される反復最適化アルゴリズム 8 多チャンネル変分自己符号化器法 [Kameoka+’18,‘19] Separation matrix Decoder Backpropagation (BP) CVAE source model Variance matrices Forward calculation Time Frequency Time Frequency Time Normalization STFT Step 2. により を更新 Step 1. 誤差逆伝播法により を更新 Step 3. 反復射影法[Ono’11]により を更新 Observed signals • しかし... – 誤差逆伝播法による最適なパラメータ探索に多大な計算コストを要する
  • 9.
    • キーアイディア – 近似計算: –誤差逆伝播による最適化を順伝搬計算で近似的に行う • ChimeraACVAE音源モデル – エンコーダとクラス識別器を一体化したマルチタスクエンコーダ 9 FastMVAE2法 [Li+’21] エンコーダ分布 クラス識別器分布
  • 10.
    10 知識蒸留に基づく学習規準 ACVAE学習規準 ① CVAEの学習規準 ② デコーダ出力のクラス識別規準 ③学習データのクラス識別規準 推定されたラベルによる算出したデコーダ出力に 対する正則化項 ④ 再構築規準 ⑤ クラス識別規準 知識蒸留に基づく教師と生徒モデル間の学習規準 ⑥ 潜在変数分布間の類似度 ⑦ 正解ラベルによるデコーダ出力が分散となる 正規分布間の類似度 ⑧ 推定されたラベルによるデコーダ出力が分散 となる正規分布間の類似度 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ( は重み係数) *定式化は[Li+’21]をお参照ください
  • 11.
    • MVAE法との違い – 1つの順伝搬計算によりを同時に更新 11 FastMVAE2法の最適化アルゴリズム Decoder Classifier Encoder Time Frequency Time Frequency Time Observed signals STFT Separation matrix Normalization ChimeraACVAE source model Source 1 Source 2 Step 1. マルチタスクエンコーダにより と を同時更新 Step 2. により を更新 Step 3. 反復射影法[Ono’11]により を更新
  • 12.
    12 任意話者分離の実験条件 学習データ WSJ0から101話者 (≈25時間) テストデータWSJ0から学習データと異なる18話者 混合話者数 2, 3, 6, 9, 12, 15, 18 テストサンプル数 10サンプル / 条件 残響時間 約50 ms サンプリング周波数 16 kHz 窓長/窓シフト 256 ms / 128 ms (ハンミング窓) 比較手法 ILRMA, MVAE, FastMVAE, FastMVAE2 反復回数 60 混合行列の初期値 単位行列 ILRMAの基底数 2
  • 13.
    • 各反復の平均計算時間 – Intel(R)Xeon(R)Gold 6130 CPU @ 2.10GHz とTesla V100 GPU 13 アルゴリズム速度
  • 14.
    • 信号対歪み比改善量[dB] – Source-to-distortionsratio improvement: SDRi 14 分離性能 観測信号 18話者の分離に成功 デモページ
  • 15.
    • 分離の高精度化・高速化 – 音源モデルの精細化[Kameoka+’18, Li+’19, Mogami+’18, Nugraha+’20, Li+’20(1), Scheibler+’21(1)] – 分離系の更新法則 [Ono’11, Scheibler+’20(1), Ono’18, Scheibler+’20(2), Scheibler’21(2), Ikeshita’22] • マイク数制限の緩和(マイク数≠音源数) [Amari’99, Araki+’04, Scheibler+’19, Koldovsky+’18, Ikeshita+’20] • 残響除去やビームフォーミングなどと統合した手法 [Yoshioka+’11, Kagami+’18, Nakatani+’20, Nakashima+’21, Saruwatari+’06, Bredel+’20, Li+’20(2)] • パーミュテーション整合など後処理の改良 [Sawada+’04, Yamaji+’20, Oshima+’21, Li+’22] • 深層学習ベース手法の問題 – モデルの学習方法 – 未知データに対するモデル適応 – ユニバーサル音源分離 15 関連する研究トピック
  • 16.
  • 17.
    • [Smaragdis’98]: P.Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22, pp. 21–34, 1998. • [Kim+’06]: T. Kim, et al., "Independent vector analysis: An extension of ICA to multivariate components," in Proc. ICA, pp. 165–172, 2006. • [Hiroe’06]: A. Hiroe, "Solution of permutation problem in frequency domain ICA using multivariate probability density functions," in Proc. ICA, pp. 601–608, 2006. • [Kiramura+’16]: D. Kitamura, et al., "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM TASLP, 24(9), pp. 1626–1641, 2016. • [Kameoka+’18]: H. Kameoka, et al., "Semi-blind source separation with multichannel variational autoencoder," arXiv:1808.00892 [stat.ML], 2018. • [Kameoka+’19]: H. Kameoka, et al., “Supervised Determined Source Separation with Multichannel Variational Autoencoder," Neural Computation, 31(9), pp. 1891-1914, 2019. • [Mogami+’18]: S. Mogami, et al., “Independent deeply learned matrix analysis for multichannel audio source separation,” in Proc. EUSIPCO, pp. 1571-1575, 2018. • [Févotte+’05]: C. Févotte, et al., “Maximum likelihood approach for blind audio source separation using time-frequency Gaussian models,” in Proc. WASPAA, pp. 78–81, 2005. • [Li+’20]: L. Li, et al., "FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method," IEEE Access, vol. 8, pp. 228740-228753, 2020. • [Li+’21]: L. Li, et al., "FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures," arXiv:2109.13496, 2021. • [Ono’11]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in Proc. WASPAA, pp. 189–192, 2011. • [Li+’19]: L. Li, et al.,"Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier," in Proc. ICASSP, pp. 546-550, 2019. 17 参考文献(1/3)
  • 18.
    • [Nugraha+’20]: A.A. Nugraha, et al., “Flow-Based Independent Vector Analysis for Blind Source Separation,” IEEE SPL, 28, pp. 2173–2177, 2020. • [Li+’20(1)]: L. Li, et al., "Determined Audio Source Separation with Multichannel Star Generative Adversarial Network," in Proc. MLSP, 2020. • [Scheibler+’21(1)] R. Scheibler, et al., “Surrogate Source Model Learning for Determined Source Separation,” in Proc. ICASSP, pp. 176-180, 2021 • [Scheibler+’20(1)]: R. Scheibler, et al., “Fast independent vector extraction by iterative SINR maximization,” in Proc. ICASSP, pp. 601-605, 2020 • [Ono’18]: N. Ono, “Fast algorithm for independent component/vector/low-rank matrix analysis with three or more sources,” in Proc. Acoustical Society of Japan, pp. 437–438, 2018. • [Scheibler’21(2)]: R. Scheibler, “Independent vector analysis via log-quadratically penalized quadratic minimization,” IEEE TSP, 69, pp.2509-2524, 2021. . • [Scheibler+’20(2)]: R. Scheibler, et al., “MM algorithms for joint independent subspace analysis with application to blind single and multi-source extraction,” arXiv:2004.03926, 2020. • [Ikeshita+22]: R. Ikeshita, et al., “ISS2: An Extension of Iterative Source Steering Algorithm for Majorization-Minimization- Based Independent Vector Analysis”, arXiv: arXiv:2202.00875, 2022. • [Amari’99]: S. Amari, “Natural gradient learning for over- and undercomplete bases in ICA,” Neural computation, 11(8), • pp. 1875–1883, 1999. • [Araki+’04]: S. Araki, et al., “Underdetermined blind separation for speech in real environments with sparseness and ICA,” in Proc. ICASSP, pp. iii-881, 2004. • [Scheibler’+19]: R. Scheibler, et al., “Independent vector analysis with more microphones than sources,” in Proc. WASPAA, pp. 185-189, 2019. • [Koldovsky+’18] Z. Koldovsky et al., “Gradient algorithms for complex non-gaussian independent component/vector extraction, question of convergence,” IEEE TSP, 67(4), pp. 1050–1064, 2018. 18 参考文献(2/3)
  • 19.
    • [Ikeshita+’20]: R.Ikeshita, et al., “Overdetermined independent vector analysis,” in Proc. ICASSP, pp. 591-595, 2020. • [Yoshioka+’11]: T. Yoshioka, et al., “Blind separation and dereverberation of speech mixtures by joint optimization,” IEEE/ACM TASLP, 19(1), pp. 69–84, 2011. • [Kagami+’18]: H. Kagami, et al., “Joint separation and dereverberation of reverberant mixtures with determined multichannel non-negative matrix factorization,” in Proc. ICASSP, pp. 31–35, 2018. • [Nakatani+’20]: T. Nakatani, et al.. “Jointly optimal denoising, dereverberation, and source separation,” IEEE/ACM TASLP, 28, pp. 2267-2282, 2020. • [Nakashima+’21]: T. Nakashima, et al., “Joint Dereverberation and Separation With Iterative Source Steering,” in Proc. ICASSP, pp. 216-220, 2021 • [Saruwatari+’06]: H. Saruwatari, et al., “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming," EEE TASLP, 14(2), pp. 666-678, 2006. • [Bredel+’20]: A. Brendel, et al., “A unified probabilistic view on spatially informed source separation and extraction based on independent vector analysis," IEEE TSP, vol. 68, pp. 3545-3558, 2020. • [Li+’20(2)]: L. Li, et al., “Geometrically constrained independent vector analysis for directional speech enhancement," in Proc. ICASSP, pp. 846-850, 2020. • [Sawada+’04]: H. Sawada, et al., “A robust and precise method for solving the permutation problem of frequency-domain blind source separation,” IEEE TSAP, vol. 12(5), pp. 530-538, 2004. • [Yamaji+’20]: S. Yamaji, et al., “DNN-based permutation solver for frequency-domain independent component analysis in two-source mixture case,” in Proc. APSIPA, pp. 781-787, 2020. • [Oshima+’21]: F. Oshima, et al., “Interactive speech source separation based on independent low-rank matrix analysis," Acoustical Science and Technology, vol. 42(4), pp. 222-225, 2021. • [Li+’22]: L. Li, et al., “HBP: An efficient block permutation solver using Hungarian algorithm and spectrogram inpainting for multichannel audio source separation,” in Proc. ICASSP, pp. 516-520, 2022. 19 参考文献(3/3)
  • 20.
  • 21.
    • MVAE法の高速アルゴリズム 約70倍高速 –近似計算 – 音源クラス識別器付きVAE(ACVAE)により音源モデルを学習 21 FastMVAE法 [Li+’19, ‘20] Decoder Classifier Encoder Time Frequency Time Frequency Time Observed signals STFT Separation matrix Normalization ACVAE source model Source 1 Source 2 Step 3. により を更新 Step 4. 反復射影法[Ono’11]により を更新 Step 1. 識別器の出力により を更新 Step 2. エンコーダの平均値により を更新 エンコーダ分布 クラス識別器分布