Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kameoka2017 ieice03

1,298 views

Published on

電子情報通信学会総合大会
企画講演セッション「適応信号処理の基礎と展開」

亀岡弘和,小野順貴,猿渡洋:音響分野におけるブラインド適応信号処理の展開

Published in: Engineering
  • Be the first to comment

Kameoka2017 ieice03

  1. 1. 音響分野における ブラインド適応信号処理の展開 亀岡弘和1,2 小野順貴2 猿渡洋3 1日本電信電話株式会社 2国立情報学研究所 3東京大学 電子情報通信学会総合大会 企画講演セッション「AI‐2. 適応信号処理の基礎と展開」 13:00‐15:20 共通講義棟南506
  2. 2. 専門: 音声・音楽などの音響信号を対象とした信号処理や機械学習 連絡先: kameoka.hirokazu@lab.ntt.co.jp 略歴 東京大学大学院情報理工学系研究科 システム情報学専攻 博士課程修了 日本電信電話株式会社入社 NTTコミュニケーション科学基礎研究所配属 東京大学大学院情報理工学系研究科 システム情報学専攻 客員准教授 NTTコミュニケーション科学基礎研究所 特別研究員 国立情報学研究所 客員准教授 2007 2011~2016 2015~現在 2016~現在
  3. 3. ブラインド音源分離 (BlindSourceSeparation) 複数のマイクで取得した音響信号のみから各音源信号 を分離する問題  音源信号,混合過程が いずれも未知であること から「ブラインド」という  観測信号のみから音源信号 を得る最適フィルタを推定 応用場面  音声認識のフロントエンド  音声通信  音を使った音環境モニタリング  ロボット聴覚  補聴器
  4. 4. ブラインド音源分離の適用例 4本のマイクロホンで同期収録した信号から各音源信号を抽出 y1 y2 y3 y4分離信号 http://www.kecl.ntt.co.jp/icl/signal/sawada/demo/bss2to4/index.html
  5. 5. 各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: • 音源2マイク1: • 音源2マイク2: マイクまでの 到達時間 音源1 音源2 マイク1 マイク2
  6. 6. 各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: • 音源2マイク1: • 音源2マイク2: マイクまでの 到達時間 音源1 音源2 マイク1 マイク2 残響があると・・・
  7. 7. 各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: • 音源2マイク1: • 音源2マイク2: 残響があると・・・ ... 音源1 音源2 マイク1 マイク2
  8. 8. 各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: • 音源2マイク1: • 音源2マイク2: 残響があると・・・ ... 音源1 音源2 マイク1 マイク2
  9. 9. 各マイクロホンの観測信号の生成過程 畳みこみ混合 • 音源1マイク1: • 音源1マイク2: • 音源2マイク1: • 音源2マイク2: 残響があると・・・ ... ∴ マイク1の観測信号: マイク2の観測信号: 音源1 音源2 マイク1 マイク2
  10. 10. 各マイクロホンの観測信号の生成過程  畳み込み定理を利用して 畳み込み混合モデルを時間周波数領域に展開: 「時間領域の 畳み込み混合モデル」 「時間周波数領域の 瞬時混合モデル」 周波数 ごとに見れば行列積 周波数 index 時刻 index  マイク index  音源 index  音源 index
  11. 11. BSSは混合過程の逆問題 周波数 ごとに見れば行列積 周波数 index 時刻 index  マイク index  音源 index  音源 index
  12. 12. BSSは混合過程の逆問題 周波数 index 時刻 index  マイク index  音源 index  音源 index
  13. 13. BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定  と がともに未知  パーミュテーションの任意性 置換行列 周波数 index 時刻 index  マイク index  音源 index  音源 index
  14. 14. BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定  と がともに未知  パーミュテーションの任意性 置換行列 周波数ごとに 個別に分離が 得られても… 時間 周波数 時間 周波数 音源 1 音源 2 時間 周波数 時間 周波数 音源 1 (仮) 音源 2 (仮) パーミュテーション整合 周波数 index 時刻 index  マイク index  音源 index  音源 index
  15. 15. BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定  と がともに未知  パーミュテーションの任意性 置換行列 解を絞り込むための仮定が必要 周波数 index 時刻 index  マイク index  音源 index  音源 index
  16. 16. BSSの従来研究 時間周波数領域BSSの代表的アプローチ  音源数=マイク数の場合 独立成分分析 (ICA) [Smaragdis+1998, Ikeda&Murata1998, Saruwatari+2000,...] 音源間の統計的独立性規準 g を最大化するように A の逆行列 W を推定  音源数>マイク数の場合 時間周波数マスキング [Yilmaz+2004, Mori+2005, Mandel+2006, Araki+2007, Izumi+2007,...] ・各時間周波数点において単一音源のみが支配的と仮定 ・各時間周波数点の到来方向情報をもとに時間周波数点をクラスタリング パーミュテーション整合のアプローチ  音源到来方向 [Kurita+2000],帯域間の振幅相関 [Murata+2001],調波性 [Sawada+2004],デルタ振幅の帯域間の同期性 [Ono+2010]に基づく手法など多数 BSSとパーミュテーションの同時解決アプローチ  独立ベクトル分析 (IVA) [Kim+2006, Hiroe2006, Ono+2011,...]   多チャンネルNMF [Ozerov+2010, Kameoka+2010, Sawada+2012, Kitamura+2015,...]
  17. 17. BSSの従来研究 優決定BSS 2000 2010 独立成分分析 ICA 優決定 多チャンネルNMF 劣決定BSS 独立ベクトル分析 IVA 優決定 多チャンネルNMF (補助関数法) IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 非負値行列分解 NMF 板倉齋藤距離NMF 複素NMF Factorial HMM 劣決定 多チャンネルNMF モノラル音源分離 周波数領域 ICA 時間周波数 マスキング
  18. 18. BSSの従来研究 優決定BSS 2000 2010 独立成分分析 ICA 優決定 多チャンネルNMF 劣決定BSS 独立ベクトル分析 IVA 優決定 多チャンネルNMF (補助関数法) IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 非負値行列分解 NMF 板倉齋藤距離NMF 複素NMF Factorial HMM 劣決定 多チャンネルNMF モノラル音源分離 周波数領域 ICA 時間周波数 マスキング 亀岡 亀岡,小野 亀岡,小野 亀岡,小野,猿渡 亀岡 亀岡 小野猿渡 ※共著者の各氏が関わった研究
  19. 19. 独立成分分析 (IndependentComponentAnalysis) 混合行列の逆行列(分離フィルタ) を推定 どうやって? 周波数 index 時刻 index  マイク index  音源 index  音源 index 周波数 index 時刻 index  音源 index  マイク index  音源 index
  20. 20. 独立成分分析 (IndependentComponentAnalysis) 混合行列の逆行列(分離フィルタ) を推定 どうやって? 分離信号間の統計的独立性規準を最大化 周波数 index 時刻 index  マイク index  音源 index  音源 index 周波数 index 時刻 index  音源 index  マイク index  音源 index
  21. 21. 独立成分分析 (IndependentComponentAnalysis) 統計的独立性と非ガウス性 最尤法によるICA  音源の確率分布に非ガウス分布を仮定し分離行列 を最尤推定 音源数 振幅 頻度 振幅 振幅の頻度分布が正規分布に近づいていく (中心極限定理) 非ガウス的 ガウス的 時間 分離信号の非ガウス性の最大化により音源信号を復元可能
  22. 22. 最尤法によるICAの定式化 分離行列 を推定 観測信号 の確率密度関数( の尤度関数)  線形変換と確率密度関数  音源信号の独立性と非Gauss性を仮定 :Laplace分布など 周波数 ごとの音源分離 ⇒別途パーミュテーション整合が必要
  23. 23. ICAのパラメータ推定アルゴリズム 通常の勾配法  更新則  毎ステップ、逆行列計算が必要 自然勾配法 [Amari+1996]  の実質的な変化分 のノルム制約下で最急降下方向を求める  逆行列計算が不要 補助関数法+反復射影 [Ono+2011]  の行ごとに最適更新  が時変ガウス分布の場合更新則が解析的に求まる  逆行列計算が不要 ( はステップサイズ)
  24. 24. 独立ベクトル分析 (IndependentVectorAnalysis) 動機:周波数ごとの音源分離とパーミュテーション整合を同時解決  同一音源に由来する周波数成分の大きさは同期して時間変化するはず 周波数 index 時刻 index  音源 index  マイク index  音源 index , の代わりに ノルム ∑ | , | の確率分布に非ガウス分布を仮定 音源 の時刻 におけるパワーに相当 [Kim+2006, Hiroe+2006]
  25. 25. 独立ベクトル分析 (IndependentVectorAnalysis) 動機:周波数ごとの音源分離とパーミュテーション整合を同時解決  同一音源に由来する周波数成分の大きさは同期して時間変化するはず 周波数 index 時刻 index  音源 index  マイク index  音源 index , の代わりに ノルム ∑ | , | の確率分布に非ガウス分布を仮定 音源 の時刻 におけるパワーに相当 がLaplace分布に従う場合: | 0 | 10 が大きければ も大きくなる傾向 0 [Kim+2006, Hiroe+2006]
  26. 26. 独立ベクトル分析 (IndependentVectorAnalysis) ICAとの尤度関数の比較 ICA: IVA: [Kim+2006] より転載 ICAにおける音源分布 IVAにおける音源分布 音源分布に関する項 [Kim+2006, Hiroe+2006] どの切り口を見ても 分布形状は同じ , が大きいほど , の分布の裾 が広くなる
  27. 27. BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定  と がともに未知  パーミュテーションの任意性 置換行列 周波数 index 時刻 index  マイク index  音源 index  音源 index 解を絞り込むための仮定が必要 音源数>マイク数の場合は?? モノラル音源分離手法のアイディアを取り入れた手法⇒多チャンネルNMF
  28. 28. BSSは混合過程の逆問題 以上の生成過程の逆問題(音源分離)は不良設定  と がともに未知  パーミュテーションの任意性 置換行列 周波数 index 時刻 index  マイク index  音源 index  音源 index 解を絞り込むための仮定が必要 音源数>マイク数の場合は?? モノラル音源分離手法のアイディアを取り入れた手法⇒多チャンネルNMF
  29. 29. 非負値行列因子分解 (NMF)   「行列積」としてのスペクトログラム(時間周波数表現) time Frequency [Lee+2000, Smaragdis+2003]
  30. 30.  「行列積」としてのスペクトログラム(時間周波数表現) 非負値行列因子分解 (NMF)  time Frequency 各基底スペクトルのアクティベーション 基底スペクトル [Lee+2000, Smaragdis+2003]
  31. 31. 教師ありNMFによるモノラル音源分離 基底スペクトルの事前学習 事前学習した基底スペクトルを用いた分離 0 1 2 3 4 Time (s) 0 2 4 6 8 Frequency(kHz) 音源サンプル 0 1 2 3 4 Time (s) 0 2 4 6 8 Frequency(kHz) Mixture Wienerフィルタによる分離信号の獲得 [Smaragdis+2007]
  32. 32. 非負制約のもとで となる と を求める問題 板倉齋藤距離 混合音も複素正規分布に従う 板倉齋藤距離規準 NMF 多重音スペクトログラムの生成モデル化 複素正規分布に従うと仮定 個の要素からなる混合音 [Févotte+2009]
  33. 33. 時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 各時刻,各周波数で異なる分散(パワー)
  34. 34. 時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 各時刻,各周波数で異なる分散(パワー) 周波数パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 濃い方が パワーが大きい 時間
  35. 35. 時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 各時刻,各周波数で異なる分散(パワー) • , に様々なパワースペクトログラムのモデルを組み込めるのが特長 • , ∑ , , のときNMF型のモデル
  36. 36. 時変ガウス音源モデル 複素スペクトログラムの各要素が異なる分散の複素正規分布に従う 多チャンネル信号の確率分布 各時刻,各周波数で異なる分散(パワー) と の尤度関数 • , に様々なパワースペクトログラムのモデルを組み込めるのが特長 • , ∑ , , のときNMF型のモデル 周波数 index  時刻 index  マイク index  音源 index  音源 index  時刻 index 
  37. 37. 時変ガウス音源モデルの優ガウス性 定理 証明略 0 すべての で分散がすべて等しい ときのみ尖度は0になる 平均が0で分散が時変のガウス分布の時間平均分布は 優ガウス的である(尖度は0より大きい) 時変ガウス音源モデルを用いることは 音源信号の分布に優ガウス分布を仮定していることに相当
  38. 38. 多チャンネルNMF 多チャンネル信号の確率密度関数 対数尤度 時変ガウス音源モデル NMF型モデル • 補助関数法による パラメータ推定 [Sawada+2012] [Ozerov+2010, Sawada+2012,...] • EMアルゴリズムによる パラメータ推定 [Ozerov+2010] 周波数 index  時刻 index  マイク index  音源 index  音源 index  時刻 index 
  39. 39. 補助関数法 (EMアルゴリズムを一般化した原理) 目的関数 を局所最小化する を得るための方法論  を満たす を補助関数と定義  パラメータ更新アルゴリズム  収束性 [1] [2] 目的関数 補助関数 [1] [2]
  40. 40. 補助関数法 (EMアルゴリズムを一般化した原理) 目的関数 を局所最小化する を得るための方法論  を満たす を補助関数と定義  パラメータ更新アルゴリズム  収束性 [1] [2] 目的関数 補助関数 [1] [2]
  41. 41. 目的関数  逆数関数は正領域で凸関数 ⇒ Jensenの不等式(非負値版)  対数関数は凹関数 ⇒ 接線不等式 適用例1: 板倉齋藤距離最小化 [Kameoka+2006] 右辺 非負値制約
  42. 42. 適用例2: 多チャンネルNMFアルゴリズム 目的関数 ※板倉齋藤距離最小化アルゴリズム [Kameoka+2006] の行列版 [Sawada+2012] 逆数関数は正領域で凸関数より (∵変数が正の場合の Jensen不等式) 行列拡張 対数関数に対する接線不等式の行列版より
  43. 43. IVAの対数尤度(再掲) 多チャンネルNMFの対数尤度と同形 多チャンネルNMFとIVAの関係 に時変ガウス分布を仮定したら? [Ono+2012,  Yoshioka+2011] , と置くと等価に!
  44. 44. 多チャンネルNMFとIVAの関係 パワースペクトログラムモデルの違い  IVA  多チャンネルNMF Frequency Time Frequency Basis Basis Time 時間周波数点ごとに 分散が異なる音源モデル 濃淡は分散値 (信号のパワー) Frequency Time Frequency Time 全周波数で共通の 分散をもつ音源モデル
  45. 45. ILRMA NMF型のパワースペクトログラムモデルの組み込み [Kameoka+2010,  Kitamura+2015] 独立低ランク行列分析(ILRMA) 優決定条件の多チャンネルNMF  IVAはパラメータ推定アルゴリズムが高速  多チャンネルNMFは音源モデルが柔軟である代わりにアルゴリズムが 低速(各ステップの逆行列計算の回避策がいまのところない) [Kameoka+2010,  Kitamura+2015] 時変ガウス音源モデルを用いたIVA [Ono+2012,  Yoshioka+2011]
  46. 46. 各種音源分離手法の分離性能・演算時間の比較 実際の音響信号&空間混合の分離実験  SiSECデータ(実録音・2音源混合)による分離実験結果  演算時間はIVAを基準に正規化 ILRMAが高い分離精度と低演算時間を実現 ↓[Kitamura+2016]より転載
  47. 47. Factorial HMMによるモノラル音源分離 [Nakano+2010] 音声や楽音のスペクトルは通常時間変化する ⇒状態遷移により各基底スペクトルが時間変化するモデル + Time Frequency Time FrequencyFrequency 観測スペクトログラムを 複数のHMMの出力の和 で表現 Factorial HMM
  48. 48. 多チャンネルFHMM [Higuchi+2014] FHMMの多チャンネル拡張 (音源分離・残響除去・音声区間検出の同時解法) 53 time [s] frequency [Hz] frequency [Hz] 無音状態 有音状態 分離音スペクトログラム 音響イベント検出結果 元音源信号のスペクトログラム time [s] frequency [Hz] time [s] 残響下の混合音スペクトログラム
  49. 49. 各種BSS手法と関連する最適化法 2000 2010 優決定BSS 独立成分分析 ICA 劣決定BSS 独立ベクトル分析 IVA 非負値行列分解 NMF モノラル音源分離 周波数領域 ICA猿渡 時間周波数 マスキング 最適化手法 板倉齋藤距離最小化 (補助関数法) 自然勾配法 亀岡 優決定 多チャンネルNMF ILRMA: 優決定 多チャンネルNMF (補助関数法) 亀岡 亀岡,小野,猿渡 IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 板倉齋藤距離規準NMF 複素NMF Factorial HMM 劣決定 多チャンネルNMF 亀岡,小野 亀岡,小野 亀岡 亀岡 小野 分離行列最適化 (反復射影) 小野
  50. 50. 各種BSS手法と関連する最適化法 2000 2010 優決定BSS 独立成分分析 ICA 劣決定BSS 独立ベクトル分析 IVA 非負値行列分解 NMF モノラル音源分離 周波数領域 ICA猿渡 時間周波数 マスキング 最適化手法 板倉齋藤距離最小化 (補助関数法) 自然勾配法 亀岡 優決定 多チャンネルNMF ILRMA: 優決定 多チャンネルNMF (補助関数法) 亀岡 亀岡,小野,猿渡 IVA (補助関数法) 劣決定 多チャンネルNMF (補助関数法) 多チャンネル FHMM 板倉齋藤距離規準NMF 複素NMF Factorial HMM 劣決定 多チャンネルNMF 亀岡,小野 亀岡,小野 亀岡 亀岡 小野 分離行列最適化 (反復射影) 小野
  51. 51. 各種BSS手法の関係 
  52. 52. 各種BSS手法の関係 
  53. 53. 参考 Alexey Ozerov, Hirokazu Kameoka, "Gaussian model based  multichannel separation," in Audio Source Separation and Speech  Enhancement, E. Vincent (Ed.), Springer, to appear in 2017.  Hirokazu Kameoka, Hiroshi Sawada, Takuya Higuchi, "General  formulation of multichannel extensions of NMF variants," in  Audio Source Separation, S. Makino (Ed.), Springer, to appear in  2017.  Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Determined blind source  separation with Independent low‐rank matrix analysis," in Audio  Source Separation, S. Makino (Ed.), Springer, to appear in 2017. 
  54. 54. まとめ 各種ブラインド音源分離手法の紹介  独立成分分析 (ICA)  独立ベクトル分析(IVA)  補助関数法と座標勾配法による分離行列最適化 [Ono+2011]  非負値行列因子分解 (NMF)  板倉齋藤距離規準NMF [Févotte+2009]  板倉齋藤距離局所最小化アルゴリズム [Kameoka+2006, Nakano+2010]  多チャンネルNMF  劣決定条件 • EMアルゴリズムによる最適化 [Ozerov+2010] • 補助関数法による最適化 [Sawada+2012]  優決定条件 ⇒ 独立低ランク行列分析(ILRMA) • EMアルゴリズムによる最適化 [Kameoka+2010] • 補助関数法による最適化 [Kitamura+2015]  Factorial HMM (FHMM) [Nakano+2011]  多チャンネルFHMM [Higuchi+2014]
  55. 55. 参考文献 (1/4) [1] P. Smaragdis: “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, 22(1),  pp. 21–34, 1998. [2] S. Ikeda and N. Murata: “A method of ICA in time‐frequency domain,” in Proc. International Workshop on  Independent Component Analysis and Blind Signal Separation (ICA), pp. 365‐371, 1999. [3] H. Saruwatari, S. Kurita, K. Takeda, F. Itakura, and K. Shikano: “Blind source separation based on subband ICA and beamforming,” in Proc. The International Conference on Spoken Language Processing (ICSLP), pp.  94‐97, 2000. [4] O. Yılmaz and S. Rickard: “Blind separation of speech mixtures via time‐frequency masking,” IEEE  Transactions on Signal Processing, 52(7), pp. 1830‐1847, 2004. [5] M.I. Mandel, D.P.W. Ellis, and T. Jebara, “An EM algorithm for localizing multiple sound sources in  reverberant environments,” in Adv. Neural Information Processing Systems, pp. 953‐960, 2006. [6] S. Araki, H. Sawada, R. Mukai, and S. Makino, “Underdetermined blind sparse source separation for  arbitrarily arranged multiple sensors,” Signal Process., 87(8), pp. 1833‐1847, 2007. [7] Y. Mori, H. Saruwatari, T. Takatani, S. Ukai, K. Shikano, T. Hiekata, and T. Morita,   “Real‐time    implementation of two‐stage blind source separation combining SIMO‐ICA and binary masking,” in Proc.  International  Workshop  on  Acoustic  Echo  and  Noise  Control (IWAENC), pp.229‐232, 2005. [8] Y.  Izumi,  N.  Ono,  and  S.  Sagayama,  “Sparseness‐based 2ch  BSS using  the  EM  algorithm  in  reverberant   environment,”  in Proc.  IEEE Workshop on Applications of Signal Processing to Audio and Acoustics  (WASPAA), pp. 147‐150, 2007. [9] H. Sawada,  S. Araki,  and S. Makino,  “Underdetermined convolutive blind source separation via frequency  bin‐wise clustering and permutation alignment,” IEEE Trans. Audio Speech Language Process., 19(3),  pp.516–527, 2010.
  56. 56. 参考文献 (2/4) [10] S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura: “Evaluation of blind signal separation method  using directivity pattern under reverberant conditions,” in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 3140‐3143, 2000.  [11] N. Murata, S. Ikeda, and A. Ziehe: “An approach to blind source separation based on temporal structure of  speech signals,” Neurocomputing, 41(1), pp. 1‐24, 2001.  [12] H. Sawada, R. Mukai, S. Araki, and S. Makino: “A robust and precise method for solving the permutation  problem of frequency‐domain blind source separation,” IEEE Transactions on Speech and Audio  Processing, 12(5), pp. 530‐538, 2004. [13] 小野: “周波数領域ICAにおけるΔスペクトログラムに基づくパーミュテーション解法,” 日本音響学会2010年秋 季研究発表会講演論文集, 2‐10‐7, pp. 581‐582, 2010.  [14] T. Kim, T. Eltoft, and T.W. Lee: “Independent vector analysis: An extension of ICA to multivariate  components,” in Proc. International Conference on Independent Component Analysis and Signal  Separation (ICA), pp. 165–172, 2006. [15] A. Hiroe: “Solution of permutation problem in frequency domain ICA using multivariate probability density  functions,” in Proc. Int. Conf. on Independent Component Analysis and Blind Source Separation (ICA), pp.  601‐608, 2006.  [16] T. Yoshioka, T. Nakatani, M. Miyoshi, and H.G. Okuno: "Blind separation and dereverberation of speech  mixtures by joint optimization," IEEE Transactions on Audio, Speech, and Language Processing, 19 (1), pp.  69–84, 2011. [17] A. Ozerov and C. Fevotte: “Multichannel nonnegative matrix factorization in convolutive mixtures for  audio source separation,” IEEE Transactions on Audio, Speech, and Language Processing, 18 (3), pp. 550– 563, 2010.
  57. 57. 参考文献 (3/4) [18] H. Kameoka, T. Yoshioka, M. Hamamura, J. Le Roux, and K. Kashino: “Statistical model of speech signals  based on composite autoregressive system with application to blind source separation,” in Proc. of  International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA), pp. 245–253, 2010. [19] H. Sawada, H. Kameoka, S. Araki, and N. Ueda: “Efficient algorithms for multichannel extensions of Itakura‐ Saito nonnegative matrix factorization,” in Proc. IEEE International Conference on Acoustics, Speech and  Signal Processing (ICASSP), pp. 261‐264, 2012. [20] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari: “Efficient multichannel nonnegative  matrix factorization exploiting rank‐1 spatial model,” in Proc. IEEE International Conference on Acoustics,  Speech and Signal Processing (ICASSP), pp. 276‐280, 2015. [21] S. Amari, A. Cichocki, and H.H. Yang: “A new learning algorithm for blind signal separation,” in Adv. Neural  Information Processing Systems, MIT Press, pp. 757‐763, 1996. [22] N. Ono: “Stable and fast update rules for independent vector analysis based on auxiliary function  technique, in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA),  pp. 189‐192, 2011.  [23] D.D Lee and H.S. Seung: “Algorithms for non‐negative matrix factorization,” in Adv. Neural Information  Processing Systems, pp. 556–562, 2001. [24] P. Smaragdis and J.C. Brown: “Non‐negative matrix factorization for music transcription,” in Proc. IEEE  Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 177–180, 2003. [25] P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi‐supervised separation of sounds from  single‐channel mixtures,” in Proc. International Conference on Independent Component Analysis and  Signal Separation (ICA 2007), pp. 414–421, 2007. [26] C.  F´evotte, N. Bertin, and J.L. Durrieu: “Nonnegative matrix factorization with the Itakura‐Saito  divergence. With application to music analysis,” Neural Computation, 21 (3), pp. 793–830, 2009.
  58. 58. 参考文献 (4/4) [27] H. Kameoka, M. Goto, and S. Sagayama: “Selective amplifier of periodic and nonperiodic components in  concurrent audio signals with spectral control envelopes,” in IPSJ SIG Technical Reports, 2006‐MUS‐66  (13), pp. 77–84, 2006. In Japanese. [28] T. Ono, N. Ono, S. Sagayama: “User‐guided independent vector analysis with source activity tuning,” in  Proc. IEEE International Conference on Audio, Speech and Signal Processing (ICASSP), pp. 2417–2420,  2012. [29] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation  unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Transactions on  Audio, Speech, and Language Processing, 24(9), pp. 1626‐1641, 2016.  [30] M. Nakano, J. Le Roux, H. Kameoka, T. Nakamura, N. Ono, and S. Sagayama: “Bayesian Nonparametric  Spectrogram Modeling Based on Infinite Factorial Infinite Hidden Markov Model,” in Proc. IEEE Workshop  on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 325‐328, 2011. [31] T. Higuchi, H. Takeda, T. Nakamura, and H. Kameoka: “A unified approach for underdetermined blind  signal separation and source activity detection by multichannel factorial hidden Markov models,” in Proc.  The 5th Annual Conference of the International Speech Communication Association (Interspeech), pp.  850‐854, 2014. [32] T. Higuchi and H. Kameoka, “Joint audio source separation and dereverberation based on multichannel  factorial hidden Markov model,” in Proc. The 24th IEEE International Workshop on Machine Learning for  Signal Processing (MLSP 2014), 2014.  [33] M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, and S. Sagayama: “Convergence‐guaranteed  multiplicative algorithms for non‐negative matrix factorization with beta‐divergence,” in Proc. IEEE  International Workshop on Machine Learning for Signal Processing (MLSP), pp. 283‐288, 2010. 

×