Successfully reported this slideshow.

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

1

Share

1 of 19
1 of 19

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

1

Share

Download to read offline

Presented at 2014 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Efficient multichannel nonnegative matrix factorization with rank-1 spatial model," Proceedings of 2014 Autumn Meeting of Acoustical Society of Japan, 2-1-11, pp.579-582, Hokkaido, September 2014 (in Japanese, 粟屋 潔学術奨励賞受賞)

Presented at 2014 Autumn Meeting of Acoustical Society of Japan (domestic conference)
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Efficient multichannel nonnegative matrix factorization with rank-1 spatial model," Proceedings of 2014 Autumn Meeting of Acoustical Society of Japan, 2-1-11, pp.579-582, Hokkaido, September 2014 (in Japanese, 粟屋 潔学術奨励賞受賞)

More Related Content

Viewers also liked

More from Daichi Kitamura

Related Books

Free with a 14 day trial from Scribd

See all

Related Audiobooks

Free with a 14 day trial from Scribd

See all

Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

  1. 1. Efficient multichannel NMF with rank-1 spatial model ランク1空間モデルを用いた効率的な 多チャネル非負値行列因子分解 総合研究大学院大学 博士課程1年 北村大地 国立情報学研究所 / 総合研究大学院大学 小野順貴 NTTコミュニケーション科学基礎研究所 澤田宏 東京大学 / NTTコミュニケーション科学基礎研究所 亀岡弘和 東京大学 猿渡洋
  2. 2. 研究背景 • ブラインド音源分離 (blind source separation: BSS) – 混合信号のみ (混合系は未知) から分離信号を推定する技術 – 過決定条件 (音源数 録音マイク数) におけるBSS • 独立成分分析 (ICA),独立ベクトル分析 (IVA) 等 – 劣決定条件 (音源数 録音マイク数) におけるBSS • 非負値行列因子分解 (NMF) の拡張手法等 • 話者分離や雑音抑圧等,様々な用途がある 2 音源信号 観測信号 分離信号 混合系 分離系
  3. 3. 従来手法 • 多チャネルNMF [H. Sawada, et al., 2013] – 音源の混合系を空間相関行列として推定 – 劣決定条件にも対応し自由度が高いが,最適化が難しい • 独立ベクトル分析 (IVA) [T. Kim, et al., 2007] – 音源間 (ベクトル間) の独立性を仮定し分離行列を推定 – 混合行列の逆行列を仮定する為,過決定条件下の技術 – 安定で高速な最適化が可能 3 音源信号 観測信号 分離信号 混合系 分離系
  4. 4. 本研究の目的と位置づけ • 容易に最適化できる多チャネルNMFの提案 – IVAと多チャネルNMFを統一的に捉える枠組みを確立 4 モデルの自由度 最適化の容易さ 多チャネル NMF IVA 提案手法 分離性能 Bad 分離性能 Good!
  5. 5. 提案手法のコンセプト • 従来の多チャネルNMFは混合行列を推定していた – 劣決定条件にも対応 – しかし最適化が難しい • 分離行列を推定する多チャネルNMFを考える – 逆行列が存在しなければならない – 決定的な混合系でなければならない • 提案手法は過決定条件で各音源が点音源に近い状況に 限定 – 一般的な会議や音楽演奏の収録環境では実用的な条件設定 5 過決定条件に限定 混合のランク1近似 解決するアイデア
  6. 6. 提案手法: 定式化 • 従来の多チャネルNMFにおける定式化 6 : 周波数ビン数 : 時間フレーム数 : チャネル数 複素数 対角成分が グリッドにおける各 チャネルの観測パワー (非負値) 非対角成分はチャネル間相関を 示す複素数 各 グリッドが全てベクトルとなる
  7. 7. • 多チャネルNMFの分解モデル ( の例 ) • 参考: 単一チャネルNMFの分解モデル 提案手法: 定式化 7 要素毎の積 灰色は非負の実数 赤色は複素数 Amplitude Amplitude Time Time Frequency Frequency 基底 アクティベーションスペクトログラム
  8. 8. 要素毎の積 灰色は非負の実数 赤色は複素数 • 多チャネルNMFの分解モデル ( の例 ) 提案手法: 定式化 8 分離行列を推定する問題にするために, 空間相関行列が全てランク1の行列となる ような制約条件を導入 提案手法
  9. 9. 提案手法: ランク1空間相関行列とは • ランク1近似: 各時間フレームでの複素瞬時混合を仮定 – 音源ができるだけ点音源に近く,残響などの拡散が時間周波 数解析の時間フレーム内に収まるという条件に対応 • ランク1空間相関行列は各音源のステアリングベクトルの 外積で表現できる • ステアリングベクトルは混合行列の列成分 9 音源信号 複素混合行列 観測信号 ( のランク1行列) 時不変の複素 混合行列 で 表現できる
  10. 10. 提案手法: コスト関数の変形と変数変換 • 従来の多チャネルNMFのコスト関数 (板倉斎藤擬距離) • 提案手法のコスト関数 (板倉斎藤擬距離) 10 ランク1空間相関行列を導入 ( ) 混合行列 を用いて表現しなおす , を用いて 分離行列 と分離信号 に変数変換 1. 2. 3.
  11. 11. 提案手法: IVA及びNMFとの関係 • 提案手法のコスト関数 (板倉斎藤擬距離) • IVAのコスト関数 (球状ラプラス分布仮定) • 単一チャネルNMFのコスト関数 (板倉斎藤擬距離) 11
  12. 12. 提案手法: IVA及びNMFとの関係 • 提案手法のコスト関数 (板倉斎藤擬距離) • IVAと単一チャネルNMFの各コスト関数の組み合わせ – IVAと多チャネルNMFの関係を明らかにする 12 モデルの自由度低 高 スペクトル基底 の数を拡張 混合系のランク1 近似を導入 多チャネル NMF IVA 提案手法
  13. 13. 提案手法: 潜在変数無し • 提案手法1 – 各音源は同じ数の基底で表現される • 利点: 単一チャネルNMFの更新式とIVAの更新式を交互 に回すだけで全変数の最適化が可能 • 欠点: 全ての音源に適切な数の基底を与えられない 13 混合行列 分離行列 音源信号 観測信号 分離信号 空間相関 行列 基底とアクティベーション ランク1行列 4個の基底 4個の基底 同じ数の基底で各音源を表現する 全部で8個 の基底
  14. 14. 提案手法: 潜在変数導入 14 混合行列 分離行列 音源信号 観測信号 分離信号 空間相関 行列 基底とアクティベーション ランク1行列 5個の基底 各音源に適切な基底数が適応的に決定される 潜在変数 3個の基底 全部で8個 の基底 • 提案手法2 – トータルの基底数を与え,適応的に各音源に割り当てる • 利点: 最適な基底数が学習されるため,分離精度が向上 • 欠点: 潜在変数の最適化も必要なため頑健性が劣化 – 潜在変数の更新式は補助関数法で導出可能
  15. 15. 分離精度の比較実験 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャネルで2音源の混合信号 比較手法 IVA, 提案手法1 (潜在変数なし), 提案手法2 (潜在変数あり) サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル FFT長 8192 点 (512 ms) 窓関数長 2048 点 (128 ms, ハニング窓) 初期値 分離行列 : 単位行列, その他の変数: 非負値乱数 基底数 提案手法1: 各音源につき20個 (トータルは40個) 提案手法2: トータルで40個 反復回数 200 回 試行回数 初期値を変えて10 回 主観評価値 平均SDR改善値とその標準偏差 (総合分離性能) 平均SIR改善値とその標準偏差 (非目的音の除去性能) 平均SAR値とその標準偏差 (人工歪みの少なさ) 15 • 実験条件
  16. 16. • 実験結果1 (Another_dreamer_The_ones_we_love_Snip_69-94) – Source 1: Guitar – Source 2: Vocal 16 14 12 10 8 6 4 2 0 SAR[dB] 28 24 20 16 12 8 4 0 SIRimprovement[dB] 16 14 12 10 8 6 4 2 0 SDRimprovement[dB] IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 (a) (b) (c) : Source 1 : Source 2 分離精度の比較実験 16
  17. 17. 12 10 8 6 4 2 0 SAR[dB] 14 12 10 8 6 4 2 0 -2 SIRimprovement[dB] 4 3 2 1 0 -1 -2 -3 SDRimprovement[dB] IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 (a) (b) (c) : Source 1 : Source 2 分離精度の比較実験 17 • 実験結果2 (Tamy_Que_pena_tanto_faz_Snip_6-19) – Source 1: Guitar – Source 2: Vocal
  18. 18. • 実験結果3 (Fort_minor_Remember_the_name_Snip_54-78) – Source 1: Violins_synth – Source 2: Vocal 16 14 12 10 8 6 4 2 0 SAR[dB] 20 16 12 8 4 0 SIRimprovement[dB] 14 12 10 8 6 4 2 0 -2 -4 SDRimprovement[dB] IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 IVA Proposed method 1 Proposed method 2 (a) (b) (c) : Source 1 : Source 2 分離精度の比較実験 18
  19. 19. まとめ • 混合系ではなく分離行列を求める多チャネルNMFを新た に提案した – 空間相関行列がランク1となる近似を導入 – IVAと単一チャネルNMFの組み合わせとなり,最適化が容易 • IVAと従来の多チャネルNMFの関係を明らかにした – 「IVAに基底分解を導入したモデル」と「ランク1近似を導入した 多チャネルNMF」は本質的に等価 • 客観評価実験の結果,提案手法はIVAよりも高精度な分 離を達成した • 今後は従来の多チャネルNMFと頑健性の比較を行う 19

Editor's Notes

  • 始めに研究の背景について説明します.
    ブラインド音源分離,BSSとは,複数の音源が混合された信号のみから分離信号を推定する技術です.
    即ち,混合系が未知の条件で,分離信号を得るのが目的です.

    BSSを大別すると,マイク数が音源数と同じか多い「過決定条件」の技術と,逆に音源数の方がマイク数より多い「劣決定条件」での技術に分けられます.
    過決定条件では,ICAによる分離や,その拡張手法である独立ベクトル分析,IVA等が盛んに研究されてきました.
    また劣決定条件では,近年特に非負値行列因子分解,NMFを用いた手法が注目を浴びています.

    BSSの応用としては,話者分離や雑音抑圧等,さまざまな用途があります.
  • 代表的なBSS技術として,近年提案された多チャネルNMFと,独立ベクトル分析(IVA)があります.
    多チャネルNMFは,単一チャネルNMFを多チャネル用に拡張し多もので,音源の混合系(指示)を推定し音源分離します.
    そのため,劣決定条件にも対応し自由度が高いですが,最適化が難しいという問題があります.
    一方IVAは,ICAと同じく音源間の独立性を仮定し,分離行列(指示)を推定します.
    そのため,混合行列の逆行列を仮定しますので,過決定条件のみに対応します.
    しかしながら,高速で安定な最適化が可能です.
  • そこで,本研究では,容易に最適化できる多チャネルNMFの提案を目標とし,従来のIVAと多チャネルNMFを統一的に捉えるような枠組みを新たに確立します.
    こちらのグラフは横軸がモデルの自由度,縦軸が最適化の容易さを示しています.
    多チャネルNMFはモデルの自由度が高い反面,最適化が困難です.
    一方IVAは,自由度は低いですが最適化が容易です.
    提案手法では,多チャネルNMFのモデルの自由度を少し下げることで最適化を容易にし,これまでより良い分離性能が得られることを目標としています.
  • 提案手法のコンセプトを説明します.
    従来の多チャネルNMFは混合行列を推定するため最適化が困難です.
    そこで,混合行列ではなく分離行列を推定する多チャネルNMFを新たに考えます.
    これは混合行列の逆行列が存在しなければならないため,過決定条件に限定されます.
    さらに,IVAのように決定的な混合系を仮定しなければならいため,混合系のランク1近似が必要となります.
    即ち,提案手法は「過決定条件」でかつ「各音源が点音源に近い,デフューズでない」状況に限定されますが,一般的な会議や音楽演奏の収録環境では,比較的実用的と考えられます.
  • 提案手法の詳しい説明の前に,従来の多チャネルNMFの定式化を説明します.
    今,M個のスペクトログラムがあり,周波数ビンをI,時間フレームをJとします.
    グリッドijにおいて,このようにチャネルをまとめたベクトルをxijと定義し,xijとそのエルミート転置の外積からなるラージXijという行列を定義します.
    ラージXijの対角要素は各チャネルの観測パワーを示し,非対角成分はチャネル間相関を示す複素数となります.
  • この図は2チャネルのときの例です.各ijグリッドに2×2の行列が定義されています.
    このようなテンソルXを,空間相関行列からなるテンソルH,基底行列T,アクティベーション行列Vの3つに分解します.
    比較として単一チャネルNMFの分解モデルを図示しています.
    多チャネルNMFでは,基底とアクティベーションに加えて,空間相関行列Hを新たに学習します.
  • そして提案手法では,分離行列を推定する問題にするために,空間相関行列が全てランク1となるような制約条件を導入します.
  • このランク1空間相関行列の導入は,各時間フレームでの複素瞬時混合の仮定に対応します.
    即ち,各時間フレームにおいて,周波数毎の複素混合行列Aiで表現されます.
    これは,音源ができるだけ点音源に近く,残響などの拡散が時間フレーム内に収まるという条件に対応します.
    このとき,ランク1の空間相関行列は,このように各音源のステアリングベクトルの外積で表現できます
    ステアリングベクトルは混合行列の列成分ですので,混合行列を用いて定式化しなおすことが出来ます.
  • 上側の式は従来の多チャネルNMFのコスト関数です.
    この式にランク1空間相関行列を従来の多チャネルNMFのコスト関数に導入すると,混合行列Aを用いて表現することが出来ます.
    さらに,分離行列Wと分離信号yを用いて変数変換すると,このようなコスト関数に変形できます.
  • このコスト関数をよく見ると,なんと,(クリック)第一項と第二項がIVAのコスト関数と等価で,(クリック)第一項と第三項が単一チャネルNMFのコスト関数と等価になっています.(クリック)
    したがって,IVAとNMFを重ね合わせたコストとなっており,IVAの更新式とNMFの更新式を交互に反復することで全変数を容易に最適化できます.
  • さらにこの事実は,IVAと多チャネルNMFの関係性を明らかにします.
    提案手法は多チャネルNMFにランク1近似を導入したモデルですが,IVAに基底分解を導入したモデルとも言えます.
    IVAから見れば,IVAは全ての周波数ビンが共通の振幅包絡を持つので,1本の基底のNMFに良く似た表現モデルでしたが,その基底数を拡張したと言えます.
    一方多チャネルNMFから見れば,混合行列ではなく分離行列を求めるモデルに変更したと言えます.
    したがって,まったく別々と思われていたIVAとNMFの関係性が明らかになります.
  • 今回は,空間相関行列と基底を対応付ける潜在変数の有無で2種類の手法を提案します.
    提案手法1は潜在変数を導入しないバージョンで,この場合はソース1に基底を4個,ソース2にも4個というように,それぞれの音源に同じ数の基底数を用意する必要があります.
    利点は,NMFとIVAの更新式を交互に回すだけで最適化が可能となることですが,基底数が固定されるので適切でない可能性があります.
  • 提案手法2は従来の多チャネルNMFと同様に,潜在変数を導入することで適応的に基底が各音源に割り当てられる手法です.
    つまり,トータルの基底数を指定するだけで,このように各音源に適切な個数の基底が自動的に決定されます.
    結果,分離精度の向上が期待されますが,潜在変数の最適化が必要なため頑健性が少し低下すると推測されます.
    潜在変数の更新式は補助関数法で同様に導出できます.詳細は論文を参照してください.
  • 分離精度の比較実験を行いました.この表は実験条件です.
    音源には,SiSECのプロ音楽信号にRWCPに収録されたマイクアレーのインパルス応答を畳み込んで,2チャネルで2音源の混合信号を作成しました.
    比較手法はIVA,提案手法1,提案手法2の3つです.今回は初期値を変えて10回試行し,平均のSDR,SIR,SARの3つを示します.
    SDRは総合分離性能,SIRは非目的音の除去性能,SARは人工歪みの少なさを示します.
  • こちらはAnother dreamerの楽曲の結果です.
    ギターとボーカルの混合信号ですが,どちらの音源もIVAと比べて提案手法1,2ともに精度が大きく向上していることがわかります.
    これは,音源の統計的独立性のみを用いて分離するIVAよりも,厳密なスペクトル特徴を捉える基底分解を導入した提案手法が有効であることを示しています.
  • また,別の楽曲では提案手法1と2の違いが顕著に現れました.
    この曲はソース1のギターが同じフレーズを繰り返しており,ソース2のボーカルよりもはるかに少ない基底数で表現できるため,適切な基底数が音源毎に異なる例です.
    適応的に各ソースの基底数を決定する提案手法2が効果的であったことがわかります.
  • さらに別の楽曲です.こちらも提案手法1,2ともに良好な改善が確認できます.
    (ではこの楽曲で分離例をお聞かせします.
    混合音はバイオリンとボーカルの混合音です.(再生)
    まずIVAでバイオリンを取り出した音です.かなりボーカル成分が残っているのがお分かりいただけると思います.(再生)
    次に提案手法2でバイオリンを取り出した音です.(再生)
    続いて,IVAでボーカルを取り出した音です.こちらもかなりバイオリンの消し残りが聞こえます.(再生)
    最後に提案手法2でボーカルを取り出した音です.(再生))
  • 劣決定条件にも対応したBSSとして,多チャネルNMFが近年提案されました.
    これは従来の単一チャネルNMFを多チャネル用に拡張したものです.
    従来の単一チャネルNMFは,この図のように,入力スペクトログラムを,複数のスペクトルパターンである基底と,その強度の時間変化を示すアクティベーションに分解します.
    多チャネルNMFでは,各音源の混合系に対応する空間相関行列Hを,基底やアクティベーションと同時に求めます.
    そして得られた複数の基底を,潜在変数を用いて各音源の空間相関行列に対応付けることで,音源を分離します.
  • このように多チャネルNMFは,「音源の混合系」を「空間相関行列」として推定するため,モデルの自由度が高いですが,

    基底とアクティベーションのほかに,空間相関行列や潜在変数等,多くの変数を同時に最適化する必要があります.

    そのため,初期値依存性が極端に強く,最適化が困難という問題があります.
  • 一方で,ICAに基づく手法は,分離行列を求める技術であり,容易に最適化が可能です.
    このスライドは独立ベクトル分析,IVAを説明しています.
    IVAは変数を周波数方向にまとめたベクトルとして扱い,ベクトル内での高次の相関を仮定しつつ,変数ベクトル間は独立となるような分離行列Wを周波数毎に求めます.
    代表的な例として,変数ベクトルがこのような球状ラプラス分布に従うという仮定によって高次相関を考慮します.
  • IVAは,すべての周波数ビンが共通の振幅包絡を持つということを仮定しております.
    つまり,1本の基底を用いたNMFによる表現とモデル的には同じと考えられますが,IVAとNMFの関係性については詳しくは解明されておりません.

    またICAやIVAは,多チャネルNMFと異なり,音源の混合行列ではなくその逆の分離行列を推定する技術です.
    そして,非常に高速で安定な最適化手法が既に提案されております.
  • こちらは混合に用いたインパルス応答の詳細です.
    マイクアレーが5.66cmの間隔で,正面から左右50度の位置に音源があるものとしています.
    残響時間は300ms程度です.
  • こちらはAnother dreamerの楽曲の結果です.
    ギターとボーカルの混合信号ですが,どちらの音源もIVAと比べて提案手法1,2ともに精度が大きく向上していることがわかります.
    これは,音源の統計的独立性のみを用いて分離するIVAよりも,厳密なスペクトル特徴を捉える基底分解を導入した提案手法が有効であることを示しています.
  • また,別の楽曲では提案手法1と2の違いが顕著に現れました.
    この曲はソース1のギターが同じフレーズを繰り返しており,ソース2のボーカルよりもはるかに少ない基底数で表現できるため,適切な基底数が音源毎に異なる例です.
    適応的に各ソースの基底数を決定する提案手法2が効果的であったことがわかります.
  • さらに別の楽曲です.こちらも提案手法1,2ともに良好な改善が確認できます.
    (ではこの楽曲で分離例をお聞かせします.
    混合音はバイオリンとボーカルの混合音です.(再生)
    まずIVAでバイオリンを取り出した音です.かなりボーカル成分が残っているのがお分かりいただけると思います.(再生)
    次に提案手法2でバイオリンを取り出した音です.(再生)
    続いて,IVAでボーカルを取り出した音です.こちらもかなりバイオリンの消し残りが聞こえます.(再生)
    最後に提案手法2でボーカルを取り出した音です.(再生))
  • ×