Successfully reported this slideshow.

独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank matrix analysis)

5

Share

1 of 67
1 of 67

独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank matrix analysis)

5

Share

Download to read offline

Description

北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "独立低ランク行列分析に基づくブラインド音源分離," IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73–80, Toyama, October 2017 (招待講演).
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, and Hiroshi Saruwatari, "Blind source separation based on independent low-rank matrix analysis," IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73–80, Toyama, October 2017 (in Japanese, Invited talk).

Transcript

  1. 1. 独立低ランク行列分析に基づくブラインド音源分離 Blind Source Separation Based on Independent Low-Rank Matrix Analysis 北村大地 小野順貴 澤田宏 亀岡弘和 猿渡洋 応用音響研究会(EA) 2017年10月22日(日)09:00–10:00 [招待講演] 東京大学大学院情報理工学系研究科 首都大学東京システムデザイン研究科 NTTコミュニケーション科学基礎研究所 NTTコミュニケーション科学基礎研究所 東京大学大学院情報理工学系研究科
  2. 2. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 2 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
  3. 3. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 3 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
  4. 4. • 音源分離(audio source separation) – 音響信号を対象とした信号処理技術の一つ • 信号処理:観測信号から有益な意味や情報を引き出し活用する技術 • 知能情報学・機械学習の一大トピック – 人の声,雑音,歌声,楽器音,機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 • カクテルパーティ効果: うるさい場所でも特定の人物の 声に注意を向けて聞き取ること ができる人間の能力 音源分離の工学的・社会的な重要性 4 観測信号 雑音の中に人の声がある!ただの雑音…
  5. 5. • 補聴器デバイス – 雑音環境での聞きやすさを改善,健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上,会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を 音楽CDから直接作成 • ライブ音楽演奏の再編集 – 音楽演奏は一期一会,その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 音源分離の応用の一例 5 音楽CD 分離
  6. 6. 音源分離の技術的俯瞰:観測条件 • 観測信号のマイク数(チャネル数)による条件の違い – 単一チャネル信号(モノラル信号) • 音源分離には最も困難な録音条件 – 応用範囲は最も広い • 音色に関する情報しか得られない – 劣決定条件(音源数 マイク数) • 2チャネル(ステレオ)等,混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 マイク数) • 十分な数のマイクがある – 録音装置は大規模化,煩雑化 • 得られる空間的な情報の量も多い – 空間情報を使う音源分離は比較的高性能 6 音楽CD L-ch R-ch ステレオ信号(2-ch) モノラル録音 1ch モノラル信号(1-ch) マイクアレイ 1ch Mch 多チャネル信号 2ch … … 易 難
  7. 7. • 事前に用意できる外部からのヒント(教師情報)の有無 – 何もヒントがない「ブラインド音源分離」 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「性質・仮定」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々 – 分離したい音源の音色サンプル(少量) » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル(大量) » 近年発展している深層学習(AI)を適用 – マイク位置や音源位置等,録音時の空間的な情報 – その他,楽譜,ユーザからの指示,カメラからの情報等 • 本講演では「優決定条件ブラインド音源分離」を対象とし, 最先端の音源分離アルゴリズムを紹介 音源分離の技術的俯瞰:前提条件 7 音階のサンプル 難 易
  8. 8. • 基礎理論とその拡張手法 音源分離の歴史と発展(一部) 8 1994 1998 2013 1999 2012 年代 パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
  9. 9. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 9 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
  10. 10. • 基礎理論とその拡張手法 音源分離の歴史と発展(一部) 10 1994 1998 2013 1999 2012 年代 パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
  11. 11. ブラインド音源分離と独立成分分析 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 – マイクの位置や間隔,音源の位置等の情報が不要 • 優決定条件(マイク数≧音源数)のBSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], ・・・ • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006], [Kim, 2007], [Ono, 2011], [Ono, 2012], ・・・ • 電波,脳等の生体信号,地震波形等の分野で発展 • ICA理論の確立後は音響信号処理分野が世界的に牽引 11 BSS 混合系 分離系
  12. 12. ICAの分離原理:音源の分布とは? • 音声波形の分布 13 Amplitude Time samples 0付近で急峻であり,裾が広 い分布 ガウス分布(正規分布)とは 全然違う,非ガウス分布 Amountofcomponents Amplitude 0 0.1 0.2 0.3 0.4 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 ガウス分布(正規分布)
  13. 13. ICAの分離原理:音源の分布とは? • ピアノ音波形の分布 13 Amplitude Time samples やはりガウス分布より尖っ ていて裾が広い Amountofcomponents Amplitude 0 0.1 0.2 0.3 0.4 0.5 0.6 -5 -4 -3 -2 -1 0 1 2 3 4 5 ラプラス分布
  14. 14. ICAの分離原理:音源の分布とは? • ドラム音の分布 13 Amplitude Time samples やはりガウス分布より尖っ ていて裾が広い Amountofcomponents Amplitude 0 0.2 0.4 0.6 0.8 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 コーシー分布
  15. 15. ICAの分離原理:中心極限定理の検証 15 • 音源の分布(生成モデル)は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布は不明 • 中心極限定理(central limit theorem) – 「いかなる分布から生成される確率変数も足していくとガウス分 布に従う確率変数に近づいてゆく」※ • 信じられない? 0 0.1 0.2 0.3 0.4 0.5 0.6 -5 -4 -3 -2 -1 0 1 2 3 4 5 ラプラス分布 0 0.002 0.004 0.006 0.008 0.01 -5 -4 -3 -2 -1 0 1 2 3 4 5 一様分布 Generate r.v.s 正規分布 0 0.1 0.2 0.3 0.4 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 ※ただし中心極限定理を満たさない確率分布もある (安定分布族と呼ばれ,「一般化中心極限定理」が成り立つ)
  16. 16. ICAの分離原理:中心極限定理の検証 16 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – では という値はどのような分布に従うか? Amount Amount
  17. 17. ICAの分離原理:中心極限定理の検証 17 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – では はどうか? Amount もはや一様分布ではない
  18. 18. ICAの分離原理:中心極限定理の検証 18 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 Amount Amount
  19. 19. ICAの分離原理:中心極限定理の検証 19 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく(中心極限定理)
  20. 20. ICAの分離原理:中心極限定理の検証 20 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples Amount Amplitude Amplitude Time samples Amount Amplitude
  21. 21. ICAの分離原理:中心極限定理の検証 21 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude
  22. 22. ICAの分離原理:中心極限定理の検証 22 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples Amount Amplitude Amplitude Time samples Amount Amplitude
  23. 23. ICAの分離原理:中心極限定理の検証 23 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude
  24. 24. ICAの分離原理:中心極限定理の検証 24 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude ほぼ ガウス分布
  25. 25. ICAの分離原理:非ガウス性・独立性の最大化 25 • 中心極限定理から言えること – ガウス分布は「確率変数の混合」の極限にある – もし各信号の非ガウス性を最大化することができるならば, 混合する前の信号を推定することができる(かもしれない) ICAの音源分離の原理 各成分の 非ガウス性最大化 成分間の 独立性最大化 より一般的には 混ざることでガウス分布に 近づいてゆく(中心極限定理) 非ガウス性を最大化すること で分離されてゆく(ICA)
  26. 26. ICAの分離原理:前提条件 • ICAにおける前提条件(用いられる仮定) – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系(分離系)が存在する 混合系 未知の音源 1. 互いに独立 2. 非ガウスな分布 3. 時不変かつ 逆系が存在 10 観測できる 混合信号 逆行列
  27. 27. ICAの分離原理:不確定性 • ICAにおける不確定性 – 1. 分離信号のスケール(音量)は決定できない – 2. 分離信号の順番(パーミュテーション)は決定できない 11 ICA ICA 未知の音源 観測できる 混合信号 未知の音源 観測できる 混合信号 推定された 分離信号 推定された 分離信号
  28. 28. • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300 ms,コンサートホールでは2 s等 – 時不変混合係数 が時不変混合フィルタ に変化 • 畳み込み混合の分離系をICAでどう推定するか – 1. 時間領域での逆フィルタ を推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり) • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 2. 周波数領域でICAを適用(フーリエ変換で畳み込みを積に) • 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 周波数領域ICA(FDICA) 28 残響長 (混合フィルタのタップ長) 瞬時混合 畳み込み混合
  29. 29. 周波数領域ICA(FDICA) • 短時間フーリエ変換(short-time Fourier transform: STFT) – 音響信号を短時間で切り出して周波数領域に変換 – 畳み込み混合を周波数領域の瞬時混合に変換 • フーリエ変換により「畳み込み」が「積」に変換されるため – ICA理論がそのまま適用可能 • 一つ一つの周波数に独立なICAを適用し周波数毎の分離行列を推定 29 … 窓長 シフト長 Frequency Time … 窓長 窓関数 フーリエ変換 フーリエ変換 フーリエ変換 スペクトログラム 時間信号
  30. 30. 周波数領域ICA(FDICA) • 周波数領域ICA(FDICA)[Smaragdis, 1998] – 各周波数ビンの複素時系列に対して独立なICAを適用 30 多チャネルスペクトログラム ICA1 ICA2 ICA3 … … ICA Frequencybin Time frame … 逆行列 周波数領域の時不変 瞬時混合行列
  31. 31. 周波数領域ICA(FDICA) 31 ICA 全て時間周波数 領域の信号 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2 Time • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている ※分散(スケール)もバラバラになるが,これは容易に戻すことが可能
  32. 32. 到来方向を用いたパーミュテーション解決 32 • FDICA+DOAクラスタリング[Saruwatari, 2006] – 推定分離フィルタ から混合フィルタ を逆算 – 音源の到来方向(DOA)でクラスタリング 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 DOA クラスタリング Source 1 Source 2 正面 左 右 音源 とマイクアレイ間の 伝達系を表す 「ステアリングベクトル」 混合行列の列ベクトル
  33. 33. 独立ベクトル分析(IVA) • パーミュテーション問題解決のエレガントなアプローチ – 分離フィルタ推定(周波数毎のICAの最適化) – パーミュテーション問題の解決(ポスト処理) • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] – ICAを多変量(多次元)分布モデルへ拡張( ) – 周波数をまとめたベクトル変数に対するICA 33 1個の問題の 最適化で実現したい … … 混合行列 … … … 観測信号 分離行列 推定信号 互いに独立 多変量非ガウス分布 互いに高次相関を持つ 同じ時間変動を持つ周波数成分を「一つの音源」にまとめる スカラー ベクトル
  34. 34. • FDICAの分離原理 • IVAの分離原理 FDICAとIVAの分離原理比較 34 観測信号 推定信号の分布形状が,あらかじめ仮定した 非ガウスな音源分布に近づくよう分離フィルタを更新 推定信号 分離フィルタ 推定信号の 現在の分布形状 非ガウスな 音源分布 STFT Frequency Time Frequency Time 観測信号 推定信号 分離フィルタ 推定信号の 現在の分布形状 STFT Frequency Time Frequency Time 非ガウスな 球対称多変量 音源分布 スカラーの 確率変数 ベクトルの多変量 確率変数 推定信号の分布形状が,あらかじめ仮定した 非ガウスな球対称多変量音源分布に近づくよう 分離フィルタを更新 中心極限定理より,混合信号 はガウス分布に近い信号 本来の音源信号は 非ガウス分布に従う 互いに 独立 互いに 独立
  35. 35. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 35 独立成分分析 に由来する音源分離法 の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
  36. 36. • 基礎理論とその拡張手法 音源分離の歴史と発展(一部) 36 1994 1998 2013 1999 2012 年代 パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
  37. 37. 非負値行列因子分解による音のモデリング • 非負値行列因子分解(NMF) [Lee, 1999] – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 37 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション
  38. 38. NMFによる低ランク近似と音源分離の例 • 例 38 Pf. and Cl. ランク1の スペクトログラムの和
  39. 39. NMFによる低ランク近似と音源分離の例 • 例 – Pf. と Cl. が分離された! – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・(挑戦例もあり) 39 Pf. Cl. Pf. and Cl.
  40. 40. • NMFにおける変数の最適化 – 観測 とモデル の距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式(最も有名) [Lee, 2000] NMFのパラメータ推定 40 (コスト関数が二乗ユークリッド距離の場合)
  41. 41. • 音楽信号の音源分離の特徴 – 離散的構造 限られた数の音高(ピッチ)の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる • 離散的構造を持つ信号の適切な表現 – 音楽信号の「低ランクな時間周波数構造」 – NMFの「低ランク近似分解」 • 音源分離以外にも音楽信号処理で広く活用されている – 自動採譜,ビートトラッキング,超解像,・・・ NMFと音楽信号の相性 41 限られた数の音高(音の高さ) 限られた数の音価(音の長さ) 離散的なパーツの重ね合 わせで構成されている
  42. 42. 音楽信号は本当に低ランク? 42 ドラム ギター ボーカル 音声
  43. 43. • 低ランク性の指標(行列の構造のシンプルさ) – 累積特異値(cumulative singular value)で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 – ボーカル及び音声は楽器音ほど低ランクではない – 楽器音は少ない数の音パーツ(基底)で構成(離散的構造) 音楽信号は本当に低ランク? 43 95% line 7 29 Around 90 累積特異値が95%に達するときの 基底の本数 (スペクトログラムのサイズは1025x1883)
  44. 44. • 板倉斎藤擬距離に基づくNMF[Févotte, 2009] • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 板倉斎藤擬距離基準NMF(ISNMF) 44 最小化は等価 点対称零平均複素ガウス分布 観測の複素数値 複素ガウスの分散
  45. 45. • パワースペクトログラムは複素ガウスの分散に対応 板倉斎藤擬距離基準NMF(ISNMF) 45 Frequencybin Time frame : パワースペクトログラム パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が変動する為,スペクト ログラム全体の密度分布 はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 但し濃淡が濃い方が 大きなパワーを示す
  46. 46. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 多次元観測音響信号への拡張 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 46 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
  47. 47. 動機 • ICAで仮定される非ガウス音源分布 – 分離行列を推定する唯一の手がかり:音源モデル – 正確な音源モデル 高精度な分離行列の推定 • ISNMFは音源の時間周波数 構造を分散の変動で表現 • 低ランク時間周波数構造をICAの音源モデルに導入 独立低ランク行列分析(ILRMA)[Kitamura, 2016] 47 分離行列混合系 音源 モデル
  48. 48. 48 Frequency Time IVAの 音源モデル Frequency Time 周波数方向には一様な分散 時変な成分 Frequency Basis Basis Time 基底数(音源モデルのランク数)は任意 Frequency Time ILRMAの 音源モデル 時間周波数上での分散の変動を NMFで低ランク表現 濃淡が分散の大小 分散の大小は音源のパワーの大小 「低ランク性」の音源モデルへの導入
  49. 49. 提案手法:IVAとNMFを融合した新しいBSS • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 時間周波数で分散が変動する複素ガウス分布を仮定 – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる 49 イ ル マ 非ガウス分布 複素ガウス分布 Frequency Basis Basis Time 基底数(音源モデルのランク数)は任意 Frequency Time ILRMAの 音源モデル 時間周波数変動分散 (低ランク音源モデル)
  50. 50. Frequency Time 提案手法:IVAとNMFを融合した新しいBSS • FDICA,IVA,及びILRMAの比較 50 Frequency Time FDICAの音源モデル スカラー変数の非ガウス分布 IVAの音源モデル ベクトル変数の多変量な 球対称非ガウス分布 ILRMAの音源モデル NMFによる低ランクな 時間周波数構造 低ランクな時間周波数構造を 持つように分離フィルタを更新 観測信号 推定信号 分離 フィルタ ILRMAの分離原理 1. 音源間の独立性を最大化(混合信号は独立になっていない) 2. 音源毎の時間周波数構造は低ランク(混合信号の時間周波数構造は高ランク)
  51. 51. • ILRMAのコスト(対数尤度)関数 – IVAの反復更新式 – NMFの反復更新式 • 音源の適切なランク数を潜在変数で推定することも可能 – Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク ILRMAのコスト関数と潜在変数の導入 51 分離信号: ISNMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間分離フィルタの推定に寄与) 2つの交互最適化反復で 全変数を容易に推定可能 潜在変数の導入 0~1の値をとる潜在変数
  52. 52. ILRMAの最適化 • ILRMAの反復更新式(最尤推定) – NMF変数の最適化は補助関数法に基づく乗法更新式 – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解(停留点)へ収束 52 空間分離フィルタと分離信号の更新 音源モデルの更新 但し, , は 番目の要素のみ1で 他 は0の縦ベクトル
  53. 53. ILRMAの更新のイメージ • 音源毎の空間情報(空間モデル)と 各音源の音色構造(音源モデル)を交互に学習 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 53 空間分離フィルタ の学習 混合信号 分離信号 音源モデル の更新 NMF NMF 音源モデル の学習
  54. 54. IVA,多チャネルNMF,ILRMAの関連性 • 多チャネルNMF(MNMF) [Sawada, 2013] からみると – 混合系の推定を分離行列の推定問題に変換(高速,安定) • IVAからみると – 音源モデルの基底数を1から任意数に拡張 54 分離行列混合系 Frequency Time Frequency Basis Basis Time IVA ILRMA MNMF ILRMA
  55. 55. IVA,多チャネルNMF,ILRMAの関連性 • 独立に発展したIVAと多チャネルNMFが実は密接に関 連している事実を世界で初めて理論的に証明 – 証明の詳細はEA原稿3.4節に記載 55 音源モデル 空間モデル 柔軟限定的 柔軟限定的 IVA 多チャネル NMF ILRMA NMFの音源 モデルを導入 空間相関行列を ランク1行列に制限 分離行列に変数変換
  56. 56. 音楽音源分離実験の条件 • 実験条件 56 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 窓長(FFT長) 512 ms,ハニング窓 シフト長 128 ms (1/4シフト) 基底数 1音源につき30本(ILRMA1),全音源で60本(ILRMA2) 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) 2 m Source 1 5.66cm 50 50 Source 2 2 m Source 1 5.66cm 60 60 Source 2 Impulse response E2A (reverberation time: 300 ms) Impulse response JR2 (reverberation time: 470 ms)
  57. 57. 実験結果: fort_minor-remember_the_name 57 16 12 8 4 0 -4 -8 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 16 12 8 4 0 -4 -8 SDRimprovement[dB] Violin synth. Vocals Violin synth. Vocals E2A (300 ms) JR2 (470 ms) Poor Good Poor Good
  58. 58. 実験結果: ultimate_nz_tour 58 Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 20 15 10 5 0 -5 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 20 15 10 5 0 -5 SDRimprovement[dB] Guitar Synth. Guitar Synth. Poor Good Poor Good E2A (300 ms) JR2 (470 ms)
  59. 59. 12 10 8 6 4 2 0 -2 SDRimprovement[dB] 4003002001000 Iteration steps IVA MNMF ILRMA ILRMA • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル) – 音源: acoustic_guit_main, bass, vocalsの3音源 各手法の性能と計算コストの比較例 59 (潜在変数無) (潜在変数有) 11.5 s 15.1 s 60.7 s 7647.3 s Poor Good
  60. 60. • 音声信号と音楽信号の分離結果を主観評価で比較 – 聴覚の正常な20代の男性10名女性4名 – サーストンの一対比較法(間隔尺度) 各手法の性能の主観評価による比較 60 1.6 1.2 0.8 0.4 0.0 -0.4 -0.8 -1.2 Subjectivescore IVA Multichannel NMF ILRMA Speech signals Music signals
  61. 61. 音源分離デモンストレーション:音楽分離の例 • 音楽信号 – “Ultimate NZ tour”,3音源 – イコライザ(音色の変更)では不可能な処理 61 Guitar Vocal Keyboard Guitar Vocal Keyboard 提案法による パートごとの 音源分離 3つのパートが鳴っていること に注意して聞いてください 他のデモ:http://d-kitamura.net/demo.htm
  62. 62. 災害現場でのヘビ型被害者捜索ロボット 62 • 内閣府 革新的研究開発推進プログラム(ImPACT) – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando, 2016] • 成果:プレスリリース,論文採録 処理前の観測音 (ロボットの駆動ノイズが大きい) 提案法による 音源分離 強調された音声信号
  63. 63. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 63 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
  64. 64. 開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作(induce)」が可能 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例:映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報 • 楽譜の構造を直接モデルに反映可能 • 例:芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や教師あり手法への拡張 64 時間区間の指定 領域の指定周波数 時間 低ランク 周波数 時間 スパース 周波数 時間 グループスパース
  65. 65. 参考文献(アルファベット順)(1/3) • [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal Process., vol. 36, no. 3, pp. 287–314, 1994. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, 2016. 65
  66. 66. 参考文献(アルファベット順)(2/3) • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to Audio and Acoust., 2011, pp. 189–192. • [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis with source activity tuning,” Proc. ICASSP, 2012, pp. 2417–2420. • [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang. Process., vol. 18, no. 3, pp. 550–563, 2010. • [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation of blind signal separation method using directivity pattern under reverberant conditions,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. 66
  67. 67. 参考文献(アルファベット順)(3/3) • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, 2013. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. 67

Editor's Notes

  • 私の研究では「音源分離,audio source separation」と呼ばれる技術の実現を目指しています.
    これは音響信号を対象とした信号処理技術の一つに分類されます.信号処理というのは,工学的には,観測されたあらゆる信号から,何か有益な意味や情報を引き出し活用する技術です.画像や電波や地震波形等,どのような信号でも対象になりますが,音源分離は音響信号,即ち空気の振動をマイクロホンで電気信号に変換したものが対象です.
    そこから有益な意味や情報を引き出すことは,例えばこの図のように,雑音に埋もれた人の声の検出や何としゃべっているかを認識すること等が挙げられます.これがスマートホンの音声認識かもしれないし,もしかしたら災害現場で観測した信号で,「助けて」と叫んでいる声かもしれません.
    音源分離では用途に応じて,人の声や雑音,歌声,楽器音,機械音等あらゆる音源が分離対象となります.
    このような技術は,実は人間の持つカクテルパーティ効果を機械で実現することに相当します.カクテルパーティ効果というのは,このようにがやがやとうるさい場所でも,自分が会話している相手の声だけに注意を向けて聞き取ることができる人間の能力のことです.
  • この音源分離技術の応用先を紹介いたします.ただしこれはほんの一例です.
  • 但し本日の発表では
  • This is a history of basic theories in audio BSS field.
    For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models.
    On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems.
    Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA.
    I will explain about the detail.
  • This is a history of basic theories in audio BSS field.
    For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models.
    On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems.
    Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA.
    I will explain about the detail.
  • まず,混ざる前の音源信号は非ガウスな分布から生成されていると仮定します.この仮定は多くの場合に有効で,事実音声や楽器音などはガウス分布よりも裾の重い,とんがった優ガウスな分布に従います.
    このような音源信号が混ざった観測信号は,中心極限定理により,ガウス分布に近い信号になります.
    FDICAでは分離後の信号の時間周波数領域の周波数毎の時系列信号に対して,スカラーの生成モデルを考えています.はじめは分離フィルタが正しくないため,推定信号はまだ混ざった状態で,その信号の分布はガウス分布に近くなります.そこでICAは,この推定信号の分布形状が,あらかじめ仮定しておいた非ガウスな分布になるように分離フィルタを更新していきます.ここで,仮定しておく非ガウスな音源分布を「音源モデル」と呼び,これらは音源間で互いに独立と仮定しています.
    このように,ガウスな信号から遠ざけ,音源モデルに従う信号を推定することで,混ざる前の音源が推定できる,というのがICAの原理で,それを周波数成分ごとに動かしているのがFDICAです.
    IVAでも原理は同じですが,FDICAで周波数毎に独立に定義されていたスカラー確率変数をまとめて多変量なベクトルの時系列信号とし,この図のように球対称な多変量非ガウス分布に近づけます.
    こちらも初めは多変量ガウス分布だったものが,更新によってそれぞれの信号が非ガウスな音源モデルへと近づき,分離されるという仕組みです.
    IVAでは球対称な多変量分布を仮定することで,周波数間の依存関係も考慮されており,FDICAよりも高精度な分離が可能です.
    どちらも,音声の分離などではラプラス分布,あるいは多変量ラプラス分布などが音源モデルとして利用されています.
  • This is a history of basic theories in audio BSS field.
    For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models.
    On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems.
    Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA.
    I will explain about the detail.
  • ここから音楽信号にどのような特徴があるかについて,実例とともに直感的に説明します.これは頂いたコメントの修正に対応しております.
    これらはドラム,ギター,ボーカル,音声の4つの信号を時間と周波数で表現したパワースペクトログラムと呼ばれる図です.各時間での各周波数成分の強度を示しています.
    ドラムやギターといった楽器音信号は同じ音を何度も繰り返すという性質を持っていることが分かります.また,ボーカルや音声信号はダイナミックにピッチが変動している様子が見て取れます.
    当然音声にも子音や母音,抑揚といった構造は存在しますが,それらは音楽信号の「同じパターンの繰り返しが多い」という構造よりもずっと複雑です.
    このような特質の違いは,これらを二次元の非負行列と考えたときに,ランク構造として現れます.
  • この提案法を「独立低ランク行列分析」と名付け,以後ILRMAと呼びます.
    図の通り,時間と周波数で分散が変動するような複素ガウス分布を音源モデルとして仮定しており,全体はやはり非ガウスな分布となっています.
    このようなモデルを音源ごとに与えることで,分離した音源が「互いに独立」かつ「できるだけ低ランクスペクトログラム」になるような仕組みとなっています.
  • 提案手法ILRMAの対数尤度関数はこのように得られます.ここで(クリック)青丸で囲った空間分離フィルタWと,赤丸で囲ったNMF音源モデルTVが求めるべき変数になります.(クリック)
    さらにこの式は,(クリック)前半が従来のIVAのコスト関数と等価であり,(クリック)後半が従来のNMFのコスト関数と等価です.(クリック)
    したがって,IVAとNMFの反復更新式を交互に反復することで全変数を容易に推定できます.
    さらに,音源毎に適切なランク数を潜在変数で適応的に決定することも可能です.
    これは,冒頭で示した通り,音楽信号といえどもボーカルはあまり低ランクにならず,ドラム信号は低ランク,といったことが起こりえますので,音源毎の適切なランクが変わります.
    そのような状況に対して尤度最大化の基準で自動的に基底を割り振るのがこの潜在変数の役割です.
  • ILRMAの反復更新式はこのように導出できます.
    空間分離フィルタの更新と音源モデルの更新を交互に行うことで,全変数が最適化されます.
    これらの反復計算で尤度が単調増加することが保証されているので,初期値近傍の局所解への収束が保証されています.
  • つまり,提案手法はまず空間分離フィルタを学習し,それで分離された信号の音色構造をNMFで学習,その結果得られる音源モデルを空間分離フィルタの学習に再利用し,さらに高精度な分離信号が得られる,という反復になります.
    このプロセスを何度も更新することで,音源毎の明確な音色構造が捉えられ,空間分離フィルタの性能向上が期待できます.
  • また,論文ではNMFの多チャネル信号への拡張手法である多チャネルNMFとILRMAが密接に関連しているという事実を明らかにしています.
    簡単に説明いたしますと,従来の多チャネルNMFで定義されている空間情報に関するモデル「空間相関行列」のランクが1となる制約を課した場合とILRMAが等価となる,という事実です.
    ただし,多チャネルNMFは混合系を推定する手法であり,ILRMAやIVAのように分離系を推定する技術とは異なります.そのため,多チャネルNMFは計算効率や不安定性の観点から実用性にやや欠ける点があります.これに関しては比較実験で示します.
  • また,論文ではNMFの多チャネル信号への拡張手法である多チャネルNMFとILRMAが密接に関連しているという事実を明らかにしています.
    簡単に説明いたしますと,従来の多チャネルNMFで定義されている空間情報に関するモデル「空間相関行列」のランクが1となる制約を課した場合とILRMAが等価となる,という事実です.
    ただし,多チャネルNMFは混合系を推定する手法であり,ILRMAやIVAのように分離系を推定する技術とは異なります.そのため,多チャネルNMFは計算効率や不安定性の観点から実用性にやや欠ける点があります.これに関しては比較実験で示します.
  • 音楽信号の分離実験を行いました.こちらは実験条件です.二つの音楽信号をこのような配置で鳴らし,2チャンネルのマイクで録音しました.このときの残響時間は300msです.
    評価値はSDRという値を用いています.これは音質と分離度合いを含む総合的な性能を示す尺度です.
  • こちらは3音源の分離結果の一例です.横軸は最適化更新回数,縦軸は分離精度をそれぞれ示しています.
    このように,反復更新に対する収束速度が多チャネルNMFとは全く違い,IVAやILRMAは非常に高速であることがわかります.
    また,一回の反復に対する計算量も大きく違うため,実際にかかる計算時間も非常に小さくなっています.
    そして分離精度はILRMAが良く,少し収束は遅くなりますが潜在変数がある場合が最もよくなっております.
  • 最後に主観評価による比較結果です.ここでは,音声信号と音楽信号の分離でそれぞれ比較しました.実験にはサーストンの一対比較法を用いています.
    結果から,IVAは,音声信号は良好に分離しますが,音楽信号には不向きであることがわかります.また,多チャネルNMFはその逆の結果となっています.
    ILRMAは両信号において最も好まれる結果となっており,提案法の分離が主観的にも優れていることがわかります.
  • それでは実際にどの程度分離できるかをお聞かせします.これは音楽信号の分離の例です.
    ギター,ボーカル,キーボードの3音源の音楽信号を,提案法でパート毎に分離した結果です.
    まず混合音楽です.3つのパートが鳴っていることに注意して聞いてください.
    ボーカルの分離音です.キーボードの分離音です.最後にギターの分離音です.
    かなり高精度で分離できており,ここから自動採譜や再編集等が可能になります.
    このような精密な分離は,単純なイコライザ等の処理では全く不可能な処理です.
  • 但しロボットへの応用が全てではなく,あくまで一例.
    ブラインドなので何に対しても応用可,更なる高品質な音源分離を実現する道が開けたといっても過言ではない.
  • 今後の計画ですが,音源モデルに構造の概念を導入したことで,いろいろなことができるようになります.
    一番大きい発展は,構造に対する詳細な「操作」が可能となったことです.
    例えば,ユーザとのインタラクションを持たせること,つまり音源分離の途中でユーザが介入でき,より高品質な分離へ誘導するといったことができます.
    あるいは,現実的な学習データを用いることも可能です.とくに音楽信号では「楽譜」が簡単に手に入り,これは非常に強力な事前情報と言えます.
  • Description

    北村大地, 小野順貴, 澤田宏, 亀岡弘和, 猿渡洋, "独立低ランク行列分析に基づくブラインド音源分離," IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73–80, Toyama, October 2017 (招待講演).
    Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, and Hiroshi Saruwatari, "Blind source separation based on independent low-rank matrix analysis," IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73–80, Toyama, October 2017 (in Japanese, Invited talk).

    Transcript

    1. 1. 独立低ランク行列分析に基づくブラインド音源分離 Blind Source Separation Based on Independent Low-Rank Matrix Analysis 北村大地 小野順貴 澤田宏 亀岡弘和 猿渡洋 応用音響研究会(EA) 2017年10月22日(日)09:00–10:00 [招待講演] 東京大学大学院情報理工学系研究科 首都大学東京システムデザイン研究科 NTTコミュニケーション科学基礎研究所 NTTコミュニケーション科学基礎研究所 東京大学大学院情報理工学系研究科
    2. 2. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 2 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
    3. 3. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 3 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
    4. 4. • 音源分離(audio source separation) – 音響信号を対象とした信号処理技術の一つ • 信号処理:観測信号から有益な意味や情報を引き出し活用する技術 • 知能情報学・機械学習の一大トピック – 人の声,雑音,歌声,楽器音,機械音等の音源を「分離」 – 人間の持つカクテルパーティ効果を機械で実現:機械の耳 • カクテルパーティ効果: うるさい場所でも特定の人物の 声に注意を向けて聞き取ること ができる人間の能力 音源分離の工学的・社会的な重要性 4 観測信号 雑音の中に人の声がある!ただの雑音…
    5. 5. • 補聴器デバイス – 雑音環境での聞きやすさを改善,健常者も対象 • 眼鏡と同じくらい補聴器は一般に普及するか • 音声認識 – 耐雑音性向上,会議等の複数話者同時認識 • 自動採譜 – 楽器毎の楽譜を 音楽CDから直接作成 • ライブ音楽演奏の再編集 – 音楽演奏は一期一会,その場で音源が混合 – 音楽・芸術文化の興隆 – 芸術性を損なわない超高品音源分離 • 70人のオーケストラ演奏から「この人のヴァイオリン」が分離できるか 音源分離の応用の一例 5 音楽CD 分離
    6. 6. 音源分離の技術的俯瞰:観測条件 • 観測信号のマイク数(チャネル数)による条件の違い – 単一チャネル信号(モノラル信号) • 音源分離には最も困難な録音条件 – 応用範囲は最も広い • 音色に関する情報しか得られない – 劣決定条件(音源数 マイク数) • 2チャネル(ステレオ)等,混合されて いる音源の方がチャネルよりも多い • 単一チャネルでは得られなかった空間 的な情報が得られる – 各マイクで観測した信号間の振幅差と位相差 – 優決定条件(音源数 マイク数) • 十分な数のマイクがある – 録音装置は大規模化,煩雑化 • 得られる空間的な情報の量も多い – 空間情報を使う音源分離は比較的高性能 6 音楽CD L-ch R-ch ステレオ信号(2-ch) モノラル録音 1ch モノラル信号(1-ch) マイクアレイ 1ch Mch 多チャネル信号 2ch … … 易 難
    7. 7. • 事前に用意できる外部からのヒント(教師情報)の有無 – 何もヒントがない「ブラインド音源分離」 • 複数の音源が既に混合された観測信号のみ利用可能 • 音源に関する何らかの「性質・仮定」を用いる必要あり – 推測される音声の特徴や楽器音の特徴等 – 使えるヒントがある「教師あり音源分離」 • 音源分離問題を解くヒントがあれば分離性能は向上 • 利用可能な教師は様々 – 分離したい音源の音色サンプル(少量) » 音色をそのままパーツとして用いる – 分離したい音源の音色サンプル(大量) » 近年発展している深層学習(AI)を適用 – マイク位置や音源位置等,録音時の空間的な情報 – その他,楽譜,ユーザからの指示,カメラからの情報等 • 本講演では「優決定条件ブラインド音源分離」を対象とし, 最先端の音源分離アルゴリズムを紹介 音源分離の技術的俯瞰:前提条件 7 音階のサンプル 難 易
    8. 8. • 基礎理論とその拡張手法 音源分離の歴史と発展(一部) 8 1994 1998 2013 1999 2012 年代 パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
    9. 9. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 9 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
    10. 10. • 基礎理論とその拡張手法 音源分離の歴史と発展(一部) 10 1994 1998 2013 1999 2012 年代 パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
    11. 11. ブラインド音源分離と独立成分分析 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 – マイクの位置や間隔,音源の位置等の情報が不要 • 優決定条件(マイク数≧音源数)のBSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], ・・・ • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006], [Kim, 2007], [Ono, 2011], [Ono, 2012], ・・・ • 電波,脳等の生体信号,地震波形等の分野で発展 • ICA理論の確立後は音響信号処理分野が世界的に牽引 11 BSS 混合系 分離系
    12. 12. ICAの分離原理:音源の分布とは? • 音声波形の分布 13 Amplitude Time samples 0付近で急峻であり,裾が広 い分布 ガウス分布(正規分布)とは 全然違う,非ガウス分布 Amountofcomponents Amplitude 0 0.1 0.2 0.3 0.4 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 ガウス分布(正規分布)
    13. 13. ICAの分離原理:音源の分布とは? • ピアノ音波形の分布 13 Amplitude Time samples やはりガウス分布より尖っ ていて裾が広い Amountofcomponents Amplitude 0 0.1 0.2 0.3 0.4 0.5 0.6 -5 -4 -3 -2 -1 0 1 2 3 4 5 ラプラス分布
    14. 14. ICAの分離原理:音源の分布とは? • ドラム音の分布 13 Amplitude Time samples やはりガウス分布より尖っ ていて裾が広い Amountofcomponents Amplitude 0 0.2 0.4 0.6 0.8 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 コーシー分布
    15. 15. ICAの分離原理:中心極限定理の検証 15 • 音源の分布(生成モデル)は多くの場合非ガウスな分布 – しかし混合音しか観測できないので各音源の分布は不明 • 中心極限定理(central limit theorem) – 「いかなる分布から生成される確率変数も足していくとガウス分 布に従う確率変数に近づいてゆく」※ • 信じられない? 0 0.1 0.2 0.3 0.4 0.5 0.6 -5 -4 -3 -2 -1 0 1 2 3 4 5 ラプラス分布 0 0.002 0.004 0.006 0.008 0.01 -5 -4 -3 -2 -1 0 1 2 3 4 5 一様分布 Generate r.v.s 正規分布 0 0.1 0.2 0.3 0.4 0.5 -5 -4 -3 -2 -1 0 1 2 3 4 5 ※ただし中心極限定理を満たさない確率分布もある (安定分布族と呼ばれ,「一般化中心極限定理」が成り立つ)
    16. 16. ICAの分離原理:中心極限定理の検証 16 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – では という値はどのような分布に従うか? Amount Amount
    17. 17. ICAの分離原理:中心極限定理の検証 17 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – では はどうか? Amount もはや一様分布ではない
    18. 18. ICAの分離原理:中心極限定理の検証 18 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 Amount Amount
    19. 19. ICAの分離原理:中心極限定理の検証 19 • と を独立な「サイコロの目」の確率変数とする – – おそらくどの目も生成確率は1/6 • それぞれのサイコロを100万回降った結果 – どんどんガウス分布に近づいてゆく(中心極限定理)
    20. 20. ICAの分離原理:中心極限定理の検証 20 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples Amount Amplitude Amplitude Time samples Amount Amplitude
    21. 21. ICAの分離原理:中心極限定理の検証 21 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude
    22. 22. ICAの分離原理:中心極限定理の検証 22 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples Amount Amplitude Amplitude Time samples Amount Amplitude
    23. 23. ICAの分離原理:中心極限定理の検証 23 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude
    24. 24. ICAの分離原理:中心極限定理の検証 24 • は 番目の話者の音声信号 – – , およそ3.3 s Amplitude Time samples AmountAmplitude ほぼ ガウス分布
    25. 25. ICAの分離原理:非ガウス性・独立性の最大化 25 • 中心極限定理から言えること – ガウス分布は「確率変数の混合」の極限にある – もし各信号の非ガウス性を最大化することができるならば, 混合する前の信号を推定することができる(かもしれない) ICAの音源分離の原理 各成分の 非ガウス性最大化 成分間の 独立性最大化 より一般的には 混ざることでガウス分布に 近づいてゆく(中心極限定理) 非ガウス性を最大化すること で分離されてゆく(ICA)
    26. 26. ICAの分離原理:前提条件 • ICAにおける前提条件(用いられる仮定) – 1. 混合前の各音源は互いに独立である – 2. 混合前の各音源は非ガウスな分布に従う – 3. 混合系は時不変であり逆系(分離系)が存在する 混合系 未知の音源 1. 互いに独立 2. 非ガウスな分布 3. 時不変かつ 逆系が存在 10 観測できる 混合信号 逆行列
    27. 27. ICAの分離原理:不確定性 • ICAにおける不確定性 – 1. 分離信号のスケール(音量)は決定できない – 2. 分離信号の順番(パーミュテーション)は決定できない 11 ICA ICA 未知の音源 観測できる 混合信号 未知の音源 観測できる 混合信号 推定された 分離信号 推定された 分離信号
    28. 28. • 実際の音響信号の混合 – 残響による畳み込み混合 • 例: 会議室では300 ms,コンサートホールでは2 s等 – 時不変混合係数 が時不変混合フィルタ に変化 • 畳み込み混合の分離系をICAでどう推定するか – 1. 時間領域での逆フィルタ を推定 • 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり) • ICAで推定すべきパラメータが爆発的に増加→推定は困難 – 2. 周波数領域でICAを適用(フーリエ変換で畳み込みを積に) • 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易 • パーミュテーション問題に直面 周波数領域ICA(FDICA) 28 残響長 (混合フィルタのタップ長) 瞬時混合 畳み込み混合
    29. 29. 周波数領域ICA(FDICA) • 短時間フーリエ変換(short-time Fourier transform: STFT) – 音響信号を短時間で切り出して周波数領域に変換 – 畳み込み混合を周波数領域の瞬時混合に変換 • フーリエ変換により「畳み込み」が「積」に変換されるため – ICA理論がそのまま適用可能 • 一つ一つの周波数に独立なICAを適用し周波数毎の分離行列を推定 29 … 窓長 シフト長 Frequency Time … 窓長 窓関数 フーリエ変換 フーリエ変換 フーリエ変換 スペクトログラム 時間信号
    30. 30. 周波数領域ICA(FDICA) • 周波数領域ICA(FDICA)[Smaragdis, 1998] – 各周波数ビンの複素時系列に対して独立なICAを適用 30 多チャネルスペクトログラム ICA1 ICA2 ICA3 … … ICA Frequencybin Time frame … 逆行列 周波数領域の時不変 瞬時混合行列
    31. 31. 周波数領域ICA(FDICA) 31 ICA 全て時間周波数 領域の信号 音源1 音源2 観測1 観測2 Permutation Solver 分離信号1 分離信号2 Time • FDICAにおけるパーミュテーション問題 – 各周波数ビンで推定信号の順序がバラバラになる – 様々なパーミュテーションソルバが検討されている ※分散(スケール)もバラバラになるが,これは容易に戻すことが可能
    32. 32. 到来方向を用いたパーミュテーション解決 32 • FDICA+DOAクラスタリング[Saruwatari, 2006] – 推定分離フィルタ から混合フィルタ を逆算 – 音源の到来方向(DOA)でクラスタリング 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 推定された 音源成分の頻度 到来方向(DOA) 正面左 右 DOA クラスタリング Source 1 Source 2 正面 左 右 音源 とマイクアレイ間の 伝達系を表す 「ステアリングベクトル」 混合行列の列ベクトル
    33. 33. 独立ベクトル分析(IVA) • パーミュテーション問題解決のエレガントなアプローチ – 分離フィルタ推定(周波数毎のICAの最適化) – パーミュテーション問題の解決(ポスト処理) • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] – ICAを多変量(多次元)分布モデルへ拡張( ) – 周波数をまとめたベクトル変数に対するICA 33 1個の問題の 最適化で実現したい … … 混合行列 … … … 観測信号 分離行列 推定信号 互いに独立 多変量非ガウス分布 互いに高次相関を持つ 同じ時間変動を持つ周波数成分を「一つの音源」にまとめる スカラー ベクトル
    34. 34. • FDICAの分離原理 • IVAの分離原理 FDICAとIVAの分離原理比較 34 観測信号 推定信号の分布形状が,あらかじめ仮定した 非ガウスな音源分布に近づくよう分離フィルタを更新 推定信号 分離フィルタ 推定信号の 現在の分布形状 非ガウスな 音源分布 STFT Frequency Time Frequency Time 観測信号 推定信号 分離フィルタ 推定信号の 現在の分布形状 STFT Frequency Time Frequency Time 非ガウスな 球対称多変量 音源分布 スカラーの 確率変数 ベクトルの多変量 確率変数 推定信号の分布形状が,あらかじめ仮定した 非ガウスな球対称多変量音源分布に近づくよう 分離フィルタを更新 中心極限定理より,混合信号 はガウス分布に近い信号 本来の音源信号は 非ガウス分布に従う 互いに 独立 互いに 独立
    35. 35. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 35 独立成分分析 に由来する音源分離法 の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
    36. 36. • 基礎理論とその拡張手法 音源分離の歴史と発展(一部) 36 1994 1998 2013 1999 2012 年代 パーミュテーション問題 解決法の検討 NMFの様々な問題への適用 生成モデル的解釈の発見 各種拡張手法 独立成分分析(ICA) 周波数領域ICA(FDICA) 板倉斎藤擬距離NMF(ISNMF) 独立ベクトル分析(IVA) 多チャネルNMF 独立低ランク行列分析(ILRMA) 代表的なもののみ記述 2016 2009 2006 2011 補助関数IVA(AuxIVA) 時変複素ガウスIVA 非負値行列因子分解(NMF)
    37. 37. 非負値行列因子分解による音のモデリング • 非負値行列因子分解(NMF) [Lee, 1999] – 非負制約付きの任意基底数( 本)による低ランク近似 • 限られた数の非負基底ベクトルとそれらの非負係数を抽出 – STFTで得られるパワースペクトログラムに適用 • 頻出するスペクトルパターンとそれらの時間的な強度変化 37 Amplitude Amplitude 混合された観測行列 (パワースペクトログラム) 基底行列 (スペクトルパターン) アクティベーション行列 (時間的強度変化) Time : 周波数ビン数 : 時間フレーム数 : 基底数 Time Frequency Frequency 基底 アクティベーション
    38. 38. NMFによる低ランク近似と音源分離の例 • 例 38 Pf. and Cl. ランク1の スペクトログラムの和
    39. 39. NMFによる低ランク近似と音源分離の例 • 例 – Pf. と Cl. が分離された! – 実際は30本等の基底で混合信号を分解 • どの基底がPf.でどの基底がCl.かを推定しなければならない • NMF音源分離は「複数の基底を音源ごとにクラスタリングする問題」 • ブラインドでは難しい・・・(挑戦例もあり) 39 Pf. Cl. Pf. and Cl.
    40. 40. • NMFにおける変数の最適化 – 観測 とモデル の距離をコストとし変数について最小化 – 距離関数は任意 • 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・ – いずれの距離関数でも閉形式の解は未発見 – 効率的な反復更新による最適化アルゴリズム • 補助関数法に基づく乗算型更新式(最も有名) [Lee, 2000] NMFのパラメータ推定 40 (コスト関数が二乗ユークリッド距離の場合)
    41. 41. • 音楽信号の音源分離の特徴 – 離散的構造 限られた数の音高(ピッチ)の重ね合わせ • 重なり合った音をパーツ単位に分割しその線形結合で表現できる • 離散的構造を持つ信号の適切な表現 – 音楽信号の「低ランクな時間周波数構造」 – NMFの「低ランク近似分解」 • 音源分離以外にも音楽信号処理で広く活用されている – 自動採譜,ビートトラッキング,超解像,・・・ NMFと音楽信号の相性 41 限られた数の音高(音の高さ) 限られた数の音価(音の長さ) 離散的なパーツの重ね合 わせで構成されている
    42. 42. 音楽信号は本当に低ランク? 42 ドラム ギター ボーカル 音声
    43. 43. • 低ランク性の指標(行列の構造のシンプルさ) – 累積特異値(cumulative singular value)で確認できる • 行列を特異値分解して得られる特異値を大きい順に並べたときの累積 – ボーカル及び音声は楽器音ほど低ランクではない – 楽器音は少ない数の音パーツ(基底)で構成(離散的構造) 音楽信号は本当に低ランク? 43 95% line 7 29 Around 90 累積特異値が95%に達するときの 基底の本数 (スペクトログラムのサイズは1025x1883)
    44. 44. • 板倉斎藤擬距離に基づくNMF[Févotte, 2009] • この生成モデルはガウス分布の再生性を用いて分解可 – とおくと 板倉斎藤擬距離基準NMF(ISNMF) 44 最小化は等価 点対称零平均複素ガウス分布 観測の複素数値 複素ガウスの分散
    45. 45. • パワースペクトログラムは複素ガウスの分散に対応 板倉斎藤擬距離基準NMF(ISNMF) 45 Frequencybin Time frame : パワースペクトログラム パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が変動する為,スペクト ログラム全体の密度分布 はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 但し濃淡が濃い方が 大きなパワーを示す
    46. 46. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 多次元観測音響信号への拡張 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 46 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
    47. 47. 動機 • ICAで仮定される非ガウス音源分布 – 分離行列を推定する唯一の手がかり:音源モデル – 正確な音源モデル 高精度な分離行列の推定 • ISNMFは音源の時間周波数 構造を分散の変動で表現 • 低ランク時間周波数構造をICAの音源モデルに導入 独立低ランク行列分析(ILRMA)[Kitamura, 2016] 47 分離行列混合系 音源 モデル
    48. 48. 48 Frequency Time IVAの 音源モデル Frequency Time 周波数方向には一様な分散 時変な成分 Frequency Basis Basis Time 基底数(音源モデルのランク数)は任意 Frequency Time ILRMAの 音源モデル 時間周波数上での分散の変動を NMFで低ランク表現 濃淡が分散の大小 分散の大小は音源のパワーの大小 「低ランク性」の音源モデルへの導入
    49. 49. 提案手法:IVAとNMFを融合した新しいBSS • 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA) – 時間周波数で分散が変動する複素ガウス分布を仮定 – 分離音源が「互いに独立」かつ「できるだけ低ランク」になる 49 イ ル マ 非ガウス分布 複素ガウス分布 Frequency Basis Basis Time 基底数(音源モデルのランク数)は任意 Frequency Time ILRMAの 音源モデル 時間周波数変動分散 (低ランク音源モデル)
    50. 50. Frequency Time 提案手法:IVAとNMFを融合した新しいBSS • FDICA,IVA,及びILRMAの比較 50 Frequency Time FDICAの音源モデル スカラー変数の非ガウス分布 IVAの音源モデル ベクトル変数の多変量な 球対称非ガウス分布 ILRMAの音源モデル NMFによる低ランクな 時間周波数構造 低ランクな時間周波数構造を 持つように分離フィルタを更新 観測信号 推定信号 分離 フィルタ ILRMAの分離原理 1. 音源間の独立性を最大化(混合信号は独立になっていない) 2. 音源毎の時間周波数構造は低ランク(混合信号の時間周波数構造は高ランク)
    51. 51. • ILRMAのコスト(対数尤度)関数 – IVAの反復更新式 – NMFの反復更新式 • 音源の適切なランク数を潜在変数で推定することも可能 – Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク ILRMAのコスト関数と潜在変数の導入 51 分離信号: ISNMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間分離フィルタの推定に寄与) 2つの交互最適化反復で 全変数を容易に推定可能 潜在変数の導入 0~1の値をとる潜在変数
    52. 52. ILRMAの最適化 • ILRMAの反復更新式(最尤推定) – NMF変数の最適化は補助関数法に基づく乗法更新式 – 反復で尤度が単調増加することが保証されている • 必ずどこかの局所解(停留点)へ収束 52 空間分離フィルタと分離信号の更新 音源モデルの更新 但し, , は 番目の要素のみ1で 他 は0の縦ベクトル
    53. 53. ILRMAの更新のイメージ • 音源毎の空間情報(空間モデル)と 各音源の音色構造(音源モデル)を交互に学習 – 音源毎の時間周波数構造を正確に捉えることで,独立性基準 での線形時不変な空間分離の性能向上が期待できる 53 空間分離フィルタ の学習 混合信号 分離信号 音源モデル の更新 NMF NMF 音源モデル の学習
    54. 54. IVA,多チャネルNMF,ILRMAの関連性 • 多チャネルNMF(MNMF) [Sawada, 2013] からみると – 混合系の推定を分離行列の推定問題に変換(高速,安定) • IVAからみると – 音源モデルの基底数を1から任意数に拡張 54 分離行列混合系 Frequency Time Frequency Basis Basis Time IVA ILRMA MNMF ILRMA
    55. 55. IVA,多チャネルNMF,ILRMAの関連性 • 独立に発展したIVAと多チャネルNMFが実は密接に関 連している事実を世界で初めて理論的に証明 – 証明の詳細はEA原稿3.4節に記載 55 音源モデル 空間モデル 柔軟限定的 柔軟限定的 IVA 多チャネル NMF ILRMA NMFの音源 モデルを導入 空間相関行列を ランク1行列に制限 分離行列に変数変換
    56. 56. 音楽音源分離実験の条件 • 実験条件 56 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャンネルで2音源の混合信号 窓長(FFT長) 512 ms,ハニング窓 シフト長 128 ms (1/4シフト) 基底数 1音源につき30本(ILRMA1),全音源で60本(ILRMA2) 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) 2 m Source 1 5.66cm 50 50 Source 2 2 m Source 1 5.66cm 60 60 Source 2 Impulse response E2A (reverberation time: 300 ms) Impulse response JR2 (reverberation time: 470 ms)
    57. 57. 実験結果: fort_minor-remember_the_name 57 16 12 8 4 0 -4 -8 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 16 12 8 4 0 -4 -8 SDRimprovement[dB] Violin synth. Vocals Violin synth. Vocals E2A (300 ms) JR2 (470 ms) Poor Good Poor Good
    58. 58. 実験結果: ultimate_nz_tour 58 Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 20 15 10 5 0 -5 SDRimprovement[dB] Sawada’s MNMF IVA Ozerov’s MNMF Ozerov’s MNMF with random initialization Sawada’s MNMF initialized by proposed method Proposed method w/o partitioning function Proposed method with partitioning function Directional clustering 20 15 10 5 0 -5 SDRimprovement[dB] Guitar Synth. Guitar Synth. Poor Good Poor Good E2A (300 ms) JR2 (470 ms)
    59. 59. 12 10 8 6 4 2 0 -2 SDRimprovement[dB] 4003002001000 Iteration steps IVA MNMF ILRMA ILRMA • SiSECデータベース収録のプロ音楽信号 – ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル) – 音源: acoustic_guit_main, bass, vocalsの3音源 各手法の性能と計算コストの比較例 59 (潜在変数無) (潜在変数有) 11.5 s 15.1 s 60.7 s 7647.3 s Poor Good
    60. 60. • 音声信号と音楽信号の分離結果を主観評価で比較 – 聴覚の正常な20代の男性10名女性4名 – サーストンの一対比較法(間隔尺度) 各手法の性能の主観評価による比較 60 1.6 1.2 0.8 0.4 0.0 -0.4 -0.8 -1.2 Subjectivescore IVA Multichannel NMF ILRMA Speech signals Music signals
    61. 61. 音源分離デモンストレーション:音楽分離の例 • 音楽信号 – “Ultimate NZ tour”,3音源 – イコライザ(音色の変更)では不可能な処理 61 Guitar Vocal Keyboard Guitar Vocal Keyboard 提案法による パートごとの 音源分離 3つのパートが鳴っていること に注意して聞いてください 他のデモ:http://d-kitamura.net/demo.htm
    62. 62. 災害現場でのヘビ型被害者捜索ロボット 62 • 内閣府 革新的研究開発推進プログラム(ImPACT) – 災害現場での被害者捜索用ヘビ型ロボットに応用 [Bando, 2016] • 成果:プレスリリース,論文採録 処理前の観測音 (ロボットの駆動ノイズが大きい) 提案法による 音源分離 強調された音声信号
    63. 63. 発表の概要 • 研究の背景 – 音源分離問題の工学的意義と技術的俯瞰 • ブラインド音源分離と独立成分分析 – 前提条件,問題解決に利用可能な手掛かり – 周波数領域への適用,耐残響性の向上 • 音楽信号の効率的なモデリング – 非負値行列因子分解による低ランク近似 – 板倉斎藤擬距離に基づく最尤推定 • 独立低ランク行列分析によるブラインド音源分離 – 独立低ランク行列分析 – 多チャネル非負値行列因子分解との関連性 • まとめとさらなる発展 – より高精度なブラインド音源分離を目指して 63 独立成分分析 に由来する信号源分離 法の発展 (1994年~2012年) 非負値行列因子分解 に由来する非負行列モ デリング法の発展 (1999年~2013年)
    64. 64. 開拓された新しいブラインド音源分離の形 • 潜在因子への構造モデルの導入による発展可能性 – 確率分布モデルでは困難だった詳細な「操作(induce)」が可能 – ユーザとのインタラクション • ユーザが分離の途中で構造モデルに介入 • 例:映画撮影等のプロ用途の音声強調 – 実現可能な学習データの活用 • 音楽信号では「楽譜」は強力な事前情報 • 楽譜の構造を直接モデルに反映可能 • 例:芸術性を損なわない超高品質な音楽編集 • その他の音源モデルの導入や教師あり手法への拡張 64 時間区間の指定 領域の指定周波数 時間 低ランク 周波数 時間 スパース 周波数 時間 グループスパース
    65. 65. 参考文献(アルファベット順)(1/3) • [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal Process., vol. 36, no. 3, pp. 287–314, 1994. • [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no. 3, pp. 793–830, 2009. • [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 601–608. • [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source Separation, 2006, pp. 165–172. • [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, 2007. • [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S. Nakamura, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 9, pp. 1626–1641, 2016. 65
    66. 66. 参考文献(アルファベット順)(2/3) • [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,” Nature, vol. 401, pp. 788–791, 1999. • [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562. • [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to Audio and Acoust., 2011, pp. 189–192. • [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis with source activity tuning,” Proc. ICASSP, 2012, pp. 2417–2420. • [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang. Process., vol. 18, no. 3, pp. 550–563, 2010. • [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation of blind signal separation method using directivity pattern under reverberant conditions,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143. • [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,” IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006. 66
    67. 67. 参考文献(アルファベット順)(3/3) • [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2004, pp. III-885–III-888. • [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 5, pp. 971–982, 2013. • [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency domain,” Neurocomputing, vol. 22, pp. 21–34, 1998. 67

    Editor's Notes

  • 私の研究では「音源分離,audio source separation」と呼ばれる技術の実現を目指しています.
    これは音響信号を対象とした信号処理技術の一つに分類されます.信号処理というのは,工学的には,観測されたあらゆる信号から,何か有益な意味や情報を引き出し活用する技術です.画像や電波や地震波形等,どのような信号でも対象になりますが,音源分離は音響信号,即ち空気の振動をマイクロホンで電気信号に変換したものが対象です.
    そこから有益な意味や情報を引き出すことは,例えばこの図のように,雑音に埋もれた人の声の検出や何としゃべっているかを認識すること等が挙げられます.これがスマートホンの音声認識かもしれないし,もしかしたら災害現場で観測した信号で,「助けて」と叫んでいる声かもしれません.
    音源分離では用途に応じて,人の声や雑音,歌声,楽器音,機械音等あらゆる音源が分離対象となります.
    このような技術は,実は人間の持つカクテルパーティ効果を機械で実現することに相当します.カクテルパーティ効果というのは,このようにがやがやとうるさい場所でも,自分が会話している相手の声だけに注意を向けて聞き取ることができる人間の能力のことです.
  • この音源分離技術の応用先を紹介いたします.ただしこれはほんの一例です.
  • 但し本日の発表では
  • This is a history of basic theories in audio BSS field.
    For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models.
    On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems.
    Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA.
    I will explain about the detail.
  • This is a history of basic theories in audio BSS field.
    For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models.
    On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems.
    Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA.
    I will explain about the detail.
  • まず,混ざる前の音源信号は非ガウスな分布から生成されていると仮定します.この仮定は多くの場合に有効で,事実音声や楽器音などはガウス分布よりも裾の重い,とんがった優ガウスな分布に従います.
    このような音源信号が混ざった観測信号は,中心極限定理により,ガウス分布に近い信号になります.
    FDICAでは分離後の信号の時間周波数領域の周波数毎の時系列信号に対して,スカラーの生成モデルを考えています.はじめは分離フィルタが正しくないため,推定信号はまだ混ざった状態で,その信号の分布はガウス分布に近くなります.そこでICAは,この推定信号の分布形状が,あらかじめ仮定しておいた非ガウスな分布になるように分離フィルタを更新していきます.ここで,仮定しておく非ガウスな音源分布を「音源モデル」と呼び,これらは音源間で互いに独立と仮定しています.
    このように,ガウスな信号から遠ざけ,音源モデルに従う信号を推定することで,混ざる前の音源が推定できる,というのがICAの原理で,それを周波数成分ごとに動かしているのがFDICAです.
    IVAでも原理は同じですが,FDICAで周波数毎に独立に定義されていたスカラー確率変数をまとめて多変量なベクトルの時系列信号とし,この図のように球対称な多変量非ガウス分布に近づけます.
    こちらも初めは多変量ガウス分布だったものが,更新によってそれぞれの信号が非ガウスな音源モデルへと近づき,分離されるという仕組みです.
    IVAでは球対称な多変量分布を仮定することで,周波数間の依存関係も考慮されており,FDICAよりも高精度な分離が可能です.
    どちらも,音声の分離などではラプラス分布,あるいは多変量ラプラス分布などが音源モデルとして利用されています.
  • This is a history of basic theories in audio BSS field.
    For acoustic signals, independent component analysis, ICA, was applied to the frequency domain signals as FDICA. After that, many permutation solvers for FDICA have been proposed, but eventually, an elegant solution, independent vector analysis, IVA was proposed. It is still extended to more flexible models.
    On the other hand, nonnegative matrix factorization, NMF, is also developed and extended to a multichannel signals for source separation problems.
    Recently, we have developed a new framework, which unifies these two powerful theories, called independent low-rank matrix analysis, ILRMA.
    I will explain about the detail.
  • ここから音楽信号にどのような特徴があるかについて,実例とともに直感的に説明します.これは頂いたコメントの修正に対応しております.
    これらはドラム,ギター,ボーカル,音声の4つの信号を時間と周波数で表現したパワースペクトログラムと呼ばれる図です.各時間での各周波数成分の強度を示しています.
    ドラムやギターといった楽器音信号は同じ音を何度も繰り返すという性質を持っていることが分かります.また,ボーカルや音声信号はダイナミックにピッチが変動している様子が見て取れます.
    当然音声にも子音や母音,抑揚といった構造は存在しますが,それらは音楽信号の「同じパターンの繰り返しが多い」という構造よりもずっと複雑です.
    このような特質の違いは,これらを二次元の非負行列と考えたときに,ランク構造として現れます.
  • この提案法を「独立低ランク行列分析」と名付け,以後ILRMAと呼びます.
    図の通り,時間と周波数で分散が変動するような複素ガウス分布を音源モデルとして仮定しており,全体はやはり非ガウスな分布となっています.
    このようなモデルを音源ごとに与えることで,分離した音源が「互いに独立」かつ「できるだけ低ランクスペクトログラム」になるような仕組みとなっています.
  • 提案手法ILRMAの対数尤度関数はこのように得られます.ここで(クリック)青丸で囲った空間分離フィルタWと,赤丸で囲ったNMF音源モデルTVが求めるべき変数になります.(クリック)
    さらにこの式は,(クリック)前半が従来のIVAのコスト関数と等価であり,(クリック)後半が従来のNMFのコスト関数と等価です.(クリック)
    したがって,IVAとNMFの反復更新式を交互に反復することで全変数を容易に推定できます.
    さらに,音源毎に適切なランク数を潜在変数で適応的に決定することも可能です.
    これは,冒頭で示した通り,音楽信号といえどもボーカルはあまり低ランクにならず,ドラム信号は低ランク,といったことが起こりえますので,音源毎の適切なランクが変わります.
    そのような状況に対して尤度最大化の基準で自動的に基底を割り振るのがこの潜在変数の役割です.
  • ILRMAの反復更新式はこのように導出できます.
    空間分離フィルタの更新と音源モデルの更新を交互に行うことで,全変数が最適化されます.
    これらの反復計算で尤度が単調増加することが保証されているので,初期値近傍の局所解への収束が保証されています.
  • つまり,提案手法はまず空間分離フィルタを学習し,それで分離された信号の音色構造をNMFで学習,その結果得られる音源モデルを空間分離フィルタの学習に再利用し,さらに高精度な分離信号が得られる,という反復になります.
    このプロセスを何度も更新することで,音源毎の明確な音色構造が捉えられ,空間分離フィルタの性能向上が期待できます.
  • また,論文ではNMFの多チャネル信号への拡張手法である多チャネルNMFとILRMAが密接に関連しているという事実を明らかにしています.
    簡単に説明いたしますと,従来の多チャネルNMFで定義されている空間情報に関するモデル「空間相関行列」のランクが1となる制約を課した場合とILRMAが等価となる,という事実です.
    ただし,多チャネルNMFは混合系を推定する手法であり,ILRMAやIVAのように分離系を推定する技術とは異なります.そのため,多チャネルNMFは計算効率や不安定性の観点から実用性にやや欠ける点があります.これに関しては比較実験で示します.
  • また,論文ではNMFの多チャネル信号への拡張手法である多チャネルNMFとILRMAが密接に関連しているという事実を明らかにしています.
    簡単に説明いたしますと,従来の多チャネルNMFで定義されている空間情報に関するモデル「空間相関行列」のランクが1となる制約を課した場合とILRMAが等価となる,という事実です.
    ただし,多チャネルNMFは混合系を推定する手法であり,ILRMAやIVAのように分離系を推定する技術とは異なります.そのため,多チャネルNMFは計算効率や不安定性の観点から実用性にやや欠ける点があります.これに関しては比較実験で示します.
  • 音楽信号の分離実験を行いました.こちらは実験条件です.二つの音楽信号をこのような配置で鳴らし,2チャンネルのマイクで録音しました.このときの残響時間は300msです.
    評価値はSDRという値を用いています.これは音質と分離度合いを含む総合的な性能を示す尺度です.
  • こちらは3音源の分離結果の一例です.横軸は最適化更新回数,縦軸は分離精度をそれぞれ示しています.
    このように,反復更新に対する収束速度が多チャネルNMFとは全く違い,IVAやILRMAは非常に高速であることがわかります.
    また,一回の反復に対する計算量も大きく違うため,実際にかかる計算時間も非常に小さくなっています.
    そして分離精度はILRMAが良く,少し収束は遅くなりますが潜在変数がある場合が最もよくなっております.
  • 最後に主観評価による比較結果です.ここでは,音声信号と音楽信号の分離でそれぞれ比較しました.実験にはサーストンの一対比較法を用いています.
    結果から,IVAは,音声信号は良好に分離しますが,音楽信号には不向きであることがわかります.また,多チャネルNMFはその逆の結果となっています.
    ILRMAは両信号において最も好まれる結果となっており,提案法の分離が主観的にも優れていることがわかります.
  • それでは実際にどの程度分離できるかをお聞かせします.これは音楽信号の分離の例です.
    ギター,ボーカル,キーボードの3音源の音楽信号を,提案法でパート毎に分離した結果です.
    まず混合音楽です.3つのパートが鳴っていることに注意して聞いてください.
    ボーカルの分離音です.キーボードの分離音です.最後にギターの分離音です.
    かなり高精度で分離できており,ここから自動採譜や再編集等が可能になります.
    このような精密な分離は,単純なイコライザ等の処理では全く不可能な処理です.
  • 但しロボットへの応用が全てではなく,あくまで一例.
    ブラインドなので何に対しても応用可,更なる高品質な音源分離を実現する道が開けたといっても過言ではない.
  • 今後の計画ですが,音源モデルに構造の概念を導入したことで,いろいろなことができるようになります.
    一番大きい発展は,構造に対する詳細な「操作」が可能となったことです.
    例えば,ユーザとのインタラクションを持たせること,つまり音源分離の途中でユーザが介入でき,より高品質な分離へ誘導するといったことができます.
    あるいは,現実的な学習データを用いることも可能です.とくに音楽信号では「楽譜」が簡単に手に入り,これは非常に強力な事前情報と言えます.
  • More Related Content

    Slideshows for you

    Similar to 独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank matrix analysis)

    Related Books

    Free with a 30 day trial from Scribd

    See all

    ×