Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
非負値行列分解の確率的生成モデルと
多チャネル音源分離への応用
Generative model in nonnegative matrix factorization and its
application to multichannel s...
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布...
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布...
自己紹介
• 名前: 北村大地(Daichi Kitamura)
• 年齢: 25(1990年3月11日生まれ),博士後期課程2年
• 経歴:
• 趣味: 旅行,サバゲー,猫,ギター,・・・
4
香川高等専門学校(旧高松工業高等専門学校)(16...
自己紹介
5
香川日本
うどん!
Kagawa
自己紹介
6
日本
奈良
Nara
大仏
NAIST
自己紹介
7
日本
Tokyo
国立情報学研究所
14F
学生室
自己紹介
• これまでにやってきた研究
– エレクトリックギターの弦振動解析(香川高専時代,原囿教授)
– 教師有り音楽信号分離(NAIST時代,鹿野教授,猿渡准教授)
– 多チャネルブラインド音源分離(現在,小野准教授)
• 非負値行列因子分...
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布...
• 音源分離技術
– 複数の音源が混ざった信号を個々の音源に分離する信号処理
– 音声と雑音の分離,個々の音源の編集,音拡張現実感等
• 音源分離の基本的な処理
– 時間-周波数表現されたスペクトログラム上で音源ごとに分解
音源分離技術とは?
...
• 多チャネル音源分離(アレー信号処理)
– マイクアレーなど多くのセンサで観測して分離
• ビームフォーミング
• 独立成分分析
• 時間周波数マスク 等
• 単一チャネル(モノラル信号処理)
– 主に音声強調(雑音抑圧)分野で発達
• スペ...
非負値行列因子分解 [Lee, et al., 1999]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
Time
Ω: 周波数ビン...
なぜ非負値制約を与えたのか?
13
• 観測データの非負性
– 世の中の多くの物事は非負値で表現するのが自然
• パワースペクトログラム,文書中の各単語の出現回数,画像データ etc.
• 基底行列の非負性
– 非負データの構成要素は非負である...
分解される基底行列の幾何学的解釈
14
データ数 基底数
次元数
部分空間 (凸錘, convex cone)
部分空間 (凸錘, convex cone)
凸錘: 凸集合の錘
データ点
データ点と凸錘の距離の和が最小
となる基底 を推定
• ...
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布...
NMFの最適化手法
16
不等式制約条件付き最適化問題
• 目的関数 を定義して最小化する と を求める
• 解法はいろいろあるが,有名な手法として効率的な反復
型最適化式がある [Lee, et al., 2001]
• 解析的な形では求まら...
NMFのコスト関数に用いる距離尺度
• 様々なコスト関数が提案されている
– 二乗ユークリッド距離
– 一般化カルバック・ライブラ(KL)ダイバージェンス
– 板倉斎藤(IS)擬距離
• NMF分解においてどのような特質を重視するかを左右
– ...
各距離規範の様子
• データ に対する の変化
– 変数 がデータ に不足する事に大きなペナルティを課す
• スペクトルのピークを精密にフィットさせようとする
18
NMFの生成モデル的解釈(EUC)
• 距離関数を定めることの統計的な解釈が存在
– 距離関数の選択: 観測データの生成モデルを定めている
– 二乗ユークリッド距離(β=2)基準
19
正規分布
下記の最尤推定と等価な問題
観測データは時間周波...
• 距離関数を定めることの統計的な解釈が存在
– 距離関数の選択: 観測データの生成モデルを定めている
– 一般化KLダイバージェンス(β=1)基準 [A. T. Cemgil, 2009]
NMFの生成モデル的解釈(KL)
20
ポアソン分布...
• 距離関数を定めることの統計的な解釈が存在
– 距離関数の選択: 観測データの生成モデルを定めている
– 板倉斎藤擬距離(β=0)基準
NMFの生成モデル的解釈(IS)
21
観測データは時間周波数毎に母数の
異なる指数分布から生成されている...
NMFの生成モデル的解釈(とりあえずまとめ)
• データと変数のフィッティングを,どの確率分布をもって
計っていくかを制御している
– その上で期待値(変数)を求める最尤推定問題を解いている
• これらの統計的解釈は全てBregmanダイバージ...
板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009]
• 従来のNMF分解の問題点
– データ行列(非負実数)は1本の基底と1本のアクティベーション
からなるランク1行列の線形結合として表現
– は振幅スペクトログラム...
• を複素スペクトログラムとする(STFTしたそのもの)
– 各時間周波数要素は複素要素 を 個足し合わせたもの
– 複素ガウス分布の線形結合なので も複素ガウス分布
• ガウス分布の再生性
• の複素ガウス分布の分散は
– 分散が時間周波数で...
• パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009]
25
Frequencybin
Time frame
: パワースペクトログラム
パワーが小=分散が小
殆ど0付...
• この生成モデルにおける 及び の推定
• パワースペクトログラムに対するISNMFは前述の生成モ
デルを仮定しており,理論的に極めて妥当なモデル
– NMF分解後にパワードメインでのウィーナフィルタ(理論的に妥当)
板倉斎藤擬距離基準NMF...
とはいえ
• では,パワードメインのISNMFがスペクトログラムの分解
や音源分離にとって最良な結果を与えるのか?
– 否!
– 例えば音源分離タスクにおいては「振幅ドメインのKLNMFが良
い」といろいろな文献で報告されている
• Ex. [...
Cauchy NMF [A. Liutkus, et al., 2015]
• 元々の動機はウィーナフィルタの一般化
– 乗ドメインでのウィーナフィルタの構築 [A. Liutkus, et al., 2015]
– (振幅ドメイン)で加法性の...
• この生成モデルにおける 及び の推定
• 振幅ドメインの加法性の妥当性を理論的に保証した分解
モデル
– NMF分解後に振幅ドメインでのウィーナフィルタ(理論的に妥当)
Cauchy NMF [A. Liutkus, et al., 201...
• 音源分離タスクにおいてパワードメインのISNMFよりは
良い性能をマーク
– しかし依然として振幅ドメインのKLには及ばず
• その他,コーシー分布の特徴(heavy-tail)を生かした
denoisingなどに応用可能(だそうです)
C...
NMFの生成モデル的解釈まとめ
• 従来の生成モデルによるNMFの解釈は成分 の重
ね合わせに関しては何も説明していない
– 線形結合された変数 が最尤推定のパラメータになって
いるという事実に過ぎない
• 一方で「複素数成分が生成されるとする...
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布...
優決定条件ブラインド音源分離
• ブラインド音源分離(blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– マイク位置,マイク間隔,音源位置等の情報が不要
• 優決定条件BSS
– 統計的独立...
• 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006]
– 音源毎の空間的な違いを用いた線形の空間分離フィルタ
– 音源間の統計的独立性仮定に基づいて分離フィルタを推定
– 高速かつ頑健な分離が可能
– 音源毎の音...
• 多チャネルNMF [Ozerov, 2010], [Sawada, 2013]
空間的な違いと音色の違いを用いた音源分離
35/21
時間周波数毎の
観測チャネル間相関
多チャンネル観測データ
多チャネル
ベクトル
瞬時チャネル間相関行列
...
• 多チャネルNMF [Ozerov, 2010], [Sawada, 2013]
– NMFの多チャネル拡張した音源分離手法
– 音色構造を音源毎の空間的な違いに基づいてクラスタリング
– コスト関数は板倉斎藤擬距離の多チャネル版(log-d...
ランク1多チャネルNMF
• 空間的な違いと音色構造を同時に用いた高速かつ頑健
な分離手法
– NMFによる音色構造表現を導入した独立性に基づく分離手法
• 空間モデルの推定は従来通り独立性基準(高速性,頑健性)
• 音源モデルの推定にはNMF...
ランク1空間モデルとは?
• 音源毎のチャネル間相関行列のランクが1
– 音源の伝達系が1本の時不変なステアリングベクトルで表現
– 複数の音源が存在する場合も音源毎の相関行列のランクは1
38
マイク
アレイ
観測
信号
音源
ステアリング
...
ランク1空間モデルとは?
• 音源毎のチャネル間相関行列のランクが1
– 時間周波数領域において1つの音源の伝達系が1本の時不変
なステアリングベクトルで表現可能
– 時間周波数領域における時不変複素瞬時混合モデル
– 音源やマイクの位置が変わ...
• 多チャネルNMFの目的関数にランク1モデルを導入
提案手法の定式化
40
1. ランク1チャネル間相関を導入( )
2. 混合行列 を用いて表現しなおす
3. 分離行列 と分離信号 に変数変換
NMFのコスト関数
(音源モデルの推定に寄与)...
提案手法のアルゴリズム
• 音源毎の空間的な違い(空間モデル)と各音源の音色構
造(音源モデル)を交互に学習
41
空間的な違い
の学習
混合信号
分離信号
音源モデル
IVA
NMF
NMF
音色構造の
学習
音源毎の音色構造を明確に捉えるこ...
音楽信号の音源分離実験
• 実験条件
42
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2チャネルで2音源の混合信号
比較手法 IVA, 多チャネルNMF,ランク1多チャネルNMF(提案手法...
音楽信号の音源分離実験
• 実験結果(曲名: ultimate nz tour, guitar and synth.)
43
20
18
16
14
12
10
8
6
4
2
0
SDRimprovement[dB]
Proposed
met...
講演概要
• 自己紹介
• 音源分離と非負値行列因子分解の関わり
• 最適化におけるコスト関数と生成モデルとしての解釈
– 良く用いられる距離尺度
– 従来の生成モデル
– 複素数を対象とした生成モデル
• 板倉斎藤擬距離基準
• コーシー分布...
まとめ
• 音源分離でよく用いられる非負値行列因子分解の紹介
• NMFによる分解の生成モデル解釈
– 距離基準に対応した生成モデルに対する最尤推定問題と等価
– 但し,複素数値や成分の線形結合を取り扱うわけではない
• 振幅スペクトルやパワー...
参考(1/3)
• NMF
– D. D. Lee, H. S. Seung, “Learning the parts of objects by nonnegative matrix factorization,” Nature,
vol.4...
参考(2/3)
• ISNMF(複素生成モデル)
– C. Févotte, N. Bertin, J.-L. Durrieu, “Nonnegative matrixfactorization with the Itakura-Saito d...
参考(3/3)
• 独立ベクトル分析(IVA)
– T. Kim, T. Eltoft T.-W. Lee, “Independent vector analysis: an extension of ICA to multivariate
c...
Upcoming SlideShare
Loading in …5
×

非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation)

4,011 views

Published on

北村大地, "非負値行列分解の確率的生成モデルと多チャネル音源分離への応用," 慶應義塾大学理工学部電子工学科湯川研究室 招待講演, Kanagawa, November, 2015.
Daichi Kitamura, "Generative model in nonnegative matrix factorization and its application to multichannel sound source separation," Keio University, Science and Technology, Department of Electronics and Electrical Engineeing, Yukawa Laboratory, Invited Talk, Kanagawa, November, 2015.

Published in: Science
  • Be the first to comment

非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix factorization and its application to multichannel sound source separation)

  1. 1. 非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 Generative model in nonnegative matrix factorization and its application to multichannel sound source separation Daichi Kitamura Ph.D. Student Department of Informatics School of Multidisciplinary Sciences The Graduate University for Advanced Studies (SOKENDAI) 慶応義塾大学 湯川研究室 2015年11月24日
  2. 2. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 2
  3. 3. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 3
  4. 4. 自己紹介 • 名前: 北村大地(Daichi Kitamura) • 年齢: 25(1990年3月11日生まれ),博士後期課程2年 • 経歴: • 趣味: 旅行,サバゲー,猫,ギター,・・・ 4 香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22) 電気情報工学科→専攻科(創造工学専攻), 学士(工学) 奈良先端科学技術大学院大学(22 ~ 24) 情報科学研究科, 修士(工学) 総合研究大学院大学(24 ~ 27) 複合科学研究科(情報学専攻),博士(情報学)取得を目指す 実家の猫 ギリシャ, サントリーニ島 サバゲー
  5. 5. 自己紹介 5 香川日本 うどん! Kagawa
  6. 6. 自己紹介 6 日本 奈良 Nara 大仏 NAIST
  7. 7. 自己紹介 7 日本 Tokyo 国立情報学研究所 14F 学生室
  8. 8. 自己紹介 • これまでにやってきた研究 – エレクトリックギターの弦振動解析(香川高専時代,原囿教授) – 教師有り音楽信号分離(NAIST時代,鹿野教授,猿渡准教授) – 多チャネルブラインド音源分離(現在,小野准教授) • 非負値行列因子分解(nonnegative matrix factorization: NMF) 8 音源信号 観測信号 分離信号 混合系 分離系
  9. 9. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 9
  10. 10. • 音源分離技術 – 複数の音源が混ざった信号を個々の音源に分離する信号処理 – 音声と雑音の分離,個々の音源の編集,音拡張現実感等 • 音源分離の基本的な処理 – 時間-周波数表現されたスペクトログラム上で音源ごとに分解 音源分離技術とは? 特定音源の 分離・抽出 Time Frequency 2つの音が存在 最初の音 2番目の音 分離 10
  11. 11. • 多チャネル音源分離(アレー信号処理) – マイクアレーなど多くのセンサで観測して分離 • ビームフォーミング • 独立成分分析 • 時間周波数マスク 等 • 単一チャネル(モノラル信号処理) – 主に音声強調(雑音抑圧)分野で発達 • スペクトル減算 • ポストフィルタ 等 – NMFを用いた音源分離手法が登場(2001年頃) • 音源分離が分解された基底のクラスタリング問題に帰着 • 教師有り手法,教師無し手法,共に急速に発達(~現在) • 音源分離においてNMFの登場は非常にショッキングで あった(ようです) 音源分離技術の歴史 11
  12. 12. 非負値行列因子分解 [Lee, et al., 1999] Amplitude Amplitude 観測行列 (スペクトログラム) 基底行列 (頻出スペクトルパターン) アクティベーション行列 (時間的なゲイン変化) Time Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底ベクトル数 Time Frequency Frequency 12 基底ベクトル • 非負値行列因子分解 (nonnegative matrix factorization: NMF) – 非負制約条件付き次元圧縮,有意な特徴量抽出法 – 非負制約によって暗にスパースな解が得られる傾向
  13. 13. なぜ非負値制約を与えたのか? 13 • 観測データの非負性 – 世の中の多くの物事は非負値で表現するのが自然 • パワースペクトログラム,文書中の各単語の出現回数,画像データ etc. • 基底行列の非負性 – 非負データの構成要素は非負であるべき • 負のスペクトル,負の出現回数,負の画素値は我々には解釈できない • アクティベーション行列の非負性 – 構成要素の混ざり方は足し算のみ→観測データは加算系によって生じる • 「非負制約を与えた低ランク近似」は暗に「スパースな分解」をする – スパースな解は有意な情報を表現する (可能性が高い)
  14. 14. 分解される基底行列の幾何学的解釈 14 データ数 基底数 次元数 部分空間 (凸錘, convex cone) 部分空間 (凸錘, convex cone) 凸錘: 凸集合の錘 データ点 データ点と凸錘の距離の和が最小 となる基底 を推定 • NMFで分解された基底ベクトルとは? • 3次元空間の3点を2本の基底ベクトルで張られる凸錘の 部分空間で表現 [D. Donoho, et al., 2003]
  15. 15. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 15
  16. 16. NMFの最適化手法 16 不等式制約条件付き最適化問題 • 目的関数 を定義して最小化する と を求める • 解法はいろいろあるが,有名な手法として効率的な反復 型最適化式がある [Lee, et al., 2001] • 解析的な形では求まらない(不良設定の逆問題の為)
  17. 17. NMFのコスト関数に用いる距離尺度 • 様々なコスト関数が提案されている – 二乗ユークリッド距離 – 一般化カルバック・ライブラ(KL)ダイバージェンス – 板倉斎藤(IS)擬距離 • NMF分解においてどのような特質を重視するかを左右 – 例: スペクトルのピークの一致度を重要視した分解(KL,IS) – 例: 距離値がスケールに対して不変な分解(IS) • より一般的な距離関数のβ-divergenceというものもある – β=0がIS,β=1がKL,β=2がEUCに対応する 17 但し,全要素の距離値の総和を コスト関数とするのが一般的
  18. 18. 各距離規範の様子 • データ に対する の変化 – 変数 がデータ に不足する事に大きなペナルティを課す • スペクトルのピークを精密にフィットさせようとする 18
  19. 19. NMFの生成モデル的解釈(EUC) • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 二乗ユークリッド距離(β=2)基準 19 正規分布 下記の最尤推定と等価な問題 観測データは時間周波数毎に平均値の 異なるガウス分布から生成されている 期待値
  20. 20. • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 一般化KLダイバージェンス(β=1)基準 [A. T. Cemgil, 2009] NMFの生成モデル的解釈(KL) 20 ポアソン分布 観測データは時間周波数毎に最頻値の 異なるポアソン分布から生成されている 下記の最尤推定と等価な問題 ポアソン分布の 期待値
  21. 21. • 距離関数を定めることの統計的な解釈が存在 – 距離関数の選択: 観測データの生成モデルを定めている – 板倉斎藤擬距離(β=0)基準 NMFの生成モデル的解釈(IS) 21 観測データは時間周波数毎に母数の 異なる指数分布から生成されている 下記の最尤推定と等価な問題 指数分布 指数分布の 期待値
  22. 22. NMFの生成モデル的解釈(とりあえずまとめ) • データと変数のフィッティングを,どの確率分布をもって 計っていくかを制御している – その上で期待値(変数)を求める最尤推定問題を解いている • これらの統計的解釈は全てBregmanダイバージェンス基 準NMF [I. S. Dhillon, et al., 2005] からも導かれる – 詳細は割愛!(「指数分布族」という概念で一般化した距離規範) • 板倉斎藤擬距離基準NMFに関しては複素数の観測デー タに対する別の生成モデル的な解釈が存在する – 複素観測データが複素平面で球対称なガウス分布(複素ガウ ス分布)から生成 – 観測データが複数(基底数)個の独立な複素ガウス分布に従う 確率変数の線形結合であることを仮定(ガウス分布の再生性) – IS-NMFによる基底分解の(期待値の意味での)妥当性を保証 22
  23. 23. 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] • 従来のNMF分解の問題点 – データ行列(非負実数)は1本の基底と1本のアクティベーション からなるランク1行列の線形結合として表現 – は振幅スペクトログラムなのか?あるいはパワーなのか? – いずれにしても線形結合(加法性)は成り立たない • 理論的には複素スペクトログラムの加法モデルが正しい – 位相スペクトログラムはどうするのか? • 板倉斎藤擬距離基準NMFでは下記のように解決される – 複素スペクトログラムに対する生成モデルを与えられる – 複素生成モデルの線形結合なので理論的に正しいモデル – 位相は無情報な形(一様分布)で保持される 23
  24. 24. • を複素スペクトログラムとする(STFTしたそのもの) – 各時間周波数要素は複素要素 を 個足し合わせたもの – 複素ガウス分布の線形結合なので も複素ガウス分布 • ガウス分布の再生性 • の複素ガウス分布の分散は – 分散が時間周波数で変動する複素ガウス分布が生成モデル 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] 24 とある時間 周波数要素 平均0,分散 の球対称複素ガウス これらの複素ガウス分布は互いに独立
  25. 25. • パワースペクトログラムは複素ガウスの分散に対応 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] 25 Frequencybin Time frame : パワースペクトログラム パワーが小=分散が小 殆ど0付近の複素数しか 生成しない パワーが大=分散が大 大きな振幅の複素数も 生成しうる 各時間周波数で分散が変動する複素ガウス分布 巨視的(マクロ)に考えると分散が逐一変動する為,ス ペクトログラム全体の密度分布はスーパーガウシアン (カートシスがガウス分布より大)な分布になっている 但し濃淡が濃い方が 大きなパワーを示す
  26. 26. • この生成モデルにおける 及び の推定 • パワースペクトログラムに対するISNMFは前述の生成モ デルを仮定しており,理論的に極めて妥当なモデル – NMF分解後にパワードメインでのウィーナフィルタ(理論的に妥当) 板倉斎藤擬距離基準NMF [C. Févotte, et al., 2009] 26 板倉斎藤擬距離基準NMF 等価な問題 但し,定数項は省いている 番目の音源 は要素毎の積
  27. 27. とはいえ • では,パワードメインのISNMFがスペクトログラムの分解 や音源分離にとって最良な結果を与えるのか? – 否! – 例えば音源分離タスクにおいては「振幅ドメインのKLNMFが良 い」といろいろな文献で報告されている • Ex. [D. FitzGerald, et al., 2009], [D. Kitamura, et al., 2014] – 場当たり的に振幅ドメインでISNMFを適用することもしばしば – 理論的妥当性とはなんだったのか・・・ • 他になんかないの(例えば振幅ドメインで理論的に妥当なNMFとか) – 先月(2015年10月)のWASPAA2015で登場 – Cauchy NMF [A. Liutkus, et al., 2015] • コーシー分布の再生性を用いて振幅ドメインでの加法性が(期待値の意 味で)理論的に保証されたNMF • ウィーナフィルタも振幅ドメインで適用するのが正しい 27
  28. 28. Cauchy NMF [A. Liutkus, et al., 2015] • 元々の動機はウィーナフィルタの一般化 – 乗ドメインでのウィーナフィルタの構築 [A. Liutkus, et al., 2015] – (振幅ドメイン)で加法性の成り立つの生成モデルとは? • コーシー分布生成モデルの発見 • コーシーNMFの生成モデル – 複素コーシー分布の線形結合なので も複素コーシー分布 • コーシー分布の再生性 • の複素コーシー分布のスケールは – スケールが時間周波数で変動する複素コーシー分布 28 とある時間 周波数要素 中心値0,スケール の球対称コーシー これを複素 平面で球対 称に回した 複素分布これらの複素コーシー分布は互いに独立
  29. 29. • この生成モデルにおける 及び の推定 • 振幅ドメインの加法性の妥当性を理論的に保証した分解 モデル – NMF分解後に振幅ドメインでのウィーナフィルタ(理論的に妥当) Cauchy NMF [A. Liutkus, et al., 2015] 29 見たこと無いコスト関数に・・・ 等価な問題 但し,定数項は省いている 番目の音源 は要素毎の積 球対称コーシー分布
  30. 30. • 音源分離タスクにおいてパワードメインのISNMFよりは 良い性能をマーク – しかし依然として振幅ドメインのKLには及ばず • その他,コーシー分布の特徴(heavy-tail)を生かした denoisingなどに応用可能(だそうです) Cauchy NMF [A. Liutkus, et al., 2015] 30
  31. 31. NMFの生成モデル的解釈まとめ • 従来の生成モデルによるNMFの解釈は成分 の重 ね合わせに関しては何も説明していない – 線形結合された変数 が最尤推定のパラメータになって いるという事実に過ぎない • 一方で「複素数成分が生成されるとするISNMFやコー シーNMFの解釈」は極めて重要 – 複素成分の重ね合わせを「確率モデルの再生性」によって表現 • NMFによるスペクトログラム分解の正当性が初めて保証される – パワースペクトログラムは複素生成モデルの分散(コーシー分 布ではスケール)に対応 • 大パワーの時間周波数スロットは振幅の大きな複素数値を生成しがち – 位相スペクトログラムは無情報(観測位相が最尤推定結果) • 工学的な実用性はまだ無い(性能が良くない)が今後さら なる理論的な解釈の発展に繋がる 31
  32. 32. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 32
  33. 33. 優決定条件ブラインド音源分離 • ブラインド音源分離(blind source separation: BSS) – 混合系 が未知の条件で分離系 を推定 – マイク位置,マイク間隔,音源位置等の情報が不要 • 優決定条件BSS – 統計的独立性に基づく手法が代表的 • 独立成分分析(ICA)[Comon, 1994] • 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006] • BSSに利用可能な性質 – 音源毎の空間的な違い(音源のある位置の違い) – 音源毎の音色の違い(音源固有のスペクトルパターンの違い) 33 State-of-the-art BSS 混合系 分離系
  34. 34. • 独立ベクトル分析(IVA) [Hiroe, 2006], [Kim, 2006] – 音源毎の空間的な違いを用いた線形の空間分離フィルタ – 音源間の統計的独立性仮定に基づいて分離フィルタを推定 – 高速かつ頑健な分離が可能 – 音源毎の音色の違いは用いていない • 周波数方向に一様な高次相関を考慮しているのみ • 音声の混合信号ではある程度分離可能 • 音源毎の空間的な違いの他に,音色の違いも音源分離 に活用されるべき – 音源の音色構造を捉える非負値行列因子分解(NMF)の活用 従来の空間情報を用いた音源分離 34 音源1 音源2 音源1の空間 分離フィルタ 音源1 混合系 Frequency Time 濃淡は強度値
  35. 35. • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] 空間的な違いと音色の違いを用いた音源分離 35/21 時間周波数毎の 観測チャネル間相関 多チャンネル観測データ 多チャネル ベクトル 瞬時チャネル間相関行列 音源周波数毎の チャネル間相関 基底行列 アクティベーション行列 空間モデル 音源モデル クラスタリング関数 スペクトルパターン 強度変化
  36. 36. • 多チャネルNMF [Ozerov, 2010], [Sawada, 2013] – NMFの多チャネル拡張した音源分離手法 – 音色構造を音源毎の空間的な違いに基づいてクラスタリング – コスト関数は板倉斎藤擬距離の多チャネル版(log-det div.) – 極めて高い計算コストと極端な初期値依存性が大問題 空間的な違いと音色の違いを用いた音源分離 36 時間周波数毎の 観測チャネル間相関 混合された多チャン ネル観測信号 音源周波数毎の チャネル間相関 基底行列 アクティベーション行列 空間モデル 音源モデル クラスタリング関数 スペクトルパターン 強度変化 音源毎の空間的な違い 全ての音源の音色構造
  37. 37. ランク1多チャネルNMF • 空間的な違いと音色構造を同時に用いた高速かつ頑健 な分離手法 – NMFによる音色構造表現を導入した独立性に基づく分離手法 • 空間モデルの推定は従来通り独立性基準(高速性,頑健性) • 音源モデルの推定にはNMFによる分解表現を導入(高品質,高精度) – 多チャネルNMFにおける空間モデルの自由度の制限 • フルランクで推定される音源毎のチャンネル間相関に制約を導入 • 多チャネルNMFにおける計算コスト及び頑健性の問題を解消 37 音源モデル 空間モデル 柔軟限定的 柔軟限定的 IVA 多チャネル NMF 提案手法 NMFの音源 モデルを導入 空間モデルの 自由度を制限 ランク1空間モデルを導入 音源毎のチャネル間相関行列の ランクが全周波数において1になる制約 ランク1多チャネルNMF
  38. 38. ランク1空間モデルとは? • 音源毎のチャネル間相関行列のランクが1 – 音源の伝達系が1本の時不変なステアリングベクトルで表現 – 複数の音源が存在する場合も音源毎の相関行列のランクは1 38 マイク アレイ 観測 信号 音源 ステアリング ベクトル の相関行列は マイク アレイ 観測 信号 音源 ステアリング ベクトル ステアリング ベクトル 混合行列 観測 ベクトル 2x2のランク1行列 音源1のみの録音信号の相関行列は 音源2のみの録音信号の相関行列は
  39. 39. ランク1空間モデルとは? • 音源毎のチャネル間相関行列のランクが1 – 時間周波数領域において1つの音源の伝達系が1本の時不変 なステアリングベクトルで表現可能 – 時間周波数領域における時不変複素瞬時混合モデル – 音源やマイクの位置が変わらず,残響がフーリエ変換の窓長よ り短い 39 マイク アレイ 観測 信号 音源 : 周波数インデクス : 時間インデクス 時不変混合行列 ステアリング ベクトル ステアリング ベクトル
  40. 40. • 多チャネルNMFの目的関数にランク1モデルを導入 提案手法の定式化 40 1. ランク1チャネル間相関を導入( ) 2. 混合行列 を用いて表現しなおす 3. 分離行列 と分離信号 に変数変換 NMFのコスト関数 (音源モデルの推定に寄与) IVAのコスト関数 (空間モデルの推定に寄与) NMFとIVAの最適化更新式を交互に反復することで 全変数を容易に最適化可能
  41. 41. 提案手法のアルゴリズム • 音源毎の空間的な違い(空間モデル)と各音源の音色構 造(音源モデル)を交互に学習 41 空間的な違い の学習 混合信号 分離信号 音源モデル IVA NMF NMF 音色構造の 学習 音源毎の音色構造を明確に捉えることで 独立性基準での分離性能の向上が期待できる
  42. 42. 音楽信号の音源分離実験 • 実験条件 42 音源信号 SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス 応答で畳み込んで作成,2チャネルで2音源の混合信号 比較手法 IVA, 多チャネルNMF,ランク1多チャネルNMF(提案手法) 窓長(FFT長) 512 ms,ハニング窓 シフト長 128 ms (1/4シフト) 基底数 1音源につき30本 主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能) 2 m 音源1 5.66 cm 50 50 音源2 E2Aインパルス応答 (残響時間: 300 ms)
  43. 43. 音楽信号の音源分離実験 • 実験結果(曲名: ultimate nz tour, guitar and synth.) 43 20 18 16 14 12 10 8 6 4 2 0 SDRimprovement[dB] Proposed method Multichannel NMF IVA Source 1 Source 2 – 初期値を変えて10回試 行した際の平均と標準 偏差を示したグラフ – 頑健かつ高性能な音 源分離を達成 – 反復回数毎の性能の 変化を示したグラフ – IVAと同程度の高速な 収束を実現 14 12 10 8 6 4 2 0 SDRimprovement[dB] 4003002001000 Iteration steps IVA Multichannel NMF Proposed method 7.8 s(30回時点) 11.8 s(30回時点) 598.5 s(250回時点) 高速,頑健,高品質, 高精度な分離を達成 信号長: 19.7 s (16kHzサンプル)
  44. 44. 講演概要 • 自己紹介 • 音源分離と非負値行列因子分解の関わり • 最適化におけるコスト関数と生成モデルとしての解釈 – 良く用いられる距離尺度 – 従来の生成モデル – 複素数を対象とした生成モデル • 板倉斎藤擬距離基準 • コーシー分布に基づく生成モデルとコーシー非負値行列因子分解 • 多チャネルブラインド音源分離への応用 – 従来の多チャネル非負値行列因子分解 – ランク1多チャネル非負値行列因子分解 • まとめ • 参考 44
  45. 45. まとめ • 音源分離でよく用いられる非負値行列因子分解の紹介 • NMFによる分解の生成モデル解釈 – 距離基準に対応した生成モデルに対する最尤推定問題と等価 – 但し,複素数値や成分の線形結合を取り扱うわけではない • 振幅スペクトルやパワースペクトルの加法性が理論的に 妥当なNMF – 複素数(位相に関しては無情報)の生成モデルを導入 – パワースペクトログラムを用いたISNMF – 振幅スペクトログラムを用いたコーシーNMF • ISNMFを用いた多チャネルNMFの紹介と その発展手法 – ランク1多チャネルNMF(ブラインド音源分離) 45
  46. 46. 参考(1/3) • NMF – D. D. Lee, H. S. Seung, “Learning the parts of objects by nonnegative matrix factorization,” Nature, vol.401, pp.788–791, 1999. – D. D. Lee, H. S. Seung, “Algorithms for non-negative matrix factorization,” Proc. Advances in Neural Information Processing Systems, vol.13, pp.556–562, 2001. • NMFの幾何学的解釈 – D. Donoho, V. Stodden, “When does non-negative matrix factorization give correct decomposition into parts?,” MIT Press, 2003. • β-divergence NMF – S. Eguchi, K. Yano, “Robustifying maximum likelihood estimation,” Technical Report of Institute of Statistical Mathematics, 2001. – M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence,” Proc. International Workshop on Machine Learning for Signal Processing, pp.283-288, 2010. • KLNMFとベイジアンNMF – A. T. Cemgil, “Bayesian inference for nonnegative matrix factorization models,” Comput. Intell. Neurosci., vol.2009, pp.1–17, 2009. • Bregman-divergence-based NMF – I. S. Dhillon, S. Sara, “Generalized nonnegative matrix approximations with Bregman divergences,” Proc. NIPS 2005, pp. 283-290, 2005. 46
  47. 47. 参考(2/3) • ISNMF(複素生成モデル) – C. Févotte, N. Bertin, J.-L. Durrieu, “Nonnegative matrixfactorization with the Itakura-Saito divergence. With applicationto music analysis,” Neural Computation, vol.21, no.3, 2009. • 振幅ドメインのKLNMFが良いと実験的に主張する文献 – D. Fitzgerald, M. Cranitch, E. Coyle, “On the use of the beta divergence for musical source separation,” Proc. Irish Signals Syst. Conf., 2009. – D. Kitamura, H. Saruwatari, K. Yagi, K. Shikano, Y. Takahashi, K. Kondo, “Music signal separation based on supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties,” IEICE Trans. Fundam. Electron., Commun. Comput. Sci., vol.E97-A, no.5, pp.1113–1118, 2014. • 一般化ウィーナフィルタとCauchy NMF – A. Liutkus, R. Badeau, “Generalized Wiener filtering with fractional power spectrograms,” Proc. ICASSP, pp.266–270, 2015. – A. Liutkus, D. Fitzgerald, “Cauchy nonnegative matrix factorization,” Proc. WASPAA, 2015. • 独立成分分析(ICA) – P. Comon, “Independent component analysis, a new concept?,” Signal Processing, vol.36, no.3, pp.287–314, 1994. 47
  48. 48. 参考(3/3) • 独立ベクトル分析(IVA) – T. Kim, T. Eltoft T.-W. Lee, “Independent vector analysis: an extension of ICA to multivariate components,” Proc. International Conference on Independent Component Analysis and Blind Source Separation, pp.165–172, 2006. – A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” Proc. International Conference on Independent Component Analysis and Blind Source Separation, pp.601–608, 2006. – T. Kim, H. T. Attias, S.-Y. Lee T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. ASLP, vol.15, no.1, pp.70–79, 2007. • 多チャネルNMF – A. Ozerov, C. Févotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation,” IEEE Trans. ASLP, vol.18, no.3, pp.550–563, 2010. – H. Sawada, H. Kameoka, S. Araki, N. Ueda, “Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans. ASLP, vol.21, no.5, pp.971–982, 2013. • ランク1多チャネルNMF – D. Kitamura, N. Ono, H. Sawada, H. Kameoka, H. Saruwatari, “Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” Proc. ICASSP, pp.276–280, 2015. • HP: http://d-kitamura.sakura.ne.jp/index.html – β-divergence NMFやCauchy NMFのコード,音源分離デモ等を公開しています 48

×