SlideShare a Scribd company logo
1 of 20
Statistical-independence-based efficient
initialization for nonnegative matrix factorization
総合研究大学院大学 博士課程2年
国立情報学研究所/総合研究大学院大学
○北村大地
小野順貴
独立性基準を用いた非負値行列因子分解の
効果的な初期値決定法
• 非負値行列因子分解 (nonnegative matrix factorization: NMF) [Lee, 1999]
– 非負の制約条件付き次元圧縮
– 有意な特徴量を抽出する教師無し学習
– 非負性に起因するスパース分解
背景
Amplitude
Amplitude
入力データ行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
係数行列
(時間的な強度変化)
Time
Time
Frequency
Frequency
2
: 行数(周波数ビン数)
: 列数(時間フレーム数)
: 基底数
• NMFにおける最適化問題
– 非負制約下で観測とモデルの距離(data fidelity)を最小化
– 変数 及び の解析的な解は求まらず
– 効率的な反復更新式による最適化が確立されている
• 補助関数法に基づく乗法更新式 [Lee, 2001]
– 勾配法等と同じ反復更新なので全変数に初期値が必要
背景
3
距離関数が2乗ユークリッド距離の場合の乗法更新式
• 問題点: NMFを用いた全ての手法の結果はNMFの変数
( と )の初期値に依存して決まる
– 例: 全教師ありNMFによる音源分離
• 動機: 常に最良の結果をもたらす一意な初期値決定法が
望まれる
– 入力データ行列 にのみ依存し,擬似乱数を用いない
問題点と動機
4
12
10
8
6
4
2
0
SDRimprovement[dB]
Rand10
Rand1
Rand2
Rand3
Rand4
Rand5
Rand6
Rand7
Rand8
Rand9
値域 [0,1] の一様な擬似乱数
をメルセンヌツイスタ法で生成
Rand1~Rand10は擬似乱数
のシードのが異なる
初期値によって精度が変わる・・・
• 乱数に基づく初期値決定法
– 擬似乱数そのもの(一様擬似乱数など)
– 遺伝的アルゴリズムによる良い初期値探索 [Stadlthanner, 2006], [Janecek, 2011]
– クラスタリングを用いた初期値 [Zheng, 2007], [Xue, 2008], [Rezaei, 2011]
• 入力データ行列 を 個のクラスタにまとめ,各クラスタのセントロイドベク
トルをNMFの初期基底ベクトルとする
• 入力データ行列のみに基づく初期値決定法
– 減算クラスタリングを用いた初期値 [Casalino, 2014]
• 擬似乱数は用いないが,2個のハイパーパラメータを調整する必要あり
– 主成分分析(PCA)を用いた初期値 [Zhao, 2014]
• 入力データ行列 にPCAを適用して得られる直交基底及び係数の絶対値
を,基底行列及び係数行列の初期値とする
– 特異値分解(SVD)を用いた初期値 [Boutsidis, 2008]
• 非負二重SVD(NNDSVD)を入力データ行列 に適用して得られる非負の
左及び右特異ベクトルを基底行列及び係数行列の初期値とする
従来のNMFの初期化法
5
• 直交基底はNMFにとって良い基底か否か?
– PCAもSVDも入力データ行列の直交基底を推定
– NMFの幾何学的な解釈によると [Donoho, 2003]
• “NMFにおける最良な基底は正の象限に点在する観測データ点を全て含
む凸多面錘のエッジに沿うベクトルである”
– 直交性に基づく初期値決定法はNMFに適さない可能性あり
NMFに適する基底とは
6
凸錐(convex cone)
観測データ点
エッジ
最良な基底 直交する基底 よりtightな基底
データの表現に必要十分で
係数はスパースになる
過剰な基底で不要な領
域を表現してしまう
観測データ点の表現
には不十分
• 入力データ行列のみから何ができるか?
– 独立成分分析(ICA)に着目
– ICAは成分間の独立性を最大化する基底(直交とは限らない)
を推定可能
– ICAは優ガウスな生成モデルを仮定することでスパースな独立
成分を推定可能
• NMFも暗にスパースな分解行列を推定(非負性に由来)
• NMFの初期値決定法としてICAを用いる
– 入力データ行列にのみ依存
– 擬似乱数もパラメータチューニングも不要
提案する初期値決定法
7
• 入力データ行列は独立成分の混合信号と仮定
– 行列 中の 個のソースが混合行列 を経て として観測
– ICAは分離行列 とソース を推定
• これらをNMFの基底行列及び係数行列の初期値に用いる
• 「各基底に対する係数(時間的な強度変化)が独立」
– NMFは(1)非負制約条件付き(2)次元圧縮なので
• (1)2種類の非負性を考慮したICAを適用
• (2)PCAによる次元圧縮を適用※
ICAの信号モデルとNMF
8
入力データ行列 混合行列(正方) ソース行列
※PCAで次元圧縮した後にICAを用いるので,従来のPCAによる直交基底の推定とは異なる
…
…
各基底の係数が
互いに独立と仮定
• Nonnegative ICA(NICA)を用いる [Plumbley, 2003]
– 全てのソースが非負となるような分離行列を推定
– 中心化せずに白色化(無相関化)された信号 に対する回転行
列 を求める
– 最急降下法による最適化(Fast NICAというのもある)
非負ICAを用いる提案手法(提案手法1)
9
観測信号 白色化信号
白色化変換行列
(但し中心化はしない)
• 入力データの時間差分信号と通常のICAを用いる
– 非負なソースの時間差分信号が混合されていると仮定
• ソースを零平均信号とするため
– 時間差分混合信号 にラプラス分布仮定ICAを適用
• ラプラス分布ICAのコスト関数は凸なので の解は一意
• 補助関数法に基づく高速なICAの解法が提案されている [Ono, 2010]
差分信号とICAを用いる提案手法(提案手法2)
10
時間差分行列
• PCAで入力データ行列の次元を圧縮
– ソース は混合行列 を経て として観測
• 提案手法1: NICAを用いる場合
– データは ,ソースは ,分離信号は
– 近似的に とすると
PCAによる次元圧縮処理(提案手法1)
11
行が の固有ベクトル
はtop- 固有値に対応する固有ベクトル
固有値
大
小
NICAを用いたNMFの初期値
: 任意の行列
: 混合行列
: 零行列
: ソース行列
NICAの変数
白色化
行列
• PCAで入力データ行列の次元を圧縮
– ソース は混合行列 を経て として観測
• 提案手法2: 時間差分信号と通常のICAを用いる場合
– データは ,ソースは ,分離信号は
– 近似的に とすると
PCAによる次元圧縮処理(提案手法2)
12
行が の固有ベクトル
はtop- 固有値に対応する固有ベクトル
固有値
大
小
差分信号とICAを用いたNMFの初期値
: 任意の行列
: 混合行列
: 零行列
: ソース行列
この手法では反復の度に
という非負化処理を行う
NICAの変数
• いずれの提案手法においてもソース や混合行列 の
推定結果が完全に非負となる保証はない
• 両変数に3種類の非負化処理のいずれかを施す
– 非負化処理1:
– 非負化処理2:
– 非負化処理3:
• 但し, と はスケールを合わせる為のスカラー
– 初期値決定法の後に用いるNMFの距離関数に応じて下記のように決まる
3種類の非負化処理
13
• ピアノの上昇音階のパワースペクトログラム
– 24音(2オクターブ), サンプリング周波数は44.1kHz
– 行列としてのサイズは 2049x1037
実験
14
Low-rank
累積特異値のグラフ
• 提案初期化法のNICAとICAのコスト関数
– 基底数は とした例
実験
15
0.01
2
4
6
8
0.1
2
4
6
8
1
CostfunctionofNICA
2000150010005000
Iteration
100
2
3
4
5
6
7
8
9
1000
CostfunctionofICA
3020100
Iteration
提案手法1(NICA) 提案手法2(差分信号+ICA)
• 初期値を与えた後のEU-NMF
– 基底数は とした例
実験
16
Rand1~10 は値域 [0, 1] の一様擬
似乱数(シードが異なる)
初期値決定にかかる
処理時間例
NICA: 4.28 s
ICA: 10.77 s
PCA: 0.95 s
SVD: 1.31 s
NMF反復にかかる
処理時間例
EU-NMF: 18.39 s
(1000回反復時)
• 初期値を与えた後のKL-NMF
– 基底数は とした例
実験
17
Rand1~10 は値域 [0, 1] の一様擬
似乱数(シードが異なる)
初期値決定にかかる
処理時間例
NICA: 4.28 s
ICA: 10.77 s
PCA: 0.95 s
SVD: 1.31 s
NMF反復にかかる
処理時間例
KL-NMF: 62.19 s
(1000回反復時)
• 初期値を与えた後のIS-NMF
– 基底数は とした例
実験
18
Rand1~10 は値域 [0, 1] の一様擬
似乱数(シードが異なる)
初期値決定にかかる
処理時間例
NICA: 4.28 s
ICA: 10.77 s
PCA: 0.95 s
SVD: 1.31 s
NMF反復にかかる
処理時間例
IS-NMF: 202.96 s
(1000回反復時)
• 全教師ありNMFによる2音源分離タスク
– SiSEC2015 MUS datasetのvocalsとotherの混合
– 各音源の教師基底学習時に初期値決定法を用いる
• 分離時の係数行列は観測行列との相関を用いるため,学習時の初期値
のみによって分離性能が決まる
– 15曲の平均SDR改善量(総合分離性能)
音源分離実験
19
Rand10
NICA1
NICA2
NICA3
ICA1
ICA2
ICA3
PCA
SVD
Rand1
Rand2
Rand3
Rand4
Rand5
Rand6
Rand7
Rand8
Rand9
12
10
8
6
4
2
0
SDRimprovement[dB]
5
4
3
2
1
0
SDRimprovement[dB]
Rand10
NICA1
NICA2
NICA3
ICA1
ICA2
ICA3
PCA
SVD
Rand1
Rand2
Rand3
Rand4
Rand5
Rand6
Rand7
Rand8
Rand9
Separation performance of vocals Separation performance of other
提案手法 提案手法 最大で0.8 dBの差最大で1.6 dBの差
PCA SVD PCA SVD
まとめ
• NMFの効果的な初期値決定法
• 独立性基準を用いた基底(直交とは限らない)と独立成
分をそれぞれ基底行列と係数行列の初期値とする
• 非負性を考慮した2種類のICA
– Nonnegative ICA
– 時間差分信号+ラプラス分布ICA
• NMFのコスト関数は高速により低い値まで減少
– NMFにとって良い初期値といえる
• 全教師あり音源分離タスクにおいても良好な結果をもた
らした
20

More Related Content

What's hot

What's hot (20)

Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk Estimator
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 

Viewers also liked

Viewers also liked (18)

Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

More from Daichi Kitamura

More from Daichi Kitamura (12)

独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initialization for nonnegative matrix factorization)

  • 1. Statistical-independence-based efficient initialization for nonnegative matrix factorization 総合研究大学院大学 博士課程2年 国立情報学研究所/総合研究大学院大学 ○北村大地 小野順貴 独立性基準を用いた非負値行列因子分解の 効果的な初期値決定法
  • 2. • 非負値行列因子分解 (nonnegative matrix factorization: NMF) [Lee, 1999] – 非負の制約条件付き次元圧縮 – 有意な特徴量を抽出する教師無し学習 – 非負性に起因するスパース分解 背景 Amplitude Amplitude 入力データ行列 (スペクトログラム) 基底行列 (頻出スペクトルパターン) 係数行列 (時間的な強度変化) Time Time Frequency Frequency 2 : 行数(周波数ビン数) : 列数(時間フレーム数) : 基底数
  • 3. • NMFにおける最適化問題 – 非負制約下で観測とモデルの距離(data fidelity)を最小化 – 変数 及び の解析的な解は求まらず – 効率的な反復更新式による最適化が確立されている • 補助関数法に基づく乗法更新式 [Lee, 2001] – 勾配法等と同じ反復更新なので全変数に初期値が必要 背景 3 距離関数が2乗ユークリッド距離の場合の乗法更新式
  • 4. • 問題点: NMFを用いた全ての手法の結果はNMFの変数 ( と )の初期値に依存して決まる – 例: 全教師ありNMFによる音源分離 • 動機: 常に最良の結果をもたらす一意な初期値決定法が 望まれる – 入力データ行列 にのみ依存し,擬似乱数を用いない 問題点と動機 4 12 10 8 6 4 2 0 SDRimprovement[dB] Rand10 Rand1 Rand2 Rand3 Rand4 Rand5 Rand6 Rand7 Rand8 Rand9 値域 [0,1] の一様な擬似乱数 をメルセンヌツイスタ法で生成 Rand1~Rand10は擬似乱数 のシードのが異なる 初期値によって精度が変わる・・・
  • 5. • 乱数に基づく初期値決定法 – 擬似乱数そのもの(一様擬似乱数など) – 遺伝的アルゴリズムによる良い初期値探索 [Stadlthanner, 2006], [Janecek, 2011] – クラスタリングを用いた初期値 [Zheng, 2007], [Xue, 2008], [Rezaei, 2011] • 入力データ行列 を 個のクラスタにまとめ,各クラスタのセントロイドベク トルをNMFの初期基底ベクトルとする • 入力データ行列のみに基づく初期値決定法 – 減算クラスタリングを用いた初期値 [Casalino, 2014] • 擬似乱数は用いないが,2個のハイパーパラメータを調整する必要あり – 主成分分析(PCA)を用いた初期値 [Zhao, 2014] • 入力データ行列 にPCAを適用して得られる直交基底及び係数の絶対値 を,基底行列及び係数行列の初期値とする – 特異値分解(SVD)を用いた初期値 [Boutsidis, 2008] • 非負二重SVD(NNDSVD)を入力データ行列 に適用して得られる非負の 左及び右特異ベクトルを基底行列及び係数行列の初期値とする 従来のNMFの初期化法 5
  • 6. • 直交基底はNMFにとって良い基底か否か? – PCAもSVDも入力データ行列の直交基底を推定 – NMFの幾何学的な解釈によると [Donoho, 2003] • “NMFにおける最良な基底は正の象限に点在する観測データ点を全て含 む凸多面錘のエッジに沿うベクトルである” – 直交性に基づく初期値決定法はNMFに適さない可能性あり NMFに適する基底とは 6 凸錐(convex cone) 観測データ点 エッジ 最良な基底 直交する基底 よりtightな基底 データの表現に必要十分で 係数はスパースになる 過剰な基底で不要な領 域を表現してしまう 観測データ点の表現 には不十分
  • 7. • 入力データ行列のみから何ができるか? – 独立成分分析(ICA)に着目 – ICAは成分間の独立性を最大化する基底(直交とは限らない) を推定可能 – ICAは優ガウスな生成モデルを仮定することでスパースな独立 成分を推定可能 • NMFも暗にスパースな分解行列を推定(非負性に由来) • NMFの初期値決定法としてICAを用いる – 入力データ行列にのみ依存 – 擬似乱数もパラメータチューニングも不要 提案する初期値決定法 7
  • 8. • 入力データ行列は独立成分の混合信号と仮定 – 行列 中の 個のソースが混合行列 を経て として観測 – ICAは分離行列 とソース を推定 • これらをNMFの基底行列及び係数行列の初期値に用いる • 「各基底に対する係数(時間的な強度変化)が独立」 – NMFは(1)非負制約条件付き(2)次元圧縮なので • (1)2種類の非負性を考慮したICAを適用 • (2)PCAによる次元圧縮を適用※ ICAの信号モデルとNMF 8 入力データ行列 混合行列(正方) ソース行列 ※PCAで次元圧縮した後にICAを用いるので,従来のPCAによる直交基底の推定とは異なる … … 各基底の係数が 互いに独立と仮定
  • 9. • Nonnegative ICA(NICA)を用いる [Plumbley, 2003] – 全てのソースが非負となるような分離行列を推定 – 中心化せずに白色化(無相関化)された信号 に対する回転行 列 を求める – 最急降下法による最適化(Fast NICAというのもある) 非負ICAを用いる提案手法(提案手法1) 9 観測信号 白色化信号 白色化変換行列 (但し中心化はしない)
  • 10. • 入力データの時間差分信号と通常のICAを用いる – 非負なソースの時間差分信号が混合されていると仮定 • ソースを零平均信号とするため – 時間差分混合信号 にラプラス分布仮定ICAを適用 • ラプラス分布ICAのコスト関数は凸なので の解は一意 • 補助関数法に基づく高速なICAの解法が提案されている [Ono, 2010] 差分信号とICAを用いる提案手法(提案手法2) 10 時間差分行列
  • 11. • PCAで入力データ行列の次元を圧縮 – ソース は混合行列 を経て として観測 • 提案手法1: NICAを用いる場合 – データは ,ソースは ,分離信号は – 近似的に とすると PCAによる次元圧縮処理(提案手法1) 11 行が の固有ベクトル はtop- 固有値に対応する固有ベクトル 固有値 大 小 NICAを用いたNMFの初期値 : 任意の行列 : 混合行列 : 零行列 : ソース行列 NICAの変数 白色化 行列
  • 12. • PCAで入力データ行列の次元を圧縮 – ソース は混合行列 を経て として観測 • 提案手法2: 時間差分信号と通常のICAを用いる場合 – データは ,ソースは ,分離信号は – 近似的に とすると PCAによる次元圧縮処理(提案手法2) 12 行が の固有ベクトル はtop- 固有値に対応する固有ベクトル 固有値 大 小 差分信号とICAを用いたNMFの初期値 : 任意の行列 : 混合行列 : 零行列 : ソース行列 この手法では反復の度に という非負化処理を行う NICAの変数
  • 13. • いずれの提案手法においてもソース や混合行列 の 推定結果が完全に非負となる保証はない • 両変数に3種類の非負化処理のいずれかを施す – 非負化処理1: – 非負化処理2: – 非負化処理3: • 但し, と はスケールを合わせる為のスカラー – 初期値決定法の後に用いるNMFの距離関数に応じて下記のように決まる 3種類の非負化処理 13
  • 14. • ピアノの上昇音階のパワースペクトログラム – 24音(2オクターブ), サンプリング周波数は44.1kHz – 行列としてのサイズは 2049x1037 実験 14 Low-rank 累積特異値のグラフ
  • 15. • 提案初期化法のNICAとICAのコスト関数 – 基底数は とした例 実験 15 0.01 2 4 6 8 0.1 2 4 6 8 1 CostfunctionofNICA 2000150010005000 Iteration 100 2 3 4 5 6 7 8 9 1000 CostfunctionofICA 3020100 Iteration 提案手法1(NICA) 提案手法2(差分信号+ICA)
  • 16. • 初期値を与えた後のEU-NMF – 基底数は とした例 実験 16 Rand1~10 は値域 [0, 1] の一様擬 似乱数(シードが異なる) 初期値決定にかかる 処理時間例 NICA: 4.28 s ICA: 10.77 s PCA: 0.95 s SVD: 1.31 s NMF反復にかかる 処理時間例 EU-NMF: 18.39 s (1000回反復時)
  • 17. • 初期値を与えた後のKL-NMF – 基底数は とした例 実験 17 Rand1~10 は値域 [0, 1] の一様擬 似乱数(シードが異なる) 初期値決定にかかる 処理時間例 NICA: 4.28 s ICA: 10.77 s PCA: 0.95 s SVD: 1.31 s NMF反復にかかる 処理時間例 KL-NMF: 62.19 s (1000回反復時)
  • 18. • 初期値を与えた後のIS-NMF – 基底数は とした例 実験 18 Rand1~10 は値域 [0, 1] の一様擬 似乱数(シードが異なる) 初期値決定にかかる 処理時間例 NICA: 4.28 s ICA: 10.77 s PCA: 0.95 s SVD: 1.31 s NMF反復にかかる 処理時間例 IS-NMF: 202.96 s (1000回反復時)
  • 19. • 全教師ありNMFによる2音源分離タスク – SiSEC2015 MUS datasetのvocalsとotherの混合 – 各音源の教師基底学習時に初期値決定法を用いる • 分離時の係数行列は観測行列との相関を用いるため,学習時の初期値 のみによって分離性能が決まる – 15曲の平均SDR改善量(総合分離性能) 音源分離実験 19 Rand10 NICA1 NICA2 NICA3 ICA1 ICA2 ICA3 PCA SVD Rand1 Rand2 Rand3 Rand4 Rand5 Rand6 Rand7 Rand8 Rand9 12 10 8 6 4 2 0 SDRimprovement[dB] 5 4 3 2 1 0 SDRimprovement[dB] Rand10 NICA1 NICA2 NICA3 ICA1 ICA2 ICA3 PCA SVD Rand1 Rand2 Rand3 Rand4 Rand5 Rand6 Rand7 Rand8 Rand9 Separation performance of vocals Separation performance of other 提案手法 提案手法 最大で0.8 dBの差最大で1.6 dBの差 PCA SVD PCA SVD
  • 20. まとめ • NMFの効果的な初期値決定法 • 独立性基準を用いた基底(直交とは限らない)と独立成 分をそれぞれ基底行列と係数行列の初期値とする • 非負性を考慮した2種類のICA – Nonnegative ICA – 時間差分信号+ラプラス分布ICA • NMFのコスト関数は高速により低い値まで減少 – NMFにとって良い初期値といえる • 全教師あり音源分離タスクにおいても良好な結果をもた らした 20

Editor's Notes

  1. 5分20秒までにこのスライドを終わらせないとまずい
  2. multiply
  3. Neither too much nor insufficient bases is appropriate (Minimum sufficient bases)