BAHSICアルゴリズムによる非線形データからの特徴選択
- 5. ステップ1:特徴抽出
Feature Extraction
データを説明するために必要な特徴を
全体から抽出すること
Principal component analysis
Semidefinite embedding
Multifactor dimensionality reduction
Multilinear subspace learning
Nonlinear dimensionality reduction
Isomap
Kernel PCA
Multilinear PCA
Latent semantic analysis
Partial least squares
Independent component analysis
Autoencoder https://en.wikipedia.org/wiki/Feature_extraction
沢⼭山ある
(次元圧縮は
その⼀一⼿手法)
- 10. 線形データの特徴選択
• 主成分分析(PCA) の場合
– 主成分スコアから因⼦子負荷量量を計算
• 主成分スコア = 正規化した元データ⾏行行列列×
固有ベクトルで得られるPC1, PC2…
X軸
Y軸
主成分軸
主成分スコア
正規化した
データ
★因⼦子負荷量量★
正規化した元データ⾏行行列列と
第N主成分スコアとの
相関係数
主成分に強く関与している
→相関が⼤大きい
⾮非線形データでは適⽤用できない
例例)カーネルPCA
主成分分析を⾏行行うデータ空間は元のデータ空間ではない
(詳細は後述)
©和光市
- 11. 従来⼿手法(SVM)
• Vapnik et.al,1995
• ⾮非線形データでの代表的な特徴選択⼿手法
• ★SVMの原理理
• 2クラスを分離離する最も良良い
識識別⾯面を求める
• ⽬目的関数は、カーネルのような
⾮非線形の場合にも適⽤用できる
• ★特徴選択
• 識識別に重要なデータ点のみを
選べばよい
http://docs.opencv.org/2.4/doc/tutorials/ml/
introduction_to_svm/introduction_to_svm.html
- 12. 従来⼿手法(SVM)
• Vapnik et.al,1995
• ⾮非線形データでの代表的な特徴選択⼿手法
• ★SVMの原理理
• 2クラスを分離離する最も良良い
識識別⾯面を求める
• ⽬目的関数は、カーネルのような
⾮非線形の場合にも適⽤用できる
• ★特徴選択
• 識識別に重要なデータ点のみを
選べばよい
http://docs.opencv.org/2.4/doc/tutorials/ml/
introduction_to_svm/introduction_to_svm.html
マルチクラス(多群)には適⽤用できない
SVMは基本的に2クラス分類器
※マルチクラス適⽤用可能な改良良版SVMも
存在するが、決定打はまだ?
©和光市
- 14. BAHSICアルゴリズム
• Backward elimination using
Hilbert-Schmidt Independence Criterion
• 直訳:ヒルベルトシュミット独⽴立立性基準を
⽤用いた逆⽅方向消去法
• Journal of Machine Learning Research 13 (2012)
1393-1434
• ⻑⾧長所
– ⾮非線形データ、マルチクラス対応の特徴選択
– ロバストネスである
- 16. [前提] カーネル法
• データを⾼高次元の特徴空間に写像する⼿手法
• カーネルPCA
– 固有値問題はPCAと共通で、
共分散⾏行行列列Sを、特徴空間の内積⾏行行列列
(カーネル関数値)に置き換えたもの
http://www.murata.eb.waseda.ac.jp/researches/kernel
xi
xj
Φ
特徴写像
Φ(xi )
Φ(xj )
- 19. [前提] 再⽣生核ヒルベルト空間
• 再⽣生性をもつヒルベルト空間
– 空間Hが集合Xの関数f で構成され、
任意の x ∈ X に対しカーネルkx があるとき
– fとkx の内積は f(x) の値に等しい =再⽣生性
– カーネルトリックを導くのはこの性質
f,k(⋅, x) Η
=f (x)
Φ(x),Φ(y) =k(x, y)
f,g = αi
i=1
m
∑ k(⋅, xj ), βi
i=1
m
∑ k(⋅, xj )
= αi
j=1
m
∑ βi
i=1
m
∑ k(⋅, xi ),k(⋅, xj )
= αi
j=1
m
∑ βj
i=1
m
∑ k(xj, xi )
核=カーネル
- 20. [前提] 再⽣生核ヒルベルト空間
• テンソル積 = 空間の積がつくる新たな空間
2つの正定値カーネルk1,k2と対応する
再⽣生核ヒルベルト空間をH1,H2とする
Ø H1,H2のテンソル積は、カーネルの積空間
k(x,x’) = k1(x,x’)k2(x,x’) である
• 積空間のカーネルも正定値性をみたす
• よって、再⽣生核ヒルベルト空間のテンソル積は、
カーネルで陽に表せる(超重要)
Η1⊗Η2
- 25. 遺伝⼦子発現データからの特徴選択
• Gene selection via
the BAHSIC family of algorithms
– Bioinformatics (2007) 23 (13): i490-i498.
– HSICを⽤用いた逆⽅方向消去法(BAHSIC)
アルゴリズムによる特徴選択
– 28 microarray datasets
• 15:2クラス, 13:マルチクラス
• 次元数 ~∼2000 to 25000
– ~∼50 and 300 samples
- 26. BAHSICアルゴリズム
[特徴 (フルセット)] : ⼊入⼒力力
[特徴 (選択済み)] : 出⼒力力
カーネルのpram最適化
Sに含まれる特徴のうち
{j} を除いたものでHSICを計算
★ 除く特徴は多すぎても少なすぎても良良くない
→ 各イテレーションで全体の10%の特徴を除くくらいが良良いらしい
Bioinformatics (2007) 23 (13): i490-i498.
- 27. ⽐比較結果-1
BAHSIC Other
線形
カーネル
ガウス
カーネル
距離離 SVM Norm
SVM
相互
情報量量
Linear
Data
6 6 6 6 6 6
6 6 6 6 6 6
Non-
Linear
Data
1934 6 6 1721 30 6
2041 7 6 1802 33 6
★ ⼈人為的にアーティファクトな遺伝⼦子を10個加えて、
特徴選択 →ランキングの中央値を算出
★ 10未満であれば、その⼿手法は良良く検出できている
Table 3/ Bioinformatics (2007) 23 (13): i490-i498.
- 29. Results & 所感
• 線形識識別可能なデータ
– BAHSIC + 線形カーネルが最も良良い
• ⾮非線形データ + マルチクラス
– BAHSIC + ガウスカーネル or 距離離、
相互情報量量が適切切 (それ以外は壊滅的)
• 気になる点
– カーネルでのパラメータの影響
– 計算時間の⽐比較
– 便便利利そうなのにあまり普及していない理理由