Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
2015/11/14
WACODE 3rd
BAHSICアルゴリズムによる
⾮非線形データからの特徴選択
@nakaneko143
⾃自⼰己紹介
•  所属:理理化学研究所  情報基盤センター
– バイオインフォマティクス
研究開発ユニット (http://bit.riken.jp/)
•  テクニカルスタッフ
–  Galaxyによる解析パイプラインGUI化
–  Sin...
⾮非線形データの次元圧縮⼿手法
前回のテーマ
http://www.slideshare.net/mikayoshimura50/150905-wacode-2nd
次元圧縮の⽬目的
次元圧縮は、
“データの本質的な構造”を
わかりやすくする⼿手法
http://cdn.intechopen.com/pdfs-wm/19147.pdf
最終的には、
データが⽰示す「意味」
を解釈したい
ステップ1:特徴抽出
Feature Extraction
データを説明するために必要な特徴を
全体から抽出すること
Principal component analysis
Semidefinite embedding
Multifactor...
ステップ2:特徴選択
Feature Selection
抽出した特徴の集合のうち、
意味のあるものを選択すること
•  例例:DNAマイクロアレイやRNA-Seqの
発現データから、結果に影響⼒力力のある
未知の遺伝⼦子を検出する
https...
今回のテーマ
⾮非線形データの特徴選択
〜~BAHSICアルゴリズム
今回の⽬目次
1.  線形データの特徴選択
2.  従来⼿手法 (SVM)
3. BAHSICアルゴリズム
4. 性能⽐比較
©和光市
線形データの特徴選択
•  主成分分析(PCA) の場合
– 主成分スコアから因⼦子負荷量量を計算
X軸
Y軸
主成分軸
主成分スコア
正規化した
データ
•  主成分スコア:正規化した
元データ⾏行行列列×固有ベクトルで
得られる射影後の座標...
線形データの特徴選択
•  主成分分析(PCA) の場合
– 主成分スコアから因⼦子負荷量量を計算
•  主成分スコア = 正規化した元データ⾏行行列列×
固有ベクトルで得られるPC1, PC2…
X軸
Y軸
主成分軸
主成分スコア
正規化した...
従来⼿手法(SVM)
•  Vapnik et.al,1995
•  ⾮非線形データでの代表的な特徴選択⼿手法
•  ★SVMの原理理
•  2クラスを分離離する最も良良い
識識別⾯面を求める  
•  ⽬目的関数は、カーネルのような
⾮非線形...
従来⼿手法(SVM)
•  Vapnik et.al,1995
•  ⾮非線形データでの代表的な特徴選択⼿手法
•  ★SVMの原理理
•  2クラスを分離離する最も良良い
識識別⾯面を求める  
•  ⽬目的関数は、カーネルのような
⾮非線形...
今回のモチベーション
•  実際の解析データでは⾮非線形、
マルチクラスな性質のものが多い
•  特徴抽出⼿手法は⾊色々ある
•  特徴選択⼿手法でいいものはないだろうか
BAHSICアルゴリズム
•  Backward elimination using
Hilbert-Schmidt Independence Criterion
•  直訳:ヒルベルトシュミット独⽴立立性基準を
⽤用いた逆⽅方向消去法
•  ...
ヒルベルトシュミット
独⽴立立性基準  とは何か
•  空間の独⽴立立性をはかる基準
– 特徴空間とクラスラベル空間をイメージ
– もっとも相関するような要素を特徴空間から選ぶ
– BAHSICは↑のアルゴリズム
•  数式など詳細は
「カーネ...
[前提] カーネル法
•  データを⾼高次元の特徴空間に写像する⼿手法
•  カーネルPCA
– 固有値問題はPCAと共通で、
共分散⾏行行列列Sを、特徴空間の内積⾏行行列列
(カーネル関数値)に置き換えたもの
http://www.murat...
[前提] カーネル関数と正定値性
– 特徴写像Φ(X)を、Hの特徴ベクトルとみなす
– カーネルとは内積をデータから計算する関数
– カーネル関数は対称性と正定値性をみたす
Φ :Ω → Η
特徴写像 特徴空間
Φ(Χi ),Φ(Χj ) =k...
[前提] ヒルベルト空間
•  乱暴暴に⾔言うと、
「内積を定義したベクトル空間」
•  厳密には
– 無限次元空間
– 完備性が保証されている
•  …今回はスキップ
©和光市
[前提] 再⽣生核ヒルベルト空間
•  再⽣生性をもつヒルベルト空間
– 空間Hが集合Xの関数f で構成され、
任意の  x ∈ X に対しカーネルkx があるとき
– fとkx の内積は  f(x) の値に等しい  =再⽣生性
– カーネルト...
[前提] 再⽣生核ヒルベルト空間
•  テンソル積 = 空間の積がつくる新たな空間
2つの正定値カーネルk1,k2と対応する
再⽣生核ヒルベルト空間をH1,H2とする
Ø H1,H2のテンソル積は、カーネルの積空間
k(x,x’) = k1(...
これらの前提が意味すること
•  再⽣生核ヒルベルト空間上で、
確率率率分布に関する推論論ができる
– よって分布の均⼀一性、独⽴立立性、依存性、
条件付き独⽴立立性or依存性  を測る問題も
解決できる
ユークリッド空間 再⽣生核ヒルベルト空...
ヒルベルトシュミット独⽴立立性基準
…共分散&線形作⽤用素の発展
再⽣生核ヒルベルト空間における表現
平均
共分散
ˆm(n)
k
=
1
n
k(⋅, Xi )
i=1
n
∑ =
1
n
Φ(Xi )
i=1
n
∑
(Ω, B): 測度度...
•  相互共分散作⽤用素はヒルベルトシュミット
ノルムによって、グラム⾏行行列列の計算になる
※定理理より
HSICはX,Yの独⽴立立性を判定できる基準となる
HSIC(HY , Hx,PrYX ) = ˆΣ(n)
YX
HS
2
= (n −...
HSICの応⽤用例例
1.  独⽴立立成分分析
– 分解後の成分同⼠士が最も独⽴立立になるようにする
2.  次元削減、特徴選択
– ⼊入⼒力力と出⼒力力の独⽴立立性
•  最も独⽴立立なものを取り除く =次元圧縮
•  最も従属なものを選ぶ ...
遺伝⼦子発現データからの特徴選択
•  Gene selection via
the BAHSIC family of algorithms
– Bioinformatics (2007) 23 (13): i490-i498.
– HSICを...
BAHSICアルゴリズム
[特徴 (フルセット)] : ⼊入⼒力力  
[特徴 (選択済み)] : 出⼒力力  
カーネルのpram最適化
Sに含まれる特徴のうち
{j} を除いたものでHSICを計算
★ 除く特徴は多すぎても少なすぎても良良く...
⽐比較結果-1
BAHSIC Other
線形
カーネル
ガウス
カーネル
距離離 SVM Norm
SVM
相互
情報量量
Linear
Data
6 6 6 6 6 6
6 6 6 6 6 6
Non-
Linear
Data
1934 6...
⽐比較結果-2 (all BAHSIC)
線形
カーネル
ガウス
カーネル
距離離線形
カーネル
Dataset A
Dataset B
★ X軸:トップランクgeneの発現量量 Y軸:最も相関の低いgeneの発現量量
Figure 2/ Bi...
Results & 所感
•  線形識識別可能なデータ
– BAHSIC + 線形カーネルが最も良良い
•  ⾮非線形データ + マルチクラス
– BAHSIC + ガウスカーネル  or 距離離、
相互情報量量が適切切 (それ以外は壊滅的)
...
⼿手元の発現データで試した
BAHSICのRコード:
Principal component analysis-based unsupervised feature extraction
applied to in silico drug di...
参考⽂文献、URL
•  カーネル法⼊入⾨門  ─正定値カーネルによる
データ解析─ (福⽔水健次    著)
•  カーネル多変量量解析―⾮非線形データ解析
の新しい展開 (⾚赤穂  昭太郎郎  著)
•  カーネル法のトレンド:
⾮非線形化...
Upcoming SlideShare
Loading in …5
×

BAHSICアルゴリズムによる非線形データからの特徴選択

1,381 views

Published on

WACODE 3rdにて発表しました

Published in: Science
  • Be the first to comment

BAHSICアルゴリズムによる非線形データからの特徴選択

  1. 1. 2015/11/14 WACODE 3rd BAHSICアルゴリズムによる ⾮非線形データからの特徴選択 @nakaneko143
  2. 2. ⾃自⼰己紹介 •  所属:理理化学研究所  情報基盤センター – バイオインフォマティクス 研究開発ユニット (http://bit.riken.jp/) •  テクニカルスタッフ –  Galaxyによる解析パイプラインGUI化 –  Single-Cell RNA-Seq 解析 和光市イメージキャラクター 「わこうっち」
  3. 3. ⾮非線形データの次元圧縮⼿手法 前回のテーマ http://www.slideshare.net/mikayoshimura50/150905-wacode-2nd
  4. 4. 次元圧縮の⽬目的 次元圧縮は、 “データの本質的な構造”を わかりやすくする⼿手法 http://cdn.intechopen.com/pdfs-wm/19147.pdf 最終的には、 データが⽰示す「意味」 を解釈したい
  5. 5. ステップ1:特徴抽出 Feature Extraction データを説明するために必要な特徴を 全体から抽出すること Principal component analysis Semidefinite embedding Multifactor dimensionality reduction Multilinear subspace learning Nonlinear dimensionality reduction Isomap Kernel PCA Multilinear PCA Latent semantic analysis Partial least squares Independent component analysis Autoencoder https://en.wikipedia.org/wiki/Feature_extraction 沢⼭山ある (次元圧縮は その⼀一⼿手法)
  6. 6. ステップ2:特徴選択 Feature Selection 抽出した特徴の集合のうち、 意味のあるものを選択すること •  例例:DNAマイクロアレイやRNA-Seqの 発現データから、結果に影響⼒力力のある 未知の遺伝⼦子を検出する https://en.wikipedia.org/wiki/Feature_selection ©和光市
  7. 7. 今回のテーマ ⾮非線形データの特徴選択 〜~BAHSICアルゴリズム
  8. 8. 今回の⽬目次 1.  線形データの特徴選択 2.  従来⼿手法 (SVM) 3. BAHSICアルゴリズム 4. 性能⽐比較 ©和光市
  9. 9. 線形データの特徴選択 •  主成分分析(PCA) の場合 – 主成分スコアから因⼦子負荷量量を計算 X軸 Y軸 主成分軸 主成分スコア 正規化した データ •  主成分スコア:正規化した 元データ⾏行行列列×固有ベクトルで 得られる射影後の座標 •  因⼦子負荷量量:正規化した 元データ⾏行行列列と 第N主成分スコアとの相関係数 第N主成分に強く関係 →相関が⼤大きくなる
  10. 10. 線形データの特徴選択 •  主成分分析(PCA) の場合 – 主成分スコアから因⼦子負荷量量を計算 •  主成分スコア = 正規化した元データ⾏行行列列× 固有ベクトルで得られるPC1, PC2… X軸 Y軸 主成分軸 主成分スコア 正規化した データ ★因⼦子負荷量量★ 正規化した元データ⾏行行列列と 第N主成分スコアとの 相関係数 主成分に強く関与している →相関が⼤大きい ⾮非線形データでは適⽤用できない 例例)カーネルPCA 主成分分析を⾏行行うデータ空間は元のデータ空間ではない (詳細は後述) ©和光市
  11. 11. 従来⼿手法(SVM) •  Vapnik et.al,1995 •  ⾮非線形データでの代表的な特徴選択⼿手法 •  ★SVMの原理理 •  2クラスを分離離する最も良良い 識識別⾯面を求める   •  ⽬目的関数は、カーネルのような ⾮非線形の場合にも適⽤用できる •  ★特徴選択 •  識識別に重要なデータ点のみを 選べばよい http://docs.opencv.org/2.4/doc/tutorials/ml/ introduction_to_svm/introduction_to_svm.html
  12. 12. 従来⼿手法(SVM) •  Vapnik et.al,1995 •  ⾮非線形データでの代表的な特徴選択⼿手法 •  ★SVMの原理理 •  2クラスを分離離する最も良良い 識識別⾯面を求める   •  ⽬目的関数は、カーネルのような ⾮非線形の場合にも適⽤用できる •  ★特徴選択 •  識識別に重要なデータ点のみを 選べばよい http://docs.opencv.org/2.4/doc/tutorials/ml/ introduction_to_svm/introduction_to_svm.html マルチクラス(多群)には適⽤用できない SVMは基本的に2クラス分類器 ※マルチクラス適⽤用可能な改良良版SVMも 存在するが、決定打はまだ? ©和光市
  13. 13. 今回のモチベーション •  実際の解析データでは⾮非線形、 マルチクラスな性質のものが多い •  特徴抽出⼿手法は⾊色々ある •  特徴選択⼿手法でいいものはないだろうか
  14. 14. BAHSICアルゴリズム •  Backward elimination using Hilbert-Schmidt Independence Criterion •  直訳:ヒルベルトシュミット独⽴立立性基準を ⽤用いた逆⽅方向消去法 •  Journal of Machine Learning Research 13 (2012) 1393-1434 •  ⻑⾧長所 – ⾮非線形データ、マルチクラス対応の特徴選択 – ロバストネスである
  15. 15. ヒルベルトシュミット 独⽴立立性基準  とは何か •  空間の独⽴立立性をはかる基準 – 特徴空間とクラスラベル空間をイメージ – もっとも相関するような要素を特徴空間から選ぶ – BAHSICは↑のアルゴリズム •  数式など詳細は 「カーネル法⼊入⾨門(朝倉書店)」 の9章をご参照ください
  16. 16. [前提] カーネル法 •  データを⾼高次元の特徴空間に写像する⼿手法 •  カーネルPCA – 固有値問題はPCAと共通で、 共分散⾏行行列列Sを、特徴空間の内積⾏行行列列 (カーネル関数値)に置き換えたもの http://www.murata.eb.waseda.ac.jp/researches/kernel xi xj Φ 特徴写像 Φ(xi ) Φ(xj )
  17. 17. [前提] カーネル関数と正定値性 – 特徴写像Φ(X)を、Hの特徴ベクトルとみなす – カーネルとは内積をデータから計算する関数 – カーネル関数は対称性と正定値性をみたす Φ :Ω → Η 特徴写像 特徴空間 Φ(Χi ),Φ(Χj ) =k(Χi,Χj ) cicj i, j=1 n ∑ k(xi, xj ) ≥ 0k(x, y) = k(y, x) ※x, y, c は任意とする →カーネルトリック
  18. 18. [前提] ヒルベルト空間 •  乱暴暴に⾔言うと、 「内積を定義したベクトル空間」 •  厳密には – 無限次元空間 – 完備性が保証されている •  …今回はスキップ ©和光市
  19. 19. [前提] 再⽣生核ヒルベルト空間 •  再⽣生性をもつヒルベルト空間 – 空間Hが集合Xの関数f で構成され、 任意の  x ∈ X に対しカーネルkx があるとき – fとkx の内積は  f(x) の値に等しい  =再⽣生性 – カーネルトリックを導くのはこの性質 f,k(⋅, x) Η =f (x) Φ(x),Φ(y) =k(x, y) f,g = αi i=1 m ∑ k(⋅, xj ), βi i=1 m ∑ k(⋅, xj ) = αi j=1 m ∑ βi i=1 m ∑ k(⋅, xi ),k(⋅, xj ) = αi j=1 m ∑ βj i=1 m ∑ k(xj, xi ) 核=カーネル
  20. 20. [前提] 再⽣生核ヒルベルト空間 •  テンソル積 = 空間の積がつくる新たな空間 2つの正定値カーネルk1,k2と対応する 再⽣生核ヒルベルト空間をH1,H2とする Ø H1,H2のテンソル積は、カーネルの積空間 k(x,x’) = k1(x,x’)k2(x,x’) である •  積空間のカーネルも正定値性をみたす •  よって、再⽣生核ヒルベルト空間のテンソル積は、 カーネルで陽に表せる(超重要) Η1⊗Η2
  21. 21. これらの前提が意味すること •  再⽣生核ヒルベルト空間上で、 確率率率分布に関する推論論ができる – よって分布の均⼀一性、独⽴立立性、依存性、 条件付き独⽴立立性or依存性  を測る問題も 解決できる ユークリッド空間 再⽣生核ヒルベルト空間 平均 平均 共分散 相互共分散作⽤用素 標本共分散 標本相互共分散作⽤用素
  22. 22. ヒルベルトシュミット独⽴立立性基準 …共分散&線形作⽤用素の発展 再⽣生核ヒルベルト空間における表現 平均 共分散 ˆm(n) k = 1 n k(⋅, Xi ) i=1 n ∑ = 1 n Φ(Xi ) i=1 n ∑ (Ω, B): 測度度空間 X, Y: Ω に値をとる確率率率変数, k: Ω上の可測な正定値カーネル cov[ f (X),g(Y)]= E[ f (X)g(Y)]− E[ f (X)]E[g(Y)] = g,ΣYX f HY 相互共分散作⽤用素 ΣYX http://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf
  23. 23. •  相互共分散作⽤用素はヒルベルトシュミット ノルムによって、グラム⾏行行列列の計算になる ※定理理より HSICはX,Yの独⽴立立性を判定できる基準となる HSIC(HY , Hx,PrYX ) = ˆΣ(n) YX HS 2 = (n −1)−2 Tr(GxGY ) ΣYX = EYX [(Ψ(Y)−µY )⊗ (Φ(X)−µX )] G: 中⼼心化グラム⾏行行列列 HSICと独⽴立立性の関係 X ⊥ Y ⇔ ΣYX = 0 ⇔ HISC(X,Y) = 0 (xi, yi ){ }i=1 n Pr:
  24. 24. HSICの応⽤用例例 1.  独⽴立立成分分析 – 分解後の成分同⼠士が最も独⽴立立になるようにする 2.  次元削減、特徴選択 – ⼊入⼒力力と出⼒力力の独⽴立立性 •  最も独⽴立立なものを取り除く =次元圧縮 •  最も従属なものを選ぶ =特徴選択 3.  クラスタリング – ⼊入⼒力力と最も従属になるようなラベルを付与 1) Journal of Machine Learning Research 3 (2002) 1-48 2) Algorithmic Learning Theory 3734 (2005) 63-77 Bibliometrics (2007) 823-830 3) Journal of Machine Learning Research (2004) 73-99
  25. 25. 遺伝⼦子発現データからの特徴選択 •  Gene selection via the BAHSIC family of algorithms – Bioinformatics (2007) 23 (13): i490-i498. – HSICを⽤用いた逆⽅方向消去法(BAHSIC) アルゴリズムによる特徴選択 – 28 microarray datasets •  15:2クラス, 13:マルチクラス •  次元数 ~∼2000 to 25000 – ~∼50 and 300 samples
  26. 26. BAHSICアルゴリズム [特徴 (フルセット)] : ⼊入⼒力力   [特徴 (選択済み)] : 出⼒力力   カーネルのpram最適化 Sに含まれる特徴のうち {j} を除いたものでHSICを計算 ★ 除く特徴は多すぎても少なすぎても良良くない → 各イテレーションで全体の10%の特徴を除くくらいが良良いらしい Bioinformatics (2007) 23 (13): i490-i498.
  27. 27. ⽐比較結果-1 BAHSIC Other 線形 カーネル ガウス カーネル 距離離 SVM Norm SVM 相互 情報量量 Linear Data 6 6 6 6 6 6 6 6 6 6 6 6 Non- Linear Data 1934 6 6 1721 30 6 2041 7 6 1802 33 6 ★ ⼈人為的にアーティファクトな遺伝⼦子を10個加えて、 特徴選択 →ランキングの中央値を算出 ★ 10未満であれば、その⼿手法は良良く検出できている Table 3/ Bioinformatics (2007) 23 (13): i490-i498.
  28. 28. ⽐比較結果-2 (all BAHSIC) 線形 カーネル ガウス カーネル 距離離線形 カーネル Dataset A Dataset B ★ X軸:トップランクgeneの発現量量 Y軸:最も相関の低いgeneの発現量量 Figure 2/ Bioinformatics (2007) 23 (13): i490-i498.
  29. 29. Results & 所感 •  線形識識別可能なデータ – BAHSIC + 線形カーネルが最も良良い •  ⾮非線形データ + マルチクラス – BAHSIC + ガウスカーネル  or 距離離、 相互情報量量が適切切 (それ以外は壊滅的) •  気になる点 – カーネルでのパラメータの影響 – 計算時間の⽐比較 – 便便利利そうなのにあまり普及していない理理由
  30. 30. ⼿手元の発現データで試した BAHSICのRコード: Principal component analysis-based unsupervised feature extraction applied to in silico drug discovery for posttraumatic stress disorder- mediated heart disease (BMC Bioinformatics 2015, 16:139) ※⽥田⼝口先⽣生の論論⽂文(ありがとうございます) 2-class 3-class + unknown subtype
  31. 31. 参考⽂文献、URL •  カーネル法⼊入⾨門  ─正定値カーネルによる データ解析─ (福⽔水健次    著) •  カーネル多変量量解析―⾮非線形データ解析 の新しい展開 (⾚赤穂  昭太郎郎  著) •  カーネル法のトレンド: ⾮非線形化から統計的検定へ – ICML2007勉強会  東⼯工⼤大 ありがとうございました ©和光市

×