Integrating different data types by regularized 
unsupervised multiple kernel learning with 
application to cancer subtype discovery
Nora K. Speicher and Nico Pfeifer 
発表者:中央大学理工学部物理学科田口善弘
Bioinformatics, 31, 2015, i268–i275
(
x11 x12 … x1 N
x21 x22 … x2 N
… … … …
xd 1 xd 2 … xdN
)=( ⃗x1, ⃗x2, …, ⃗xN )
Nサンプル × d次元 特徴量 (N≪d)
目的
(
w11 w12 … w1N
w21 w22 … w2N
… … … …
wN 1 wN 2 … wNN
)
類似度行列
wij δ( ⃗xi , ⃗xj)⇔
大 小
類似度 距離
δ( ⃗xi , ⃗xj)
普通は...
Kij
カーネル
⃗xi→Φ( ⃗xi)
⃗xi ⃗xj Φ(⃗xi)
Φ( ⃗xj)
αn
δ( ⃗xi , ⃗xj)=∑n=1
N
{αn(Kin−K jn)}
2
現実にはP本のαを使用=P次元空間への射影
利点:
・入力データはカーネルなのでカーネル化できるも
のはなんでも入力になる(複数種のカーネルの混
合使用可)。
・教師あり、教師なし、半教師あり学習に対応
 (w
ij
をデータから作れば教師なし学習)。
・正規化項(次頁参照)を付加して過学習を抑止。
複数カーネルの統合法:線型結合(わりと芸がない..)
Kij=∑m=1
M
βm Kij
m
, βm⩾0
∑
ij
δ(⃗xi , ⃗x j)wij
min
α,β
∑
i=1
N
[δ( ⃗xi){∑
j=1
N
wij }]=const . ∑
m=1
M
|βm|=1
δ( ⃗xi)=∑
n=1
N
(αn Kin)
2 ←カーネル空間でのx
i
のα方向への射影の2乗
x
i
の重要度 K
ij
=0を防ぐ∀
αn=0 を防ぐ
今回の目的:ガンのサブタイプ
wij= 1 i∈N ( j), j∈N (i)
0
N(i):iのk近傍→教師なし学習&低次元の構造誘導
δ( ⃗xi , ⃗xj)求まった      を使ってカーネルK-means
最適クラスター数は silhouette width(クラス
ターのコンパクトさを示す指標の一種)の平均値
が最大になるように決定
結局、やっていること:
カーネル空間(高次元空間)からP次元空間(低次元空間)
になるべくコンパクトになるように射影する
「ランチはヘルメットをかぶって」1987 福田繁雄
評価方法(生存解析):
全時期を通して多群の瞬間死亡率が等しいと仮
定した時のP値をχ二乗分布を仮定した対数順位
検定で求める。
対象データ(TCGA):
5種類のガンのサブタイプに対し
て、mRNA,miRNA,DNAメチル化の3種類の
データが与えられている(非常に高次元)。
時間
生
存
率
5種のガン
mRNA,miRNA,メチル化に
各1( )個のカーネル使用
αは5本で5次元への縮約、w
ij
決定のための近傍
数は9,カーネルはガウスカーネル。
5
Similarity Network 
Fusion(従来法) 
()内はクラスター数
ISMB/ECCB2015に選ばれた理由:
・教師なし学習で生存曲線に差があるクラスター
を作成することに成功
・ロバストネス(説明できなかったが全サンプルの
50%しか使わなくてもLOOCVで求めたランド指
数が90%超)
・従来の高精度な手法は遺伝子数に対して指数
時間が必要なため、プレスクリーニングが必要
だったが提案手法は3乗程度なのでプレスクリー
ニング不要
・mRNA/miRNA/メチル化の統合解析可

Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery