ISMB読み会 2nd graph kernel

Inferring orthologous gene
regulatory networks using
interspecies data fusion
2015/8/10
ISMB/ECCB 2015読み会@東⼤大
理理化学研究所情報基盤センター
バイオインフォマティクス研究開発ユニット
露露崎弘毅（@antiplastics）

この論論⽂文を選んだ理理由
•  最近カーネル法がマイブームだから
•  よく読んだらカーネル法の論論⽂文じゃなかった
•  従来法でグラフ間の距離離を使っていたところを、カーネル関数
を使って計算したところが新しい
•  実際にこの論論⽂文で扱うような、複数⽣生物種での時系列列データが
⼿手に⼊入った事が無いので、今後どの程度度応⽤用できるかは不不明
（著者らは2011年年から同じデータを使い続けている）

Gene Regulatory Network（GRNs）
この論論⽂文では、ノードを遺伝⼦子、
エッジを制御関係とした
有向グラフを考える
ある遺伝⼦子が発現したことで、他の遺伝⼦子の
発現に影響を与えるという関係性を
ネットワークとして表したもの
http://www.nature.com/ncomms/journal/
v4/n5/ﬁg_tab/ncomms2693_F2.html
DNAマイクロアレイのデータとしては、
共発現として検出される
Togo picture gallery by DBCLS is licensed under
a Creative Commons Attribution 2.1 Japan license (c)
Gene X
Gene Y Gene Z
X
Y Z

JI&NL
Joint inference（JI） Network leveraging（NL）
GRNsの統合法として以下の2つを紹介（Fig.1）
共通祖先を仮定して統合共通祖先を仮定せず統合
マウスの
GRNs
恐⻯竜のGRNs
（観測できない祖先）
カラスの
GRNs
ワシの
GRNs
ヒトの
GRNs
チンパンジーの
GRNs
DNA
マイクロアレイ
データ
Hyper network

既存のJI&NLの問題点
・ネットワークアライメント（Clark and Kalita, 2014）、
グラフカーネル（Towfic et al., 2009）
→ 時系列列データには対応していない
・オーソログ（1:1マッピング）情報を利利⽤用した⽅方法
→ オーソログリストの扱いは難しい
（例例: 遺伝⼦子&染⾊色体の重複、遺伝⼦子の消失、始原遺伝⼦子、⽔水平伝搬）
・時系列列データを扱うモデル
→ ヒューリスティックなものしかない

Step.1 : ある⽣生物種の遺伝⼦子発現量量が時系列列で与えられていて、
各時点ごとにGRNsを推定する
（CSIというアルゴリズムを使うらしい）
tntn-1
・・・
t2t1
この論論⽂文の⽬目的
X(1) X(2) X(n-1) X(n)
tntn-1
・・・
t2t1
X(1) X(2) X(n-1) X(n)
tntn-1
・・・
t2t1
X(1) X(2) X(n-1) X(n)
time
tntn-1
・・・
t2t1
Organism 1
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn

time
tntn-1
・・・
t2t1
Organism d
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
time
tntn-1
・・・
t2t1
Organism 2
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
tntn-1
・・・
t2t1
X(1) X(2) X(n-1) X(n)
time
tntn-1
・・・
t2t1
Organism 1
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
Step.2 : Step.1を複数の⽣生物種で⾏行行う

time
tntn-1
・・・
t2t1
Organism d
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
time
tntn-1
・・・
t2t1
Organism 2
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
tntn-1
・・・
t2t1
X(1) X(2) X(n-1) X(n)
time
tntn-1
・・・
t2t1
Organism 1
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
・・・
Step.3 :
GRNsを統合

2. Leveraging orthologous
networks via
Bayesian inference

X = X(1)
, X(2)
,..., X(d)
{ }
ある時点で発現量量データXが、d⽣生物種分あるとする
これらのデータからGRNs（g）をd⽣生物種ごとに推定する
g(1)
,g(2)
,...,g(d)
{ }
グラフgは、ノード集合N、エッジ集合E、
ノードラベル集合lで定義されるとする
g(i)
= {N(i)
, E(i)
,l(i)
}
準備

Framework1（JI）
X
g φ
d
β
g∗
以下のような事後分布を仮定
Hyper Network
Data
Hyper Parameter
Graph
Model
Parameter
P(g(1)
,...,g(d)
,g*| X,φ,β)
∝ P(g(1)
,...,g(d)
,g*| β)× P(X( j)
| g( j)
,φ( j)
)
j=1
d
∏
g* = {N*, E*,l*}
Hyper Network
P(X( j)
| g( j)
,φ( j)
) =
L(g( j)
|φ( j)
)
Zdata
(φ( j)
)
g(j)の尤度度
規格化定数
事前分布
尤度度

Framework1（JI）
事前分布は以下のように
ギブス分布（カノニカル分布）を仮定
P(g(1)
,...,g(d)
,g*| β) =
exp(−βε(g(1)
,...,g(d)
,g*))
ZGK
(β)
エネルギー関数
規格化定数
これをMCMCで解くので、エネルギーが低い状態
（Hypernetworkと似ているネットワークをより含んでいる状態）
がサンプリングで選ばれやすくなる
β→0では各g(d)のみが各⽣生物種のGRNsとしてあてがわれる
βを⼤大きくするにつれ、どの⽣生物種のGRNsも互いに似るようになる
ε(g(1)
,...,g(d)
,g*) = ε(g( j)
,g*)
j=1
d
∑
エネルギー関数は、グラフ間の⾮非類似度度を使う

Framework1（JI）
今回は、グラフ間の類似度度（カーネル関数）を使った
ε(g(1)
,...,g(d)
,g*) =ε0 − K(g(1)
,g*)
j=1
d
∑
従来研究（Oates, 2014, Penfold et al, 2012, Werhli and
Husmeier, 2008）では、グラフ間のハミング距離離を使った
ε(g( j)
,g*) = d(g( j)
,g*)
⼀一致しないエッジの本数
3
ε0 = max
g( j )
,...,g*
{ K(g( j)
,g*)
j=1
d
∑ }多分、距離離がマイナスに
ならないように⾜足した
これにより、グラフ全体を⾒見見てもわからない、
局所的な類似性を検出できて、精度度も上がる事を期待

Framework2（NL）
ほとんどFramework1と同じだが、Hyper networkを
仮定しない事に伴い、カーネル関数が変更更
総当たりのグラフ間の類似度度の和
ε(g(1)
,...,g(d)
) =ε0 − K(g(i)
,g( j)
)
i=j+1
d
∑
j=1
d
∑
P(g(1)
,...,g(d)
| X,φ,β)
∝ P(g(1)
,...,g(d)
| β)× P(X( j)
| g( j)
,φ( j)
)
j=1
d
∏
X
g φ
d
β
Data
Hyper Parameter
Graph
Model
Parameter

補⾜足 : カーネル法
簡単に⾔言うと、総当たりの類似度度計算の結果を格納した⾏行行列列
（グラム⾏行行列列）を元にした解析⼿手法
ただし、グラム⾏行行列列は対照⾏行行列列であり、正定値性を満たすものとする
Data1
Data2
Data3
Data4
グラム⾏行行列列
その他、リッジ回帰、CCA、Fisher判別
分析、 SVM、K-means、PLS回帰、
SVR、ロジスティック回帰…etc
多くの多変量量解析⼿手法がカーネル版とし
て利利⽤用可能
Data
1
Data
2
Data
3
Data
4
Data
1
Data
2
Data
3
Data
4
Data1
Data4
Data3
Data2
PC1
PC2
PC3
カーネルPCA類似度度が定義できるデータ集合

メリット1: グラム⾏行行列列が正定値性を満たす場合、カーネルは、⾼高次
元（または無限次元）空間上でのベクトルの内積を意味する。
⼀一般的に、⾼高次元ほど表現⼒力力が⾼高いので、精度度向上が期待できる
カーネルを計算しただけで、⾼高次元空間での
内積をφを陽に使わずに計算できる！
（カーネルトリック）
φ(x1),φ(x2 ) = K(x1, x2 )
計算⼤大変
（超⾼高次元、無限次元）
計算楽（データの次元）
x1
x2
φ(x1)
φ(x2)
データの次元
超⾼高次元、無限次元
（この空間で線形な⼿手
法を適⽤用する）

⽂文字列列⽊木グラフ
メリット2: 数値ベクトルで表現できないが、データ間の類似度度は
定義できるようなデータ（構造化データ）に適⽤用できる
ATAGGA
ACGGT
AGGTG
GTCAC
今回はこれ

⽅方針として、⾮非数値ベクトルデータでのカーネルは、
部分構造同⼠士のカーネル関数によって再起的に定義する
（畳み込みカーネルという）

Shortest path graph kernel
Kshortest path g
1( )
,g
2( )
( )= kwalk
1
e(1)
,e(2)
( )
e(2)
∈Esp
2( )
∑
e(1)
∈Esp
1( )
∑
g
1( )
g
2( )
gene1
gene2
gene3 gene4
gene5
gene1
gene2
gene3 gene4
gene5
例例 : gene2とgene5の最短経路路
E : エッジ集合
e : 最短エッジ
kwalk : 最短経路路カーネル関数
　　　⼀一致したエッジの和を返す
（Borgwardt and Kriegel, 2005）
当然どのカーネルを使ったかで、結果は影響される
既存の3つのグラフカーネルを試した
⼀一致
最短経路路カーネル
あらゆる遺伝⼦子間の最短経路路内で⼀一致したエッジの和
gene3’
1

Graphlet kernel
Kg g
1( )
,g
2( )
( )= fg
1( )
T
fg
2( )
グラフレットカーネル
グラフレット間のエッジの引き⽅方の⼀一致度度
グラフレット = 制限されたサイズの部分グラフ
g
1( )
g
2( )
gene1
gene2
gene3 gene4
gene5
gene1
gene2
gene3 gene4
gene5
例例 : gene3,4,5でのグラフレット
⼀一致
⼀一致
論論⽂文では、3ノードでのグラフレット間
のカーネルで計算した
ノードの削除・重複でノード数が変わる
ので、ノード数で正規化する
Dg(1) =
fg(1)
Ng(1)
Kg g
1( )
,g
2( )
( )= Dg
1( )
T
Dg
2( )
gene3’
fg
1( )
T
fg
2( ) = (0,1,0,0)(0,1,0,0) =1
エッジの引き⽅方の種類数
1

Weisfeiler-‐‑‒Lehman (WL) kernel
K
b( )
WL g
1( )
,g
2( )
( )= k gi
1( )
,gi
2( )
( )i=0
h
∑
WLカーネル
部分⽊木でのノードの種類数
g
1( )
g
2( )
1
2
3 4
5
1
2
3 4
5
例例 : h=0でのWLカーネル
3
k g0
1( )
,g0
2( )
( )= φ(g0
1( )
)φ(g0
2( )
)
= (1,1,2,1,1) (1,1,1,1,1)
=1+1+ 2 +1+1
= 5
各ノードの種類数
5

Weisfeiler-‐‑‒Lehman (WL) kernel
g
1( )
g
2( )
1
2
3 4
5
1
2
3 4
5
例例 : h=1でのWLカーネル
論論⽂文では、h=2で実⾏行行した
g
1( )
g
2( )
1,2
2,134
3,24 4,235
5,4
1,24
2,14
3,24 4,135
5,4
3
3,24
k g1
1( )
,g1
2( )
( )= φ(g1
(1)
)φ(g1
(2)
)
= (1,1,2,1,1, 1,0,1,0,2,0,1) (1,1,1,1,1, 0,1,0,1,1,1,1)
=1+1+ 2 +1+1 + 0 + 0 + 0 + 0 + 2 + 0 +1
= 8
隣隣接ノードの種類で、
再ラベルしたノードの種類数
再ラベル
各ノードの種類数
5 3

in silico data 1
（ノードの重複なし）
・あくまで1⽣生物種のデータセットであるため、
ベンチマークとして不不適切切かもしれないが、⼿手法の性質はわかった
・WLカーネル + Framework 1は精度度が⾼高い
（正解のGRNs構造を検出できている）
・Framework 2はデータ数が少なくても安定（Supplementary Section S2）
DREAM4 In Silico Network Challenge（2009）
10遺伝⼦子
5実験条件
5時系列列

in silico data 2
（ノードの重複あり）
21時系列列
3遺伝⼦子
5⽣生物種

Framework2
（WL kernel）
Framework1
（WL kernel）
平均AUC 周辺尤度度
ODE系による
時系列列データ
ハイパーパラメーターの値
1データでのAUC値
データ統合した
今回のAUC値
最⼤大AUC値・ネットワーク構造から、常微分⽅方程式系
を作成、mRNAの時系列列データを作成
・データだけから、元のネットワーク構造
をどの程度度当てられたか、AUCで評価
（閾値 = 個々の⽮矢印にあてがわれた確率率率）
・Framework1のほうがβに対して安定
・WLカーネル以外は、統合しない⽅方法と対
して変わらない（data not shown）
Fig. 2
in silico data 2
（ノードの重複あり）

分裂裂酵⺟母
（S. pombe）
情報少ない
出芽酵⺟母
（S. cerevisiae）
情報多い
出芽酵⺟母のGRNsとの統合で、分裂裂酵⺟母の新規パスウェイを⾒見見つける事ができた
Fig. 3
100
遺伝⼦子
?時系列列
・予測したエッジの2〜～12%がBioGRIDで⾒見見つかった
・gas1の⽋欠失で細胞壁が壊れる事はわかっていた
・今回gas1が、細胞壁関連の遺伝⼦子
（MBF複合体、cig2, mrc1, cdt2, rad12, msh6）
を制御している事が原因だと予測できた
157
遺伝⼦子 +
?時系列列
実データ

まとめ
•  出芽酵⺟母と分裂裂酵⺟母データでは、既知の相互作⽤用に加え、
Gas1の新規のパスウェイを予測した
•  Zhang an Moret, 2010と似ているが、グラフカーネルと組み合わ
せたのが新しい
•  どのカーネルが良良いのかわからないが、今回はWLカーネルが良良い
性能を⽰示した
•  Shortest passカーネルとGraphletカーネルでのパラメーターβの最
適化も今後検討（Penfold, 2012, Calderhead and Girolami,
2009）

ISMB読み会 2nd graph kernel

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ISMB読み会 2nd graph kernel

Similar to ISMB読み会 2nd graph kernel (20)

More from 弘毅露崎

More from 弘毅露崎 (20)