More Related Content
Similar to ISMB読み会 2nd graph kernel
Similar to ISMB読み会 2nd graph kernel (20)
ISMB読み会 2nd graph kernel
- 1. Inferring orthologous gene
regulatory networks using
interspecies data fusion
2015/8/10
ISMB/ECCB 2015読み会@東⼤大
理理化学研究所 情報基盤センター
バイオインフォマティクス研究開発ユニット
露露崎弘毅(@antiplastics)
- 5. JI&NL
Joint inference(JI) Network leveraging(NL)
GRNsの統合法として以下の2つを紹介(Fig.1)
共通祖先を仮定して統合 共通祖先を仮定せず統合
マウスの
GRNs
恐⻯竜のGRNs
(観測できない祖先)
カラスの
GRNs
ワシの
GRNs
ヒトの
GRNs
チンパンジーの
GRNs
DNA
マイクロアレイ
データ
Hyper network
- 6. 既存のJI&NLの問題点
・ネットワークアライメント(Clark and Kalita, 2014)、
グラフカーネル(Towfic et al., 2009)
→ 時系列列データには対応していない
・オーソログ(1:1マッピング)情報を利利⽤用した⽅方法
→ オーソログリストの扱いは難しい
(例例: 遺伝⼦子&染⾊色体の重複、遺伝⼦子の消失、始原遺伝⼦子、⽔水平伝搬)
・時系列列データを扱うモデル
→ ヒューリスティックなものしかない
- 8. time
tntn-1
・・・
t2t1
Organism d
この論論⽂文の⽬目的
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
time
tntn-1
・・・
t2t1
Organism 2
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
tntn-1
・・・
t2t1
X(1) X(2) X(n-1) X(n)
time
tntn-1
・・・
t2t1
Organism 1
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
Step.2 : Step.1を複数の⽣生物種で⾏行行う
- 9. time
tntn-1
・・・
t2t1
Organism d
この論論⽂文の⽬目的
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
time
tntn-1
・・・
t2t1
Organism 2
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
tntn-1
・・・
t2t1
X(1) X(2) X(n-1) X(n)
time
tntn-1
・・・
t2t1
Organism 1
X(1) X(2) X(n-1) X(n)
g1 g2 gn-1 gn
・・・
Step.3 :
GRNsを統合
- 11. X = X(1)
, X(2)
,..., X(d)
{ }
ある時点で発現量量データXが、d⽣生物種分あるとする
これらのデータからGRNs(g)をd⽣生物種ごとに推定する
g(1)
,g(2)
,...,g(d)
{ }
グラフgは、ノード集合N、エッジ集合E、
ノードラベル集合lで定義されるとする
g(i)
= {N(i)
, E(i)
,l(i)
}
準備
- 12. Framework1(JI)
X
g φ
d
β
g∗
以下のような事後分布を仮定
Hyper Network
Data
Hyper Parameter
Graph
Model
Parameter
P(g(1)
,...,g(d)
,g*| X,φ,β)
∝ P(g(1)
,...,g(d)
,g*| β)× P(X( j)
| g( j)
,φ( j)
)
j=1
d
∏
g* = {N*, E*,l*}
Hyper Network
P(X( j)
| g( j)
,φ( j)
) =
L(g( j)
|φ( j)
)
Zdata
(φ( j)
)
g(j)の尤度度
規格化定数
事前分布
尤度度
- 13. Framework1(JI)
事前分布は以下のように
ギブス分布(カノニカル分布)を仮定
P(g(1)
,...,g(d)
,g*| β) =
exp(−βε(g(1)
,...,g(d)
,g*))
ZGK
(β)
エネルギー関数
規格化定数
これをMCMCで解くので、エネルギーが低い状態
(Hypernetworkと似ているネットワークをより含んでいる状態)
がサンプリングで選ばれやすくなる
β→0では各g(d)のみが各⽣生物種のGRNsとしてあてがわれる
βを⼤大きくするにつれ、どの⽣生物種のGRNsも互いに似るようになる
ε(g(1)
,...,g(d)
,g*) = ε(g( j)
,g*)
j=1
d
∑
エネルギー関数は、グラフ間の⾮非類似度度を使う
- 14. Framework1(JI)
今回は、グラフ間の類似度度(カーネル関数)を使った
ε(g(1)
,...,g(d)
,g*) =ε0 − K(g(1)
,g*)
j=1
d
∑
従来研究(Oates, 2014, Penfold et al, 2012, Werhli and
Husmeier, 2008)では、グラフ間のハミング距離離を使った
ε(g( j)
,g*) = d(g( j)
,g*)
⼀一致しないエッジの本数
3
ε0 = max
g( j )
,...,g*
{ K(g( j)
,g*)
j=1
d
∑ }多分、距離離がマイナスに
ならないように⾜足した
これにより、グラフ全体を⾒見見てもわからない、
局所的な類似性を検出できて、精度度も上がる事を期待
- 15. Framework2(NL)
ほとんどFramework1と同じだが、Hyper networkを
仮定しない事に伴い、カーネル関数が変更更
総当たりのグラフ間の類似度度の和
ε(g(1)
,...,g(d)
) =ε0 − K(g(i)
,g( j)
)
i=j+1
d
∑
j=1
d
∑
P(g(1)
,...,g(d)
| X,φ,β)
∝ P(g(1)
,...,g(d)
| β)× P(X( j)
| g( j)
,φ( j)
)
j=1
d
∏
X
g φ
d
β
Data
Hyper Parameter
Graph
Model
Parameter
- 17. 補⾜足 : カーネル法
メリット1: グラム⾏行行列列が正定値性を満たす場合、カーネルは、⾼高次
元(または無限次元)空間上でのベクトルの内積を意味する。
⼀一般的に、⾼高次元ほど表現⼒力力が⾼高いので、精度度向上が期待できる
カーネルを計算しただけで、⾼高次元空間での
内積をφを陽に使わずに計算できる!
(カーネルトリック)
φ(x1),φ(x2 ) = K(x1, x2 )
計算⼤大変
(超⾼高次元、無限次元)
計算楽(データの次元)
x1
x2
φ(x1)
φ(x2)
データの次元
超⾼高次元、無限次元
(この空間で線形な⼿手
法を適⽤用する)
- 18. 補⾜足 : カーネル法
⽂文字列列 ⽊木 グラフ
メリット2: 数値ベクトルで表現できないが、データ間の類似度度は
定義できるようなデータ(構造化データ)に適⽤用できる
ATAGGA
ACGGT
AGGTG
GTCAC
今回はこれ
- 20. Shortest path graph kernel
Kshortest path g
1( )
,g
2( )
( )= kwalk
1
e(1)
,e(2)
( )
e(2)
∈Esp
2( )
∑
e(1)
∈Esp
1( )
∑
g
1( )
g
2( )
gene1
gene2
gene3 gene4
gene5
gene1
gene2
gene3 gene4
gene5
例例 : gene2とgene5の最短経路路
E : エッジ集合
e : 最短エッジ
kwalk : 最短経路路カーネル関数
⼀一致したエッジの和を返す
(Borgwardt and Kriegel, 2005)
当然どのカーネルを使ったかで、結果は影響される
既存の3つのグラフカーネルを試した
⼀一致
最短経路路カーネル
あらゆる遺伝⼦子間の最短経路路内で⼀一致したエッジの和
gene3’
1
- 21. Graphlet kernel
Kg g
1( )
,g
2( )
( )= fg
1( )
T
fg
2( )
グラフレットカーネル
グラフレット間のエッジの引き⽅方の⼀一致度度
グラフレット = 制限されたサイズの部分グラフ
g
1( )
g
2( )
gene1
gene2
gene3 gene4
gene5
gene1
gene2
gene3 gene4
gene5
例例 : gene3,4,5でのグラフレット
⼀一致
⼀一致
論論⽂文では、3ノードでのグラフレット間
のカーネルで計算した
ノードの削除・重複でノード数が変わる
ので、ノード数で正規化する
Dg(1) =
fg(1)
Ng(1)
Kg g
1( )
,g
2( )
( )= Dg
1( )
T
Dg
2( )
gene3’
fg
1( )
T
fg
2( ) = (0,1,0,0)(0,1,0,0) =1
エッジの引き⽅方の種類数
1
- 22. Weisfeiler-‐‑‒Lehman (WL) kernel
K
b( )
WL g
1( )
,g
2( )
( )= k gi
1( )
,gi
2( )
( )i=0
h
∑
WLカーネル
部分⽊木でのノードの種類数
g
1( )
g
2( )
1
2
3 4
5
1
2
3 4
5
例例 : h=0でのWLカーネル
3
k g0
1( )
,g0
2( )
( )= φ(g0
1( )
)φ(g0
2( )
)
= (1,1,2,1,1) (1,1,1,1,1)
=1+1+ 2 +1+1
= 5
各ノードの種類数
5
- 23. Weisfeiler-‐‑‒Lehman (WL) kernel
g
1( )
g
2( )
1
2
3 4
5
1
2
3 4
5
例例 : h=1でのWLカーネル
論論⽂文では、h=2で実⾏行行した
g
1( )
g
2( )
1,2
2,134
3,24 4,235
5,4
1,24
2,14
3,24 4,135
5,4
3
3,24
k g1
1( )
,g1
2( )
( )= φ(g1
(1)
)φ(g1
(2)
)
= (1,1,2,1,1, 1,0,1,0,2,0,1) (1,1,1,1,1, 0,1,0,1,1,1,1)
=1+1+ 2 +1+1 + 0 + 0 + 0 + 0 + 2 + 0 +1
= 8
隣隣接ノードの種類で、
再ラベルしたノードの種類数
再ラベル
各ノードの種類数
5 3
- 25. in silico data 1
(ノードの重複なし)
・あくまで1⽣生物種のデータセットであるため、
ベンチマークとして不不適切切かもしれないが、⼿手法の性質はわかった
・WLカーネル + Framework 1は精度度が⾼高い
(正解のGRNs構造を検出できている)
・Framework 2はデータ数が少なくても安定(Supplementary Section S2)
DREAM4 In Silico Network Challenge(2009)
10遺伝⼦子
5実験条件
5時系列列
- 27. Framework2
(WL kernel)
Framework1
(WL kernel)
平均AUC 周辺尤度度
ODE系による
時系列列データ
ハイパーパラメーターの値
1データでのAUC値
データ統合した
今回のAUC値
最⼤大AUC値 ・ネットワーク構造から、常微分⽅方程式系
を作成、mRNAの時系列列データを作成
・データだけから、元のネットワーク構造
をどの程度度当てられたか、AUCで評価
(閾値 = 個々の⽮矢印にあてがわれた確率率率)
・Framework1のほうがβに対して安定
・WLカーネル以外は、統合しない⽅方法と対
して変わらない(data not shown)
Fig. 2
in silico data 2
(ノードの重複あり)