Structure-based prediction of protein-protein
interactions on a genome-wide scale
大上 雅史 (@tonets)
2014/07/04
Qiangfeng Cliff Zhang, et al.
Nature, 490(7421): 556-560, 2012.
2
• タンパク質の3次元構造情報とその他の非構造情報を組み合わせた
タンパク質間相互作用(PPI)予測手法の提案
• PPIの解明は細胞のメカニズムの解明のために重要
• Y2H(yeast two-hybrid)等のハイスループットな技術がすでに存在
• 計算機上での予測手法も盛んに研究されているが,
その精度はまだまだ発展途上
• 我々はハイスループットな実験手法と同等の精度(?)を達成した
Abstract
Introduction
• 現在までのところ、タンパク質の構造情報は配列の情報に
比べ極端に数が少ない
– 酵母の例だと10%以下(割合:600/6500, 2010年)
• よって、タンパク質間相互作用の研究における貢献度は小さい
• しかし、この先3次元の構造情報が増えていけば,タンパク質の
単体や複合体のモデリングに有効であることは明らかである
• これまでの研究で構造的特徴付けされた複合体をテンプレート
として用いる手法はいくつかあるが、我々は新たに二次構造を
用いた幾何学的関係をテンプレートに利用する
3
Method
4
PrePPI
5
Fig. 1
• 候補構造生成に相同性モデルを用いたもの
• 構造情報と非構造情報をベイズ統計で組み合わせたもの
候補構造の生成
6
候補構造の生成手順
• 配列相同性検索を用いて入力タンパク質の代表構造を特定する
– 実験的定義構造か相同性モデルに一致
– 相同性:遺伝子やタンパク質が、進化的に共通の祖先を持つ場合のこと
• 構造アラインメントを用いて類似のタンパク質を大量に用意
– 近いのと遠いの両方(平均1500個)
– Skaというツールを使用
• うちどれか2つを相互作用モデルのテンプレートとする
– PDBに存在するもの
• 複合体モデルはテンプレートに重ね合わせることで作る
7
どのくらいの量か
• この過程で得られる候補構造の数
– 酵母の5億5千万の候補構造
• 酵母のタンパク質3600個,PPI候補240万
– ヒトの120億の候補構造
• タンパク質13000,PPI候補3600万
• 構造ベースアラインメントを用いた
– 3次元構造では計算時間が膨大なため
8
スコア関数1
9
予測のための5つの
構造に基づく経験的特徴量
• SIM
– テンプレートと入力タンパク質の構造の類似度
• SIZ and COV
– SIZ: テンプレートとの共通の結合面残基の個数
– COV: その割合
• OS
– SIZのうち、結合面の残基ペアが両方とも一致している個数
• OL
– テンプレートの結合面残基のうち、入力タンパク質においても結合面
に存在するものの個数
10
SIM
• 構造の類似度
– テンプレートと入力タンパク質を二次構造を用いて比較
– 2つのタンパク質についてPSDを求め、平均をとって使う
• PSD(protein structural distance)
– 二重動的計画法(DDP)を用いた二次構造比較+RMSDによるスコア
1. まず、二次構造要素(SSE, secondary structural element)同士の距離や
角度からある二次構造ペア間の類似度 を網羅的に求める
11
距離 角度
𝑝, 𝑞, 𝑟: パラメータ
𝑖, 𝑗, 𝑚, 𝑛: 二次構造番号
二重動的計画法(DDP)を用いた二次構造比較スコア
SIM
• つまり?(二重動的計画法)
12
タンパク質A B
a1
a2
a3
a4
b1
b2
b3
b4
a1
a2
b1
b2
二
次
構
造
角度 距離
これの平均
a1
a2
a3
a4
を計算
b1 b2 b3 b4
𝑆(𝑎1, 𝑏1)
10
a1
a2
a3
a4
b1 b2 b3 b4
40
組み合わせの数だけ作成
20
30
30
5 2
2
3
7
9
1
ローレベル
動的計画法
ハイレベル
動的計画法
累積
𝑠 𝐴, 𝐵 = 100
残基
SIM
• 二重動的計画法 DDPの例 (Double Dynamic Programing)
13
SIM
• 二重動的計画法 DDPの例 (Double Dynamic Programing)
14
SIM
• もうひとつのスコア
optimized CαRMSD
– RMSD: 2つのタンパク質を重ね合わせ
たときの、各原子間の距離をもとにし
た構造差
– まず二次構造アラインメントを用いて
大まかな一致箇所を探す
– 残基間アラインメントを用いて一致する
残基を探し、重ね合わせ、RMSDを求
める。
15
タンパク質3次元構造のペア
二次構造と溶媒露出面積を
求める
二次構造アラインメント
(さっきのやつ)
残基間アラインメント
剛体重ね合わせ、RMSD計算
RMSDは収束したか
no
yes
終了
流れ
SIM
• 最終的なスコア
– 二つのタンパク質についてPSDを求め、平均を
とって使う
16
𝑥, 𝑦: パラメータ
RMSDスコア
二次構造スコア
SIZ and COV
• SIZ
– 2つの構造で共通の結合面残基ペアの個数
• COV
– その割合
17
OS and OL
• OS
– SIZのうち、結合面残基ペアの両方ともが一致している個数
• OL
– テンプレートの結合面残基のうち、入力タンパク質において
も結合面に存在するものの個数
18
ベイジアンネットワーク(BN)
を用いた学習モデル 1/3
• 複数のDBを組み合わせる(Table S1)
– 2つ以上のDBに含まれているPPIペアを信頼性の高いもの; HC (High Confidence)とする
– そうでないものを信頼性の低いもの; LC (Low Confidence)
– それ以外をN (negative) とする
• HCとNを用いる
10-fold cross validation
19
学習に用いたデータベース(DB)
• さきほどまでの5つの特徴量をベイジアンネットワークで組み
合わせ、PPIの予測モデルを作成する
yeast human
BNを用いたモデル 2/3
• COV, SIZ, OL, OS
– 全結合ベイジアンネットワーク
– 同時確率
• SIM
– ナイーブベイズ(他の4つとは関連が薄いため)
20
COV
SIZ
OL
OS
SIMClass
特徴量の利用方法(Fig. S1)
𝑝 𝐶𝑂𝑉, 𝑆𝐼𝑍, 𝑂𝐿, 𝑂𝑆
= 𝑝 𝐶𝑂𝑉 𝑝 𝑆𝐼𝑍 𝐶𝑂𝑉 𝑝 𝑂𝑆 𝐶𝑂𝑉, 𝑆𝐼𝑍 𝑝(𝑂𝐿|𝐶𝑂𝑉, 𝑆𝐼𝑍, 𝑂𝑆)
BNを用いたモデル 3/3
• 相互作用判定のための尤度比(LR, Likelihood Ratio)
– LR 𝑵𝑩 = LR 𝑩𝟒 ∗ LR 𝑺𝑰𝑴
– LR 𝑏𝑖𝑛 =
𝑂 𝑝𝑜𝑠𝑡
𝑂 𝑝𝑟𝑖𝑜𝑟
21
𝑂 𝑝𝑟𝑖𝑜𝑟 =
𝑃(𝐻𝐶)
𝑃(𝑁)
𝑂 𝑝𝑜𝑠𝑡 =
𝑃(𝐻𝐶|𝑏𝑖𝑛)
𝑃(𝑁|𝑏𝑖𝑛)
LR 𝑵𝑩 ≥ 𝟔𝟎𝟎
閾値
bin: 分類クラス
BN用いたモデル: 例
• つまり
22
10個 990個
HC N
学習データセット
𝑃 𝑁 =0.99
𝑃 𝐻𝐶 =0.01
HC:8
N:92
HC:2
N:898
0.5< 0.5≧
SIM
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 > 0.5] =0.08
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 ≤ 0.5] ≈0.002
𝑃 𝑁𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 > 0.5] =0.92
𝑃 𝑁𝐶|𝑏𝑖𝑛[𝑆𝐼𝑀 ≤ 0.5] ≈0.998
COV SIZ OS OL
4< 0.6< 3< 5<
HC:7 N:93
4≧ 0.6≧ 3≧ 5≧
HC:3 N:897
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝐶𝑂𝑉 > 4, 𝑆𝐼𝑍 > 0.6, 𝑂𝑆 > 3, 𝑂𝐿 > 5] =0.07
𝑃 𝐻𝐶|𝑏𝑖𝑛[𝐶𝑂𝑉 ≤ 4, 𝑆𝐼𝑍 ≤ 0.6, 𝑂𝑆 ≤ 3, 𝑂𝐿 ≤ 5] ≈0.003
𝑃 𝑁|𝑏𝑖𝑛[𝐶𝑂𝑉 > 4, 𝑆𝐼𝑍 > 0.6, 𝑂𝑆 > 3, 𝑂𝐿 > 5] =0.93
𝑃 𝑁|𝑏𝑖𝑛[𝐶𝑂𝑉 ≤ 4, 𝑆𝐼𝑍 ≤ 0.6, 𝑂𝑆 ≤ 3, 𝑂𝐿 ≤ 5] ≈0.997
𝑂 𝑝𝑟𝑖𝑜𝑟1
𝑂 𝑝𝑟𝑖𝑜𝑟2
簡単化のため、
クラス数をとても
減らしています
𝑂 𝑝𝑟𝑖𝑜𝑟 =
1
99
BNを用いたモデル: 例
この値が大きければ
相互作用すると判断
23
𝑂 𝑝𝑜𝑠𝑡1 =
7
93
入力タンパク質ペア
𝐶𝑂𝑉 > 4, 𝑆𝐼𝑍 > 0.6, 𝑂𝑆 > 3, 𝑂𝐿 > 5𝑆𝐼𝑀 > 0.5
𝑂 𝑝𝑜𝑠𝑡2 =
8
92
LR 𝑩𝟒 =
𝑂 𝑝𝑜𝑠𝑡1
𝑂 𝑝𝑟𝑖𝑜𝑟1
=
7
93
×
99
1
≈ 7.45
LR 𝑵𝑩 =
𝑂 𝑝𝑜𝑠𝑡2
𝑂 𝑝𝑟𝑖𝑜𝑟2
=
8
92
×
99
1
≈ 8.61
LR 𝑵𝑩 = 𝟔𝟒. 𝟏
ひとつ前のスライドの
色の濃い方に含まれる
スコア関数2
24
比較、組み合わせのための
5つの非構造情報(NS)
1. 相互作用ペアのタンパク質の必須性
2. 発現の時間変動の相関係数
– 複合体を形成するタンパク質同士は遺伝子が共発現することが多い
3. 遺伝子オントロジー(GO, Gene ontology)の機能類似性
– GO: 生物学的概念を記述するための、共通の語彙を策定しようとする
プロジェクト/統一されたデータベース
4. MIPSの機能類似性
5. 系統発生プロファイルの類似性
25
非構造情報
• 5番目:系統発生プロファイルの類似性
– それぞれのタンパク質について、特定のタンパク質またはドメインの
発生の有無を0,1のベクターで表現する
– その類似度をピアソンの相関係数(PCC)で測る
• 複数のドメインを持つものは、それぞれのドメインについて相関係
数を計算し、高い方を採用する
• 2つの配列の同一性が40%以上の場合は計算しない
26
構造情報と非構造情報の合体
• 単純ベイズ分類器で結合
27
LR(SM, 𝑬 𝟏, 𝑬 𝟐, 𝑬 𝟑, 𝑬 𝟒, 𝑬 𝟓)=LR 𝑺𝑴 ∗
𝒊=𝟏
𝟓
𝑳𝑹 𝑬 𝒊
𝑺𝑴:構造情報
𝑬 𝟏:非構造情報
Results & Discussion
28
構造と非構造の比較結果
その1 Fig. S3
• 非構造情報を用いた場合、閾値のLRが大きくな
ると急激に悪化する
• 構造情報はhigh confidence levelで有効である
29
• TP(True positive)
o HCのみ
• TP_ALL
o HC+LC
• P
o すべてのpositive予測の個数
構造と非構造の比較結果
その2 Fig. S4
• SMは低FPR(0.1%以下)のときに特に効果を発揮する
• 大量のネガティブペアが存在するPPI予測では、これは効果
的である
30
• A: 全てのデータセット
• B: yeastのみ
• C: Bのうち全ての特徴量が
利用できるもののみ
• D: Bのうち構造情報を利用
できるもののみ
• E: yeastで学習してhumanで
試した?
31
2つの相補性
• 構造情報と非構造情報は相補的関係にある
– 力を合わせたほうが良い結果(Fig. S4)
– Fig. S6 でもわかる(LR>600)
32
ハイスループットな実験とも比べた
• Fig.2 Fig.S8
• ほぼ同等かそれ以上の精度
• PrePPIと実験的手法では正解したペアが違う(次のスライド)
組み合わせると有効だろう
33
34
ハイスループットな実験とも比べた
DREAM exercise
• DREAM (Dialogue for Reverse Engineering Assessments and Methods)という
予測競走のイベントにおいて、PrePPIが一番良い
35
生物学的実験による確認
• 19個の予測結果を免疫沈降法(IP)とウエスタンブロッティング
(IB)によって確認(Fig. S10~S14, Table S6)
– 他の4つの研究室に依頼
– 大部分が実験的にも確認できた(Table. S6)
– 例1(Fig.S10)
• PPAR-γはβ細胞機能に働くが、直接か間接か?
→実験結果から直接の可能性を示した
36
免疫沈降法(IP)とウエスタンブロッティング(IB)
• 手順
37
A B
Flag HA
A B
Flagとかくっつける
まずFlagついている
やつだけ取り出す
A
Flag
?
今度はその中からHAがついてい
るやつを取り出してみる
対象のタンパク質
B
HA
何もなし相互作用しない
相互作用する
IB
IP
複合体も
取り出せる
単体のみ
我々が成功した
たった3つの理由 その1
• モデル化できる相互作用を増やすことが重要(Fig. S16)
– 今回は相同性モデルや構造的に遠い関係のものも利用したが、実験的に定義され
たPDB内に存在する構造だけを用いると、候補構造の数は一気に減ってしまう
– ただし,精度はPDB中のものを用いたほうが高い
– だが,相同性モデルで予測されたものも研究が進めば正しいことが証明されるはず
38
候補構造の数 既に知られているPPIの割合
我々が成功した
たった3つの理由 その2
スコアがつよい
• 近いfamily同士のタンパク質も区別できる(Fig. S15)
– 結合面の情報を用いたから。例えば、出現残基の統計的要素など
– それに加え、共発現などの非構造情報も大事
39SMのみ PrePPI
幅広いスコア分布
我々が成功した
たった3つの理由 その3
ベイズ
– 個々の独立性を保ちながら、弱い証拠が組み合わさり
高い精度を出した
40
相同性モデルによって
発見できた例
• 構造的には遠い関係、相同性モデルを用いた例
• どちらも質量分析によって実験的に証明された
41
Conclusion
42
結論
• 相同性モデルを用いることは新たな機能関係の
発見に有効
• PrePPIはハイスループットな実験と同等の精度を達成
• 我々はstructural biologyが分子システム生物学に
おいて重要な役割を持っていることを示した
43
PrePPIサーバ
44
https://bhapp.c2b2.columbia.edu/PrePPI/
45
CALM1の検索結果(calmodulinタンパク質)
DBにはPPIはないけどCALM1とCETN2の予測のスコア
特に構造のスコアが高い!見てみよう(ポチー
46
CALM1-CETN2のモデル構造

PrePPI: structure-based protein-protein interaction prediction