Protein-Protein Interaction Prediction

2,006 views
1,828 views

Published on

Predicting protein–protein interactions based only on sequences information
Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li and Hualiang Jiang
Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341.

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,006
On SlideShare
0
From Embeds
0
Number of Embeds
10
Actions
Shares
0
Downloads
13
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Protein-Protein Interaction Prediction

  1. 1. Predicting protein–protein interactions based only on sequences information 配列情報のみに基づくタンパク質間相互作用予測 Juwen Shen, Jian Zhang, Xiaomin Luo, Weiliang Zhu, Kunqian Yu, Kaixian Chen, Yixue Li and Hualiang Jiang Proc Natl Acad Sci USA, 2007, 104(11), 4337-4341. 大上 雅史 (Masahito Ohue) 2012/09/28
  2. 2. 目次AbstractIntroductionMaterials and MethodsResultsDiscussion配列に基づくPPI予測のその後の話 2
  3. 3. Abstractタンパク質間相互作用(Protein-Protein Interaction, PPI)が重要計算によるPPI予測の従来手法 相同性の情報やその他の情報が必要配列情報だけを使ってPPIを予測する 機械学習(SVM)を使う Triad Featureを使う 16,000超の学習データを使って普遍的な予測モデルを作る PPIネットワークを予測できたので他の手法より良いよ(?) 3
  4. 4. Introductionタンパク質間相互作用(PPI) PPIは細胞内の分子基盤の大部分を支えている • 代謝経路,シグナル伝達経路,転写制御など 創薬ターゲットとしての可能性を秘めている • 疾病のメカニズムの解明 • 疾病に関するパスウェイの標的タンパク質に対する阻害/活性剤の開発PPI検出手法(実験) Yeast 2 hybrid 質量分析 プロテインチップ 他実験的な方法で得られたPPIペアはPPIネットワーク上の一部しかカバーできていない 4
  5. 5. Introductionゲノム情報に基づくPPI予測 系統学的プロファイル • 配列決定されたものにしか適用できないドメインの相互作用情報の利用 進化関係 特異的な配列モチーフの抽出(相互作用マーカー)予測性能が相同性や相互作用マーカーの情報に依存する 5
  6. 6. Introduction“Sequence specifies structure” 相互作用の予測には配列だけで充分じゃないか配列のみから相互作用を予測したい Computational biologyのmajor challenge いくつかのグループが既に取り組んでいる • Bock JR and Gough DA. Predicting protein–protein interactions from primary structure. Bioinformatics 2001, 17, 455-60. – おそらく一番最初の仕事.物理化学的な特徴量とSVMを利用. • Nanni L and Lumini A. An ensemble of K-local hyperplanes for predicting protein-protein interactions. Bioinformatics 2006, 22, 1207–10. – 2-Gramと物理化学的パラメータを組み合わせた特徴量+ K-Nearest Neighborの改良アルゴリズム(Hyperplane KNN)の利用. • 局所的な配列が考慮できていない • Training sampleが少ない 6
  7. 7. 目次Materials and Methods サポートベクターマシン (SVM) S-Kernel 特徴量の作り方 (Conjoint Triad Feature) 特徴量について データセットの構築 計算機環境など 7
  8. 8. サポートベクターマシン(SVM)サポートベクターマシン(Support Vector Machine, SVM) 機械学習の判別問題を解くアルゴリズムの1つ 写像された高次元空間上でのマージン最大化を行う 高次元空間への写像 をカーネル関数で行う • 例 Polynomial Radial basis Sigmoid 8
  9. 9. S-Kernelタンパク質ペアの特徴量 タンパク質Aの特徴ベクトルを とおく (普通は)タンパク質ペアA-Bの特徴ベクトルを として作る.( は「ただくっつけるだけ」を表す記号) • 対称性は保たれていない(A-BとB-Aが別の特徴量を持つ)S-Kernelという新しいカーネル関数を提案 非対称性をカーネルが吸収して対称であるかのように扱える 9
  10. 10. S-KernelS-KernelはRBFカーネルに似ているS距離 を以下のように定義すると, S-Kernel Radial basis 10
  11. 11. S-KernelS-Kernelは正定値カーネルではない 正定値カーネル の定義(正値性) 任意の に対し以下を満たす. (加えて対称性も満たされる必要がある.今回は自明なので省略.) 反例を挙げて正値性を満たさないことを示す だからなんだ→やたら計算に時間がかかったりすることがある 11
  12. 12. 特徴量の作り方Conjoint Triad Feature Yu C-Y, et al. BMC Bioinform 2010, 11, 167. 12
  13. 13. 特徴量の作り方Conjoint Triad Feature 二項空間 (大層な名前だけど単なる2つのベクトル空間の組) • : 配列特徴ベクトルの空間,要素 はそれぞれの3文字組 ( は,アミノ酸20種なら203, この研究では73) • : 頻度ベクトルの空間,要素 は の頻度 配列長との相関を減らすため正規化([0,1]化) を並べたベクトル空間 を配列の特徴ベクトルとする 13
  14. 14. 特徴量についてPPIの駆動力 静電相互作用と疎水性相互作用 側鎖の極性(dipole, 双極子モーメント)と体積に依ると考えられるアミノ酸の極性と体積を計算 20アミノ酸の構造 : Insight2005の標準フラグメントライブラリ 極性の計算 : Gaussian03(DFT)のB3LYP/6-31G* 体積の計算 : Sybyl6.8(分子モデリング)似てるアミノ酸をまとめてグループ化 14
  15. 15. 特徴量について極性と体積の計算結果 SI Table 2 Dipole scale Volume No. Amino Acids (Debye) scale(A3) 1 <1.0 <50 Ala, Gly, Val 2 <1.0 >50 Ile, Leu, Phe, Pro 3 1.0<D<2.0 >50 Tyr, Met, Thr, Ser 4 2.0<D<3.0 >50 His, Asn, Gln, Tpr 5 >3.0 >50 Arg, Lys 6 >3.0* >50 Asp, Glu 7 1.0<D<2.0** >50 Cys * opposite orientation ** S-S結合能があるためNo.3から除外 20個のアミノ酸→7つのアミノ酸グループ 15
  16. 16. 特徴量の作り方Conjoint Triad Feature SI Figure 1 16
  17. 17. データセットの構築PPIの情報を取得 Human Protein References Database (HPRD)*から取得 * Version 2005_0913 実験的に確認された16,443の(非冗長な=共通のペアがない)PPIエントリ →Positive SampleNegative Sampleをつくる Positive Sampleに現れたタンパク質から構成 • タンパク質A-BペアとI-Jペアが相互作用する • A-I, A-J, B-I, B-Jは相互作用しない(に違いない) Negative Sample(と思われるもの)を抽出 • 数をPositive Sampleにそろえる→16,443ペア • 出来るかぎりタンパク質の出現頻度を揃えるTraining SetとTest Set P/N 200個ずつをTest Setに,残りはTraining Set 17
  18. 18. 計算機環境など計算機 128 CPU Origin3800 server (SGI)ソフトウェア LibSVM 2.8 書くことがなかったのでOrigin3800の図 http://www.teleobjetivo.org/blog/requiem-por-silicon-graphics.html 18
  19. 19. 目次Results SVMのパラメータ最適化 予測性能 PPIネットワーク予測 19
  20. 20. SVMのパラメータ最適化SVMのパラメータ を決める はSVMのソフトマージンのパラメータ はカーネル関数のパラメータ探索方法→グリッド探索評価方法 Training Setの3-fold Cross Validation 精度は以下で定義したものを用いる(いわゆるAccuracy) • ただし,MSEは平均二乗誤差 • Positiveは+1,Negativeは-1のラベルを持つ 20
  21. 21. SVMのパラメータ最適化結果 Figure 1 21
  22. 22. MSEについてMSE (Mean Square Error, 平均二乗誤差) 目標値との誤差の2乗を平均したもの 予測値 目標値 22
  23. 23. 予測性能Test Setにかけた結果 Table 1 Test set Accuracy(%) Precision(%) Sensitivity(%) MSE 1 84.25 84.42 84.50 0.63 2 82.75 83.59 84.00 0.69 3 83.25 84.82 85.50 0.67 4 83.25 82.23 84.00 0.67 5 86.00 86.00 86.00 0.56 Avg±1σ 83.90 ± 1.29 84.21 ± 1.41 84.80 ± 0.91 0.64 ± 0.05 他のカーネルと比較 SI Table 3 Kernel function Accuracy(%) S-kernel 83.9 Radial basis 80.5 Polynomial 72.9 Sigmoid 50.0 Linear 62.9 23
  24. 24. PPIネットワーク予測これまでにPPI予測手法のネットワーク予測への応用例は(この筆者らが知ら)ない1対1のPPI予測をネットワーク予測へ応用する 3つのPPIネットワークに分類 • 1コアネットワーク • マルチコアネットワーク • クロスオーバーネットワーク 24
  25. 25. ネットワークの分類コアでないタンパク質 コアタンパク質 (satellite protein) (core protein) 1コアネットワーク マルチコアネットワーク Figure 2 クロスオーバーネットワーク 25
  26. 26. PPIネットワーク予測1コアネットワークの予測方法 1コアネットワークのコアタンパク質をPPIデータセットから取り除く 残ったデータでパラメータ最適化と判別器生成 コアタンパク質とコアでないタンパク質間でPPI予測マルチコアネットワークの予測方法 マルチコアネットワークのコアタンパク質を取り除く あとは同じクロスオーバーネットワークの予測方法 ネットワークを構成するタンパク質をすべて取り除く あとは同じ 26
  27. 27. PPIネットワーク予測結果 1コアネットワーク例: CD9(テトラスパニン)とその結合タンパク質 • CDが付くやつはテトラスパニンという膜タンパク質ファミリーに属する • CD同士で結合して膜受容体として働くので,マルチコア扱いにすべき? 13/16 PPIが予測できた • False Positiveの数が「私,気になります!」 Figure 2A 青線 :True Positive オレンジ線 :False Negative 27
  28. 28. PPIネットワーク予測 結果(続き) マルチコアネットワーク例:Ras-Raf-Mek-Erk-Elk-Srfパスウェイ • 細胞外からの増殖因子によるシグナルを核に伝える経路. • 細胞の増殖・分化・細胞死などに関わる. 青線 :True Positive オレンジ線 :False NegativeKolch W, et al. Expert Reviews in Molecular Medicine, 2002. Figure 28 2B
  29. 29. PPIネットワーク予測マルチコアネットワークの予測結果 161/189 PPIが予測できた False Negativeについて SI Table 4 0% known 10% known 30% known Proteins model model model FN/PPI FN/PPI FP/PPI Ras 1/39 1/35 1/26 Raf 14/50 9/43 3/34 Mek 4/18 3/17 2/12 Elk 1/11 1/10 0/7 Erk 3/45 3/40 1/30 Srf 6/33 3/30 5/23 • x% known model: 6つのコアタンパク質に関わる正解PPIのうちx%を 学習に用いてつくった判別器 • FN: コアとサテライトのPPIで予測されなかったものの数 29
  30. 30. PPIネットワーク予測マルチコアネットワーク(続き) 30% known modelを使うとどうなるか • PPI情報を増やすと予測能力の向上につながるか確認する 結果→84%から90%にaccuracy(?)が向上 青線 :True Positive オレンジ線 :False Negative 緑線 :追加したPPI情報 SI Figure 4 30
  31. 31. PPIネットワーク予測マルチコアネットワーク(続き) accuracyは何の話? SI Table 4 (改変) 0% known 30% known Proteins model model FN/PPI FN/PPI Ras 1/39 1/26 Raf 14/50 3/34 Mek 4/18 2/12 Elk 1/11 0/7 Erk 3/45 1/30 Srf 6/33 5/23 これのことを言ってるなら, 29/196 12/132 計 「85%→91%に向上」 =0.15 =0.09 (ただしRecall) • 確かにRecallは増えた • 本文中のaccuracyはRecallの意味? – False Positiveが私k(ry 31
  32. 32. PPIネットワーク予測 結果の続き:クロスオーバーネットワーク 一般的なPPIはクロスオーバー型 →計算でちゃんと予測できたらとても便利だね Wnt関連の相互作用ネットワーク→73/96 PPIが予測できた • 胚発生とガンに関連するシグナル伝達経路青線 :True Positiveオレンジ線 :False Negative Figure 2C 32
  33. 33. Discussion(ほとんどConclusion)計算によるPPI予測手法を提案 SVMを利用 • 3-fold Cross Validationでチューニング,C=128, g=0.25 Conjoint Triad Featureの利用と ベクトル空間の次元削減(アミノ酸クラスタリング) • 現在の利用可能なPPIデータには限界があるが,そのような少ないデータ によるOverfittingを回避してくれる(かもしれない) • 変異しやすいアミノ酸という情報を含んでくれているので予測の幅が 広がっている(かもしれない) – 73と203の精度の比較を出してくれてないので結局分からない S-Kernelの提案 • 非対称の問題をクリア • 他のカーネル関数よりも精度が良い 33
  34. 34. Discussion(ほとんどConclusion)提案した手法をPPIネットワークに適用 これまで配列情報のみからのPPI予測の応用例はなかった ペアのPPI予測を組み合わせてネットワーク予測を実施 3つのネットワークトポロジーで性能を確認 特に実際のネットワークに近いクロスオーバー型もちゃんと 予測できていることが重要 34
  35. 35. 考えられる問題点データセットについて Negative Sampleの作り方はこれで良いのか Test Setの抽出の仕方は大丈夫か • TrainingにA-Bが入っててTestにA-Cが入ってる/入ってない,などS-Kernelについて 正定値カーネルでないので計算に時間がかかったりする 35
  36. 36. 感想読んでみると「これでPNAS?」という印象を持ってしまうくらいにはあっさりしてて普通 発想自体は既に報告されていた • Bock01など ネットワーク予測をやったことが評価されている? • 見た目のインパクトが大きいFigureとか高IFな一般誌に載ったことで紛糾? この後に紹介します 36
  37. 37. 配列に基づくPPI予測のその後配列に基づくPPI予測のその後 2008年に2つの手法が発表される • Guo Y, et al. Using support vector machine combined with auto covariance to predict protein-protein interactions from protein sequences. Nucleic Acids Res 2008, 36, 3025–30. – 7種のパラメータ(hydrophobicityなど)とAuto-Covarianceを利用 • Pitre S, et al. Global investigation of protein-protein interactions in yeast Saccharomyces cerevisiae using re-occurring short polypeptide sequences. Nucleic Acids Res 2008, 36, 4286–94. – PPIペアで共起する部分配列情報を利用 37
  38. 38. 配列に基づくPPI予測のその後2009年にメタ的な手法が提案される• Park Y. Critical assessment of sequence-based protein-protein interaction prediction methods that do not require homologous protein sequences. BMC Bioinformatics 2009, 10, 419. – Guo08, Pitre08, Martin05, Shen07のコンセンサスを取る2010年ごろからデータセットに関する言及が増える• Shi M-G, et al. Predicting protein-protein interactions from sequence using correlation coefficient and high-quality interaction dataset. Amino Acids 2010, 38, 891–9. – High-throughputなPPIデータなんて駄目. Gold Standardなデータセットを作ったよ.• Yu C-Y, et al. Predicting protein-protein interactions in unbalanced data using the primary structure of proteins. BMC bioinformatics 2010, 11, 167. – 本当のPPIネットワークはP:N=1:1じゃない.1:15とかになると, Shen07, Guo08はF-measureがひどいことになるけど,この方法だともう少し マシ. 38
  39. 39. 配列に基づくPPI予測のその後特にNegative Setについての報告が目立つようになる • Yu J, et al. Simple sequence-based kernels do not predict protein- protein in-teractions. Bioinformatics 2010, 26, 2610–4. – 今までのNegative Setの構築方法はover-estimateを起こしていた. Balanced Random Samplingを提案.Shen07のROC-AUC=0.5に. • Smialowski P, et al. The Negatome database: a reference set of non-interacting protein pairs. Nucleic Acids Res 2010, 38, D540–4. – Negative PPIを吟味(PDB chain,PFAM,人でのcuration), Negative Sampleのデータベースを構築.Yu10, Bioinformaticsへの反論 • Park Y, et al. Revisiting the negative example sampling problem for predicting protein-protein interactions. Bioinformatics 2011, 27, 3024–8. – Yu10のsamplingはCross Validationにおいては激しく過小評価を起こす. 39

×