Successfully reported this slideshow.
Your SlideShare is downloading. ×

ISMB/ECCB2015読み会:大上

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 16 Ad

ISMB/ECCB2015読み会:大上

Download to read offline

http://bioinformatics.oxfordjournals.org/content/31/12/i221.full

Improving compound–protein interaction prediction by building up highly credible negative samples
高信頼の負例構築による化合物タンパク質相互作用予測の改良
Hui Liu, Jianjiang Sun, Jihong Guan, Jie Zheng, Shuigeng Zhou
Bioinformatics, 31, 2015, i221–i229

発表者:大上 雅史
(東京工業大学 大学院情報理工学研究科)
twitter @tonets

http://bioinformatics.oxfordjournals.org/content/31/12/i221.full

Improving compound–protein interaction prediction by building up highly credible negative samples
高信頼の負例構築による化合物タンパク質相互作用予測の改良
Hui Liu, Jianjiang Sun, Jihong Guan, Jie Zheng, Shuigeng Zhou
Bioinformatics, 31, 2015, i221–i229

発表者:大上 雅史
(東京工業大学 大学院情報理工学研究科)
twitter @tonets

Advertisement
Advertisement

More Related Content

Viewers also liked (20)

Advertisement

More from Masahito Ohue (13)

Recently uploaded (20)

Advertisement

ISMB/ECCB2015読み会:大上

  1. 1. Improving compound–protein interaction prediction by building up highly credible negative samples Hui Liu, Jianjiang Sun, Jihong Guan, Jie Zheng, Shuigeng Zhou School of Computer Science, Fudan University 他 ISMB/ECCB2015読み会 SYSTEMS 発表者:大上 雅史 (東京工業大学 大学院情報理工学研究科 計算工学専攻 助教) twitter @tonets 高信頼の負例構築による化合物タンパク質相互作用予測の改良 Bioinformatics, 31, 2015, i221–i229 2015/8/10
  2. 2. 概要 2 何をやった? 技術や手法の肝はどこ? 化合物のタンパク質に対する活性の有無(相互作用の有無)はほとんど正例しか情 報が存在しないため,負例を人工的に作ることになる.この研究ではより「負例っぽ い」負例を既知実験データから構築する方法を示し,実際に予測精度が上がることを 示した. 今までの化合物タンパク質相互作用予測 ・化合物の類似性(特徴ベクトル)はfingerprintを使っていた ・タンパク質の類似性はsmith-watermanや配列特徴量を使っていた ・負例は正例ペアでないものからランダムに取っていた この研究 ・化合物の特徴にfingerprintと副作用 (side effect database) を使った ・タンパク質の特徴にsmith-waterman,GO term,PFAMドメイン情報を使った ・「既知の正例ペアの化合物に似ていなければそのタンパク質は相手にならない」 化合物タンパク質相互作用予測? 化合物が結合し活性を示すタンパク質を予測する問題.基本的には「似ている化合 物は似たタンパク質をターゲットとする(逆も然り)」という考え方で予測をする.
  3. 3. 化合物タンパク質相互作用 (CPI) 予測 3 化合物 タンパク質 予測したいところ(未知) Gefitinib EGFR 化合物とタンパク質のペアの特徴ベクトル v と 教師ラベル t ∈ {+1, -1} から 機械学習によって未知の相互作用を予測する 関連研究 • Jabob and Vert (2008) Bioinformatics: Pairwised Kernel Method (SVM) • Yamanishi et al. (2008) ISMB2008: Bipartite Graph Learning (Kernel Reg.) • Gonen (2012) Bioinformatics: Bayesian matrix factorization 他多数
  4. 4.  どうやって予測するのか • 「似ている奴は似た相互作用相手を持つはず」 • 配列や特徴ベクトルを使って類似度を定義したり 機械学習にぶち込んだりするなどする 化合物の特徴ベクトルの代表例:fingerprint 化合物タンパク質相互作用 (CPI) 予測 4 Public MACCS Key (166 bit) PubChem fingerprint (881 bit) ECFP fingerprint (1024 bit) MolPrint2D (∞ bit) などなど 類似度計算→Tanimoto係数 (Jaccard Index) Gefitinib Erlotinib EGFR ©AstraZeneca ©中外製薬 ©AIST
  5. 5. 化合物タンパク質相互作用 (CPI) 予測  CPI予測のタイプ分類 5 Brown JB, et al. Molecular Informatics (2013) Figure 1 より • Class Iは簡単 Class IVは難しい • Cross Validationするときに 訓練データの分割を賢くやら ないとover estimateする
  6. 6. 化合物タンパク質相互作用 (CPI) 予測  相互作用情報(教師データ)の集め方 • 化合物情報:PubChem , ChEMBL, ZINC, DrugBank • 相互作用情報:STITCH, DrugBank, Matador  負例はどうするの? • データベースにあるペアから ランダムに組み合わせる 「(C1, P1), (C2, P2)が相互作用するとき, (C1, P2)や(C2, P1)が無ければこれらを 負例とする.」 6 STITCHでgefitinibとerlotinibをクエリにした場合 → 「実験されてないだけで本当は 正例のペアがいるかもしれない」 ※活性値 (IC50, Kdなど) を使って 負例を定義できるケースもある. (この研究では対象外) 詳しく知りたい人は Ding et al. (2014) Briefing Bioinformatics. (CPI予測レビュー論文)を参照.
  7. 7. 手法:データセット  使うデータ • 相互作用情報 • DrugBank 4.1, Matador, STITCH 4.0 STITCHは0~1000のスコアで表現,DrugBankとMatadorは正例(スコア1000) • H. sapiens: 2,290,630相互作用 (367,142化合物, 19,342タンパク質) • C. elegans: 2,141,740相互作用 (276,294化合物, 11,234タンパク質) • 化合物情報 • Fingerprintと類似性指標 • PubChem Fingerprint (881 bit) • Jaccard Index • Side effect類似性 • SIDERデータベースからside effect情報を取得 • Top 10のside effectからJaccard Indexを計算して類似性指標とする • タンパク質情報 • 配列類似性 • 補正smith-watermanスコア • GO termのJaccard Index • PFAM domainのJaccard Index • H. sapiensは1,331 domain,C. elegansは3,837 domain.0/1のfingerprint形式.7 化合物 タンパク質 相互作用 CPIs
  8. 8. 手法:化合物とタンパク質の距離の計算  化合物の類似性の統合  タンパク質の類似性の統合  「周りの似たタンパク質lがみんな化合物kをターゲットにし てたら自分jも化合物kをターゲットとする」度合いのスコア 8 fingerprint side effect sw score GO term PFAM 化合物とタンパク質の距離を定義して負例っぽいペアを抽出する pj pa pbck PSja PSjb wka wkb SPCjk = wkaPSja + wkbPSjb
  9. 9. 手法:化合物とタンパク質の距離の計算  (逆パターン)「周りの似た化合物iがみんなタンパク質jを ターゲットにしてたら自分kもタンパク質jをターゲットと する」スコア  SPCjkとSCPkjで化合物kとタンパク質jの距離dkjを定義 (0~1) 9Fig. 2 「dkjが大きいと,化合物kと タンパク質jは相互作用 しないっぽい」
  10. 10. 手法:全体の流れ 10 Fig. 1: The flowchart of our negative CPI screening framework. 距離を計算したら,距離の値に基づいて負例を抽出,閾値で切る. 閾値の決め方は省略(3.3節を参照). (ざっくり言うと,全体に比べて類似度の分散が有意に大きくなる閾値の下限 をカイ二乗検定で調べる.humanはdth=0.9, C. elegansはdth=0.37.)
  11. 11. 評価の方法  2つの5-foldクロスバリデーション  指標 • precision = TP/(TP+FP) • recall = TP/(TP+FN) • AUC (area under the ROC curve) 11 Pairwise CV Blockwise CV
  12. 12. Pairwise Cross Validation  学習の特徴ベクトル • 化合物fingerprintとタンパク質PFAM fingerprintの テンソル積(全ての要素の組み合わせで積をとったfingerprint)  結果 12 Screened Random Screened Random Screened Random Screened Random Screened Random Screened Random AUC 1 0.672 0.622 0.860 0.563 0.940 0.647 0.908 0.874 0.911 0.868 0.910 0.752 3 0.672 0.622 0.904 0.593 0.954 0.694 0.917 0.879 0.920 0.873 0.942 0.705 5 0.671 0.622 0.913 0.589 0.967 0.709 0.916 0.877 0.920 0.872 0.951 0.713 Precision 1 0.624 0.591 0.798 0.570 0.861 0.613 0.881 0.858 0.891 0.862 0.966 0.733 3 0.361 0.338 0.716 0.458 0.847 0.529 0.823 0.786 0.837 0.787 0.969 0.700 5 0.252 0.237 0.684 0.500 0.830 0.514 0.793 0.732 0.804 0.739 0.969 0.732 Recall 1 0.575 0.413 0.927 0.564 0.897 0.599 0.893 0.836 0.913 0.850 0.950 0.745 3 0.560 0.376 0.882 0.306 0.824 0.306 0.749 0.622 0.773 0.631 0.883 0.261 5 0.555 0.364 0.844 0.205 0.825 0.199 0.649 0.524 0.666 0.522 0.861 0.112 L2 logistic SVM Measure Neg. sample ratio Naive Bayes kNN Random Forest L1 logistic ※Negative sample ratioを増やした場合,precisionとrecallは inbalancedなせいで下がりやすいバイアスがかかることに注意 Screened Random Screened Random Screened Random Screened Random Screened Random Screened Random AUC 1 0.645 0.621 0.858 0.628 0.902 0.659 0.882 0.712 0.892 0.693 0.894 0.702 3 0.633 0.613 0.892 0.668 0.926 0.672 0.895 0.712 0.896 0.698 0.901 0.706 5 0.632 0.614 0.897 0.682 0.928 0.694 0.902 0.715 0.906 0.702 0.907 0.713 Precision 1 0.613 0.601 0.801 0.573 0.821 0.618 0.872 0.748 0.890 0.763 0.785 0.600 3 0.351 0.335 0.787 0.468 0.836 0.580 0.863 0.680 0.875 0.689 0.837 0.438 5 0.247 0.235 0.774 0.524 0.830 0.626 0.857 0.648 0.863 0.667 0.896 0.225 Recall 1 0.465 0.422 0.827 0.560 0.844 0.672 0.849 0.704 0.877 0.729 0.818 0.503 3 0.454 0.372 0.743 0.323 0.705 0.340 0.648 0.293 0.681 0.330 0.576 0.107 5 0.442 0.366 0.690 0.205 0.639 0.208 0.566 0.176 0.582 0.195 0.519 0.024 Measure Neg. sample ratio Naive Bayes kNN Random Forest L1 logistic L2 logistic SVM 上: human (Table 1),下: C. elegans (Table S1)
  13. 13. Blockwise Cross Validation 13 AUCの棒グラフ (Fig. S2, S3, 4, S4) 化合物-タンパク質の距離で負例をスクリーニングした方が精度が良くなる human C. elegans ◁クラシカルな 6つの手法 ◁割と新しい 3つの手法
  14. 14. Prediction of New Interactions  Donepezil (商品名アリセプト) の予測と関連ネットワーク 14 Fig. 6 ©エーザイ
  15. 15. まとめ  化合物タンパク質相互作用予測の負例セットの 新しい構築方法を示した • 「似てない奴の相手は自分の相手にはならない」 • 「似てない奴」を測るための指標(距離)を提案 • 色んな情報を組み合わせた • activity cliff (似ている化合物なのに活性が異なる) や,scaffold hopping (似てない化合物だけど活性が似ている) の対策をした ▶スライド省略.3.3節参照. • 高信頼の負例セットが構築できた(予測精度が向上した) • 既知のアッセイ情報との整合性もとれていた ▶スライド省略.4.4節参照.  データセットや結果はウェブ上で公開されている 15 http://admis.fudan.edu.cn/negative-cpi/
  16. 16. FAQ (大上の小並感)  この論文のどこがすごいの? 負例構築の妥当な方法を示したところ  この論文で負例構築は完璧なの? 「既知の化合物と似ていなければ,その化合物の相手は自分 の相手ではない(逆も然り)」という考え方は,人の興味で実 験されているバイアスがどうしても入ってきてしまうという ことは変わらない(ので改良の余地があると思う).  なんでISMBに採択されたの? 精度,他の学習系問題への応用可能性(一言も触れてないけど), 流行り(drug repositioningとか)  今後の展望は? 複数ホップ先も見る,特徴を増やす,学習方法に芸を見せる, Protein-Protein | RNA-Protein | RNA-RNA | 合コン(?) への応用 16

Editor's Notes

  • 双子でも同じ人を好きにはならない (化合物が似ていて活性が違う:activity cliff,化合物が全然違うのにターゲットが同じ:scaffold hopping)
  • 双子でも同じ人を好きにはならない

×