Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
計算で明らかにする
タンパク質の出会いとネットワーク
東京工業大学 情報理工学院 情報工学系 助教
東京工業大学 科学技術創成研究院 スマート創薬研究ユニット
大上 雅史
FIT2016 第15回情報科学技術フォーラム
「助教が吼える! 各界の...
はじめまして,大上(おおうえ)です
• 大上 雅史(おおうえ まさひと)
– 略歴
• 2007年 石川工業高等専門学校 電子情報工学科 卒業
• 2009年 東京工業大学 工学部 情報工学科 卒業
• 2011年 同 大学院情報理工学研究科 ...
はじめまして,大上(おおうえ)です
• 大上 雅史(おおうえ まさひと)
– 著書
• 「これだけ!生化学」
秀和システム,2014(分担)
(¥1,600+tax)
• 「学振申請書の書き方とコツ」
講談社,2016(単著)
(¥2,500+...
東工大科学技術創成研究院組織図
スマート創薬研究ユニットは,情報科学技術と生化学実験を融合する 「スマート創薬」の実証研究とオープンプラットフォームの形成
を目指す,東京工業大学の新しい研究ユニットです.2016年4月1日に東京工業大学 科学技...
情報工学 生物学
物理学 化学
バイオインフォマティクス
バイオインフォマティクスの研究をしています
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 7
近いけどちょっと違う分野
・医療情報学
・脳科学
バイオインフォマティクスは怪しい?
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 8
(前略)このu[x][y][z]の計算は、こっちの点の計算とこっちの点の計
算を、同時にやっても大丈夫だということが、...
情報工学 生物学
物理学 化学
バイオインフォマティクス
バイオインフォマティクスは学際領域のフロンティア
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 9
バイオインフォマティクスは学際領域のフロンティア
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 10
情報工学 生物学
物理学 化学
バイオインフォマティクス
HPC
文字列処理
数理最適化
探索
機械学...
バイオインフォマティクスは学際領域のフロンティア
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 11
情報工学 生物学
物理学 化学
バイオインフォマティクス
HPC
文字列処理
数理最適化
探索
機械学...
大上の主研究対象→タンパク質間相互作用 (PPI)
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 12
タンパク質 #とは
アミノ酸が繋がって
折りたたまれたもの
アミノ酸 アミノ酸の繋がり
(ペプチド)...
タンパク質は1つじゃない
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 13
血中で酸素を運ぶ
ヘモグロビン
卵の白身
アルブミン
お鍋に嬉しい
コラーゲン
でんぷんを消化する酵素
アミラーゼ
髪の毛の材...
タンパク質は他のタンパク質と相互作用する
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 14
Arabidopsis Interactome Mapping Consortium. Evidence fo...
タンパク質の出会い(タンパク質間相互作用)
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
タンパク質間相互作用 (Protein-Protein Interaction)
生体内のタンパク質の制御関係を大...
タンパク質構造情報が大量に蓄積されてきた
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
タンパク質の立体構造情報の件数
タンパク質構造データの大量蓄積
Protein Data Bankより
©RIKEN...
我が国も先導するHPC
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
並列計算機の発展
超並列計算機の発展によって大規模データ解析への道が拓かれた
「京」スーパーコンピュータ(理研)
理論性能:23.2 ...
タンパク質間相互作用を計算機で予測する
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
(Protein Data Bank)
大量のタンパク質構造情報
大量のタンパク質の構造情報を用いて
タンパク質間相互...
タンパク質間相互作用を計算機で予測する
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
数理モデル化 数式による表現 コンピューター
19
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 20
全編を見たい方はYoutubeで→「ライフサイエンス分野のグランドチャレンジに挑む」
https://www.youtube.com/watch?v=O...
MEGADOCKの数理モデル
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
タンパク質が結合したときの評価値を高速に評価
21
MEGADOCKの数理モデル
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 22
②2つのタンパク質の
重なったマスの
掛け算を全部足す.
→結合の良さ(評価値)
①タンパク質をグリッド化,
点数を付与
MEGADOCKの数理モデル
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 23
-27×0
-5×0
-5×0
-5×0
1×0 2×0 1×0
1×0 1×0 1×0
1×0
0×00×0 0×0
-...
MEGADOCKの数理モデル
③片方のタンパク質を平行移動させて全てのくっつき方を見る
2N
2N
・グリッドの1辺の数:N
・平行移動パターン数:8N3
(↑実際は3次元)
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大...
タンパク質を数式に
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
①タンパク質をグリッド化,
点数を付与
タンパク質の表面空間
タンパク質の内部
それ以外
タンパク質の内部
それ以外
A B
25
タンパク質を数式に
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
②2つのタンパク質の
重なったマスの
掛け算を全部足す.
→結合の良さ(評価値)
タンパク質Bの位置
(平行移動ベクトル)
掛け算
全部足...
タンパク質を数式に
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 27
③片方のタンパク質を平行移動させて全てのくっつき方を見る
2N
2N
この部分が1~Nで動く
タンパク質を数式に
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 28
④片方のタンパク質を回転させて①~③を繰り返す
※x-z-x系のオイラー角として回転を定義する.
フーリエ変換による書き換え
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 29
タンパク質Bの位置
(平行移動ベクトル)
掛け算
全部足す
離散フーリエ変換(DFT)による式変形
高速フーリエ変換の活用
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 30
高速フーリエ変換(FFT)の利用による高速化
離散フーリエ変換(DFT)による式変形
O(N6)→O(N3 log N) 直接計...
タンパク質の数理モデルのまとめ
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 31
並進移動ベクトル
たくさんの回転パターン
で並進探索を繰り返す
タンパク質がどこでくっつきそうかを計算する
点数付けの方法
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 32
①タンパク質をグリッド化,
点数を付与
A B
形状相補性
静電相互作用
疎水性相互作用
の組み合わせで
点数付けを定義する.
例:静電相互作用
静電相互作用の世界を掛け算と足し算で表す
(電荷の間にかかる力の計算)
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 33
静電エネルギーの式(物理学)
グリッドの数理モデル
φ 0 0...
MEGADOCKの超並列化
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
プロセス並列(MPI) スレッド並列(CUDA & OpenMP)
L
R
34
…
…
Receptor FFT
Ligand ...
マルチGPU化による高速化の寄与
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
単一ノード計測の結果(TSUBAME node: Intel Xeon 12core + 3 GPUs)
Shimoda T...
マルチCPUノード並列
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 36
TSUBAME 2.0,「京」の両計算機において
94%以上の並列化効率を達成
Matsuzaki Y, Uchikoga N,...
マルチGPUノード並列
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
TSUBAME 2.5 node (Intel Xeon X5670 2.93 GHz & NVIDIA Tesla K20X)
30...
CUDA (CUFFT) versionにおける速度比較
データセット: ZLAB Benchmark 5.0 (bound) 230タンパク質ペア
TSUBAME 2.5 Thin nodeで,それぞれ3回計測した平均値
① 1 core (...
他手法との比較
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史
立体構造情報を用いたタンパク質間相互作用(PPI)予測
Dror RO, et al. PNAS 2011.
原子レベルの詳細な
分子シミュレ...
タンパク質間相互作用予測の関連研究
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 40
配列情報
共進化情報
立体構造情報
既知の複合体構造情報
PPI(A’, B’)=true
[Shen+2007] ...
応用事例:EGFRシグナル伝達系
https://www.pharmgkb.org/pathway/PA162356267
上皮成長因子受容体
(Epidermal Growth Factor Receptor)
• チロシンキナーゼ(TK)型...
応用事例:EGFRシグナル伝達系
肺がん(非小細胞肺がん)に関係する
未知のタンパク質間相互作用を予測する
イレッサ投与患者の遺伝子発現から
推定された関連タンパク質 1424構造
Yamauchi M, et al. PLOS ONE, 20...
応用事例:EGFRシグナル伝達系
実験検証の結果, 6ペアに今まで知られていなかった相互作用が確認された
MEGADOCKのスコアによる絞り込み
(80%以上の選択度を見込める閾値を利用)
重複をデータベースを参照して除去
既に知られているもの...
誰でも使えるように (Ongoing)
タンパク質の相互作用ネットワークを
網羅的に予測し活用するクラウドシステム開発
MEGADOCKの要素技術を拡充+統合化し,クラウドシステムを構築する
GUIクライアント
(開発中)
Web表示系
(開発...
なぜスパコンでなくクラウドか?
1. ソフトウェアを世界中で,気軽に,そこそこの規模で試せる
ウェブサーバでの提供では管理側のリスクがつきまとう
2. 誰でも利用できる
アカデミアのスパコンでは外部の人間がアカウントを取得するのが困難
3. “...
Microsoft Azure上でのHPC計算
MEGADOCK on Microsoft Azure
現状の性能(DS14/A9インスタンス比較)
EGFR pathway proteins
50 x 50 = total 2,500 doc...
MEGADOCK-WEB
クエリタンパク質を入力
PPI予測結果ページ
相互作用の相手を選択興味のあるタンパク質選択
• 速度向上のため一覧では候補構造
を画像を生成して表示
• 分子ビューワを利用した3Dモデル
のインタラクティブな可視化も
...
生物学者との真の協働を可能にするプラットフォーム
予測計算が必要な
タンパク質のリスト
PPI予測結果
Local DB
Protein
Data Bank
参照,更新
公共DB更新時に
ファイルの取得
タンパク質の
リクエスト
2016/9/...
バイオインフォマティクスは学際領域のフロンティア
2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 49
情報工学 生物学
物理学 化学
バイオインフォマティクス
HPC
文字列処理
数理最適化
探索
機械学...
Take-Home Message
• バイオインフォマティクスは怪しくない!
– 情報工学と生命科学をつなぐ架け橋
– もちろん情報工学としての魅力も満載
• 新鮮なリアル “ビッグ” データ
• 誤差にまみれた実験値との戦い
• 医療,創薬...
謝辞
• 東京工業大学
– 秋山 泰 教授 (情報理工学院)
– 石田 貴士 准教授 (情報理工学院)
– 松崎 由理 特任助教 (ACLS)
• 中央大学
– 内古閑 伸之 助教 (理工学部)
• 東京大学
– 宮野 悟 教授 (医科学研究所...
計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)
Upcoming SlideShare
Loading in …5
×

計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

4,377 views

Published on

FIT2016 第15回情報科学技術フォーラム @ 富山大学
助教が吼える! 各界の若手研究者大集合 9月9日(金) での講演スライド(一部修正有り)です.

Published in: Health & Medicine
  • Be the first to comment

計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

  1. 1. 計算で明らかにする タンパク質の出会いとネットワーク 東京工業大学 情報理工学院 情報工学系 助教 東京工業大学 科学技術創成研究院 スマート創薬研究ユニット 大上 雅史 FIT2016 第15回情報科学技術フォーラム 「助教が吼える! 各界の若手研究者大集合」 2016年9月9日(金) 於 富山大学 五福キャンパス ohue@c.titech.ac.jp
  2. 2. はじめまして,大上(おおうえ)です • 大上 雅史(おおうえ まさひと) – 略歴 • 2007年 石川工業高等専門学校 電子情報工学科 卒業 • 2009年 東京工業大学 工学部 情報工学科 卒業 • 2011年 同 大学院情報理工学研究科 修士課程修了 • 2014年 同 博士後期課程修了,博士(工学)(2014年3月26日) – 日本学術振興会 特別研究員 DC1(2011年4月~2014年3月) • 2014年4月~2015年3月 – 日本学術振興会 特別研究員 PD(2014年4月~) – 東京工業大学 特別研究員(称号付与, 2014年4月~) • 2015年4月~ 東京工業大学 助教 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 3
  3. 3. はじめまして,大上(おおうえ)です • 大上 雅史(おおうえ まさひと) – 著書 • 「これだけ!生化学」 秀和システム,2014(分担) (¥1,600+tax) • 「学振申請書の書き方とコツ」 講談社,2016(単著) (¥2,500+tax) – 受賞 • 日本学術振興会 育志賞 (2014) • 手島精一記念研究賞 (2015) 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 http://www.jsps.go.jp/j-ikushi-prize/ceremony_4_h25.html 4 - トレーナーレベル 22
  4. 4. 東工大科学技術創成研究院組織図 スマート創薬研究ユニットは,情報科学技術と生化学実験を融合する 「スマート創薬」の実証研究とオープンプラットフォームの形成 を目指す,東京工業大学の新しい研究ユニットです.2016年4月1日に東京工業大学 科学技術創成研究院と共に誕生しました. 東工大 科学技術創成研究院 准教授 スマート創薬研究ユニットでは、現在、一つの薬を上市するまでにかかる3000億 円もの費用を削減し10年にも及ぶ期間を短縮するために、バーチャルスクリーニ ングや機械学習、GPUを用いたスーパーコンピューティングというIT創薬と生化 学実験を融合し、オープンな創薬プラットフォームを構築することを目指していま す。オープン参加型のIT創薬コンテストやIT創薬の社会人人材養成を通じて、日 本の産業競争力強化への貢献も行って参ります。 スマート創薬の概念 6
  5. 5. 情報工学 生物学 物理学 化学 バイオインフォマティクス バイオインフォマティクスの研究をしています 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 7 近いけどちょっと違う分野 ・医療情報学 ・脳科学
  6. 6. バイオインフォマティクスは怪しい? 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 8 (前略)このu[x][y][z]の計算は、こっちの点の計算とこっちの点の計 算を、同時にやっても大丈夫だということが、大概の解き方で成り立 つので、これは並列にできるということになります。 大体この世の中のHPCの90%ぐらいはこんなことをやっているわけで すが、もうちょっと広くするといろんな分野があります。例えばジェ ノミクスですか、遺伝子何たらとか、バイオインフォマティクスとか、 何か怪しい単語があるんですが、そういう分野もあります。(後略) 春の情報処理祭in京都 2015年3月16日 (リクルート x 情報処理学会) 京都大学 中島浩先生 http://logmi.jp/45043
  7. 7. 情報工学 生物学 物理学 化学 バイオインフォマティクス バイオインフォマティクスは学際領域のフロンティア 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 9
  8. 8. バイオインフォマティクスは学際領域のフロンティア 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 10 情報工学 生物学 物理学 化学 バイオインフォマティクス HPC 文字列処理 数理最適化 探索 機械学習 人工知能 動画像処理 ゲノム タンパク質 転写 翻訳 シグナル伝達 疾病 個人情報 進化 暗号 言語処理 遺伝 多型 コホート 分子生物学 計算化学 量子 分子軌道 構造 活性 分子量QSAR QSPR 創薬 結合 記述子 電気 エネルギー 分子動力学 分子間力 統計力学 運動方程式 電荷 水 疎水性 解離接着 物性 Schrödinger エントロピー 毒性 オントロジー VR 細胞 酵素 GPU クラウド
  9. 9. バイオインフォマティクスは学際領域のフロンティア 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 11 情報工学 生物学 物理学 化学 バイオインフォマティクス HPC 文字列処理 数理最適化 探索 機械学習 人工知能 動画像処理 ゲノム タンパク質 転写 翻訳 シグナル伝達 疾病 個人情報 進化 暗号 言語処理 遺伝 多型 コホート 分子生物学 計算化学 量子 分子軌道 構造 活性 分子量QSAR QSPR 創薬 結合 記述子 電気 エネルギー 分子動力学 分子間力 統計力学 運動方程式 電荷 水 疎水性 解離接着 物性 Schrödinger エントロピー 毒性 オントロジー VR 細胞 酵素 GPU クラウド
  10. 10. 大上の主研究対象→タンパク質間相互作用 (PPI) 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 12 タンパク質 #とは アミノ酸が繋がって 折りたたまれたもの アミノ酸 アミノ酸の繋がり (ペプチド) タンパク質
  11. 11. タンパク質は1つじゃない 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 13 血中で酸素を運ぶ ヘモグロビン 卵の白身 アルブミン お鍋に嬉しい コラーゲン でんぷんを消化する酵素 アミラーゼ 髪の毛の材料 ケラチン 史上最強の毒物 ボツリヌストキシン
  12. 12. タンパク質は他のタンパク質と相互作用する 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 14 Arabidopsis Interactome Mapping Consortium. Evidence for network evolution in an Arabidopsis interactome map. Science, 333, 601-607, 2011. string-db.org
  13. 13. タンパク質の出会い(タンパク質間相互作用) 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 タンパク質間相互作用 (Protein-Protein Interaction) 生体内のタンパク質の制御関係を大規模かつ網羅的に理解することは がんや自己免疫疾患などをはじめとする病因の理解・創薬に重要 全てのタンパク質ペアについて相互作用の有無を網羅的に検証する場合... 例:肺がん(EGFR系)500タンパク質 → 500×500=250,000ペアの検証を要する 大腸がん抗がん剤 アバスチン 抗がん剤候補化合物 ABT-737 Bcl-2とBaxタンパク質の相互作用を阻害 Oltersdorf T, et al. Nature 2005. タンパク質間相互作用阻害薬の台頭 関節リウマチ治療薬 アクテムラ VEGFとVEGFRの 相互作用を阻害 IL-6とIL-6Rの 相互作用を阻害 ©中外製薬 Bcl-2 Bax Bcl-2 ABT-737 ABT-737 15
  14. 14. タンパク質構造情報が大量に蓄積されてきた 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 タンパク質の立体構造情報の件数 タンパク質構造データの大量蓄積 Protein Data Bankより ©RIKEN 大量のタンパク質の立体構造情報が蓄積されてきた ©CellPress ©Nature Publishing Group 16
  15. 15. 我が国も先導するHPC 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 並列計算機の発展 超並列計算機の発展によって大規模データ解析への道が拓かれた 「京」スーパーコンピュータ(理研) 理論性能:23.2 PetaFlops TSUBAME 2.5(東工大) 理論性能:5.7 PetaFlops 2万CPUコア+4000枚のGPU 70万CPUコア 17
  16. 16. タンパク質間相互作用を計算機で予測する 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 (Protein Data Bank) 大量のタンパク質構造情報 大量のタンパク質の構造情報を用いて タンパク質間相互作用を計算機で予測する タンパク質間相互作用ネットワーク 独自技術 (MEGADOCK) の特徴 1. アルゴリズムレベルの高速化 • 高速フーリエ変換の利用 • 複合体構造の高速評価モデル開発 2. 並列計算機,アクセラレータの利用 • MPI/OpenMPハイブリッド並列実装 • GPUやMICによる計算高速化 18 • Shimoda T, et al. BMC Syst Biol, 9, 2015. • Ohue M, et al. Bioinformatics, 30, 2014. • Ohue M, et al. Protein Pept Lett, 21, 2014. • Ohue M, et al. BMC Proc, 7, 2013. • Shimoda T, et al. In Proc ACM-BCB, 2013. • Matsuzaki Y, et al. Source Code Biol Med, 8, 2013. • Ohue M, et al. In Proc PRIB, 2012. • Ohue M, et al. Genome Inform, 2011.
  17. 17. タンパク質間相互作用を計算機で予測する 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 数理モデル化 数式による表現 コンピューター 19
  18. 18. 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 20 全編を見たい方はYoutubeで→「ライフサイエンス分野のグランドチャレンジに挑む」 https://www.youtube.com/watch?v=O5iePlpqjCU
  19. 19. MEGADOCKの数理モデル 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 タンパク質が結合したときの評価値を高速に評価 21
  20. 20. MEGADOCKの数理モデル 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 22 ②2つのタンパク質の 重なったマスの 掛け算を全部足す. →結合の良さ(評価値) ①タンパク質をグリッド化, 点数を付与
  21. 21. MEGADOCKの数理モデル 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 23 -27×0 -5×0 -5×0 -5×0 1×0 2×0 1×0 1×0 1×0 1×0 1×0 0×00×0 0×0 -5×1 1×1 1×1 1×1 1×1 1×1 5×1 0×1 0×0 0×0 0×0 -5×1 0×0 0×0 = 0+1+1+0 +(-5)+(-5)+1+0 +0+1+1+0 +0+0+0+0 +0+0+0+0 +0+0+0+0 = -5
  22. 22. MEGADOCKの数理モデル ③片方のタンパク質を平行移動させて全てのくっつき方を見る 2N 2N ・グリッドの1辺の数:N ・平行移動パターン数:8N3 (↑実際は3次元) 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 24 ④片方のタンパク質を 回転させて①~③を 繰り返す
  23. 23. タンパク質を数式に 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 ①タンパク質をグリッド化, 点数を付与 タンパク質の表面空間 タンパク質の内部 それ以外 タンパク質の内部 それ以外 A B 25
  24. 24. タンパク質を数式に 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 ②2つのタンパク質の 重なったマスの 掛け算を全部足す. →結合の良さ(評価値) タンパク質Bの位置 (平行移動ベクトル) 掛け算 全部足す 26
  25. 25. タンパク質を数式に 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 27 ③片方のタンパク質を平行移動させて全てのくっつき方を見る 2N 2N この部分が1~Nで動く
  26. 26. タンパク質を数式に 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 28 ④片方のタンパク質を回転させて①~③を繰り返す ※x-z-x系のオイラー角として回転を定義する.
  27. 27. フーリエ変換による書き換え 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 29 タンパク質Bの位置 (平行移動ベクトル) 掛け算 全部足す 離散フーリエ変換(DFT)による式変形
  28. 28. 高速フーリエ変換の活用 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 30 高速フーリエ変換(FFT)の利用による高速化 離散フーリエ変換(DFT)による式変形 O(N6)→O(N3 log N) 直接計算に比べて約10万~100万倍高速
  29. 29. タンパク質の数理モデルのまとめ 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 31 並進移動ベクトル たくさんの回転パターン で並進探索を繰り返す タンパク質がどこでくっつきそうかを計算する
  30. 30. 点数付けの方法 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 32 ①タンパク質をグリッド化, 点数を付与 A B 形状相補性 静電相互作用 疎水性相互作用 の組み合わせで 点数付けを定義する.
  31. 31. 例:静電相互作用 静電相互作用の世界を掛け算と足し算で表す (電荷の間にかかる力の計算) 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 33 静電エネルギーの式(物理学) グリッドの数理モデル φ 0 0 0 0 φ φ 0 0 φ φ φ 0 0 0 0 φ φ φ φ φ φ φ φ φ q q q q q q q q q φ φ φ φφ 電界 電荷
  32. 32. MEGADOCKの超並列化 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 プロセス並列(MPI) スレッド並列(CUDA & OpenMP) L R 34 … … Receptor FFT Ligand FFT Ligand 回転 Receptor ボクセル化 複素畳込み 逆FFT 高評価値の構造を抽出 Ligand ボクセル化 GPUクラスタ向け MPI/OpenMP/CUDA ハイブリッド並列化 Matsuzaki Y, Uchikoga N, Ohue M, Shimoda T, Sato T, Ishida T, Akiyama Y. Source Code for Biology and Medicine 8:18 (2013) Ohue M, Shimoda T, Suzuki S, Matsuzaki Y, Ishida T, Akiyama Y. Bioinformatics 30:3281-3283 (2014) 34
  33. 33. マルチGPU化による高速化の寄与 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 単一ノード計測の結果(TSUBAME node: Intel Xeon 12core + 3 GPUs) Shimoda T, Ishida T, Suzuki S, Ohue M, Akiyama Y. ACM-BCB 2013, 884-890, 2013. GPUとIntel Xeon Phi (MIC)の比較 の結果,PPI予測ではGPUが有利 Shimoda T, Suzuki S, Ohue M, Ishida T, Akiyama Y. BMC Syst Biol, 9(Suppl 1): S6, 2015. GPU利用により,CPU単独計算に比べて大幅な速度向上を達成 35
  34. 34. マルチCPUノード並列 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 36 TSUBAME 2.0,「京」の両計算機において 94%以上の並列化効率を達成 Matsuzaki Y, Uchikoga N, Ohue M, et al. Source Code for Biol Med, 8(1):18, 2013. マルチノード並列の並列化効率
  35. 35. マルチGPUノード並列 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 TSUBAME 2.5 node (Intel Xeon X5670 2.93 GHz & NVIDIA Tesla K20X) 30,976ペアの計算にかかった総計算時間 Ohue M, Shimoda T, Suzuki S, Ishida T, Akiyama Y. Bioinformatics, 30(22): 2014. • 420ノードで97%以上のstrong scalingを達成 (対70ノードでの値) • 100万件のPPI予測が (GPUノード420基で) 約半日で完了 単一CPUノードとの 高速化率の比較 ノード数に対する計算時間の推移 約8万件/hour 37
  36. 36. CUDA (CUFFT) versionにおける速度比較 データセット: ZLAB Benchmark 5.0 (bound) 230タンパク質ペア TSUBAME 2.5 Thin nodeで,それぞれ3回計測した平均値 ① 1 core (Xeon X5670 2.93 GHz) + 1 GPU (Tesla K20x) ② 12 core/24 HT (Xeon X5670 2.93 GHz×2) + 3 GPUs (Tesla K20x) *CUDA 5.0はOSがサポート外としているので注意 参考 CUDAのバージョンで速度が変わる 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 38
  37. 37. 他手法との比較 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 立体構造情報を用いたタンパク質間相互作用(PPI)予測 Dror RO, et al. PNAS 2011. 原子レベルの詳細な 分子シミュレーション 既知の複合体構造との 類似性を利用 相互作用 する?しない? 既知の 複合体構造 Tuncbag N, et al. Nat Protoc 2011. 他 単体の立体構造のみを 利用(独自技術) Ohue M, et al. LNCS 2012. 他 時系列変化を捉えられる 膨大な計算時間(1ペアで数日) 類似の構造があれば高精度 複合体構造の蓄積は不十分 単体の構造のみで計算可能 大規模計算(約105~107件)は 高速化や並列化が必須 39
  38. 38. タンパク質間相互作用予測の関連研究 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 40 配列情報 共進化情報 立体構造情報 既知の複合体構造情報 PPI(A’, B’)=true [Shen+2007] 他 [Valencia+2009] 他 [Tucbag+2011] 他
  39. 39. 応用事例:EGFRシグナル伝達系 https://www.pharmgkb.org/pathway/PA162356267 上皮成長因子受容体 (Epidermal Growth Factor Receptor) • チロシンキナーゼ(TK)型受容体 • 腫瘍増殖,細胞死などに関わる • 肺がんの創薬標的 EGFR阻害薬 ゲフィチニブ • 商品名イレッサ • 非小細胞肺がん治療薬 • 重篤な副作用に注意が必要 ※遺伝子型によって効き目が異なる 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 ©AstraZeneca 41
  40. 40. 応用事例:EGFRシグナル伝達系 肺がん(非小細胞肺がん)に関係する 未知のタンパク質間相互作用を予測する イレッサ投与患者の遺伝子発現から 推定された関連タンパク質 1424構造 Yamauchi M, et al. PLOS ONE, 2012. 非小細胞性肺がんに関わる EGFR周辺のタンパク質 497構造 東大医科研 宮野 悟 教授, 金沢大がん研 後藤 典子 教授 提供 全1921構造の全対全計算 (3,690,241件) を実施 → 3,873件のタンパク質構造ペアが計算によって予測された 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 ©AstraZeneca ©Riken 42
  41. 41. 応用事例:EGFRシグナル伝達系 実験検証の結果, 6ペアに今まで知られていなかった相互作用が確認された MEGADOCKのスコアによる絞り込み (80%以上の選択度を見込める閾値を利用) 重複をデータベースを参照して除去 既に知られているものを除去 がんの遺伝子ネットワークを利用して より確度の高いものを抽出 薬の標的となり得るタンパク質を選択 3,690,241ペア→3,873ペア 3,873ペア→175ペア 175ペア→35ペア 35ペア→11ペア MIPS Pair 1 Pair 2 Pair 3 Pair 4 Pair 5 Pair 6 Pair 7 KD 値 70.5nM 22.4nM NA 610nM 233pM 1.35nM 83.0nM 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 43
  42. 42. 誰でも使えるように (Ongoing) タンパク質の相互作用ネットワークを 網羅的に予測し活用するクラウドシステム開発 MEGADOCKの要素技術を拡充+統合化し,クラウドシステムを構築する GUIクライアント (開発中) Web表示系 (開発中) MS Azure上でのHPC計算 (開発中) 3つの課題 1 Azure上での網羅的PPI計算の実行 2 ウェブインターフェースとGUIクライアントの整備 3 リクエストに応じたAzure上での再計算機構の整備 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 44
  43. 43. なぜスパコンでなくクラウドか? 1. ソフトウェアを世界中で,気軽に,そこそこの規模で試せる ウェブサーバでの提供では管理側のリスクがつきまとう 2. 誰でも利用できる アカデミアのスパコンでは外部の人間がアカウントを取得するのが困難 3. “イメージ” で同一環境を保持・提供できる ライブラリ違い,バージョン違い,データベースの更新, といったサポートが必要になりがちな問題点を減らせる 4. 高稼働率・セキュアな計算環境 Microsoft AzureはCSゴールドマークを取得, 高度なセキュリティで秘匿性の高い情報・サービスも運用可能 5. 新しいハードウェアへの投資が不要 クラウド提供側が対応すれば常に最新の環境が利用可能 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 45
  44. 44. Microsoft Azure上でのHPC計算 MEGADOCK on Microsoft Azure 現状の性能(DS14/A9インスタンス比較) EGFR pathway proteins 50 x 50 = total 2,500 docking 0 20 40 60 80 100 0 200 400 600 800 1000 1200 Speedup(docking/min) No. of worker cores 10.2x faster than #VM=5 (strong scaling = 0.729) #VM=1 #VM=10 #VM=30 VM: DS14 (16 core) 112GB Memory 224GB SSD MPI 4 process x 4 thread VM: A9 (16 core) 112GB Memory MPI 4 process x 4 thread 11.7x faster than #VM=5 (strong scaling = 0.836) 1.44x faster #VM=5 #VM=50 #VM=70 ※一部はMicrosoft導入事例で紹介 https://www.microsoft.com/ja-jp/casestudies/titech4.aspx 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 46
  45. 45. MEGADOCK-WEB クエリタンパク質を入力 PPI予測結果ページ 相互作用の相手を選択興味のあるタンパク質選択 • 速度向上のため一覧では候補構造 を画像を生成して表示 • 分子ビューワを利用した3Dモデル のインタラクティブな可視化も →その場で予測PPIの 視覚的な評価が可能 3Dモデル表示 生物学者による検証を容易にするため,MEGADOCKによるドッキングも 考慮した網羅的な PPI予測情報を集約した新しいデータベースと表示系 長澤,他. IPSJ SIGBIO45, 2016. 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 47
  46. 46. 生物学者との真の協働を可能にするプラットフォーム 予測計算が必要な タンパク質のリスト PPI予測結果 Local DB Protein Data Bank 参照,更新 公共DB更新時に ファイルの取得 タンパク質の リクエスト 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 48
  47. 47. バイオインフォマティクスは学際領域のフロンティア 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 49 情報工学 生物学 物理学 化学 バイオインフォマティクス HPC 文字列処理 数理最適化 探索 機械学習 人工知能 動画像処理 ゲノム タンパク質 転写 翻訳 シグナル伝達 疾病 個人情報 進化 暗号 言語処理 遺伝 多型 コホート 分子生物学 計算化学 量子 分子軌道 構造 活性 分子量QSAR QSPR 創薬 結合 記述子 電気 エネルギー 分子動力学 分子間力 統計力学 運動方程式 電荷 水 疎水性 解離接着 物性 Schrödinger エントロピー 毒性 オントロジー VR 細胞 酵素 GPU クラウド
  48. 48. Take-Home Message • バイオインフォマティクスは怪しくない! – 情報工学と生命科学をつなぐ架け橋 – もちろん情報工学としての魅力も満載 • 新鮮なリアル “ビッグ” データ • 誤差にまみれた実験値との戦い • 医療,創薬,健康へ貢献してる感じ • タンパク質の出会い(相互作用)が知りたい! – 1対1を知るだけでは生命現象は理解できない →MEGADOCK w/ スパコンで,網羅的に • 生物学者にも優しいインフォマティクスを! – BLASTの爆発的流行はウェブでポチポチできるお陰(もある) – 貴重なデータをウェブに投げたくない人にも – 情報系と生命系が密にコラボできる環境づくり 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 50
  49. 49. 謝辞 • 東京工業大学 – 秋山 泰 教授 (情報理工学院) – 石田 貴士 准教授 (情報理工学院) – 松崎 由理 特任助教 (ACLS) • 中央大学 – 内古閑 伸之 助教 (理工学部) • 東京大学 – 宮野 悟 教授 (医科学研究所) – 玉田 嘉紀 助教 (コンピュータ科学専攻) • 理化学研究所 AICS (京) • 東京工業大学 GSIC (TSUBAME 2.5) • 文部科学省 次世代生命体統合シミュレーション ソフトウェアの研究開発プロジェクト ISLiM 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 51

×