創薬に必要なデータ統合の現在と未来

創薬に必要なデータ統合の現在と未来
中尾光輝 BH14.14 2015-02-02

創薬の現在と未来
がん
自己免疫疾患
感染症
Precision Medicine

新薬開発の課題
開発コストの上昇
難度向上
薬効が勝てない
毒性でドロップ
あたらしいターゲット
あたらしい創薬コンセプト
オープンイノベーション

IBM Watson による大量の文献に基づく p53の
新規相互作用タンパク質の自動特定
「Watsonは、p53の活性化と不
活性化を導くタンパク質を予測す
るため、p53に関する7万もの科
学論文を分析しました。この自
動分析によって、ベイラー医科
大学のがん研究者は、新たな研
究対象となり得る6つのタンパク
質を特定できました。」（IBM
Watsonが新しいデータドリブン
・ディスカバリー時代の幕を開け
るより）

データ統合したあとに
計算機で知識発見する未来

幹細胞や細胞分化が多くの疾患に関係
、細胞タイプ別にデータ解析したい
細胞タイプで分けて測定は可能
細胞タイプレベルのデータが少ない
種レベルのデータでは見えない
インハウスデータと公開データの粒度のミスマッチ

例：疾患と機能性RNAの発現相関
とある疾患で発現変動のある某機能性RNAは、細胞型
Aでは上昇して、細胞型Bでは減少する。

社内データと社外データの融合化
データベース設計思想の違いをマッピング
マッピングのサポートツールがほしい
論文のサプリメントテーブルをデータ化する時の課題
（エクセルのセルがGeneral型問題、もしくはOCT4が
10/4問題）
NextBIOは現実的なやり方

いかに知識を検索するか
馴染みの無い創薬領域について、論文を読んで読んで
ざっと掴む必要がある
Image 検索で論文にあたりをつける
「分子細胞生物学は知識や発見を図にする学問」

遺伝子名 → パスウェイ図 → レビュー論文

知識創造のサイクル
DMTAサイクル (Design-Make-Test-Analysis)
PDCAサイクル (Plan-Do-Check-Action)
SECIモデル (Socialisation-Externalisation-Combination-Internalization)
スクラム

https://hbr.org/1986/01/the-new-new-product-development-game/ar/1
NASA
Fuji-Xerox
Honda
Canon
スクラム

研究者自身がデータを直接あつ
かえるようになる新しい手段
http://www.nature.com/news/interactive-notebooks-sharing-the-code-1.16261

計算の再現から試行錯誤できる
ノートブックに、コードと結果があるので、生物学者
やケミストでも再現実施可能
あたらしいMethodの共有手段
論文のサプリメントでノートブックを利用

https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks#reproducible-academic-publications
http://www.nature.com/news/ipython-interactive-demo-7.21492

http://nbviewer.ipython.org/gist/pschloss/9815766/notebook.ipynb

でも、Pythonだけなんですよね？

Python以外も使えます
Cell magic 機能
http://nbviewer.ipython.org/github/ipython/ipython/blob/1.x/examples/notebooks/Cell%20Magics.ipynb
R
Octave
Cython
%%script magic
R, bash, ruby, perl, zsh, …

ウェブブラウザでスクリプティングできる
実行履歴がノートブックに
ほかのスクリプト言語も実行できる
インタラクティブに、探索的にデータを眺めるときに
便利、ターミナルでの操作と相補的

Galaxy IPython integration
https://github.com/bgruening/galaxy-ipython

ソフトウェアセットアップの標準化
仮想マシン、もしくは、Docker
インストールやセットアップが一瞬ですむようになる
配置の自由度がます
軽量

Galaxyのセットアップ事例
自宅では、一時間
会社では、一週間

いまなら数分でできるよ
そうDockerならね

創薬研究向けのコンテナ
増えるといいな
みなさん、Dockerfileを書いてコンテナをDocker Hub
で共有しませんか？
Glalaxy Virtuoso cytoscape EMBOSS BioC blast …
BioMart RDKit …

ソフトウェアのあたらしい公開メディ
アとしてのDocker: 実行可能環境の公開
メソッドの再現性を確保した研究の実現

とてもすばらしいmyChEMBLを紹介
ChEMBLdbデータをロード済みのVMを公開
データロード不要、セットアップ簡単
イントラネットでChEMBLdbをセキュアに利用可能
ケモインフォマティクスパッケージRDKitインストール済み
データとAPIを使う例をIPython nootbookとして内蔵
セットアップ簡単

myChEMBLの機能
ChEMBLdbへの化合物構造検索をイントラで
化合物プロパティ計算
ChEMBLdb Web API
Beaker API
RDKit でケモインフォマティクスと機械学習
IPython notebookにそれぞれのチュートリアル

• ChEMBLdbにたいして類似化合物
構造検索
• 検索結果の化合物のプロパティ散
布図を作図
• 特定のターゲットに活性のある化
合物とその活性値を学習してドラ
ッグ予測モデルの構築と検証
• Blastwおつかったタンパク質のド
ラッガビリティ解析
• Beaker APIのチュートリアル
http://nbviewer.ipython.org/github/chembl/mychembl/tree/master/ipython_notebooks/

データベース公開と！
検索例
公開者情報、バージョン、更新情報
利用規定、Terms of Use
httpsでの提供
データダンプ、Web APIの提供
Dockerコンテナ、VMとして提供
チュートリアルはIPython notebookで提供

創薬に必要なデータ統合の現在と未来

Recommended

Recommended

More Related Content

Featured

Featured (20)

創薬に必要なデータ統合の現在と未来

Editor's Notes