SlideShare a Scribd company logo
1 of 34
創薬に必要なデータ統合の現在と未来
中尾光輝 BH14.14 2015-02-02
創薬の現在と未来
がん
自己免疫疾患
感染症
Precision Medicine
新薬開発の課題
開発コストの上昇
難度向上
薬効が勝てない
毒性でドロップ
あたらしいターゲット
あたらしい創薬コンセプト
オープンイノベーション
IBM Watson による大量の文献に基づく p53の
新規相互作用タンパク質の自動特定
「Watsonは、p53の活性化と不
活性化を導くタンパク質を予測す
るため、p53に関する7万もの科
学論文を分析しました。この自
動分析によって、ベイラー医科
大学のがん研究者は、新たな研
究対象となり得る6つのタンパク
質を特定できました。」(IBM
Watsonが新しいデータドリブン
・ディスカバリー時代の幕を開け
る より)
データ統合したあとに
計算機で知識発見する未来
幹細胞や細胞分化が多くの疾患に関係
、細胞タイプ別にデータ解析したい
細胞タイプで分けて測定は可能
細胞タイプレベルのデータが少ない
種レベルのデータでは見えない
インハウスデータと公開データの粒度のミスマッチ
例:疾患と機能性RNAの発現相関
とある疾患で発現変動のある某機能性RNAは、細胞型
Aでは上昇して、細胞型Bでは減少する。
社内データと社外データの融合化
データベース設計思想の違いをマッピング
マッピングのサポートツールがほしい
論文のサプリメントテーブルをデータ化する時の課題
(エクセルのセルがGeneral型問題、もしくはOCT4が
10/4問題)
NextBIOは現実的なやり方
いかに知識を検索するか
馴染みの無い創薬領域について、論文を読んで読んで
ざっと掴む必要がある
Image 検索で論文にあたりをつける
「分子細胞生物学は知識や発見を図にする学問」
遺伝子名 → パスウェイ図 → レビュー論文
知識創造のサイクル
DMTAサイクル (Design-Make-Test-Analysis)
PDCAサイクル (Plan-Do-Check-Action)
SECIモデル (Socialisation-Externalisation-Combination-Internalization)
スクラム
https://hbr.org/1986/01/the-new-new-product-development-game/ar/1
NASA
Fuji-Xerox
Honda
Canon
スクラム
研究者自身がデータを直接あつ
かえるようになる新しい手段
http://www.nature.com/news/interactive-notebooks-sharing-the-code-1.16261
計算の再現から試行錯誤できる
ノートブックに、コードと結果があるので、生物学者
やケミストでも再現実施可能
あたらしいMethodの共有手段
論文のサプリメントでノートブックを利用
https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks#reproducible-academic-publications
http://www.nature.com/news/ipython-interactive-demo-7.21492
http://nbviewer.ipython.org/gist/pschloss/9815766/notebook.ipynb
でも、Pythonだけなんですよね?
Python以外も使えます
Cell magic 機能
http://nbviewer.ipython.org/github/ipython/ipython/blob/1.x/examples/notebooks/Cell%20Magics.ipynb
R
Octave
Cython
%%script magic
R, bash, ruby, perl, zsh, …
ウェブブラウザでスクリプティングできる
実行履歴がノートブックに
ほかのスクリプト言語も実行できる
インタラクティブに、探索的にデータを眺めるときに
便利、ターミナルでの操作と相補的
Galaxy IPython integration
https://github.com/bgruening/galaxy-ipython
ソフトウェアセットアップの標準化
仮想マシン、もしくは、Docker
インストールやセットアップが一瞬ですむようになる
配置の自由度がます
軽量
Galaxyのセットアップ事例
自宅では、一時間
会社では、一週間
いまなら数分でできるよ
そうDockerならね
創薬研究向けのコンテナ
増えるといいな
みなさん、Dockerfileを書いてコンテナをDocker Hub
で共有しませんか?
Glalaxy Virtuoso cytoscape EMBOSS BioC blast …
BioMart RDKit …
ソフトウェアのあたらしい公開メディ
アとしてのDocker: 実行可能環境の公開
メソッドの再現性を確保した研究の実現
とてもすばらしいmyChEMBLを紹介
ChEMBLdbデータをロード済みのVMを公開
データロード不要、セットアップ簡単
イントラネットでChEMBLdbをセキュアに利用可能
ケモインフォマティクスパッケージRDKitインストール済み
データとAPIを使う例をIPython nootbookとして内蔵
セットアップ簡単
myChEMBLの機能
ChEMBLdbへの化合物構造検索をイントラで
化合物プロパティ計算
ChEMBLdb Web API
Beaker API
RDKit でケモインフォマティクスと機械学習
IPython notebookにそれぞれのチュートリアル
• ChEMBLdbにたいして類似化合物
構造検索
• 検索結果の化合物のプロパティ散
布図を作図
• 特定のターゲットに活性のある化
合物とその活性値を学習してドラ
ッグ予測モデルの構築と検証
• Blastwおつかったタンパク質のド
ラッガビリティ解析
• Beaker APIのチュートリアル
http://nbviewer.ipython.org/github/chembl/mychembl/tree/master/ipython_notebooks/
データベース公開と!
検索例
公開者情報、バージョン、更新情報
利用規定、Terms of Use
httpsでの提供
データダンプ、Web APIの提供
Dockerコンテナ、VMとして提供
チュートリアルはIPython notebookで提供

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

創薬に必要なデータ統合の現在と未来

Editor's Notes

  1. 講演の機会を与えて頂きありがとうございます。 実はかつてはBHの開催側にいましたが、製薬業界に転職して見聞きしたところから今週のBHに関係した話題提供をしたいと思います。
  2. 製薬業界では、現在までに多くの疾患に対して有効な薬剤を開発し提供しています。いくつかのガンは寛解可能となり、いくつかの自己免疫疾患はコントロール可能になり患者さんのQOLが向上しました。感染症にも有効な薬剤が見いだされています、しかしながら薬剤耐性株の脅威は今後も予想されます。測定技術のコスト変化から個人個人のデータに基づいたPrecision Medicineが未来の医療であると考えられています。
  3. 製薬業界の現在の課題をいくつか上げると、開発コストの上昇があります。ここにはいろいろな分析がなされていて、Nature Reviews Drug Discoveryなどを読むとでています。
  4. さて、製薬業界で昨年注目された研究の一つが、IBM Watsonによるp53の新規相互作用タンパク質の発見があります。研究者が読むことができる論文数を遥かに越える7万報から人工知能的に自動分析しています。いままで専門家だけが行なって来た発見というタスクを計算機が代わりに行なうのは未来の創薬に欠かせないものだと印象を受けています。
  5. ということは、データ統合をうまくできるかが人が介入するポイントになりえます。現在データ統合で物足りないと感じている部分のひとつといえば、
  6. 細胞レベルのデータの扱いがあります。FACSなどの細胞を扱う測定技術があるので、細胞レベルのデータはあるのですが、公共データベースにはその粒度のデータを扱っていなかったりする現状に不便を感じます。
  7. 細胞レベルというと、発現変化でupする細胞とdownする細胞がどちらもあるケースが知られています。粒度が荒いデータベースでは、このようなデータは損なわれてしまいます。
  8. 製薬企業では社内でさまざまな実験がおこなわれ、大量のデータが存在しています。それを統合化してあたらしい知識発見につなげていく研究がここ数年増えて来ています。さらに社内データと社外データの融合が必要なこととなりつつあります。 社外データは、公共データベースのみならず、論文のサプリメントテーブルにも価値をおいています。 論文のサプリメントデータ固有のデータとしての扱いの困難さ、たとえば、ExcelのセルがGeneral型のときの値の自動変換に由来するものは、なんとかなって欲しいものです。 内外のデータの融合という点では、NextBIOのやり方は大雑把という意見もありますが、Practicalな方法の一つだとおもます。
  9. 創薬研究では、研究プロジェクトにたいして、知識や技術を軸にして参加していくことになるので、馴染みの無い疾患領域に取り組むことがありがちです。そんなときは、その領域のレビュー論文をざっと読んで掴むことになります。このときに、領域のキーワードで画像検索をして、自分の得たい知識のかかれている論文に目星をつけていくのが最近の流行です(自分の)。 特に、シグナルパスウェイの概念図を手がかりにレビュー論文を探すことが多くあります。物や概念、それら時空間的関連の説明は、図で説明されていることが多いです。 図で検索していると、図を検索するのに図がつかえないのか、とか、関係データで検索できないのか、とか、オントロジーは使えないのか、とかいろいろ思うところが出てきます。
  10. 創薬業界では、イノベーションが叫ばれていて、そのためのフレームワークがよく話されています。創薬固有のDMTAサイクルや、一般的なPDCAサイクル、日本独自のSECIモデル、これはソフトウェア開発で馴染みのあるスクラムと関連しています。
  11. これはスクラムのもとになった論文で、1986年のものです。新製品開発で、ホンダやキャノンなどの日本企業が輝いていた時代です。そこで対比されていたのはNASAでした。NASAのやり方は図のType Aで、開発ステップの各段階は分断されていて、ドキュメントが手渡されるのみ、というものです。一方、ホンダやキャノンは、初期段階のメンバーがその後の段階まで参加し続け、ドキュメント以外の知識、暗黙知を伝えていくのが特徴であると分析されています。このようにメンバーが段階を越えて参加する様子をラグビーのスクラムと表現しています。 イノベーションには、このように暗黙知を伝えるために仕組みや能力が要求されると、言い換えることができます。
  12. この観点で、最近注目しているのが研究者自身がデータをプログラミングして扱う手段です。IPython notebookがそれを実現していると注目されていて、最近 Nature に紹介記事がのったのでご存知のかたも多いかと思います。
  13. このように、コードとその出力、ここではプロット、がウェブブラウザであつかうことができます。 ターミナルでやっていることを想像すると、図はファイルに書き出され、ビューアで閲覧します。テンポ悪いし、ここで試行錯誤するとファイルやビューアが乱立して辛くなりそうです。
  14. このように使われていて、コードと結果を共有できるという機能が、研究者がプログラミングをはじめる環境として優れている点です。 同時に、論文のメソッドを公開するのにも利用されつつあります。
  15. 論文のサプリメント事例はここらにあります。
  16. その一例
  17. ブラウザでプログラミングできるのは、WWWが研究所のレポートや図の共有メディアとして発明されたことの延長線上にあって、プログラミングできるWWWの具現化を感じさせます。 ウェブページなのでStanzaと相性がよいのではないでしょうか?
  18. Galaxyに統合する試みもあり、ヒストリからIPython notebookを起動できます。ヒストリのデータをちょっといじることができて、ワークフローエディタではできなかった、アドホックな処理や、探査的なデータのインスペクションが可能になります。これはセクシーですね。
  19. データ統合の話題と相補的にデータをあつかうソフトウェアの話題もあります。いかにソフトウェアを手早くセットアップするかが課題の一つですが、最近は仮想マシンとコンテナ技術が活躍しています。 とくに、コンテナ技術のDockerは、非常に可能性を感じさせます。
  20. ウェブサーバを公開している方々、ソフトウェアを公開している方々、アルゴリズムを開発した方々、みなさんそれをDockerで提供公開しませんか? コンパイルしたりセットアップするのはやはり大変です。 また、創薬支援の一つの形として、コンテナの整備があると考えることができます。創薬に有効なソフトウェアをご存知な方々は、ぜひそれをDocker hubで共有してください。Wikiにそんなリストをつくるのもよいかもしれません。
  21. これまで話題にして来た内容をいくつも含んでいる事例としてmyChEMBLを紹介したいと思います。 データベースを含んだVMを公開していて、セキュアなデータベース利用可能性やデータロード時間の不要化、わりとインストールの難しいRDKitの提供など、機能のチュートリアルにIPython notebookの採用など、すぐ使えるものとして提供されています。将来は、これがデーベース、ウェブアプリ公開のベースラインになるといいなと思います。
  22. ChEMBLは、化合物活性相関について文献から専門家がデータを収集したデータベースです。ケモインフォマティクスで利用されます。myChEMBLにはケモインフォマティクスをすぐはじめるための機能があります。
  23. DBアクセスやAPI利用についてのひじょうに実践的なチュートリアルが付属しています。
  24. 最後になりますが、データベースやウェブアプリを公開する方に提案をして終わりたいと思います。検索例はNAR Database Issueでも推奨されているものですね。この中ではとくに、利用規程の明示とhttpsでの提供をプッシュします。いまどきの公共データベースは巨大すぎて取得して社内で再構築するのがコストに会わなくなる場合があるので、社外のサービスをそのまま利用するのも選択肢にはいっています。その際に検討材料としてそれらが必要なのです。