創薬に必要なデータ統合の現在と未来
- 4. IBM Watson による大量の文献に基づく p53の
新規相互作用タンパク質の自動特定
「Watsonは、p53の活性化と不
活性化を導くタンパク質を予測す
るため、p53に関する7万もの科
学論文を分析しました。この自
動分析によって、ベイラー医科
大学のがん研究者は、新たな研
究対象となり得る6つのタンパク
質を特定できました。」(IBM
Watsonが新しいデータドリブン
・ディスカバリー時代の幕を開け
る より)
Editor's Notes
- 講演の機会を与えて頂きありがとうございます。
実はかつてはBHの開催側にいましたが、製薬業界に転職して見聞きしたところから今週のBHに関係した話題提供をしたいと思います。
- 製薬業界では、現在までに多くの疾患に対して有効な薬剤を開発し提供しています。いくつかのガンは寛解可能となり、いくつかの自己免疫疾患はコントロール可能になり患者さんのQOLが向上しました。感染症にも有効な薬剤が見いだされています、しかしながら薬剤耐性株の脅威は今後も予想されます。測定技術のコスト変化から個人個人のデータに基づいたPrecision Medicineが未来の医療であると考えられています。
- 製薬業界の現在の課題をいくつか上げると、開発コストの上昇があります。ここにはいろいろな分析がなされていて、Nature Reviews Drug Discoveryなどを読むとでています。
- さて、製薬業界で昨年注目された研究の一つが、IBM Watsonによるp53の新規相互作用タンパク質の発見があります。研究者が読むことができる論文数を遥かに越える7万報から人工知能的に自動分析しています。いままで専門家だけが行なって来た発見というタスクを計算機が代わりに行なうのは未来の創薬に欠かせないものだと印象を受けています。
- ということは、データ統合をうまくできるかが人が介入するポイントになりえます。現在データ統合で物足りないと感じている部分のひとつといえば、
- 細胞レベルのデータの扱いがあります。FACSなどの細胞を扱う測定技術があるので、細胞レベルのデータはあるのですが、公共データベースにはその粒度のデータを扱っていなかったりする現状に不便を感じます。
- 細胞レベルというと、発現変化でupする細胞とdownする細胞がどちらもあるケースが知られています。粒度が荒いデータベースでは、このようなデータは損なわれてしまいます。
- 製薬企業では社内でさまざまな実験がおこなわれ、大量のデータが存在しています。それを統合化してあたらしい知識発見につなげていく研究がここ数年増えて来ています。さらに社内データと社外データの融合が必要なこととなりつつあります。
社外データは、公共データベースのみならず、論文のサプリメントテーブルにも価値をおいています。
論文のサプリメントデータ固有のデータとしての扱いの困難さ、たとえば、ExcelのセルがGeneral型のときの値の自動変換に由来するものは、なんとかなって欲しいものです。
内外のデータの融合という点では、NextBIOのやり方は大雑把という意見もありますが、Practicalな方法の一つだとおもます。
- 創薬研究では、研究プロジェクトにたいして、知識や技術を軸にして参加していくことになるので、馴染みの無い疾患領域に取り組むことがありがちです。そんなときは、その領域のレビュー論文をざっと読んで掴むことになります。このときに、領域のキーワードで画像検索をして、自分の得たい知識のかかれている論文に目星をつけていくのが最近の流行です(自分の)。
特に、シグナルパスウェイの概念図を手がかりにレビュー論文を探すことが多くあります。物や概念、それら時空間的関連の説明は、図で説明されていることが多いです。
図で検索していると、図を検索するのに図がつかえないのか、とか、関係データで検索できないのか、とか、オントロジーは使えないのか、とかいろいろ思うところが出てきます。
- 創薬業界では、イノベーションが叫ばれていて、そのためのフレームワークがよく話されています。創薬固有のDMTAサイクルや、一般的なPDCAサイクル、日本独自のSECIモデル、これはソフトウェア開発で馴染みのあるスクラムと関連しています。
- これはスクラムのもとになった論文で、1986年のものです。新製品開発で、ホンダやキャノンなどの日本企業が輝いていた時代です。そこで対比されていたのはNASAでした。NASAのやり方は図のType Aで、開発ステップの各段階は分断されていて、ドキュメントが手渡されるのみ、というものです。一方、ホンダやキャノンは、初期段階のメンバーがその後の段階まで参加し続け、ドキュメント以外の知識、暗黙知を伝えていくのが特徴であると分析されています。このようにメンバーが段階を越えて参加する様子をラグビーのスクラムと表現しています。
イノベーションには、このように暗黙知を伝えるために仕組みや能力が要求されると、言い換えることができます。
- この観点で、最近注目しているのが研究者自身がデータをプログラミングして扱う手段です。IPython notebookがそれを実現していると注目されていて、最近 Nature に紹介記事がのったのでご存知のかたも多いかと思います。
- このように、コードとその出力、ここではプロット、がウェブブラウザであつかうことができます。
ターミナルでやっていることを想像すると、図はファイルに書き出され、ビューアで閲覧します。テンポ悪いし、ここで試行錯誤するとファイルやビューアが乱立して辛くなりそうです。
- このように使われていて、コードと結果を共有できるという機能が、研究者がプログラミングをはじめる環境として優れている点です。
同時に、論文のメソッドを公開するのにも利用されつつあります。
- 論文のサプリメント事例はここらにあります。
- その一例
- ブラウザでプログラミングできるのは、WWWが研究所のレポートや図の共有メディアとして発明されたことの延長線上にあって、プログラミングできるWWWの具現化を感じさせます。
ウェブページなのでStanzaと相性がよいのではないでしょうか?
- Galaxyに統合する試みもあり、ヒストリからIPython notebookを起動できます。ヒストリのデータをちょっといじることができて、ワークフローエディタではできなかった、アドホックな処理や、探査的なデータのインスペクションが可能になります。これはセクシーですね。
- データ統合の話題と相補的にデータをあつかうソフトウェアの話題もあります。いかにソフトウェアを手早くセットアップするかが課題の一つですが、最近は仮想マシンとコンテナ技術が活躍しています。
とくに、コンテナ技術のDockerは、非常に可能性を感じさせます。
- ウェブサーバを公開している方々、ソフトウェアを公開している方々、アルゴリズムを開発した方々、みなさんそれをDockerで提供公開しませんか? コンパイルしたりセットアップするのはやはり大変です。
また、創薬支援の一つの形として、コンテナの整備があると考えることができます。創薬に有効なソフトウェアをご存知な方々は、ぜひそれをDocker hubで共有してください。Wikiにそんなリストをつくるのもよいかもしれません。
- これまで話題にして来た内容をいくつも含んでいる事例としてmyChEMBLを紹介したいと思います。
データベースを含んだVMを公開していて、セキュアなデータベース利用可能性やデータロード時間の不要化、わりとインストールの難しいRDKitの提供など、機能のチュートリアルにIPython notebookの採用など、すぐ使えるものとして提供されています。将来は、これがデーベース、ウェブアプリ公開のベースラインになるといいなと思います。
- ChEMBLは、化合物活性相関について文献から専門家がデータを収集したデータベースです。ケモインフォマティクスで利用されます。myChEMBLにはケモインフォマティクスをすぐはじめるための機能があります。
- DBアクセスやAPI利用についてのひじょうに実践的なチュートリアルが付属しています。
- 最後になりますが、データベースやウェブアプリを公開する方に提案をして終わりたいと思います。検索例はNAR Database Issueでも推奨されているものですね。この中ではとくに、利用規程の明示とhttpsでの提供をプッシュします。いまどきの公共データベースは巨大すぎて取得して社内で再構築するのがコストに会わなくなる場合があるので、社外のサービスをそのまま利用するのも選択肢にはいっています。その際に検討材料としてそれらが必要なのです。