DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
6. Now, situation has
changed...
• Lincoln D Stein ‘Bioinformatics: alive and
kicking’ GenomeBiology 9:114 (2008)
• In 2003, he predicted bioinformatics as a
discipline separate from mainstream biology
would be gone in ten years.
• In 2008, he realized bioinformatics has become
too central to biology to be left to specialist
bioinformaticians. Biologists are all
bioinformaticians now.
6
53. PUBLISHED OR NOT
公開されたデータを元にした論文はあるのか
「論文を公開してから
19%
データを公開する」
とは限らない
paper published
not published
NUMBER OF SUBMITTED STUDY
53
54. AVAILABLE?
登録されたデータを実際に使えるのか
NUMBER OF SEQUENCE RUN NUMBER OF SUBMITTED STUDY
1%
34%
66%
OPEN
CONTROLLED ACCESS
99%
1.「全てのデータは誰でも自由に使える」とは限らない
2.制限のかかったものはSTUDYに反してRUNが非常に多い 54