ライフサイエンスデータベースの現状 〜データベース統合化のための技術的・政治的側面〜
Japan Museum Bioinformatics (Museomics) Working Group 第2回会合@東工大・緑が丘キャンパス
https://sites.google.com/site/museumbioinfo/meetings/201410xx
#museomejp
ライフサイエンスデータベースの現状 〜データベース統合化のための技術的・政治的側面〜
Japan Museum Bioinformatics (Museomics) Working Group 第2回会合@東工大・緑が丘キャンパス
https://sites.google.com/site/museumbioinfo/meetings/201410xx
#museomejp
DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
1. 情報・システム研究機構 ライフサイエンス統合データベースセンター
仲里 猛留
Research Organization of Information and Systems (ROIS)Database Center for Life Science (DBCLS),
NAKAZATO, Takeru
2015/1/27
@chalkless
第1回 データ解析よろず相談会:AJACS advanced (AJACSa)
NGSデータベース検索
遺伝研W412
撮影
可
41. BioProject
SRA GEO
Project Summary
Run data
Umbrella Project
Study
Sample
Platform
Sample
Run data
Primary Project
Exp
Run
BioSample
Sample
SRAのデータ構造(最新版)
http://trace.ddbj.nig.ac.jp/dra/submission.html を改
47. Gene Ontology
DNA binding
androgen receptor binding
enzyme binding
transcription coactivator activity
tubulin binding
ubiquitin protein ligase binding
...
Molecular Function Biological Process
DNA damage response, signal transduction by p53 class media
resulting in transcription of p21 class mediator
G2 DNA damage checkpoint
androgen receptor signaling pathway
apoptotic process
cellular response to indole-3-methanol
chromosome segregation
double-strand break repair via homologous recombination
positive regulation of DNA repair
positive regulation of protein ubiquitination
postreplication repair
regulation of cell proliferation
BRCA1-A complex
BRCA1-BARD1 complex
gamma-tubulin ring complex
Cellular Component
Example) BRCA1 (Gene ID: 672)
Controlled vocabulary for representing biological features
48. GO assign and enrichment analysis
http://david.abcc.ncifcrf.gov/
TogoTV (Tutorial movie)
http://togotv.dbcls.jp/
49. Gene Ontology, ...
DNA binding
androgen receptor binding
enzyme binding
transcription coactivator activity
tubulin binding
ubiquitin protein ligase binding
...
Molecular Function Biological Process
DNA damage response, signal transduction by p53 class mediato
resulting in transcription of p21 class mediator
G2 DNA damage checkpoint
androgen receptor signaling pathway
apoptotic process
cellular response to indole-3-methanol
chromosome segregation
double-strand break repair via homologous recombination
positive regulation of DNA repair
positive regulation of protein ubiquitination
postreplication repair
regulation of cell proliferation
regulation of transcription from RNA polymerase II promoter
regulation of transcription from RNA polymerase III promoter
BRCA1-A complex
BRCA1-BARD1 complex
gamma-tubulin ring complex
nucleus
protein complex
Cellular Component
Example) BRCA1 (Gene ID: 672)
No information on
diseases and anatomy