ライフサイエンスデータベースの現状 〜データベース統合化のための技術的・政治的側面〜
Japan Museum Bioinformatics (Museomics) Working Group 第2回会合@東工大・緑が丘キャンパス
https://sites.google.com/site/museumbioinfo/meetings/201410xx
#museomejp
ライフサイエンスデータベースの現状 〜データベース統合化のための技術的・政治的側面〜
Japan Museum Bioinformatics (Museomics) Working Group 第2回会合@東工大・緑が丘キャンパス
https://sites.google.com/site/museumbioinfo/meetings/201410xx
#museomejp
最新版(2016年度以降用改訂版)が http://dx.doi.org/10.6084/m9.figshare.2057958 より公開されています。
Bioinformatics primer lecture for oncologists who want to make full use of available database resources in the world.
DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
An extention of TogoTV for getting much more contributors and beneficiaries.
Advanced bioinformatics tips and tiny codes can be shared from this new feature, and the replication reports including corrections and suggestions can be deposited to TogoTV website.
Integrated database biology with well-curated and circulated knowledgeHidemasa Bono
In Database Center for Life Science (DBCLS), we have been tackling the problem how to organize various types of database in life science under the MEXT Integrated Database Project. Currently, we are developing database integration technologies to utilize huge amount of public data in collaboration with various sectors of biologists including National Bioscience Database Center (NBDC) newly founded in Japan Science and Technology Agency (JST). We will present current status of the project and how to use data produced and maintained in the system.
最新版(2016年度以降用改訂版)が http://dx.doi.org/10.6084/m9.figshare.2057958 より公開されています。
Bioinformatics primer lecture for oncologists who want to make full use of available database resources in the world.
DNAマイクロアレイや新型シーケンサーに代表される大規模解析は、かつては大型プロジェクトに限定されていたが、コストダウンやコモディティの整備がすすみ、一般のウェット系研究室でも実行可能となっている。また我が国ではまだ不十分であるが、今後、解析情報の共有と公開原則の意識が浸透すれば、インターネット上に公開データの蓄積がすすみ、それを活用することにより、解析コストをかけずに大規模データを研究に資することができるようになると考えられる。しかしこうした実験のデータ量は膨大であり、そのデータハンドリングは実験生物学者には困難であることが現状の問題である。
また、論文発表によって公開されたデータがデータベース(以下、DBと略す)として登録されているとはいうものの、どういったものが今利用可能でどう使ったらいいのかよくわからない状態となっている。この状況下で、文部科学省による「統合データベースプロジェクト」が平成18年度から5年間の年限プロジェクトとして立ち上げられ、その中核機関であったライフサイエンス統合データベースセンター(DBCLS:Database Center for Life Science)が中心になって医学生物学研究を支えるDBインフラを整備してきた。平成23年度には科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置され、現在ではDDBJ(DNA Data Bank of Japan)とも協調してDB統合化が進められている。 中でも、統合DBに関わるコンテンツの作成・整備としてすすめているトップジャーナルに掲載された日本人を著者とする生命科学分野のろんぶんについて著者自身の執筆による日本語のレビューを提供している新着論文レビューや、生命科学分野の有用DBやウェブツールの活用方法を動画で紹介する統合TVはアクセス数も多く、日々利用されている。
本講演では、生命科学分野のDBに対して現状を把握しそれらを自らの研究に活かしていくために、まずこれまでDBCLSが開発し現在はNBDCで維持管理されているDBカタログ、 DB横断検索、DBアーカイブについて紹介する。次に、現在DBCLSで開発がすすめられている大規模データの利用技術から、さまざまな研究のリファレンスとなる遺伝子発現データセットを紹介し、組織特異的な遺伝子発現パターンや塩基配列断片から検索する利用例を示す。最後に、現実的に使う頻度の高い遺伝子発現DB(NCBI GEO)と新型シーケンサーのデータアーカイブ(SRAやDRA)を実験条件などのメタデータから整理し、データを再利用するところからスタートするdata initiatedな研究に関してその実例を紹介する予定である。
An extention of TogoTV for getting much more contributors and beneficiaries.
Advanced bioinformatics tips and tiny codes can be shared from this new feature, and the replication reports including corrections and suggestions can be deposited to TogoTV website.
Integrated database biology with well-curated and circulated knowledgeHidemasa Bono
In Database Center for Life Science (DBCLS), we have been tackling the problem how to organize various types of database in life science under the MEXT Integrated Database Project. Currently, we are developing database integration technologies to utilize huge amount of public data in collaboration with various sectors of biologists including National Bioscience Database Center (NBDC) newly founded in Japan Science and Technology Agency (JST). We will present current status of the project and how to use data produced and maintained in the system.
25. マイクロアレイとの違い: RPKM
• Reads Per Kilobase per Million mapped reads!
• ノーマライズした遺伝子発現量!
–100万リード数マップされたとき、転写産物を
1000塩基長としたときのマップされたリード数!
• FPKMもほぼ同じ!
–Fragments Per Kilobase of exon per Million
mapped fragments!
– !
• Reference: Nat Methods, 5(7):621-628.
25