生命科学分野の大規模データ利用
技術開発の現状と今後の展開

Pictures from Togo Picture Gallery http://g86.dbcls.jp/togopic/

ライフサイエンス統合データベースセンター(DBCLS...
Who we are: togoDB
• The integrated database project in Japan
• Collaborative effort to recycle data
–Provide data which c...
NBDC portal

3

http://biosciencedbc.jp/

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
http://integbio.jp/dbcatalog/

4

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
Big data in lifescience
解釈のために
1. DB統合化技術開発
2. 信頼出来るコンテンツ作成
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
RDFによるDB統合
ゲノムの配列情報と多種多様なアノテーションデータを個別のオン
トロジー、データ変換プログラムを開発し RDF 形式にして統合
ゲノム配列
NCBI: BioProject/RefSeq
-- 既存のリファレンス配列
DDB...
Big data in lifescience
• Output mostly from machines
–NGS(Next Generation Sequencers)
• over 100M lines, 2Gbyte in size/s...
1. DBCLS SRA
Pipeline to help users re-use public NGS data
Search data

• Yellow pages for NGS data archived
–Indexed by m...
Statistics: studies

http://SRA.dbcls.jp/
9

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
Search by publications

10

http://bit.ly/sra2pubmed

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
Search by diseases

11

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
Search by diseases(cont.)

12

Nakazato T, Ohta T, Bono H
Experimental design-based functional mining and characterization...
Big data in lifescience
解釈のために
1. DB統合化技術開発
2. 信頼出来るコンテンツ作成
© 2013 DBCLS Licensed under CC BY 2.1JAPAN
新着論文レビュー
http://first.lifesciencedb.jp/

クリエイティブ・コモンズ 表示 2.1 日本
14

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
領域融合レビュー
http://leading.lifesciencedb.jp/

クリエイティブ・コモンズ 表示 2.1 日本
15

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
統合TV (togoTV)
•動画によるDBやツールのチュートリアル
‒ 各DBやツール名で検索

http://togotv.dbcls.jp/

•統合データベース講演会AJACSの動画も
•YouTubeにも
http://youtube...
http://allie.dbcls.jp/

17

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
inMeXes

18

http://docman.dbcls.jp/im/

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
19

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
Life
Science
Dictionary
のサイトにリンク

20

© 2013 DBCLS Licensed under CC BY 2.1JAPAN
まとめ
• ライフサイエンス分野ではDBCLSなどの
センターがDB統合化に取り組んでいる
1.DB統合化技術開発
2.信頼出来るコンテンツ作成

• 現状「まずは使ってもらう」フェーズ
• その一方で、測定機器のムーアの法則を上回るパ
ーフォ...
今後どうあるべきか
• データを出したがらない状況を変える
–データの適切なcitationがなされるように
–公的研究費から得たデータを売る人の撲滅

• 「データを流通させると御利益がある」
ことの普及
–tracking機能の充実
–成功...
I choose

Hidemasa Bono

after his Genome karaoke presentation
at GENOME INFORMATICS meeting
Wellcome Trust Genome Campus
...
I still choose Open Access.
• BMC Genomics
–Associate Editor (2008年12月∼)

• PLOS Supporter :)

24

© 2013 DBCLS Licensed u...
Upcoming SlideShare
Loading in...5
×

Technology development of database integration in lifescience

871

Published on

While the data from experiments by DNA microarrays and Next Generation DNA Sequencers(so called NGS) are so huge and it is thus hard for wet biologists to handle them, many biologists now try to make full use of public database. In DBCLS, we are developing the technology for the re-use of big data including DNA sequence from NGS and providing such information for wet biologists. I will show you the current status and
the future of our project.
--
第3回 SPARC Japan セミナー2013「オープンアクセス時代の研究成果のインパクトを再定義する:再利用とAltmetricsの現在」
http://www.nii.ac.jp/sparc/event/2013/20131025.html
で話した講演「生命科学分野の大規模データ利用技術開発の現状と今後の展開」のスライドです。
要旨:DNAマイクロアレイや新型DNAシーケンサ(Next Generation Sequencers)といった大規模解析による実験データの量は膨大でそのデータハンドリングは実験生物学者には困難であるが,論文発表に伴って公開されたデータを蓄積した公共データベースをフル活用する新しい研究スタイルが注目されてきている。DBCLSではそれらを再利用する利用技術を開発し,実験生物学者の情報技術的な自立を促すための情報提供を行ってきた。本講演ではその現状を紹介し,今後について展望する。

Published in: Education, Business, Travel
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
871
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Technology development of database integration in lifescience

  1. 1. 生命科学分野の大規模データ利用 技術開発の現状と今後の展開 Pictures from Togo Picture Gallery http://g86.dbcls.jp/togopic/ ライフサイエンス統合データベースセンター(DBCLS) 坊農 秀雅(a.k.a. @bonohu) Technology development of database integration in lifescience by Hidemasa Bono from Database Center for Life Science(DBCLS) © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  2. 2. Who we are: togoDB • The integrated database project in Japan • Collaborative effort to recycle data –Provide data which can easily reuse –Retain data which is part of ‘public data’ Technology developer DNA data archiver Data organizer TogoHeadquarters http://biosciencedbc.jp/ 2 Universities & institutes © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  3. 3. NBDC portal 3 http://biosciencedbc.jp/ © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  4. 4. http://integbio.jp/dbcatalog/ 4 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  5. 5. Big data in lifescience 解釈のために 1. DB統合化技術開発 2. 信頼出来るコンテンツ作成 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  6. 6. RDFによるDB統合 ゲノムの配列情報と多種多様なアノテーションデータを個別のオン トロジー、データ変換プログラムを開発し RDF 形式にして統合 ゲノム配列 NCBI: BioProject/RefSeq -- 既存のリファレンス配列 DDBJ: Annotation pipeline/GTPS -- 新規ゲノ ム配列 実験・メタデータ INSDC, NCBI: SRA, GEO DBCLS: RefEx, Kusarinoko GOLD, GSC: 環境メタデータ Bulk data: 文献, 画像 ... オントロジー NCBO: BioPortal, OBO (GO, SO ...) DBCLS: MEO, GMO, MCCV ... アノテーション UniProt: Protein functions and links Formats: GFF3, GTF, GVF, DAS, BED ... Tools: Cufflinks, BLAST, InterProt ... Slide from トーゴーの日シンポジウム2013 「データベース統合の実現に向けて2」 by 岡本忍 (DBCLS) 6 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  7. 7. Big data in lifescience • Output mostly from machines –NGS(Next Generation Sequencers) • over 100M lines, 2Gbyte in size/sample • Ethical issues: Personal human genome • So many variations in... Pictures from Togo Picture Gallery http://g86.dbcls.jp/togopic/ –Data format –Application: re-sequencing, de novo seq, RNA-seq,... –Annotation: granularity of metadata SRA Genome Metagenome GEO RNAseq ArrayExpress ChIPseq microarray (GeneChip, Oligoarray) © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  8. 8. 1. DBCLS SRA Pipeline to help users re-use public NGS data Search data • Yellow pages for NGS data archived –Indexed by metadata. Search by.... Download Quality Check • Statistics • Publications • Diseases –Direct link to original DB(SRA) Data processing Analysis 8 • Pre-calculated QC data http://SRA.dbcls.jp/ © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  9. 9. Statistics: studies http://SRA.dbcls.jp/ 9 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  10. 10. Search by publications 10 http://bit.ly/sra2pubmed © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  11. 11. Search by diseases 11 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  12. 12. Search by diseases(cont.) 12 Nakazato T, Ohta T, Bono H Experimental design-based functional mining and characterization of high-throughput sequencing data in the Sequence Read Archive. PLOS ONE. 2013; doi: 10.1371/journal.pone.0077910 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  13. 13. Big data in lifescience 解釈のために 1. DB統合化技術開発 2. 信頼出来るコンテンツ作成 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  14. 14. 新着論文レビュー http://first.lifesciencedb.jp/ クリエイティブ・コモンズ 表示 2.1 日本 14 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  15. 15. 領域融合レビュー http://leading.lifesciencedb.jp/ クリエイティブ・コモンズ 表示 2.1 日本 15 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  16. 16. 統合TV (togoTV) •動画によるDBやツールのチュートリアル ‒ 各DBやツール名で検索 http://togotv.dbcls.jp/ •統合データベース講演会AJACSの動画も •YouTubeにも http://youtube.com/togotv •約700の動画              (アップデート込) クリエイティブ・コモンズ 表示 2.1 日本 © 2013 DBCLS Licensed under CC BY 2.1JAPAN 16
  17. 17. http://allie.dbcls.jp/ 17 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  18. 18. inMeXes 18 http://docman.dbcls.jp/im/ © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  19. 19. 19 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  20. 20. Life Science Dictionary のサイトにリンク 20 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  21. 21. まとめ • ライフサイエンス分野ではDBCLSなどの センターがDB統合化に取り組んでいる 1.DB統合化技術開発 2.信頼出来るコンテンツ作成 • 現状「まずは使ってもらう」フェーズ • その一方で、測定機器のムーアの法則を上回るパ ーフォーマンスによるアーカイブデータの爆発 21 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  22. 22. 今後どうあるべきか • データを出したがらない状況を変える –データの適切なcitationがなされるように –公的研究費から得たデータを売る人の撲滅 • 「データを流通させると御利益がある」 ことの普及 –tracking機能の充実 –成功事例の充実 22 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  23. 23. I choose Hidemasa Bono after his Genome karaoke presentation at GENOME INFORMATICS meeting Wellcome Trust Genome Campus Hinxton, Cambridge, U.K. Lead the next scientific revolution. Submit your best work to PLoS Biology. 23 www.plos.org © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  24. 24. I still choose Open Access. • BMC Genomics –Associate Editor (2008年12月∼) • PLOS Supporter :) 24 © 2013 DBCLS Licensed under CC BY 2.1JAPAN
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×