Your SlideShare is downloading. ×
0
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Now and then: next-generation sequencing database to encourage the big data science
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Now and then: next-generation sequencing database to encourage the big data science

2,630

Published on

ビッグデータに踊らされる

ビッグデータに踊らされる

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
2,630
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. データベースから見た 次世代シーケンスによる研究の これまでとこれから 研究者を助けるために データベースは何をすべきか Now and then: next-generation sequencing database to encourage the big data science Database Center for Life Science 大田達郎 Tazro Ohta
  • 2. まとめ • データ解析が大変な時代はもう終わった • データを奉納する人々にご利益を Summary: stop annoying about NGS data processing, giving rewards to open-data scientists
  • 3. データ解析が大変な時代はもう終わった “data processing is not the most annoying part anymore”
  • 4. 今、大規模シーケンスは何が大変なのか • 自身でシーケンスするのと同じくらい公開データを使うケースが多い! • • • それぞれのフローで共通する部分,異なる部分 それぞれどこが大変なのか? 「データの解析が大変なんでしょ」と思われて『いた』! • 自前シーケンスは実験デザインの方が大事 • 公開データは「実験デザインの情報をいかに手に入れるか」が大事 the hardest part is designing whole sequencing experiment, for both self-sequencing and using public sequencing data
  • 5. 通常のシーケンスプロジェクトにおける研究ワークフロー 後になってからはどうしようもない サンプリング • ライブラリプレップ 技術的な問題なのでどうにかなる シーケンシング QC マッピング/アセンブル 解析 「次世代はデータ解析が大変」から「良いシーケンスがあればどうにかなる」へ! • ツールや手法、論文も多く出回っており、解析が大変な時代はもう終わる • 計算機資源の問題も公共リソースなどによって解決できる • 重要なのはよくデザインされた実験と質の高いライブラリ over the data processing, just a technical part, now researcher must care about designing experiment
  • 6. 公共のシーケンスデータを利用するためのフロー on-line 検索 • メタデータの収集 local ダウンロード 解凍 QC マッピング/アセンブル 解析 「データの質は解析ではどうにもならない」のは同じ! • データの質の判断には実験条件などのメタ情報の充実が必要 • 大量のデータから効率よく必要なデータを探さなくてはならない • サイズの大きなデータはDL・展開に時間がかかるので「ハズレ」を引きたくない using public data requires retrieving detailed metadata to control the quality of sequencing
  • 7. 公開データの利用コストを下げるためのDB的アプローチ • 必要なデータを素早く検索できる! • • 「目的とするデータがどのくらい登録されているか」を可視化 解析に必要なメタデータが確認できる! • PubMed, PMCから文献情報を抽出 • リード情報の追加 (リード数,リード長,エラー率,etc.) • 「ハズレ」を避けることでDL/解凍のコストを削減 • 予めクオリティを確認することでQC処理を省略 an approach from the database: improving data search system with method description from papers as metadata
  • 8. 検索システムの開発 DBCLS SRA (http://sra.dbcls.jp)
  • 9. FastQCによるSequence Qualityの提供 (http://sra.dbcls.jp)
  • 10. オッこのデータよさそう→ダウンロードする(一晩)→解凍する(一晩)→見てみる→全部Nでした→\(^o^)/
  • 11. DBCLS SRAによって実現するコストの削減 on-line 検索 メタデータの収集 • local QC DL 解凍 QC マッピング/アセンブル 目的は“研究目的に合致する質の高いデータを最小コストで手に入れる”こと! • 「ないものを探し続ける」ことを防ぐ • 「同じものが複数あるなら良い方を使いたい」をサポートする • 検索の自動化もサポート “retrieving data that works for one’s study from the public database with minimum effort” 解析
  • 12. どうにかなったのか “And it goes..”
  • 13. どうにもならなかった • データの量やバリエーションに依存する問題! • データが分散する問題! • メタ情報の問題! • 文献情報など補足情報の問題 not so good: amount and variation of data, data distribution to various public DB, insufficient quality of metadata, difficulty with linking data to publication
  • 14. データ量は延々増え続けている 2PB > http://www.ncbi.nlm.nih.gov/Traces/sra/
  • 15. データ量は延々増え続けている http://trace.ddbj.nig.ac.jp/DRASearch/
  • 16. データのバリエーションも増えている [*-Seq].size > 80 http://liorpachter.wordpress.com/seq/
  • 17. データのバリエーションも増えている
  • 18. DB側はざっくりしたStudy Type by study (http://sra.dbcls.jp/trends.html)
  • 19. データが分散する by study (http://sra.dbcls.jp/trends.html)
  • 20. TCGA data moved to CGHub http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history
  • 21. メタ情報の問題 Sanger Center (template?) Volumes of free word field “design description” Total = 338,765! (words.size == 0).size = 92,089! (words.size > 200).size = 2,184
  • 22. 大切なことは全てPubMedが教えてくれた http://sra.dbcls.jp/cgi-bin/publication.cgi
  • 23. 「論文が出たからデータを公開する」はむしろ少数派? (もしくは出ても報告しない) 150000 200000 194338 400000 376904 115440 112500 150000 300000 75000 100000 200000 37500 50000 3059 0 total publication #submission 100000 31787 51202 16.4% 26.5% 0 0 total publication #sample total publication #run not all the published data has paper publication (or never update after the first data submission) 13.6%
  • 24. どげんかせな • データの量やバリエーションに依存する問題! • • • 単純に計算量が増える 情報の粒度はどこまで対応するべきか データが分散する問題! • • メタ情報の問題! • • 管理上のコストと利用上のコストの兼ね合い 登録者によって記述量に差がある 文献情報など補足情報の問題! • そもそも文献がない • Materials&Methods にどこまで詳しく書かれているか “summary of those problems”
  • 25. どうにかなるのか Is there any hope?
  • 26. どうにかなってくれ • 未来予測 • Compression strategy の問題! • Sequencing technology の進化は予測が難しい The other problems; problems of data compression strategy, estimation of sequencing technology advance
  • 27. Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.
  • 28. Compression Strategy の問題 Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future of DNA sequence archiving." GigaScience 1.1 (2012): 2.
  • 29. Sequencing Technology の進化は予測が云々 (1) https://www.nanoporetech.com
  • 30. Sequencing Technology の進化は予測が云々 (2) http://gnubio.com
  • 31. Sequencing Technology の進化は予測が云々 (3) http://www.picoseq.com/
  • 32. データを奉納する人々にご利益を “giving rewards to open-data scientists”
  • 33. http://www.flickr.com/photos/ogachin/5420953786/
  • 34. データベース神社システムの実現に向けて • 「質の高いメタ情報と共にデータを登録してもらう」ことが必須! • • 変化するデータの性質にフレキシブルに対応する • • データ登録時の負担を減らすことが大事 データを登録する研究者の協力も欠かせない 質の高いデータ登録をしてくれる研究者に「ご利益」を! • 今はメタ情報の質も「善意ベース」 • 論文がciteされる,グラントが取れるなどの評価に繋げる必要がある Improving the DB ecosystem to make submission with high-quality metadata easy, giving rewards to researchers who made highly cited submission, etc.
  • 35. まとめ • データ解析が大変な時代はもう終わった! • これからは「質の高いシーケンスをするのが大変」な時代 • • • 解析できる人が実験デザインの段階から関わる必要がある 公開データは「質の高いメタ情報を書いてもらう」ためにDBの改善が必須 データを奉納する人々にご利益を! • 善意ベースでは限界があるので質の高いデータを公開するインセンティブが必要 Summary: well-designed sequencing project for highly reusable data, make an incentive to submit high-quality metadata
  • 36. Acknowledgement • いつも綺麗なデータを公開してくれるみなさま • データベースプロジェクトで日々暗躍するDBCLS, DDBJ, NBDCの同志のみなさま • 有り難いアドバイスやご意見をくださるNGS現場の会のみなさま • ちょっと協力してみようかな?と思ってくださった会場のみなさま • オーガナイザのこだまさん、なかざとさん Thank you!

×