Now and then: next-generation sequencing database to encourage the big data science

データベースから見た次世代シーケンスによる研究のこれまでとこれから
研究者を助けるためにデータベースは何をすべきか
Now and then: next-generation sequencing database to encourage the big data science

Database Center for Life Science
大田達郎 Tazro Ohta

まとめ

•

データ解析が大変な時代はもう終わった

•

データを奉納する人々にご利益を

Summary: stop annoying about NGS data processing, giving rewards to open-data scientists

データ解析が大変な時代はもう終わった

“data processing is not the most annoying part anymore”

今、大規模シーケンスは何が大変なのか

•

自身でシーケンスするのと同じくらい公開データを使うケースが多い!
•
•

•

それぞれのフローで共通する部分，異なる部分
それぞれどこが大変なのか？

「データの解析が大変なんでしょ」と思われて『いた』!
•

自前シーケンスは実験デザインの方が大事

•

公開データは「実験デザインの情報をいかに手に入れるか」が大事

the hardest part is designing whole sequencing experiment,
for both self-sequencing and using public sequencing data

通常のシーケンスプロジェクトにおける研究ワークフロー

後になってからはどうしようもない

サンプリング

•

ライブラリプレップ

技術的な問題なのでどうにかなる

シーケンシング

QC

マッピング/アセンブル

解析

「次世代はデータ解析が大変」から「良いシーケンスがあればどうにかなる」へ!
•

ツールや手法、論文も多く出回っており、解析が大変な時代はもう終わる

•

計算機資源の問題も公共リソースなどによって解決できる

•

重要なのはよくデザインされた実験と質の高いライブラリ

over the data processing, just a technical part, now researcher must care about designing experiment

公共のシーケンスデータを利用するためのフロー

on-line

検索

•

メタデータの収集

local

ダウンロード

解凍

QC


解析

「データの質は解析ではどうにもならない」のは同じ!
•

データの質の判断には実験条件などのメタ情報の充実が必要

•

大量のデータから効率よく必要なデータを探さなくてはならない

•

サイズの大きなデータはDL・展開に時間がかかるので「ハズレ」を引きたくない

using public data requires retrieving detailed metadata to control the quality of sequencing

公開データの利用コストを下げるためのDB的アプローチ

•

必要なデータを素早く検索できる!
•

•

「目的とするデータがどのくらい登録されているか」を可視化

解析に必要なメタデータが確認できる!
•

PubMed, PMCから文献情報を抽出

•

リード情報の追加 (リード数，リード長，エラー率，etc.)
•

「ハズレ」を避けることでDL/解凍のコストを削減

•

予めクオリティを確認することでQC処理を省略

an approach from the database: improving data search system with method description from papers as metadata

検索システムの開発 DBCLS SRA (http://sra.dbcls.jp)

FastQCによるSequence Qualityの提供 (http://sra.dbcls.jp)

オッこのデータよさそう→ダウンロードする(一晩)→解凍する(一晩)→見てみる→全部Nでした→＼(^o^)／

DBCLS SRAによって実現するコストの削減

on-line

検索

メタデータの収集

•

local

QC

DL

解凍

QC


目的は“研究目的に合致する質の高いデータを最小コストで手に入れる”こと!
•

「ないものを探し続ける」ことを防ぐ

•

「同じものが複数あるなら良い方を使いたい」をサポートする

•

検索の自動化もサポート

“retrieving data that works for one’s study from the public database with minimum effort”

解析

どうにかなったのか

“And it goes..”

どうにもならなかった

•

データの量やバリエーションに依存する問題!

•

データが分散する問題!

•

メタ情報の問題!

•

文献情報など補足情報の問題

not so good: amount and variation of data, data distribution to various public DB,
insufﬁcient quality of metadata, difﬁculty with linking data to publication

データ量は延々増え続けている

2PB >

http://www.ncbi.nlm.nih.gov/Traces/sra/

データ量は延々増え続けている

http://trace.ddbj.nig.ac.jp/DRASearch/

データのバリエーションも増えている

[*-Seq].size > 80

http://liorpachter.wordpress.com/seq/

データのバリエーションも増えている

DB側はざっくりしたStudy Type

by study (http://sra.dbcls.jp/trends.html)

データが分散する

by study (http://sra.dbcls.jp/trends.html)

TCGA data moved to CGHub

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=history

メタ情報の問題

Sanger Center
(template?)

Volumes of free word ﬁeld “design description”

Total = 338,765!
(words.size == 0).size = 92,089!
(words.size > 200).size = 2,184

大切なことは全てPubMedが教えてくれた

http://sra.dbcls.jp/cgi-bin/publication.cgi

「論文が出たからデータを公開する」はむしろ少数派？ (もしくは出ても報告しない)

150000

200000

194338

400000

376904

115440

112500

150000

300000

75000

100000

200000

37500

50000
3059

0

total

publication

#submission

100000

31787

51202

16.4%

26.5%
0

0
total

publication

#sample

total

publication

#run

not all the published data has paper publication (or never update after the ﬁrst data submission)

13.6%

どげんかせな
•

データの量やバリエーションに依存する問題!
•
•

•

単純に計算量が増える
情報の粒度はどこまで対応するべきか

データが分散する問題!
•

•

メタ情報の問題!
•

•

管理上のコストと利用上のコストの兼ね合い

登録者によって記述量に差がある

文献情報など補足情報の問題!
•

そもそも文献がない

•

Materials&Methods にどこまで詳しく書かれているか

“summary of those problems”

どうにかなるのか

Is there any hope?

どうにかなってくれ

•

未来予測
•

Compression strategy の問題!

•

Sequencing technology の進化は予測が難しい

The other problems; problems of data compression strategy, estimation of sequencing technology advance

Compression Strategy の問題

Cochrane, Guy, Charles E. Cook, and Ewan Birney. "The future
of DNA sequence archiving." GigaScience 1.1 (2012): 2.

Sequencing Technology の進化は予測が云々 (1)

https://www.nanoporetech.com


http://gnubio.com


http://www.picoseq.com/

データを奉納する人々にご利益を

“giving rewards to open-data scientists”

http://www.ﬂickr.com/photos/ogachin/5420953786/

データベース神社システムの実現に向けて

•

「質の高いメタ情報と共にデータを登録してもらう」ことが必須!
•
•

変化するデータの性質にフレキシブルに対応する

•
•

データ登録時の負担を減らすことが大事

データを登録する研究者の協力も欠かせない

質の高いデータ登録をしてくれる研究者に「ご利益」を!
•

今はメタ情報の質も「善意ベース」

•

論文がciteされる，グラントが取れるなどの評価に繋げる必要がある
Improving the DB ecosystem to make submission with high-quality metadata easy,
giving rewards to researchers who made highly cited submission, etc.

まとめ

•

データ解析が大変な時代はもう終わった!
•

これからは「質の高いシーケンスをするのが大変」な時代
•

•

•

解析できる人が実験デザインの段階から関わる必要がある

公開データは「質の高いメタ情報を書いてもらう」ためにDBの改善が必須

データを奉納する人々にご利益を!
•

善意ベースでは限界があるので質の高いデータを公開するインセンティブが必要
Summary: well-designed sequencing project for highly reusable data,
make an incentive to submit high-quality metadata

Acknowledgement

•

いつも綺麗なデータを公開してくれるみなさま

•

データベースプロジェクトで日々暗躍するDBCLS, DDBJ, NBDCの同志のみなさま

•

有り難いアドバイスやご意見をくださるNGS現場の会のみなさま

•

ちょっと協力してみようかな？と思ってくださった会場のみなさま

•

オーガナイザのこだまさん、なかざとさん

Thank you!

Now and then: next-generation sequencing database to encourage the big data science

Recommended

Recommended

More Related Content

What's hot

What's hot (8)

Viewers also liked

Viewers also liked (9)

Similar to Now and then: next-generation sequencing database to encourage the big data science

Similar to Now and then: next-generation sequencing database to encourage the big data science (20)

Recently uploaded

Recently uploaded (14)

Now and then: next-generation sequencing database to encourage the big data science