Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DDBJ センターにおける一次データベースの展開

第39回日本分子生物学会年会 (2016)
2F3 いかにして使えるデータベースを維持し続けるか?
いかにして使えるデータベースを維持し続けるか?

  • Be the first to comment

DDBJ センターにおける一次データベースの展開

  1. 1. DDBJ センターにおける 一次データベースの展開 児玉 悠一 Kodama Yuichi, Ph.D DDBJ センター、アノテータ DDBJ center, annotator
  2. 2. 現状 ↓ 課題 ↓ 対応
  3. 3. 現状
  4. 4. 2016年12月1日 DDBJ センターが運営するデータベース INSDC: 非アクセス制限データベース 個人レベルの遺伝型と表現型 JGA アクセス制限データベース ヒトデータ審査委員会 アセンブリ アノテーション リード Quality value アライメント (bam) DRA BioProject BioSample 第39回日本分子生物学会年会 2F3 フォーラム 3 DDBJ (Traditional)
  5. 5. 2016年12月1日 アノテーション付き塩基配列: Traditional 第39回日本分子生物学会年会 2F3 フォーラム  2,200億塩基 + WGS: 1.7兆塩基, 37.5万生物種 http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html 4
  6. 6. 2016年12月1日 次世代シークエンスデータ: DRA 第39回日本分子生物学会年会 2F3 フォーラム 5
  7. 7. 2016年12月1日 データ量の増大: DRA  3.5 ペタバイト (4,000兆塩基)  年率1.3倍 (ストレージ技術革新1.4倍) 第39回日本分子生物学会年会 2F3 フォーラム http://trace.ddbj.nig.ac.jp/stat_e.html 6
  8. 8. 2016年12月1日 アクセス制限ヒトデータ: JGA 第39回日本分子生物学会年会 2F3 フォーラム 7  アクセス制限が必要なヒトデータのためのデータベースシステムの運用  NBDC ヒトデータ共有ガイドラインに従い、データの登録と利用を委員会で審査
  9. 9. 2016年12月1日 JGA データモデル  EBI EGA と同様の SRA をベースにしたデータモデル 第39回日本分子生物学会年会 2F3 フォーラム Data set JGAD Policy JGAP Data set 1 Policy 1 Study Data 1 Analysis 1 Experiment 1 Sample 1 Submission JGA Study JGAS Experiment JGAX Sample JGAN Data JGAR Analysis JGAZ Data 2 Experiment 2 Sample 2 Analysis 2 アクセッション番号プレフィックス 8
  10. 10. 2016年12月1日 JGA サンプル数とデータ量  8,139 Samples, 37 テラバイト (非公開含む) 第39回日本分子生物学会年会 2F3 フォーラム 9
  11. 11. 課題
  12. 12. 運用上の課題
  13. 13. 2016年12月1日 DDBJ センター陣容 第39回日本分子生物学会年会 2F3 フォーラム アノテータ 開発チーム エンジニア 教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1) アノテータ: 14 (Ph.D 8) 広報: 3 運用チーム: 9 スパコンチーム: 6 秘書: 2 計: 40 センター長 データベース部門 構築チーム 情報チーム システム管理部門 運用チーム スパコンチーム 12 14 3 9 6
  14. 14. 2016年12月1日 課題1: 人手不足 第39回日本分子生物学会年会 2F3 フォーラム 教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1) アノテータ: 14 (Ph.D 8) 広報: 3 運用チーム: 9 スパコンチーム: 6 秘書: 2 計: 40 ウェブ登録: 5 Mass Submission System: 2 更新: 3 特許: 1 BioProject/BioSample/DRA/JGA: 3 Traditional GenBank: 16 dbGaP: 8 13
  15. 15. 2016年12月1日 課題2:予算不足 第39回日本分子生物学会年会 2F3 フォーラム SRAファイルサイズ(TB) 運用データベース数 予算 Trace Archive SRA BioProject JGA BioSample 14
  16. 16. 2016年12月1日 課題3:ラインナップ不足 第39回日本分子生物学会年会 2F3 フォーラム Annotated sequences Capillary reads NGS reads Study Sample Assembly Functional genomics Variation Genotype and phenotype NCBI GenBank Trace Archive Sequence Read Archive BioProject BioSample Assembly GEO dbSNP/dbVar dbGaP EBI European Nucleotide Archive (ENA) ArrayExpress EVA/DGVa EGA DDBJ DDBJ Trace Archive Sequence Read Archive BioProject BioSample Assembly 準備中 DOR JGA INSDC データ交換 データ交換計画中  NGS 生データと定量データが有機的に連携しない (SRA ⇔ GEO)  個人ゲノムデータと多型データが連携しない (dbGaP ⇔ dbSNP) 15
  17. 17. 政策的な課題
  18. 18. 2016年12月1日 ヒトデータ共有: 圧倒的な物量差 第39回日本分子生物学会年会 2F3 フォーラム dbGaP JGA EGA • Subjects: 1,099,979 • 5,000兆塩基 • Data access requests: 24,718 • 3.4 PB 制限公開 • 8,000 download accounts • 年間 3.2 PB のダウンロード • 37 TB をアーカイブ• ExAC • gnomAD 17
  19. 19. 2016年12月1日 ヒトデータ共有: 政策が大事 第39回日本分子生物学会年会 2F3 フォーラム dbGaP JGA EGA NIH GDS Policy (2015) • Human Data の非公開期間は半年まで • Trusted Partner 認定したクラウド での dbGaP データ利用を解禁 • EGA インフラのローカル構築 をサポート • 統合認証基盤 NBDC ヒトデータ共有ガイドライン • 改正個人情報保護法 (2017.4) • 第五期科学技術基本計画 (2016.4-) オープンサイエンスの推進 18
  20. 20. 対応 どうする?
  21. 21. 2016年12月1日 自動化1: Validator 開発中 第39回日本分子生物学会年会 2F3 フォーラム  BioProject/BioSample/DRA validator のチェック結果を登録者に提示 20
  22. 22. 2016年12月1日 自動化2: GenBank PGAP 第39回日本分子生物学会年会 2F3 フォーラム  GenBank 原核生物ゲノム登録者の多くが PGAP による自動アノテーションを選択  DDBJ Traditional DB, まずは登録者とのやり取りをメールからアカウント経由に 切り替えることから http://nar.oxfordjournals.org/content/early/2016/06/24/nar.gkw569/F3.expansion.html 21
  23. 23. 2016年12月1日 登録窓口の集約:先進ゲノム (旧 ゲノム支援) 第39回日本分子生物学会年会 2F3 フォーラム 22 https://www.genome-sci.jp/old2010-2015/about/about_index.html シークエンス拠点に登録窓口を集約  大型プロジェクトは計画作成時にデータ登録の組み込みを!
  24. 24. 2016年12月1日 データの圧縮: SRA 第39回日本分子生物学会年会 2F3 フォーラム  Quality value はファイルの7割程度を占めているが, 余り使われていない → INSDC は研究者コミュニティとの議論を開始  塩基配列はリファレンスとの差分のみを保存 (CRAM, cSRA) 23 http://www.uppmax.uu.se/support/user-guides/using-cram-to-compress-bam-files
  25. 25. 2016年12月1日 Annotated sequences Capillary reads NGS reads Study Sample Assembly Functional genomics Variation Genotype and phenotype NCBI GenBank Trace Archive Sequence Read Archive BioProject BioSample Assembly GEO dbSNP/dbVar dbGaP EBI European Nucleotide Archive (ENA) ArrayExpress EVA/DGVa EGA DDBJ DDBJ Trace Archive Sequence Read Archive BioProject BioSample Assembly 準備中 DOR JGA INSDC データ交換 データ交換計画中 サービスの拡充: DDBJ Omics Archive 第39回日本分子生物学会年会 2F3 フォーラム 24 https://twitter.com/ArrayExpressEBI/status/733302530080440320  DBCLS 坊農さんの協力により ArrayExpress データ (> 50 TB) のミラー ftp サイト提供開始! https://twitter.com/ArrayExpressEBI/status/803205740529909760
  26. 26. 2016年12月1日 We need more collaboration! 第39回日本分子生物学会年会 2F3 フォーラム 25 大量遺伝情報研究室 ゲノム進化研究室
  27. 27. 2016年12月1日 教員: 6 (センター長 1, 教授 3, 准教授・システム管理部門長 1, 助教 1) アノテータ: 14 (Ph.D 8) 広報: 3 運用チーム: 9 スパコンチーム: 6 秘書: 2 計: 40 自前開発を増やす 第39回日本分子生物学会年会 2F3 フォーラム 26 アノテータ 開発チーム エンジニア RDF, Ruby
  28. 28. 謝辞 予算 文部科学省 ゲノム支援 NBDC DDBJ センター スタッフ 高木 利久 有田 正規 中村 保一 大久保 公策 小笠原 理 神沼 英里 奥田 喜弘 秘書 槇 美香 村形 直子 構築チーム 真島 淳 小菅 武英 時松 敏明 筒井 波留 江嶋 真由美 大城戸 利久 李 慶範 坂井 勝呂 杉田 里江 三村 公子 青野 英雄 児玉 悠一 福田 亜沙美 向田 志保 情報チーム 小平 順子 鈴木 紀美子 横山 会美 運用チーム 渡邊 康司 藤本 昌宏 土橋 雪乃 真嶋 久子 松森 藤高 佐藤 誠 椎田 愛美 加藤 健児 深澤 智幸 スパコンチーム 川越 千晴 石川 直史 安田 智彦 芦澤 佑治 平井 朝裕 渡辺 知佳 DBCLS 小原 雄治 坊農 秀雅 仲里 猛留 内藤 雄樹 小野 浩雅 大田 達郎 山本 泰智 片山 俊明 川島 秀一 先進ゲノム 小原 雄治 黒川 顕 NCBI/NLM/NIH EBI/EMBL 過去の在籍者の皆様 登録者・利用者の皆様 大量遺伝情報研究室 中村 保一 神沼 英里 藤澤 貴智 谷澤 靖洋 望月 孝子 データベース運用 開発研究室 菅原 秀明 NBDC 高木 利久 星 潤一 堀尾 徹 松平 洋一 舘澤 博子 河野 信 箕輪 真理 川嶋 実苗 三橋 信孝 宮崎 和典 DDBJ と遺伝研スーパーコンピュータシステムの活動は皆様の謝辞で評価されています。 DDBJ のデータベースや検索・解析ツール, 遺伝研スーパーコンピュータシステムの資源 を利用して得られた成果を発表される際には, 謝辞の記載をお願いいたします。 http://www.ddbj.nig.ac.jp/ddbjingtop-j.html

×