Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介

68 views

Published on

第34回 DDBJing 講習会 in 三島
講師:福田 亜沙美(DDBJ アノテータ)
日時:2016年12月15-16日
場所:国立遺伝学研究所 (静岡県三島市)

Published in: Science
  • Be the first to comment

  • Be the first to like this

[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介

  1. 1. DRA (DDBJ Sequence Read Archive) の紹介 福田 亜沙美 Fukuda Asami DDBJ センター、アノテータ DDBJ center, annotator
  2. 2. 2016年12月15日 DDBJ センターが運営するデータベース INSDC: オープンアクセスデータベース 個人レベルの遺伝型と表現型 JGA アクセス制限データベース ヒトデータ審査委員会 DDBJ アセンブリ アノテーション リード Quality value アライメント (bam) DRA BioProject BioSample 第34回 DDBJing 講習会 (三島) DRA:次世代シーケンサー からの出力データのための データベース
  3. 3. 2016年12月15日 SRA データモデル 第34回 DDBJing 講習会 (三島) 1. 「なぜ」そのサンプルを シークエンスしたのか 2. 「なに」をシークエンスしたのか 3. 「どのように」シークエンスしたのか 4. シークエンスの結果  SRA データは3つのデータベースにまたがる
  4. 4. 登録を始める前に
  5. 5. 2016年12月15日 データファイルを準備する 第34回 DDBJing 講習会 (三島) HDF5 (PacBio RS, RSII) RS II から出力されるデータ: *.bas.h5 1ファイルと *.bax.h5 3ファイル, 計4ファイルを1つの Run に含める BAM アライメントされなかったリードを含めることを推奨 Fastq ペアリードはペアごとに分かれているファイルの登録を推奨 Technical read (アダプター,リンカー,バーコード配列) を除去することを推奨 http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイル ※ fasta は受け付けていません!
  6. 6. 2016年12月15日 データファイルを準備する(BAM file) 第34回 DDBJing 講習会 (三島) http://trace.ddbj.nig.ac.jp/dra/submission.html#BAM_ファイル BAM file File type=bam SN-reference 対応表 File type=tab multi-fasta file File type=reference_fasta リファレンス配列がないBAM 例)PacBio や IonTorrent などの 出力データ ✓ - - リファレンス配列があるBAM リファレンスがリストにある ✓ ✓ - リファレンス配列があるBAM リファレンスがリストにない ✓ ✓ ✓ リスト: http://trace.ddbj.nig.ac.jp/files/ref/ref-file.txt SN-reference 対応表 「BAM ファイルヘッダーの SQ 行中の SN」と 「リファレンス配列のアクセッション番号 (バー ジョン番号を含む)」との対応関係をタブ区切りで 記載 ※リファレンス配列があるBAM = ヘッダーに”SQ 行”がある リファレンス配列の有無やリファレンスの INSDC/RefSeq アクセッション番号が リストにあるか否かで必要なファイルが異なる
  7. 7. 2016年12月15日 予めメタデータの構成を決めておく  登録する前に必要な BioProject・BioSample・Experiment・Run の数を決めておく  サンプル数 (≦ Experiment/Run 数) から考えると分かりやすい  DRA submission では全てのオブジェクトが同時に公開される点に気を付ける 1. 最もシンプルな登録 2. 三つの菌株の比較ゲノム解析 http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例 第34回 DDBJing 講習会 (三島) ※メタデータ: シークエンスデータがどのようにして得られたのかを説明するデータ
  8. 8. 2016年12月15日 D-way アカウントを取得する  D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得  公開鍵と center name をアカウントに登録し、DRA 登録権限を取得 DRA BioProject BioSample 公開鍵 と center name を D-way アカウントに登録 http://trace.ddbj.nig.ac.jp/book/account.html登録アカウント Handbook: center name : SRA が組織に運用上割り振っている略号 公開鍵 : 秘密鍵とペアでユーザの認証に使用される 第34回 DDBJing 講習会 (三島)
  9. 9. 登録手順
  10. 10. 2016年12月15日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの検証処理 アクセッション番号発行 データファイルの転送 第34回 DDBJing 講習会 (三島) メタデータ作成 • Submission • BioProject • BioSample • Experiment • Run
  11. 11. 2016年12月15日 DRA 新規登録の作成  登録アカウントにログインし、新規 DRA 登録を作成 DRA submission ID (例: test08-0001) が追加され、 DRA ファイル受付サーバに Submission ID と同名のディレクトリが作成される 第34回 DDBJing 講習会 (三島)
  12. 12. 2016年12月15日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの検証処理 アクセッション番号発行 データファイルの転送 第34回 DDBJing 講習会 (三島) メタデータ作成 • Submission • BioProject • BioSample • Experiment • Run 
  13. 13. 2016年12月15日 データファイルの転送  鍵認証で DRA ファイル受付サーバにアクセスし、データファイルを submission ID に対応するディレクトリ(例: test07-0001) にアップロード DRA ファイル受付サーバ 秘密鍵 公開鍵 DRA 新規登録 シークエンスデータファイル (fastq, bam etc) http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード ファイル名に空白を含めない サブディレクトリをつくらない ディスク郵送には対応していますが、登録処理に時間がかかります 第34回 DDBJing 講習会 (三島)
  14. 14. 2016年12月15日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの検証処理 アクセッション番号発行 データファイルの転送 第34回 DDBJing 講習会 (三島) メタデータ作成 • Submission • BioProject • BioSample • Experiment • Run  
  15. 15. 2016年12月15日 メタデータ作成ツールを起動  DRA 登録リストから登録ページへ移動し、メタデータ作成ツールを起動 第34回 DDBJing 講習会 (三島) ファイルがアップロードされていないとエラーになります
  16. 16. 2016年12月15日 DRA 登録管理情報 (Submission) の記入 第34回 DDBJing 講習会 (三島) アカウントの所有者情報がコピーされます  登録者情報(名前、メールアドレス、所属組織)  即日公開 or 非公開を選択 (公開予定日を2年以内で指定)
  17. 17. 2016年12月15日 BioProject の選択 or 新規作成  作成済みのプロジェクトを選択 or 新規作成  選択できる BioProject は1つのみ 第34回 DDBJing 講習会 (三島)
  18. 18. 2016年12月15日 BioProject 新規作成の場合  プロジェクト (概要・研究費・ プロジェクトのタイプなど) を入力  内容を入力して投稿 第34回 DDBJing 講習会 (三島)  新規作成したプロジェクトが選択された状態になります
  19. 19. 2016年12月15日 BioSample の選択 or 新規作成 第34回 DDBJing 講習会 (三島)  作成済みのサンプルを選択 or 新規作成  複数サンプルを指定可能
  20. 20. 2016年12月15日 BioSample 新規作成の場合  属性ファイルの内容を確認し投稿 第34回 DDBJing 講習会 (三島)  新規作成したサンプルが選択された状態になります
  21. 21. 2016年12月15日 DRA Experiment の作成  サンプルから構築したライブラリー、シークエンサーやリード長について記入  デフォルトで選択した BioSample を参照している Experiment が作成される ※ こまめに Save することをお勧めします! 第34回 DDBJing 講習会 (三島) タブ区切りテキストファイルで まとめて内容を作成することができます ※ Download 前に Save をクリック! ペアードの場合の Spot length, Nominal length 上図の例(ペアードライブラリ)の場合 リード長 (Spot Length): 200 合計長を記入 (Forward 100 + Reverse 100 = 200) Nominal Length (insert size): 500
  22. 22. 2016年12月15日 DRA Run の作成 第34回 DDBJing 講習会 (三島)  デフォルトで作成した Experiment と同数の Run が作成される  Run に含まれるデータファイルを記述 ※ペアのファイルは 1 つの Run オブジェクトに含めます タブ区切りテキストファイルで まとめて内容を作成することができます
  23. 23. 2016年12月15日 DRA メタデータの投稿  メタデータ作成後 [Submit/Update DRA metadata] をクリックして投稿 オブジェクト相互が過不足なく参照されているかどうかチェックされます 第34回 DDBJing 講習会 (三島)
  24. 24. 2016年12月15日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの検証処理 アクセッション番号発行 データファイルの転送 第34回 DDBJing 講習会 (三島) メタデータ作成 • Submission • BioProject • BioSample • Experiment • Run   
  25. 25. 2016年12月15日 データファイルの検証処理  データファイルの形式とメタデータとの整合性が検証され、 アーカイブ用の SRA ファイルが作成されます 第34回 DDBJing 講習会 (三島) 検証処理を開始
  26. 26. 2016年12月15日 よくある検証処理エラー  合計長を記入 (例 Forward 100 + Reverse 100 = 200)  ファイルが破損している場合は再度ファイルをアップロード  空白を除去  サブディレクトリを含めず、ファイルそのものをアップロード  配列長が一定のペアリードで Experiment.Spot Length にペアの合計 配列長が記入されていない  メタデータ中の md5 値と転送されたファイルの md5 値が異なる  アップロードされたデータファイル名に空白が含まれている  サブディレクトリを含んでいる 第34回 DDBJing 講習会 (三島)
  27. 27. 2016年12月15日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの検証処理 アクセッション番号発行 データファイルの転送 第34回 DDBJing 講習会 (三島) メタデータ作成 • Submission • BioProject • BioSample • Experiment • Run    
  28. 28. 2016年12月15日 アクセッション番号の発行  BioProject (PRJDB)  BioSample (SAMD)  Submission (DRA), Experiment (DRX), Run (DRR) 第34回 DDBJing 講習会 (三島)
  29. 29. 2016年12月15日 アクセッション番号の引用 論文には「データ登録」に対する DRA アクセッション番号の 引用を推奨します DRA Submission (DRA) or Experiment (DRX) or Run (DRR) > BioSample (SAMD) > BioProject (PRJDB) BioProject アクセッション番号の論文への引用は推奨しません 第34回 DDBJing 講習会 (三島) http://trace.ddbj.nig.ac.jp/bioproject/faq.html#project_accession
  30. 30. データの公開と更新 BioProject・BioSample・DRA
  31. 31. 2016年12月15日 データの公開 第34回 DDBJing 講習会 (三島) 即日公開を指定:登録データのデータベースへの取り込みが完了次第、公開 公開予定日を指定:非公開で保持 DRA BioProject, BioSample A 登録者から公開依頼の連絡を受けた場合 (D-way アカウントにログインし、公開を 指定します) 登録者から公開依頼の連絡を受けた場合 B 当該アクセッション番号の公表を確認した 場合 当該アクセッション番号の公表を確認し た場合 C 公開予定日が到来した場合 BioProject, BioSample アクセッション 番号を引用している DDBJ/EMBL- Bank/GenBank レコード、DRA データ が公開された場合(連動公開) D DRA Run (DRR) アクセッション番号を引 用している DDBJ/EMBL-Bank/GenBank レコードが公開された場合 D の場合,引用されている DRR 番号を含む DRA 登録全体が公開されます。 A 以外の場合は登録者の了解がなくても例外なく公開します。 以下の場合にデータを公開しています
  32. 32. 2016年12月15日 BioProject と BioSample の連動公開 第34回 DDBJing 講習会 (三島) 公開 連動 公開 連動 公開 非公開 公開 DRA データが公開されると 参照している BioProject/BioSample が公開される BioProject/BioSample が公開されても参照 元のDRA データは公開されない 公開 http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開 http://trace.ddbj.nig.ac.jp/faq/bp_bs_seq_release.html ※論文に BioProject アクセッション番号を引用すると、登録者からの指示がない限り 関連した DRA データが公開されません
  33. 33. 2016年12月15日 データの公開  公開されたデータはミラーされ DDBJ/EBI/NCBI で利用できるようになります DDBJ DRASearch NCBI BioProject NCBI BioSample NCBI SRA 第34回 DDBJing 講習会 (三島)
  34. 34. 2016年12月15日 データの更新 登録後に D-way で更新可能な内容  公開予定日  メタデータ (Experiment,Run の 一部を除く)  データファイルの追加(右図) 新規登録を作成し、既存の BioProject, BioSample を参照する 第34回 DDBJing 講習会 (三島) データファイルの差し替え等、 D-way で更新できない内容は ご連絡ください http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加
  35. 35. 2016年12月15日 お問い合わせ先 http://trace.ddbj.nig.ac.jp/contact.html  登録について問い合わせる場合には D-way アカウント名と データの Submission ID をお知らせください 第34回 DDBJing 講習会 (三島)
  36. 36. 補足
  37. 37. 2016年12月15日 Submission の単位と公開 第34回 DDBJing 講習会 (三島) DRA: Submission に 含まれる全てのオブ ジェクトが同時に公開 連動 公開 ※ 公開時期が異なるデータファイルは別の submission で登録する BioSample submission は サンプルごとに公開を指定 できる ※ 複数のサンプルを同時に 登録する場合 submission を分ける必要はありません BioSample SAMD BioSample SAMD BioSample SAMD BioSample submission 6 samples 一部非公開
  38. 38. 2016年12月15日 Submission の数 登録者、公開時期が同一である • BioProject 1 submission に 1 project 論文の単位で作成すると分かりやすい • BioSample 1 submission に 複数サンプル登録可能 Sample type が同一 Submission に含まれるサンプルは同時に公開されない DRA submission と同じにすると分かりやすい • DRA 1 submission に 1 BioProject と複数オブジェクト (BioSample, Experiment, Run) 全てのオブジェクトが同時に公開されるので、公開時期の単位で 作成する 第34回 DDBJing 講習会 (三島)
  39. 39. 2016年12月15日 別々の論文に発表する場合  論文ごとに BioProject を分けると別々にデータを公開することができる 第34回 DDBJing 講習会 (三島)
  40. 40. 2016年12月15日 アカウント外の BioProject/BioSample を参照  アカウントをまたがった参照を希望する場合は DRA チームに連絡  参照元と先、双方の登録者の承認が必要  連動公開に注意 第34回 DDBJing 講習会 (三島)
  41. 41. 2016年12月15日 ファイルの破損を md5 値でチェック  md5 値が一致 : ファイルの破損なし md5 値が不一致 : ファイルの破損あり DRA ファイル受付サーバ md5 値 md5 値 md5 値 md5 値= ≠ md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値 http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値 第34回 DDBJing 講習会 (三島)

×