Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DDBJing33] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

618 views

Published on

BioProject, BioSample, DDBJ Sequence Read Archive の紹介
講師:福田 亜沙美(DDBJ アノテータ)
2015年11月11日「第33回 DDBJing 講習会 in 東京」
@国立研究開発法人 科学技術振興機構 東京本部別館
YouTube:https://youtu.be/24IsQNm-9_M
DDBJing 講習会:http://www.ddbj.nig.ac.jp/ddbjing/ddbjing.html

Published in: Education
  • Be the first to comment

  • Be the first to like this

[DDBJing33] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

  1. 1. BioProject, BioSample, DDBJ Sequence Read Archive の紹介 福田 亜沙美 Fukuda Asami DDBJ センター、アノテータ DDBJ center, annotator
  2. 2. 2015年11月11日 DDBJ センターが運営するデータベース INSDC: オープンアクセスデータベース 個人レベルの遺伝型と表現型 JGA アクセス制限データベース ヒトデータ審査委員会 DDBJ アセンブリ アノテーション リード Quality value アライメント (bam) DRA BioProject BioSample 第33回 DDBJing 講習会 (JST東京)
  3. 3. 2015年11月11日 SRA データモデル  SRA データは3つのデータベースにまたがる 第33回 DDBJing 講習会 (JST東京)
  4. 4. BioProject
  5. 5. 2015年11月11日 http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027 ゲノム配列 SRA データ Pubmed 論文情報 プロジェクト概要 プロジェクト単位でデータをまとめる NCBI BioProject: 第33回 DDBJing 講習会 (JST東京)
  6. 6. 2015年11月11日 プロジェクトの定義は柔軟 第33回 DDBJing 講習会 (JST東京)  植物サンプルのゲノム配列と遺伝子発現を解析  三つの微生物株のゲノム配列を解析
  7. 7. BioSample
  8. 8. 2015年11月11日 BioSample でサンプル情報を集中管理  データベースに散在していたサンプル情報を集中管理  サンプル記述を標準化 http://trace.ddbj.nig.ac.jp/biosample/index.html 第33回 DDBJing 講習会 (JST東京)
  9. 9. 2015年11月11日 属性 (attributes) でサンプルを記述  「属性名:値」のペアでサンプルを記述 (例: tissue:liver) http://www.ncbi.nlm.nih.gov/biosample/1990977 パッケージ サンプル属性 関連データ タイトル NCBI BioSample: 第33回 DDBJing 講習会 (JST東京)
  10. 10. 2015年11月11日 BioProject/BioSample でデータをまとめる BioSample 1 BioSample 2 data Umbrella BioProject Genome BioProject Transcriptome BioProject Epigenome BioProject data data data data data  データベースを横断してデータをまとめる 第33回 DDBJing 講習会 (JST東京)
  11. 11. データ登録の流れ
  12. 12. 2015年11月11日 DRA 登録の流れ 第33回 DDBJing 講習会 (JST東京) 1. 「なぜ」そのサンプルを シークエンスしたのか 2. 「なに」をシークエンスしたのか 3. 「どのように」シークエンスしたのか 4. シークエンスの結果
  13. 13. 登録を始める前に
  14. 14. 2015年11月11日 D-way アカウントを取得しておく  D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得  公開鍵と center name をアカウントに登録し、DRA 登録権限を取得 DRA BioProject BioSample 公開鍵 と center name を D-way アカウントに登録 http://trace.ddbj.nig.ac.jp/book/account.html登録アカウント Handbook: center name : SRA が組織に運用上割り振っている略号 公開鍵 : 秘密鍵とペアでユーザの認証に使用される 第33回 DDBJing 講習会 (JST東京)
  15. 15. 2015年11月11日 予めメタデータの構成を決めておく  登録する前に必要な BioProject・BioSample・Experiment・Run の数を決めておく  サンプル数 (≦ Experiment/Run 数) から考えると分かりやすい 1. 最もシンプルな登録 2. 三つの菌株の比較ゲノム解析 http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例 メタデータ: シークエンスデータがどのようにして得られたのかを説明するデータ 第33回 DDBJing 講習会 (JST東京)
  16. 16. 2015年11月11日 今回の登録例 枯草菌3株のゲノム配列をペアードエンドでシークエンスしたデータ 第33回 DDBJing 講習会 (JST東京)
  17. 17. 登録手順
  18. 18. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成
  19. 19. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成
  20. 20. 2015年11月11日 DRA 新規登録の作成  登録アカウントにログインし、新規 DRA 登録を作成 DRA ファイル受付サーバに対応するディレクトリが作成される 第33回 DDBJing 講習会 (JST東京)
  21. 21. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成 
  22. 22. 2015年11月11日 データファイルの転送  鍵認証で DRA ファイル受付サーバにアクセスし、 データファイルを新規登録に対応するディレクトリにアップロード DRA ファイル受付サーバ 秘密鍵 公開鍵 DRA 新規登録 シークエンスデータファイル (fastq, bam etc) http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード ファイル名に空白を含めない サブディレクトリをつくらない ディスク郵送には対応していますが、登録処理に時間がかかります 第33回 DDBJing 講習会 (JST東京)
  23. 23. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成  
  24. 24. 2015年11月11日 メタデータ作成ツールを起動  DRA 登録リストから登録ページへ移動し、メタデータ作成ツールを起動 第33回 DDBJing 講習会 (JST東京) ファイルがアップロードされていないとエラーになります
  25. 25. 2015年11月11日 BioProject の作成  作成済みのプロジェクトを選択 or 新規作成 第33回 DDBJing 講習会 (JST東京)
  26. 26. 2015年11月11日 BioProject 登録管理情報の入力  登録者情報(名前、メールアドレス、所属組織)  即日公開 or 非公開を選択 (公開予定日は指定できない) 第33回 DDBJing 講習会 (JST東京) アカウントの所有者情報がコピーされます
  27. 27. 2015年11月11日 BioProject の投稿  プロジェクト (概要・研究費・プロジェクトのタイプなど) を入力  内容を入力して投稿 第33回 DDBJing 講習会 (JST東京) アノテーション付きゲノム配列を登録する場合、Locus tag prefix を取得します
  28. 28. 2015年11月11日 プロジェクトの選択  新規作成したプロジェクトが選択された状態になります 第33回 DDBJing 講習会 (JST東京)
  29. 29. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成   
  30. 30. 2015年11月11日 BioSample の作成 第33回 DDBJing 講習会 (JST東京)  作成済みのサンプルを選択 or 新規作成
  31. 31. 2015年11月11日 BioSample 登録管理情報の入力 第33回 DDBJing 講習会 (JST東京)  登録者情報(名前、メールアドレス、所属組織)  即日公開 or 非公開を選択 (公開予定日は指定できない) BioProject の登録管理情報がコピーされます
  32. 32. 2015年11月11日 サンプルの種類を選択  サンプルの種類 (Sample type) に応じた属性セット http://trace.ddbj.nig.ac.jp/biosample/attribute.htmlサンプル属性一覧: 第33回 DDBJing 講習会 (JST東京) 例: ゲノムの場合 num_replicons が必須
  33. 33. 2015年11月11日 サンプル属性を記載  Sample type に対応したタブ区切りのテキストファイルをダウンロード  エクセルなどで1行に1サンプルの情報を入力し、テキストファイルをアップロード 必須属性に対する値がない場合は “missing” などを記入 第33回 DDBJing 講習会 (JST東京)
  34. 34. 2015年11月11日 サンプルを投稿  属性ファイルの内容を確認し投稿 第33回 DDBJing 講習会 (JST東京)
  35. 35. 2015年11月11日 サンプルの選択 第33回 DDBJing 講習会 (JST東京)  新規作成したサンプルが選択された状態になります
  36. 36. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成    
  37. 37. 2015年11月11日 DRA 登録管理情報の作成  登録者情報と公開予定日 (2年後まで指定可能) を記入 第33回 DDBJing 講習会 (JST東京) BioProject の登録管理情報がコピーされます
  38. 38. 2015年11月11日 DRA Experiment の作成  デフォルトで選択した BioSample を参照している Experiment が作成される  サンプルから構築したライブラリー、シークエンサーやリード長について記入 第33回 DDBJing 講習会 (JST東京) タブ区切りテキストファイルで まとめて内容を作成することができます
  39. 39. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成     
  40. 40. 2015年11月11日 DRA Run の作成 第33回 DDBJing 講習会 (JST東京) タブ区切りテキストファイルで まとめて内容を作成することができます  デフォルトで作成した Experiment と同数の Run が作成される  Run に含まれるデータファイルを記述
  41. 41. 2015年11月11日 DRA メタデータの投稿  メタデータ作成後 [Submit/Update DRA metadata] をクリックして投稿 オブジェクト相互が過不足なく参照されているかどうかチェックされます 第33回 DDBJing 講習会 (JST東京)
  42. 42. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成      
  43. 43. 2015年11月11日 データファイルの検証処理  データファイルの形式とメタデータとの整合性が検証され、 アーカイブ用の SRA ファイルが作成されます 第33回 DDBJing 講習会 (JST東京) 検証処理を開始
  44. 44. 2015年11月11日 よくある検証処理エラー  合計長を記入 (例 Forward 100 + Reverse 100 = 200)  ファイルが破損している場合は再度ファイルをアップロード  空白を除去  サブディレクトリを含めず、ファイルそのものをアップロード  配列長が一定のペアリードで Experiment.Spot Length にペアの合計 配列長が記入されていない  メタデータ中の md5 値と転送されたファイルの md5 値が異なる  アップロードされたデータファイル名に空白が含まれている  サブディレクトリを含んでいる 第33回 DDBJing 講習会 (JST東京)
  45. 45. 2015年11月11日 次世代シークエンスデータの登録フロー DRA 新規登録の作成 データファイルの転送 DRA Experiment の作成 データファイルの検証処理 アクセッション番号発行 BioProject の作成 BioSample の作成 第33回 DDBJing 講習会 (JST東京) DRA Run の作成       
  46. 46. 2015年11月11日 アクセッション番号の発行  BioProject (PRJDB)  BioSample (SAMD)  Submission (DRA), Experiment (DRX), Run (DRR) 第33回 DDBJing 講習会 (JST東京)
  47. 47. データの公開と更新 BioProject・BioSample・DRA
  48. 48. 2015年11月11日 BioProject と BioSample の連動公開  塩基配列データの公開は参照している BioProject/BioSample の公開を引き起こす  BioProject/BioSample の公開は参照元の塩基配列データの公開を引き起こさない BioProject/BioSample 公開 DRA/DDBJ 塩基配列データ 公開 BioProject/BioSample 公開 DRA/DDBJ 塩基配列データ 非公開 http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開 第33回 DDBJing 講習会 (JST東京)
  49. 49. 2015年11月11日 データの公開  公開されたデータはミラーされ DDBJ/EBI/NCBI で利用できるようになります DDBJ DRASearch NCBI BioProject NCBI BioSample NCBI SRA 第33回 DDBJing 講習会 (JST東京)
  50. 50. 2015年11月11日 データの更新  更新内容を BioProject チームに連絡  関連する論文が公開されたら pubmed ID などの文献情報を連絡 BioProject BioSample DRA  更新内容を BioSample チームに連絡  Sample name は ID として使用しているため変更不可  メタデータの内容と公開予定日はアカウントにログインし、自身で変更  データファイルの追加: 新規登録を作成し、既存のオブジェクトを参照する Do it yourself Request by e-mail 第33回 DDBJing 講習会 (JST東京)
  51. 51. 2015年11月11日 お問い合わせ先 http://trace.ddbj.nig.ac.jp/contact.html  登録について問い合わせる場合には D-way アカウント名と データの ID をお知らせください 第33回 DDBJing 講習会 (JST東京)
  52. 52. 2015年11月11日 アノテータ募集中 第33回 DDBJing 講習会 (JST東京) http://www.ddbj.nig.ac.jp/whatsnew/wn151014-j.html
  53. 53. 補足
  54. 54. 2015年11月11日 プロジェクト番号でデータが関連付けられる  同じプロジェクト番号を参照しているデータが関連付けられる DDBJ DRA リード Quality value アノテーション BioProject 第33回 DDBJing 講習会 (JST東京)
  55. 55. 2015年11月11日 アンブレラプロジェクトの活用  アンブレラプロジェクト (非公開にできない) でプロジェクトをまとめる  大規模プロジェクトからの成果を整理して提示することができる  初期段階でアンブレラを取得し、関係者に周知することを推奨 DDBJ 側では申告されないとアンブレラとの関係が分からない http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活用 アンブレラ プライマリー 第33回 DDBJing 講習会 (JST東京)
  56. 56. 2015年11月11日 微生物ゲノム配列の登録  Strain-level taxonomy ID にかわり BioSample 微生物ゲノムを識別 BioProject BioSample Strain: 1 Locus tag prefix: AAAA1 BioSample Strain: 2 Locus tag prefix: AAAA2 BioSample Strain: 3 Locus tag prefix: AAAA3 BioProject Strain: 1 Locus tag prefix: AAAA1 Strain-level taxonomy ID: 10 BioProject Strain: 2 Locus tag prefix: AAAA2 Strain-level taxonomy ID: 11 BioProject Strain: 3 Locus tag prefix: AAAA3 Strain-level taxonomy ID: 12 Species-level taxonomy ID: 100 Federhen S et al. Stand Genomic Sci (2014) doi: 10.4056/sigs.4851102 2014年2月以前 2014年2月以降 Genome Genome Genome Bacteria: A Strain: 1 Bacteria: A Strain: 2 Bacteria: A Strain: 3 Genome Genome Genome Bacteria: A Strain: 1 Bacteria: A Strain: 2 Bacteria: A Strain: 3 第33回 DDBJing 講習会 (JST東京)
  57. 57. 2015年11月11日 Biological/technical replicates  BioSample ではなく SRA Experiment で表現することを推奨 http://trace.ddbj.nig.ac.jp/dra/faq.html#samples-for-sra 第33回 DDBJing 講習会 (JST東京)
  58. 58. 2015年11月11日 別々の論文に発表する場合  論文ごとに BioProject を分けると別々にデータを公開することができる 第33回 DDBJing 講習会 (JST東京)
  59. 59. 2015年11月11日 アカウント外の BioProject/BioSample を参照  アカウントをまたがった参照を希望する場合は DRA チームに連絡  参照元と先、双方の登録者の承認が必要  連動公開に注意 第33回 DDBJing 講習会 (JST東京)
  60. 60. 2015年11月11日 データファイルの追加  新しい DRA 登録から既存の BioProject を参照することでデータを追加 http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加 第33回 DDBJing 講習会 (JST東京)
  61. 61. 2015年11月11日 ファイルの破損を md5 値でチェック  md5 値が一致 : ファイルの破損なし md5 値が不一致 : ファイルの破損あり DRA ファイル受付サーバ md5 値 md5 値 md5 値 md5 値= ≠ md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値 http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値 第33回 DDBJing 講習会 (JST東京)

×