Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DDBJing30] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

829 views

Published on

BioProject, BioSample, DDBJ Sequence Read Archive の紹介
講師:児玉 悠一(DDBJ アノテータ)
2014年12月18日「第30回 DDBJing 講習会 in 東京」
@独立行政法人 科学技術振興機構 東京本部
YouTube:http://youtu.be/ZA1GBjC-gM4
DDBJing 講習会:http://www.ddbj.nig.ac.jp/ddbjing/ddbjing.html

Published in: Education
  • Be the first to comment

  • Be the first to like this

[DDBJing30] BioProject, BioSample, DDBJ Sequence Read Archive の紹介

  1. 1. 2014年年12⽉月18⽇日   次世代シークエンスデータの登録   児⽟玉  悠⼀一   Kodama  Yuichi,  Ph.D   DDBJ  センター、アノテータ   DDBJ  center,  annotator  
  2. 2. 2014年年12⽉月18⽇日   DDBJ  センターが運営するデータベース   第30回  DDBJing  講習会  (JST東京)   INSDC:  オープンアクセスデータベース   個⼈人レベルの遺伝型と表現型   JGA アクセス制限データベース   ヒトデータ審査委員会   DDBJ アセンブリ   アノテーション   リード   Quality  value   アライメント   DRA BioProject   BioSample 1  
  3. 3. 2014年年12⽉月18⽇日   BioProject/BioSample  はデータをまとめる   第30回  DDBJing  講習会  (JST東京)   BioSample  1 BioSample  2 data Umbrella  BioProject Genome   BioProject Transcriptome   BioProject Epigenome   BioProject data data data data data !  プロジェクトとサンプルのためのデータベース   !  データベースを横断してデータをまとめる役割も果たす   2  
  4. 4. 2014年年12⽉月18⽇日   SRA  データモデルの移⾏行行   第30回  DDBJing  講習会  (JST東京)   !  SRA  Study  →  BioProject、SRA  Sample  →  BioSample  へ移⾏行行   !  DDBJ  SRA  (DRA)  は2014年年5⽉月12⽇日に移⾏行行   3  
  5. 5. 2014年年12⽉月18⽇日   次世代シークエンスデータの登録フロー   第30回  DDBJing  講習会  (JST東京)   DRA  Run   DRA  Experiment   ・Run  にリンクされている全ての     ファイルは1つのアーカイブ⽤用  SRA          ファイルに変換され、まとめられる   3.  シークエンス⼿手法を登録   ・サンプルからライブラリーを構築した⽅方法   ・「どのように」シークエンスしたのか   ・複数  Experiment  は1つの  Sample  を     参照できるが、逆はできない  (データファ     イルは1つの  Sample  にリンクされる)   TSV   TSV   BioProject   BioSample   1.  プロジェクトとサンプル       を登録   • 研究概要   • 「なぜ」そのサンプルをシークエンス したのか   • ⽣生物学的・物理理的にユニークなサンプル   • 「何を」シークエンスしたのか   TSV   TSV   エクセルなどで編集できる「タブ区切切りテキストファイル」での登録が可能   2.  データファイルを転送   • シークエンスデータファイルを Experiment  と  Run  を登録する前      にアップロード   0.  登録アカウントを取得   • ウェブサイト  (https://trace.ddbj.nig.ac.jp/D-‐‑‒way)  で  D-‐‑‒way  アカウントを取得   • DRA  へのデータ登録のために、公開鍵と  center  name  をアカウントに登録   http://trace.ddbj.nig.ac.jp/dra/submission.html#DRA_̲登録の流流れ   4  
  6. 6. 2014年年12⽉月18⽇日   DRA  登録は3つのデータベースにまたがる   第30回  DDBJing  講習会  (JST東京)   !  BioProject  »  BioSample    »  DRA  Experiment    »  DRA  Run     !  それぞれのオブジェクトにアクセッション番号が発⾏行行される   例例:  DRX000001  (プレフィックス  “DRX”)   5  
  7. 7. 2014年年12⽉月18⽇日   D-‐‑‒way  アカウントの取得  
  8. 8. 2014年年12⽉月18⽇日   D-‐‑‒way  アカウントの取得   第30回  DDBJing  講習会  (JST東京)   !  D-‐‑‒way  アカウントをウェブサイト  (https://trace.ddbj.nig.ac.jp/D-‐‑‒way/)  で取得   !  公開鍵と  center  name  をアカウントに登録し、DRA  登録を可能にする   DRA   BioProject   BioSample   公開鍵      と  center  name  を   D-‐‑‒way  アカウントに登録   http://trace.ddbj.nig.ac.jp/book/account.html  登録アカウント  Handbook:       center  name  :  SRA  が組織に運⽤用上割り振っている略略号   公開鍵                    :  秘密鍵とペアでユーザの認証に使⽤用される   7  
  9. 9. 2014年年12⽉月18⽇日   登録を始める前に  
  10. 10. 2014年年12⽉月18⽇日   メタデータの構成を決めておく   第30回  DDBJing  講習会  (JST東京)   !  登録する前に必要な  BioProject・BioSample・Experiment・Run         の数を決めておく   !  サンプル数から考えると分かりやすい   1.  最もシンプルな登録   2.  三つの菌株の⽐比較ゲノム解析   http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例例   メタデータ:  シークエンスデータがどのようにして得られたのかを説明するデータ   9  
  11. 11. 2014年年12⽉月18⽇日   BioProject  
  12. 12. 2014年年12⽉月18⽇日   プロジェクト番号でデータが関連付けられる   第30回  DDBJing  講習会  (JST東京)   !  同じプロジェクト番号を参照しているデータが関連付けられる   DDBJ DRA リード   Quality  value   アノテーション   BioProject 11  
  13. 13. 2014年年12⽉月18⽇日   第30回  DDBJing  講習会  (JST東京)   http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027   ゲノム配列列   SRA  データ   Pubmed  論論⽂文情報   プロジェクト概要   プロジェクトに由来するデータを⼀一覧   NCBI  BioProject:   12  
  14. 14. 2014年年12⽉月18⽇日   プロジェクトの範囲   第30回  DDBJing  講習会  (JST東京)   !  2014年年11⽉月12⽇日から  Project  data  type  を複数持つプロジェクトを登録可能に   13  
  15. 15. 2014年年12⽉月18⽇日   アンブレラプロジェクトの活⽤用   第30回  DDBJing  講習会  (JST東京)   !  アンブレラプロジェクト  (⾮非公開にできない)  でプロジェクトをまとめる   !  ⼤大規模プロジェクトからの成果を整理理して提⽰示することができる   !  初期段階でアンブレラを取得し、関係者に周知することを推奨   DDBJ  側では申告されないとアンブレラとの関係が分からない   http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活⽤用   アンブレラ   プライマリー   14  
  16. 16. 2014年年12⽉月18⽇日   プロジェクトの登録   第30回  DDBJing  講習会  (JST東京)   !  プロジェクト  (概要・研究費・プロジェクトのタイプなど)  をアカウントから登録   !  即⽇日公開  or  ⾮非公開を選択  (公開予定⽇日は設定不不可)   !  プレフィックス  “PRJD”  の  BioProject  ID  が発⾏行行される   ポップアップでの説明   15  
  17. 17. 2014年年12⽉月18⽇日   BioSample  
  18. 18. 2014年年12⽉月18⽇日   BioSample  でサンプル情報を集中管理理   第30回  DDBJing  講習会  (JST東京)   !  データベースに散在していたサンプル情報を集中管理理   !  サンプル記述を標準化   !  2014年年2⽉月に  DDBJ  センターは  BioSample  を開始   http://trace.ddbj.nig.ac.jp/biosample/index.html   17  
  19. 19. 2014年年12⽉月18⽇日   属性  (attributes)  でサンプルを記述   第30回  DDBJing  講習会  (JST東京)   !  「属性名:値」のペアでサンプルを記述  (例例:  tissue:liver)   http://www.ncbi.nlm.nih.gov/biosample/1990977   パッケージ   サンプル属性   関連データ   タイトル   NCBI  BioSample:   18  
  20. 20. 2014年年12⽉月18⽇日   サンプルの種類に応じた属性リスト   第30回  DDBJing  講習会  (JST東京)   !  サンプルの種類  (Sample  type)  に応じた必須と任意属性のリスト   http://trace.ddbj.nig.ac.jp/biosample/attribute.html  サンプル属性⼀一覧:   メタゲノム   さらに  Environmental  package  を選択   ゲノム   マーカー遺伝⼦子  (16S  rRNA  など)   その他  (遺伝⼦子発現解析など)   サンプルの種類   サンプル属性リスト   19  
  21. 21. 2014年年12⽉月18⽇日   サンプルの登録   第30回  DDBJing  講習会  (JST東京)   !  Sample  type  に対応したタブ区切切りのテキストファイルにサンプル属性を記⼊入   !  エクセルなどで1⾏行行に1サンプルの情報を⼊入⼒力力し、アップロード   !  即⽇日公開  or  ⾮非公開を選択  (公開予定⽇日は設定不不可)   !  プレフィックス  “SAMD”  の  BioSample  ID  が発⾏行行される   必須属性に対する値がない場合は  “N.A.”  や  “missing”  を記⼊入   sample_̲name  は内部  ID  として使⽤用されるため、投稿後は変更更不不可   ポップアップでの説明   20  
  22. 22. 2014年年12⽉月18⽇日   DDBJ  Sequence  Read  Archive  
  23. 23. 2014年年12⽉月18⽇日   DRA  登録の順序   第30回  DDBJing  講習会  (JST東京)   DRA  新規登録の作成   データファイルの転送   メタデータの投稿   データファイルの  Validation   アノテータが査定   アクセッション番号発⾏行行   BioProject  の登録   BioSample  の登録   22  
  24. 24. 2014年年12⽉月18⽇日   新規  DRA  登録の作成   第30回  DDBJing  講習会  (JST東京)   !  登録アカウントにログインし、新規  DRA  登録を作成  (例例  dradev-‐‑‒0019)   23  
  25. 25. 2014年年12⽉月18⽇日   シークエンスデータファイルの転送   第30回  DDBJing  講習会  (JST東京)   !  鍵認証で  DRA  ファイル受付サーバにアクセスし、     データファイルを新規登録に対応するディレクトリに  SSH  でアップロード   DRA  ファイル受付サーバ   秘密鍵   公開鍵   DRA  新規登録   (dradev-‐‑‒0019)   シークエンスデータファイル   (fastq,  bam  etc)   http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード   24  
  26. 26. 2014年年12⽉月18⽇日   DRA  メタデータの作成  1:  Submission   第30回  DDBJing  講習会  (JST東京)   !  登録者情報と公開予定⽇日  (2年年後まで指定可能)  を記⼊入   順番に⼊入⼒力力していく  (Analysis  は任意)   別のタブに移動する際、⾃自動で内容がチェックされ保存されます   ポップアップでの説明   25  
  27. 27. 2014年年12⽉月18⽇日   DRA  メタデータの作成  2:  Study   第30回  DDBJing  講習会  (JST東京)   !  登録済みの  BioProject  を⼀一つ選択     BioProject  ID  (プレフィックス  PRJD)  が発⾏行行されていない     プロジェクトは選択できません   26  
  28. 28. 2014年年12⽉月18⽇日   DRA  メタデータの作成  3:  Sample   第30回  DDBJing  講習会  (JST東京)   !  登録済みの  BioSample  を必要数選択     BioSample  ID  (プレフィックス  SAMD)  が発⾏行行されていない     サンプルは選択できません   27  
  29. 29. 2014年年12⽉月18⽇日   DRA  メタデータの作成  4:  Experiment   第30回  DDBJing  講習会  (JST東京)   !  サンプルから構築したライブラリー、シークエンサーやリード⻑⾧長について記⼊入   タブ区切切りテキストファイルとしてダウンロードし、 メタデータを作成することができる   28  
  30. 30. 2014年年12⽉月18⽇日   DRA  メタデータの作成  5:  Run   第30回  DDBJing  講習会  (JST東京)   !  Run  を  Experiment  にリンク   !  アップロードしたデータファイルを  Run  にリンク         リード⻑⾧長が⼀一定ではない  fastq  の場合、filetype  は  “generic_̲fastq”  を選択   29  
  31. 31. 2014年年12⽉月18⽇日   DRA  メタデータの投稿   第30回  DDBJing  講習会  (JST東京)   !  メタデータ完成後、Submit  をクリックして投稿   オブジェクト相互が過不不⾜足なく参照されているかどうかチェックされます   クリックしてメタデータを投稿   30  
  32. 32. 2014年年12⽉月18⽇日   データファイルの  validation   第30回  DDBJing  講習会  (JST東京)   !  データファイルの形式とメタデータとの整合性が検証され、     アーカイブ⽤用の  SRA  ファイルが作成されます   クリックして  validation  を開始   メタデータの投稿後、データファイルの  validation  が必須   31  
  33. 33. 2014年年12⽉月18⽇日   よくある  validation  エラー   第30回  DDBJing  講習会  (JST東京)   "  合計⻑⾧長を記⼊入  (例例  Forward  100  +  Reverse  100  =  200)   "  ファイルが破損している場合は再度度ファイルをアップロード   "  空⽩白を除去   "  サブディレクトリを含めず、ファイルそのものをアップロード   !  配列列⻑⾧長が⼀一定のペアリードで  Experiment.Spot  Length  にペアの合計       配列列⻑⾧長が記⼊入されていない   !  メタデータ中の  md5  値と転送されたファイルの  md5  値が異異なる   !  アップロードされたデータファイル名に空⽩白が含まれている   !  サブディレクトリを含んでいる   32  
  34. 34. 2014年年12⽉月18⽇日   アクセッション番号の発⾏行行   第30回  DDBJing  講習会  (JST東京)   !  Submission  (DRA),  Experiment  (DRX),  Run  (DRR)          にアクセッション番号が発⾏行行されます   33  
  35. 35. 2014年年12⽉月18⽇日   データの公開と更更新   BioProject・BioSample・DRA  
  36. 36. 2014年年12⽉月18⽇日   BioProject  と  BioSample  の連動公開   第30回  DDBJing  講習会  (JST東京)   !  塩基配列列データの公開は参照している  BioProject/BioSample  の公開を引き起こす   !  BioProject/BioSample  の公開は参照元の塩基配列列データの公開を引き起こさない   BioProject/BioSample   公開   DRA/DDBJ  塩基配列列データ   公開   BioProject/BioSample   公開   DRA/DDBJ  塩基配列列データ   ⾮非公開   http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開   35  
  37. 37. 2014年年12⽉月18⽇日   データの公開   第30回  DDBJing  講習会  (JST東京)   !  公開されたデータはミラーされ  DDBJ/EBI/NCBI  で利利⽤用できるようになります   DDBJ  DRASearch     NCBI  BioProject   NCBI  BioSample   NCBI  SRA   36  
  38. 38. 2014年年12⽉月18⽇日   データの更更新   第30回  DDBJing  講習会  (JST東京)   !  更更新内容を  BioProject  チームに連絡   !  関連する論論⽂文が公開されたら  pubmed  ID  などの⽂文献情報を連絡   BioProject   BioSample   DRA   !  更更新内容を  BioSample  チームに連絡   !  Sample  name  は  ID  として使⽤用しているため変更更不不可   !  メタデータの内容と公開予定⽇日はアカウントにログインし、⾃自⾝身で変更更   !  データファイルの追加:  新規登録を作成し、既存のオブジェクトを参照する       (補⾜足スライド43を参照)   37  
  39. 39. 2014年年12⽉月18⽇日   お問い合わせ先   第30回  DDBJing  講習会  (JST東京)   http://trace.ddbj.nig.ac.jp/contact.html   !  登録について問い合わせる場合には  D-‐‑‒way  アカウント名と   Submission  ID  をお知らせください   38  
  40. 40. 2014年年12⽉月18⽇日   補⾜足  
  41. 41. 2014年年6⽉月12⽇日   微⽣生物ゲノム配列列の登録   第30回  DDBJing  講習会  (JST東京)   !  Strain-‐‑‒level  taxonomy  ID  にかわり  BioSample  微⽣生物ゲノムを識識別   BioProject BioSample Strain: 1 Locus tag prefix: AAAA1 BioSample Strain: 2 Locus tag prefix: AAAA2 BioSample Strain: 3 Locus tag prefix: AAAA3 BioProject Strain: 1 Locus tag prefix: AAAA1 Strain-level taxonomy ID: 10 BioProject Strain: 2 Locus tag prefix: AAAA2 Strain-level taxonomy ID: 11 BioProject Strain: 3 Locus tag prefix: AAAA3 Strain-level taxonomy ID: 12 Species-level taxonomy ID: 100 Federhen  S  et  al.  Stand  Genomic  Sci  (2014)  doi:  10.4056/sigs.4851102   2014年年2⽉月以前   2014年年2⽉月以降降   Genome Genome Genome Bacteria: A Strain: 1 Bacteria: A Strain: 2 Bacteria: A Strain: 3 Genome Genome Genome Bacteria: A Strain: 1 Bacteria: A Strain: 2 Bacteria: A Strain: 3 40  
  42. 42. 2014年年6⽉月12⽇日   Biological/technical  replicates   第30回  DDBJing  講習会  (JST東京)   !  BioSample  ではなく  SRA  Experiment  で表現することを推奨   http://trace.ddbj.nig.ac.jp/dra/faq.html#samples-‐‑‒for-‐‑‒sra   41  
  43. 43. 2014年年6⽉月12⽇日   アカウント外の  BioProject/BioSample  を参照   第30回  DDBJing  講習会  (JST東京)   !  アカウントをまたがった参照を希望する場合は  DRA  チームに連絡   !  参照元と先、双⽅方の登録者の承認が必要   !  連動公開に注意   42  
  44. 44. 2014年年6⽉月12⽇日   データファイルの追加   第30回  DDBJing  講習会  (JST東京)   !  新しい  DRA  登録から既存の  BioProject  を参照することでデータを追加   http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加   43  
  45. 45. 2014年年6⽉月12⽇日   ファイルの破損を  md5  値でチェック   第30回  DDBJing  講習会  (JST東京)   !  md5  値が⼀一致        :  ファイルの破損なし          md5  値が不不⼀一致  :  ファイルの破損あり   DRA  ファイル受付サーバ   md5  値   md5  値   md5  値   md5  値   =   ≠   md5  値  :  ファイルに固有の32桁の英数字からなるハッシュ値   http://trace.ddbj.nig.ac.jp/dra/submission.html#補⾜足_̲_̲MD5_̲値   44  

×