Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[All-in-one2015] DDBJ へのデータ登録

162 views

Published on

初めての All-in-one 合同講習会〜生命科学DB・ツールの使い方~
講師:真島 淳(DDBJセンター チーフアノテータ)
日時:2015年7月18日
場所:大阪大学中之島センター
YouTube:https://youtu.be/ozeEHjUhz2k

Published in: Science
  • Be the first to comment

  • Be the first to like this

[All-in-one2015] DDBJ へのデータ登録

  1. 1. DDBJ へのデータ登録 初めての All-in-one 合同講習会 真島 淳 DDBJセンター チーフアノテータ
  2. 2. INSDC; International Nucleotide Sequence Database Collaboration http://www.ddbj.nig.ac.jp/insdc/insdc-j.html 1986 年~ DDBJ, EMBL-Bank, GenBank 2009 年~ Sequence Read Archive Trace Archive 2011 年~ BioProject 2014 年~ BioSample 国際塩基配列データベースとして ENA/EBI, NCBI と公開データを 交換し共有しています。 対象データベースも時代とともに 増えてきました。 INSDC 以外のデータベース Japanese Genotype-phenotype Archive (JGA) 日本版の dbGaP, EGA 個人に由来する遺伝学的なデータと匿名化された表現型情報を登録するデータベース
  3. 3. 登録データ種別 http://www.ddbj.nig.ac.jp/sub/data_categories-j.html 塩基配列を下記のデータ種別に区分して受け付けます。 # さらに細かく区分しています。 参照データとして、以下も受け付けています。 ヒトに由来するデータを別枠で受け付けています。
  4. 4. DDBJ トップページ http://www.ddbj.nig.ac.jp/ 塩基配列の登録
  5. 5. 旧来の登録
  6. 6. Web版塩基配列登録システム http://www.ddbj.nig.ac.jp/sub/websub-j.html 以前、慣れ親しんでいただいた SAKURA の後継システム 比較的小規模な対話入力方式の簡便な塩基配列登録に対応 塩基配列: multi-fasta format で一括入力に対応 # SAKURA では何件の場合も1配列ずつ入力 1024 配列 セットを一括登録可能 #システム側の設定上限であり、端末スペック、環境にも依存 アノテーション: 典型的な登録はテンプレートを準備 入力項目のカスタマイズ可 Feature と Qualifier の表形式の一括入力に対応 ファイル upload によるアノテーション入力も可 管理面: 開始時の メール認証により、メールアドレス間違いを排除 エラーチェックに用いるツールを MSS と共通化 Feature / Qualifier の仕様変化を容易に
  7. 7. 登録の大規模化への対応 (1)
  8. 8. Mass Submission System http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html 配列ファイルとアノテーションファイルの直接送付
  9. 9. DDBJ のデータ公開形式 (flat file) の説明 http://www.ddbj.nig.ac.jp/sub/ref10-j.html 塩基配列 生物学的情報 Feature Location Qualifier 論文情報 登録者情報 由来生物情報 Definition Accession number
  10. 10. 登録の大規模化への対応 (2)
  11. 11. 次世代シーケンサーからの出力 GSFLX (454) SOLiDHiseq PacBio RS II Ion PGM Ion Proton DRA へ登録
  12. 12. DRA; DDBJ Sequence Read Archive: http://trace.ddbj.nig.ac.jp/dra/index.html Submission 登録方法の紹介 実際の登録は BioProject BioSample 登録後 Search 公開データの検索 FTP 登録データの取得
  13. 13. DRAデータ構造 Experiment: シークエンサ、ライブラリー 作成、その他の実験条件 Run: 配列データファイルと その experiment との関係性 BioProject: 研究・プロジェクトの詳細 BioSample: サンプルとした生物の情報 http://trace.ddbj.nig.ac.jp/dra/submission.html
  14. 14. 配列データのとりまとめへの対応
  15. 15. Genome Project のデータ登録 http://www.ddbj.nig.ac.jp/sub/genome-j.html
  16. 16. Transcriptome Project のデータ登録 http://www.ddbj.nig.ac.jp/sub/transcriptome-j.html
  17. 17. BioProject/BioSample/DRA 登録窓口 BioProject, BioSample, DRA を順に登録可能 将来は Mass Submission System も統合したい
  18. 18. BioProject http://trace.ddbj.nig.ac.jp/bioproject/index.html
  19. 19. BioProject Databaseにおけるプロジェクト 大規模プロジェクトで、階層化してプロジェクト間を繋ぐ 複数のデータベースを横断的に配列データを繋ぐ
  20. 20. 配列の由来に関する記述の多様化・ 複雑化への対応・一元化
  21. 21. BioSample http://trace.ddbj.nig.ac.jp/biosample/index.html BioSample の構成は、 MIxS などの各コミュニティで標準化された書式の定義 と その書式で記載されたサンプル情報 のセット
  22. 22. 個人に由来するデータへの対応
  23. 23. JGA; Japanese Genotype-phenotype Archive http://trace.ddbj.nig.ac.jp/jga/index.html アクセス制限が必要な 特定個人に由来する配列、 発現解析データを受付、 保持、提供 匿名化されたデータを受付 科学技術振興機構 (JST) National Bioscience Database Center (NBDC) と 共同で運営
  24. 24. データの登録と維持管理の難しさ
  25. 25. DDBJ の運営するデータベースの大半 は primary database である。 Primary Database 研究者から実験的に得られたデータを 登録してもらうことにより、構成される Secondary Database primary database のデータを解析処理して 得られたデータで構成される
  26. 26. primary database であることの難しさ • 利点:データは幅広く集まる – 「論文に記載するために accession number を」というロールモデ ルの普及 – 一部には funding レベルで登録の義務付け • 難点: 分子生物学分野は間口が広く、多数・多様な背景の研 究者、生物学についても、IT についても literacy が低い人物 (登録者全体の1割未満)を含む不特定多数、を登録者として 相手にしなければならない。 – 生物の学名 – 塩基配列からタンパク質のアミノ酸配列への翻訳の仕組 – 塩基配列の位置・向き – 「テキストファイル」、文字コード – 「英語」が通じない – 質問に答えてくれない 登録者に問い合わせて、話し合いながら、修正する
  27. 27. データベース管理上の諸事情 • 登録者 submitter – いろいろな背景の方々 – 登録する自体の incentive 問題 • 利用者 user/customer – その意見(怒り?)は登録者へ?データベースへ? – Primary database と secondary database の差 • 団体 community (標準化などを推進する) – データ記載方法、配列の保持法 • 協力者 collaborator (ここでは NCBI, EBI) – さまざまな知識・実践の共有・吸収 – 共通規則の initiative – ルール変化 – NCBI or EBI のシステム的制約に縛られる • 開発者 developer
  28. 28. 解決策 • 長期的な解決策 (政策レベル) – 大学、大学院における研究者 の教育、全体的な IT リテ ラシー向上 – 研究データ解析補助 (欧米における technician, curator) のため人材の育成・キャリアパスの確立 • DDBJ 側で考えるべきこと – インターフェイスの工夫、ナビゲーションによる入力補助 – 開発人員の増強 – 登録受け付け人員の増強
  29. 29. 登録受付の人員、12名 一般登録ユニット MSSユニット 更新ユニット DRA/DTA/DORユニット (小菅 武英) 大城戸 利久 坂井 勝呂 児玉 悠一 筒井 波留 李 慶範 杉田 里江 福田 亜沙美 江嶋 真由美 三村 公子 (青野 英雄) (江嶋 真由美) (真島 淳) BioProject/Biosample (児玉 悠一) (福田 亜沙美) (大城戸 利久) (李 慶範) (坂井 勝呂) JPO/KIPO 青野 英雄 開発 小菅 武英 JGA (児玉 悠一) (真島 淳) INSDC 対策、各種管理、総括、その他の雑用 真島 淳

×