Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 in 東京)

990 views

Published on

第33回 DDBJing 講習会 in 東京
「DDBJとNIG Supercomputerの紹介、大量配列情報解析」
神沼英里(国立遺伝学研究所)

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 in 東京)

  1. 1. DDBJとNIG Supercomputerの紹介、大量 配列情報解析 by 神沼英里(国立遺伝学研究所) All members of DNA Data Bank of Japan Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Naofumi Ishikawa, Chiharu Kawagoe, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Hisako Mashima, Fujitaka Matsumori, Kimiko Mimura, Hiroshi Miyazaki, Naoko Murakata, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Yukie Sakon, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Rie Sugita, Kimiko Suzuki, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Emi Yokoyama, Masanori Arita, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura 第33回 DDBJing 講習会 in 東京 日時:2015年11月11日(水)10:00~17:00 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)
  2. 2. (1)DNA Data Bank of Japan http://www.ddbj.nig.ac.jp/
  3. 3. http://www.ddbj.nig.ac.jp/ DDBJ(DNA Data Bank of Japan) は 国際塩基配列データベースの構築機関 ・Daily exchange among three databanks
  4. 4. DDBJは、米国NCBI・欧EBIと協力して データベースを運営(定期交換) 特許庁の塩基配列・アミノ酸配列も公開。 JPO (Japan Patent Office) KIPO (Korean Intellectual Property Office) EPO (European Patent Office) USPTO (United States Patent and Trademark Office) サービス群
  5. 5. DDBJのデータベース① Next-generation Sequencer (NGS) Capillary Electrophoresis Sequencer DRA (DDBJ Sequence Read Archive) DTA (DDBJ Trace Archive) Archive DB for raw data Archive DB for analyzed data EBI (EMBL-Bank) Sequence NCBI (GenBank) DDBJ INSDC collaboration Quantitative data GEO ArrayExpress DDBJ Omics ARchive(DOR) collaboration DDBJ Pipeline
  6. 6. DDBJのデータベース②
  7. 7. DDBJのデータベース③ Japanese Genotype-phenotype Archive http://trace.ddbj.nig.ac.jp/jga/submission.html  個人に由来する次世代シークエンス、アレイ、解析データ (bam, vcf etc)、表現型情報を 受付・保存・提供  データ提供と利用をガイドラインに従って審査 7 2014年度 スパコンユーザ会資料(児玉)より
  8. 8. 増え続けるデータ量SRAのファイルサイズ(TB) データベース数 Trace Archive SRA BioProject JGA BioSample 2014年度 スパコンユーザ会資料(児玉)より
  9. 9. DDBJへの登録国(Top10) 2014年DDBJ事業報告より
  10. 10. DDBJへの分類別3機関登録比率 2014年DDBJ事業報告より (%) (%) http://www.ddbj.nig.ac.jp/sub/locus-j.html
  11. 11. 日・欧・米でのデータベース名称の違い http://www.insdc.org/ 個人ゲノムNGS : JGA : EGA : dbGaP
  12. 12. DDBJ の沿革 http://www.ddbj.nig. ac.jp/history-j.html DDBJ PDBj DBCLS
  13. 13. DDBJ センター人員2015/09 アノテータ エンジニア スタッフ 6 (センター長、教授3、助教2) アノテータ 12 (Ph.D. 7) DDBJ 事業運用エンジニア 9 遺伝研スパコン管理 6 広報・対外活動 3 企画調整 1 事務担当 2 合計 39 13スパコンユーザ会資料(児玉)より
  14. 14. ④Tutorials (※Japanese only) ②Computational resources ③A Web-based analytical system for NGS reads ①Archive DB of NGS reads DDBJ Sequence Read Archive (DDBJ-SRA) DDBJの大量配列解析用サービス NIG Supercomputer (Today’s topic) DDBJ Pipeline DDBJing seminar Video tutorials http://www.ustream.tv/channel/ddbjing-25 http://trace.ddbj.nig.ac.jp/dra/ http://p.ddbj.nig.ac.jp https://www.youtube.com/user/ DDBJvideo
  15. 15. ④講習会開催 / QA対応 ②計算機資源利用 ③クラウド型大量配列解析ツール ①大量配列を保管 アーカイブ データベース DDBJ-SRA 本日のデモ用ログインID・パスワード 遺伝研 新スパコン利用案内 DDBJ Pipeline DDBJing講習会(2015年第31回分映像) http://www.ddbj.nig.ac.jp/ddbjing/dl.html DBCLSライフサイエンスQA, DDBJ tag http://trace.ddbj.nig.ac.jp/D-way/ 登録システムデモ(D-way) Login ID: dradev Pasword: dradev01 Check current jobsボタンを押すと、 ゲストでログイン http://p.ddbj.nig.ac.jp/ http://qa.lifesciencedb.jp/ 稼働状況ログ http://www.ddbj.nig.ac.jp/system/supercom/ supercom-intro.html (一般用) http://rgm2.lab.nig.ac.jp/wiki/index.php/Main_Page (玄人用) http://www.ddbj.nig.ac.jp/system/supercom /supercom-util.html
  16. 16. (2)NIG SuperComputer http://sc.ddbj.nig.ac.jp/
  17. 17. 遺伝研スーパーコンピュータ 構成概略 <世界で170位相当の性能> 2012年3月の測定で、82.9テラFLOPS(計算速度)、 2011年11月に統計された世界スパコンTop500ランキングとの性能比較による 2015/2/3 NIIオープンフォーラム資料(小笠原)より
  18. 18. NIGスパコン:Phase1(2012年導 入),Phase2(2014年導入)の2部構成
  19. 19. オープンソース解析ツールを インストール(申請可能)
  20. 20. 汎用データベースをインストール済
  21. 21. 2015/2/3 NIIオープンフォーラム資料(小笠原)より 目的別の利用統計
  22. 22. 利用案内:Just Now All Free! http://sc.ddbj.nig.ac.jp/index.php/account-conditions ①責任者にアカウント・パスワード郵送 ②年度末更新時に要報告書
  23. 23. NIGスパコンのユーザ登録 http://sc.ddbj.nig.ac.jp/ new registration for MiGAP (Web only) new registration for supercomputer account (log in use) new registration for DDBJ PipeLine (Web only) request for software install large-volume resource request
  24. 24. ログインから計算ノード利用のステップ gw.ddbj.nig.ac.jp node node node node USER gateway server computational servers Qsub Jobs ssh gw.ddbj.nig.ac.jp qlogin qsub *** NIG Supercomputer (注:2015年からSSH公開鍵認証)
  25. 25. ジョブの状態確認と、混雑具合の確認 http://sc.ddbj.nig.ac.jp/index.php/ja-nig-statistics check http://www.slideshare.net/oogasawa
  26. 26. https://www.youtube.com/watch?v=p_FikxzF9Ms ■より詳しいNIGスパコン紹介映像 ■ガイド本 Ⅵ プロトコール データ解析と環境構築 1 解析環境を導入する スパコンの利用 【小笠原 理】 NIGスパコンの使い方ヘルプ
  27. 27. (3)Web Analytical Services http://www.ddbj.nig.ac.jp/searches-j.html
  28. 28. 検索・解析サービス http://www.ddbj.nig.ac.jp/searches-j.html
  29. 29. <getentry> アクセッション番号からのDDBJエントリ検索 ①番号入力 ②検索実行
  30. 30. <ARSA> キーワードによるDDBJエントリ検索 ①キーワード入力 ②検索実行 ③必要なエントリ選択 ④View (Fasta形式選択) ⑤配列確認
  31. 31. <clustalW> 系統樹生成 ①前ページ matK配列をペースト ②実行 http://etetoolkit.org/treeview/ ③Bootstrapped Tree 結果をコピー ④Bootstrapped Tree 結果をペースト ⑤実行
  32. 32. Sugawara H, Ohyama A, Mori H and Kurokawa K. Microbial Genome Annotation Pipeline (MiGAP) for diverse users. 20th Int. Conf. Genome Informatics (Kanagawa, Japan) 2009: S-001, p 1-2. MiGAP(Micobial Genome Annotation Pipeline) De novo annotation of nucleotide sequences of prokaryotic and eukaryotic microbes
  33. 33. DDBJ Read Annotation Pipeline紹介 NGS大量配列のクラウド型解析システム(2009年度公開) DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013) →遺伝研スパコンをクラウド利用、10TB,2TB mem / 162 nodes / 100TB storage利用 高速 シークエンサ Instrumentation data Sequence + quality (fastq) base calling Contigs (Overlapping reads) Scaffolds (Supercontigs) + Annotation DDBJ Sequence Read Archive CON Complete genome - Annotation DDBJ Pipeline 基礎処理部 MSS finishing/gap closure annotation 通常 データ WGS メタデータ データ DRAImage data >Seq1 AGTCGGGTGG . . . . trace@ddbj.nig.ac.jp http://www.ddbj.nig.ac.jp/sub/trace_sra- j.html mass-ftp ディスク送付 Contig 情報ファイル + アノテーションファイル 配列 + アノテーションファイル 自動アノテーション 結果 配列 + アノテーションファイル mass-ftp 電子メール 大量登録システム 研究者による編集 Reference Genome Mapping DDBJ Pipeline 高次処理部 (Annotation Tools) PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析 : 他のツール De novo Assembly
  34. 34. 登録ユーザ557名(14年7月)、年間約8000ジョブのサービスに発展 DDBJ Pipeline利用統計 ▼新スパコン移行 ▼高次部Galaxy本格公開▼基礎部公開 裏歴史 <情報共有機能>→×(NGS現場の会始まる) (他Pipeline情報共有部の参考?) <猛烈反響時代> ・民業圧迫!!(民間研究者) ・激励とダメ嵐(アカデミック研究者) <Pipeline乱立時代> ・常連さん一部は他Pipelineへ →将来? <セキュリティ強化へ> ・Pipeline基礎部GUI-Jar盗られる 計算機資源不足や解析支援員不足状況の 実験研究者を支援する!(←理念)
  35. 35. DDBJ Pipelineのユーザ統計 45か国のユーザ 主な利用者のドメイン (2012年度計算)
  36. 36. DDBJ Pipelineツール利用統計 マッピングツールは毎年bwaの利用が 最も多い。 Bowtie2、TopHat2は、2013年の 導入以降、利用数が急速に伸びている。 de novo アセンブルツールは VelvetとTrinityの利用が多い。 2014年春に導入した Platanus、 HGAPの利用も伸びを見せている。
  37. 37. DDBJ Pipelineユーザ対応と管理 ■2013年度ユーザ対応内訳(質問、連絡) Pipeline基礎部 対応数 2013 対応数 2014 利用方法の質問 65 45 エラー連絡 48 24 システム不具合の連絡 25 8 パスワード再発行 6 12 要望検討 5 0 合計 149 89 Pipeline高次部(P-Galaxy) 対応数 2013 対応数 2014 利用方法の質問 8 3 エラー連絡 0 3 システム不具合の連絡 2 1 本家Galaxy(米国PSU)から連絡 2 0 要望検討 2 0 合計 14 7 実行後の結果消去までの日数 対応期間 90日 2010/7/30~2013/5/6 60日 2013/5/7~現在 >実行エラー(Job aborted) : 23 アップロードファイルの問題(名称、形式、中身破損) 10 システム不具合 9 オプション指定の誤り 4 >解析結果エラー(No output files) : 25 オプション指定の誤り 9 アップロードファイルの問題(名称、形式、中身破損) 7 メモリ不足 5 システム不具合 4
  38. 38. (4)DDBJのサポート http://www.ddbj.nig.ac.jp/faq/
  39. 39. 講習会、QAサイト DDBJing講習会 ・DB登録・ツール利用の実習 ・定員30名 ・ほぼ年2回開催 DBCLS ライフサイエンスQA DDBJタグをサポート http://www.ddbj.nig.ac.jp/ddbjing/dl.html 依頼により、貴組織で開催いたします。 (要Network接続環境)
  40. 40. メールマガジン・Twitter
  41. 41. 御静聴をありがとうございました

×