Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境

899 views

Published on

遺伝研スーパーコンピュータのビッグデータ解析環境
講師:石川 直史 (国立遺伝学研究所 スパコン担当SE)
2016年7月6日「DDBJデータ解析チャレンジ 2016 キックオフ講習会」
@国立研究開発法人 科学技術振興機構 東京本部別館
YouTube:
DDBJデータ解析チャレンジ:http://www.ddbj.nig.ac.jp/ddbj-challenge2016-j.html

Published in: Education
  • Be the first to comment

[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境

  1. 1. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 遺伝研スーパーコンピュータ のビッグデータ解析環境 国立遺伝学研究所 スパコン担当SE 石川 直史
  2. 2. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 大学共同利用機関法人 情報システム研究機構 国立遺伝学研究所は、 2012年3月にスーパーコンピュータシステムを更新し、2014年3月にシス テム増強を行いました。 スーパーコンピュータシステムはゲノム解析を主な目的とした大規模計 算機利用拠点として 最新鋭の大規模クラスタ型計算機、大規模メモリ共 有型計算機、および大容量高速ディスク装置で構成されたスーパーコン ピューティングシステムサービスを提供しています。 国立遺伝学研究所スーパーコンピュータシステム https://sc.ddbj.nig.ac.jp
  3. 3. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ノード間相互接続網 InfiniBand 4xQDR InfiniBand 4xFDR 台数:2ノード [1.536TFLOPS] CPUコア: 80コア/node メモリ: 2TB /node 【PCサーバ(HP Proliant DL980 G7)】 Medium計算ノード 台数:1ノード [8.171TFLOPS] CPUコア: 768コア メモリ: 10TB 【SMPサーバ(SGI Altix UV1000)】 Fat計算ノード 台数:352ノード [117TFLOPS以上(CPUのみ)] CPUコア: 16コア/node メモリ: 64GB /node 【PCクラスタ(HP Proliant SL230s Gen8)】 Thin計算ノード 合計容量:約2PB 【Lustre FileSystem(DDN SFA10000)】 高速領域 合計容量:約3PB 【NFS FileSystem(NEXSAN E60/E60X)】 省電力領域 台数:8ノード [6.144TFLOPS] CPUコア: 80コア/node メモリ: 2TB /node 【PCサーバ(HP Proliant DL980 G7)】 Medium計算ノード 台数:202ノード [90TFLOPS以上(CPUのみ)] CPUコア: 20コア/node メモリ: 64GB /node 【PCクラスタ(HP Proliant SL230s Gen8)】 Thin計算ノード 合計容量:約5PB 【Lustre FileSystem(DDN SFA12000)】 高速領域 合計容量:約3PB 【NFS FileSystem(Hitachi HUS150)】 省電力領域 2012年度導入機器 2014年度導入機器 Thinノード Fatノード Medノード 高速領域 省電力領域 554ノード 9,672コア 1ノード 768コア 10ノード 800コア 7PB 6PB 2014年増強後の総計
  4. 4. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 スーパーコンピュータシステムでは、Univa Grid Engine(UGE)を ジョブ管理 システムとして利⽤しています。UGEが各ユーザから投⼊されたジョブを優先 度や使⽤リソース量に応じて適切にスケジューリングすることで、ユーザが意 識する必要なく、計算機を効率的に利⽤して⼤量のジョブを円滑に実⾏するこ とが可能です。 スーパーコンピュータシステムでは各種ゲノム解析系ツールを利⽤可能です。 これらのツールは、スーパーコンピュータシステムにアカウント登録して頂 き、ログインして頂くことで利⽤可能です。 利⽤可能バイオツール de novo Mapping RNA‐Seq ChIP‐Seq tool other ALLPATHS‐LG bwa cufflinks MACS samtools pindel SOAPdenovo bowtie tophat BEDtools cutadapt Edena v3 bowtie2 picard Oases SOAP(v1) GATK Velvet SOAP3 Trinity SOAP3‐dp URL ︓ https://sc.ddbj.nig.ac.jp/index.php/systemconfig/ja-biotools ジョブ管理システム
  5. 5. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ①ゲートウェイノード(DDBJチャレンジの場合gw2.ddbj.nig.ac.jp) にログインする ②qloginを実⾏しインタラクティブノードにログインする ③qloginしたホストからジョブをUGEに投⼊する ④UGEは負荷の低いノードでジョブを実⾏する ⑤ジョブ実⾏結果がLustreのホームディレクトリに出⼒される ⑥ジョブ実⾏結果を確認する JobJobJob Resul t Resul t Resul t Resul tResult ① ③ ④ gateway ② ⑥ ⑤ ゲートウェイノード (外部との通信専⽤) インタラクティブノード バッチ専⽤ノード スーパーコンピュータ使⽤⽅法 Lustreファイルシステム
  6. 6. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 DDBJデータ解析チャレンジ の利用環境
  7. 7. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ノード間相互接続網 InfiniBand 4xQDR InfiniBand 4xFDR 台数:2ノード [1.536TFLOPS] CPUコア: 80コア/node メモリ: 2TB /node 【PCサーバ(HP Proliant DL980 G7)】 Medium計算ノード 台数:1ノード [8.171TFLOPS] CPUコア: 768コア メモリ: 10TB 【SMPサーバ(SGI Altix UV1000)】 Fat計算ノード 台数:352ノード [117TFLOPS以上(CPUのみ)] CPUコア: 16コア/node メモリ: 64GB /node 【PCクラスタ(HP Proliant SL230s Gen8)】 Thin計算ノード 合計容量:約2PB 【Lustre FileSystem(DDN SFA10000)】 高速領域 合計容量:約3PB 【NFS FileSystem(NEXSAN E60/E60X)】 省電力領域 台数:8ノード [6.144TFLOPS] CPUコア: 80コア/node メモリ: 2TB /node 【PCサーバ(HP Proliant DL980 G7)】 Medium計算ノード 合計容量:約3PB 【NFS FileSystem(Hitachi HUS150)】 省電力領域 2012年度導入機器 2014年度導入機器 Thinノード Fatノード Medノード 高速領域 省電力領域 554ノード 9,672コア 1ノード 768コア 10ノード 800コア 7PB 6PB 2014年増強後の総計 Rank:170th in Top500 (Nov,2011) (Rank:11 th in Japan) 台数:202ノード [90TFLOPS以上(CPUのみ)] CPUコア: 20コア/node メモリ: 64GB /node 【PCクラスタ(HP Proliant SL230s Gen8)】 Thin計算ノード 合計容量:約5PB 【Lustre FileSystem(DDN SFA12000)】 高速領域 DDBJチャレンジで利用可能な計算資源 ・計算ノード DDBJチャレンジ専用のリソースを利用して計算し て頂きます(challenge.q)。GPU搭載Thin 計算ノー ドが計10ノードです。 [GPU搭載thin計算ノード(1ノードあたり)] CPU:Intel Xeon E5‐2680v2(2.8GHz,10コア) × 2 メモリ:64GB GPU:NVIDIA Tesla K20 ×1 ・ホームディレクトリ ユーザ登録をするとホームディレクトリとして1TB の領域が与えられます。 ディレクトリパスは/home/usernameです。
  8. 8. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 スーパーコンピュータシステムではチャレンジ解析環境⽤に下記のソフトウェア をインストールしています。 チャレンジ解析環境⽤ 利⽤可能ツール URL ︓ https://sc.ddbj.nig.ac.jp/index.php/systemconfig/ja-biotools その他の利⽤可能OSSは下記Webページをご覧ください。 URL ︓ https://sc.ddbj.nig.ac.jp/index.php/ja-oss-install-aplication OSSインストール申請は下記ページよりお願いいたします。(8/21まで申請受付) ・R 2.14.1と3.1.1が利用可能です。 ・python python2.7.2とpython3.5.1が利用可能です。 ・MATLAB challenge.qでのみ利用可能です。 ・caffe(v1.0.0) challenge.qでのみ利用可能です。 URL ︓ https://sc.ddbj.nig.ac.jp/index.php/programming 各ツールの環境設定⽅法については下記Webページをご覧ください。
  9. 9. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 チャレンジ環境の利⽤の流れは以下のステップの通りです。 システム利⽤の流れ ユーザアカウント登録 公開鍵の登録 システムログイン インタラクティブノードへ移動、ジョブ準備 ジョブ投入&結果確認
  10. 10. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 スパコンホームページ(https://sc.ddbj.nig.ac.jp)で「新規ユーザ登録申請」を選択 ユーザアカウント登録 URL : https://sc.ddbj.nig.ac.jp/index.php/ja-new-application •利⽤⽬的に”DDBJ Challenge”と記⼊して申請してください。 •郵送にてアカウント証を送付いたします(お時間を頂きます)。 •既存スパコンユーザはhttp://goo.gl/forms/ejSACyivlSHum2g13より申請してください。
  11. 11. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 システムにログインするために利⽤する端末から公開鍵を登録して頂きます。 登録⼿順等はWebページをご覧ください。 アカウント発⾏後の公開鍵の登録 URL : https://sc.ddbj.nig.ac.jp/index.php/2014-09-17-05-42-33 ※本⽇のハンズオン講習では公開鍵登録は不要です
  12. 12. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 公開鍵を登録後、ゲートウェイノード(gw2.ddbj.nig.ac.jp)にsshログインしてください。 ゲートウェイノードは外部からのログイン専⽤ノードとなっておりますで、ジョブの実⾏ 等はせずにインタラクティブノード(loginキュー)に移動して頂けるようお願いいたします。 インタラクティブノードでは⾃由にコマンドを実⾏頂き、投⼊するジョブやデータの準備、 ジョブの投⼊をして頂けます。ゲートウェイノードからインタラクティブノードに移動す る際はqloginコマンドを実⾏してください。 システムログイン⽅法・インタラクティブノードへの移動 SSHログイン gateway gw2.ddbj.nig.ac.jp ゲートウェイノード 外部との通信専⽤ノードです このノードではジョブの実⾏等はせず qloginによりインタラクティブノード への移動をお願いします。 ユーザ端末 qlogin インタラクティブノード インタラクティブにジョブの作成 やデータの準備をして頂けます 参考URL: https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
  13. 13. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 インタラクティブノードに移動後、UGEにジョブとして投⼊するためのデータ準備や 実⾏するスクリプトの作成をして頂けます。 インタラクティブノード上でGPUの利⽤が必要な場合はqloginコマンドを実⾏する際に、 -l gpu オプションを付与してください。 また、インタラクティブノード上でメモリリソースがデフォルトより多く必要な場合は -l mem_req=XG,s_vmem=XGオプションを付与してください。デフォルトの利⽤ 可能メモリは3.1GBです。 インタラクティブノードへの移動・ジョブ準備 gateway ゲートウェイノード $ qlogin –l gpu インタラクティブノード $ qlogin –l mem_req=6G,s_vmem=6G GPU利用可能ノードに 移動します。メモリは デフォルトの3.1GBま で利用可能です。 メモリ6GBまで 利用可能です 参考URL: https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
  14. 14. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ジョブの準備にあたり、各Webページを参考としてください。 [プログラミング環境] https://sc.ddbj.nig.ac.jp/index.php/programming 各コンパイラの使⽤⽅法、RやMATLABの使⽤⽅法が記載されています。 [利⽤可能OSS] https://sc.ddbj.nig.ac.jp/index.php/ja-avail-oss スパコンで利⽤可能なバイオツールをはじめとしたOSSの⼀覧です。 challengeではこれに加えて、MATLAB、caffeをご利⽤頂けます(プログラミング環境参 照)。また、各⾃のホームディレクトリには⾃由にソフトウェアをインストール可能です。 [利⽤可能DB] https://sc.ddbj.nig.ac.jp/index.php/ja-availavle-dbs スパコンで利⽤可能なバイオ系DBの⼀覧です。 ジョブ準備
  15. 15. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ジョブ投⼊準備が終わりましたらUGEにジョブを投⼊してください。キューにてジョブが 実⾏されます。チャレンジ環境⽤として以下のキューをご利⽤頂けます。 ジョブ投⼊ qsub インタラクティブノード インタラクティブにジョブの作成 やデータの準備をして頂けます キュー名 ノード 数 ノードあたりの リソース ジョブ スロット数 実行時間 の上限 投入時 オプション 用途など challengeキュー 10 CPU:20コア メモリ:64GB 200 62日 -l challenge チャレンジ環境のジョブ はこのキューに投入され ます debugキュー 4 CPU:20コア メモリ:64GB 80 1日 -l debug (-l gpu) ジョブの動作確認をする 場合に使用可能です JobJobJob バッチ専⽤ノード UGEにより負荷分散され、適切な計算 ノード群(キュー)でジョブが実⾏されます JobJobJob 参考URL: https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
  16. 16. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ジョブ投⼊ 16 #!/bin/sh #$ -S /bin/sh pwd hostname date sleep 20 date echo “to stderr” 1>&2 2⾏⽬の“#$”は、UGEオプションを指定するための接頭辞。 “#$ -S”で、このシェルスクリプトがUGE上で動作する際に使⽤する インタプリタを指定する(この例の場合、インタプリタは/bin/sh) この⾏を省略した場合、ジョブ投⼊時のコマンドオプションで “-S 使⽤するインタプリタのパス”を指定する必要がある。 ジョブの投⼊例を⽰します。 UGE向けに記述したシェルスクリプトを作成して投⼊します。 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
  17. 17. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 ジョブ投⼊ & 結果確認 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ 17 $ qsub –l challenge test.sh qsubコマンドでジョブを投⼊します。 ジョブを投⼊すると、実⾏待ち⾏列にジョブが⼊ります。 投⼊したジョブの状況は、qstatコマンド(後述)で確認できます。 実⾏後、ジョブの出⼒を確認します。 ホームディレクトリに、ジョブの標準出⼒、標準エラー出⼒を記録した ファイルが出⼒されます。 $ cat ~/test.sh.o325 /lustre3/home/ddbjuser nt170 2016年 7月 1日 金曜日 11:15:01 JST 2016年 7月 1日 金曜日 11:15:21 JST $ cat ~/test.sh.e325 to stderr
  18. 18. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ -S <インタプリタのパス> スクリプトファイルを実⾏する際のインタプリタのパスを指定する。 シェル以外に、Perl,Ruby等のスクリプト⾔語のインタプリタも指定できる 例︓ (shを指定): -S /bin/sh (Perlを指定): -S /usr/local/bin/perl -cwd ホームディレクトリではなく、qsubコマンド実⾏時のディレクトリでジョブを 実⾏する。このオプションを指定した場合、標準出⼒および標準エラー出⼒ ファイルは、qsubコマンド実⾏時のディレクトリに出⼒される。 -o <標準出力の出力先> -e <標準エラー出力の出力先> ジョブの標準出⼒および標準エラー出⼒の出⼒先を指定する。 標準出⼒または標準エラー出⼒をファイル出⼒しない場合は出⼒先に “/dev/null”を指定する。 qsubのオプション -N <ジョブの別名> qstat等で確認可能なジョブの名前を、指定した名前に変更する。 指定しない場合、ジョブの名前はスクリプト名と同じとなる。
  19. 19. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ qsubのオプション2 -l リソース要求1,リソース要求2,… 主にキューの選択、メモリ利⽤上限の変更に使う。 -l リソース要求1 –l リソース要求2 –l … オプション 用途 ‐l challenge challengeキューにジョブを投入したい場合に使用します ‐l debug debugキューにジョブを投入したい場合に使用します ‐l gpu ジョブ内でGPUを利用したい場合に使用します。ただし、 challengeキューはデフォルトでGPUを利用出来ますので、 このオプションは付与する必要はありません ‐l mem_req=XG ジョブ内でデフォルト(3.1GB)以上のメモリが必要な場合 に使用します。s_vmemとセットで利用してください。 challenge.qの場合は最大で64GBまでです。 ‐l s_vmem=XG ジョブ内でデフォルト(3.1GB)以上のメモリが必要な場合 に使用します。mem_reqとセットで利用してください
  20. 20. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ qsub実⾏例 ・ジョブ(test.sh)をchallengeキューに投⼊する場合 $ qsub -l challenge test.sh ・ジョブ(test.sh)をchallengeキューに投⼊しメモリを6GB使⽤したい場合 $ qsub -l challenge –l mem_req=6G,s_vmem=6G test.sh ・ジョブ(test.sh)をchallengeキューに投⼊し、GPUを使⽤したい場合 $ qsub -l challenge test.sh ※-l gpuは不要 ・ジョブ(test.sh)をdebugキューに投⼊しGPUを使⽤したい場合 $ qsub -l debug –l gpu test.sh ・ジョブ(arraytest.sh)をchallengeキューにアレイジョブとして投⼊したい場合 $ qsub -l challenge –t 1-6:2 arraytest.sh ⇒アレイジョブやMPIジョブについては参考URLをご参照ください
  21. 21. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ qstatによるジョブの状況確認 2121 投⼊したジョブの状況はqstatコマンドで確認できます。 $ qstat job-ID prior name user state submit/start at ------------------------------------------------------------- 325 0.00000 test.sh ddbjuser qw 06/19/2016 19:11:56 ・ジョブが待ち⾏列に⼊っている場合、stateに”qw”が表⽰されます $ qstat job-ID prior name user state submit/start at ------------------------------------------------------------- 325 0.00000 test.sh ddbjuser r 06/19/2016 19:11:56 ・ジョブが実⾏中の場合、stateに”r”が表⽰されます
  22. 22. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ qstatオプション -f キューの利⽤状況を合わせて表⽰する 例︓ qstat –f -u [uid] 指定した[uid]のジョブも表⽰する。「ʻ*ʼ」とすると、全ユーザのジョブを表⽰ する 例︓ qstat –u ʻ*ʼ -j [jobid] 指定した[jobid]のジョブの詳細情報を確認する。エラーステータス“Eqw”と なった理由を確認できる。 例︓ qstat –j 325
  23. 23. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ qacctによるジョブの確認 2323 実⾏が終了したジョブの詳細はqacctコマンドで確認できます。 ジョブが実際に消費したリソース等が確認できます。 $ qacct -j 325 ========================================================== qname challenge.q hostname nt170i group nig-challenge owner ddbjuser project NONE (※中略※) cpu 0.032 mem 0.001 io 0.000 iow 0.000 maxvmem 208.207M arid undefined
  24. 24. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 その他UGEの使い⽅ スパコンWebページに講習会資料を掲載しておりますので参考にしてください。 [資料名] ・システム紹介 ・システムの基本的使⽤⽅法 ・Univa Grid Engine概説 ・ジョブを投⼊するノウハウ URL︓ https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials
  25. 25. DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6) 遺伝研スーパーコンピュータのビッグデータ解析環境 DDBJデータ解析チャレンジのために新規にアカウント発⾏したユーザの利⽤可能期間は 2016/6/27 〜 2016/8/31 となっております。期間後はご利⽤頂けなくなりますので ご了承下さい。 期間後も継続して遺伝研スーパーコンピュータをご利⽤になりたい場合は期間終了までに 問い合わせ窓⼝よりご連絡頂けますようお願いいたします。継続申請⽅法は以下のWeb ページをご参照ください。 諸注意 お問い合わせ窓口 URL: https://sc.ddbj.nig.ac.jp/index.php/ja-question2 継続申請方法について URL: http://www.ddbj.nig.ac.jp/ddbj-challenge2016-j.html

×