DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
遺伝研スーパーコンピュータ
のビッグデータ解析環境
国立遺伝学研究所 スパコン担当SE
石川 直史
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
大学共同利用機関法人 情報システム研究機構 国立遺伝学研究所は、
2012年3月にスーパーコンピュータシステムを更新し、2014年3月にシス
テム増強を行いました。
スーパーコンピュータシステムはゲノム解析を主な目的とした大規模計
算機利用拠点として 最新鋭の大規模クラスタ型計算機、大規模メモリ共
有型計算機、および大容量高速ディスク装置で構成されたスーパーコン
ピューティングシステムサービスを提供しています。
国立遺伝学研究所スーパーコンピュータシステム
https://sc.ddbj.nig.ac.jp
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
ノード間相互接続網
InfiniBand 4xQDR InfiniBand 4xFDR
台数:2ノード [1.536TFLOPS]
CPUコア: 80コア/node
メモリ: 2TB /node
【PCサーバ(HP Proliant DL980 G7)】
Medium計算ノード
台数:1ノード [8.171TFLOPS]
CPUコア: 768コア
メモリ: 10TB
【SMPサーバ(SGI Altix UV1000)】
Fat計算ノード
台数:352ノード [117TFLOPS以上(CPUのみ)]
CPUコア: 16コア/node
メモリ: 64GB /node
【PCクラスタ(HP Proliant SL230s Gen8)】
Thin計算ノード
合計容量:約2PB
【Lustre FileSystem(DDN SFA10000)】
高速領域
合計容量:約3PB
【NFS FileSystem(NEXSAN E60/E60X)】
省電力領域
台数:8ノード [6.144TFLOPS]
CPUコア: 80コア/node
メモリ: 2TB /node
【PCサーバ(HP Proliant DL980 G7)】
Medium計算ノード
台数:202ノード [90TFLOPS以上(CPUのみ)]
CPUコア: 20コア/node
メモリ: 64GB /node
【PCクラスタ(HP Proliant SL230s Gen8)】
Thin計算ノード
合計容量:約5PB
【Lustre FileSystem(DDN SFA12000)】
高速領域
合計容量:約3PB
【NFS FileSystem(Hitachi HUS150)】
省電力領域
2012年度導入機器 2014年度導入機器
Thinノード Fatノード Medノード 高速領域 省電力領域
554ノード
9,672コア
1ノード
768コア
10ノード
800コア
7PB 6PB
2014年増強後の総計
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
スーパーコンピュータシステムでは、Univa Grid Engine(UGE)を ジョブ管理
システムとして利⽤しています。UGEが各ユーザから投⼊されたジョブを優先
度や使⽤リソース量に応じて適切にスケジューリングすることで、ユーザが意
識する必要なく、計算機を効率的に利⽤して⼤量のジョブを円滑に実⾏するこ
とが可能です。
スーパーコンピュータシステムでは各種ゲノム解析系ツールを利⽤可能です。
これらのツールは、スーパーコンピュータシステムにアカウント登録して頂
き、ログインして頂くことで利⽤可能です。
利⽤可能バイオツール
de novo Mapping RNA‐Seq ChIP‐Seq tool other
ALLPATHS‐LG bwa cufflinks MACS samtools pindel
SOAPdenovo bowtie tophat BEDtools cutadapt
Edena v3 bowtie2 picard
Oases SOAP(v1) GATK
Velvet SOAP3
Trinity SOAP3‐dp
URL ︓ https://sc.ddbj.nig.ac.jp/index.php/systemconfig/ja-biotools
ジョブ管理システム
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
①ゲートウェイノード(DDBJチャレンジの場合gw2.ddbj.nig.ac.jp)
にログインする
②qloginを実⾏しインタラクティブノードにログインする
③qloginしたホストからジョブをUGEに投⼊する
④UGEは負荷の低いノードでジョブを実⾏する
⑤ジョブ実⾏結果がLustreのホームディレクトリに出⼒される
⑥ジョブ実⾏結果を確認する
JobJobJob
Resul
t
Resul
t
Resul
t
Resul
tResult
①
③
④
gateway
②
⑥ ⑤
ゲートウェイノード
(外部との通信専⽤)
インタラクティブノード
バッチ専⽤ノード
スーパーコンピュータ使⽤⽅法
Lustreファイルシステム
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
DDBJデータ解析チャレンジ
の利用環境
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
ノード間相互接続網
InfiniBand 4xQDR InfiniBand 4xFDR
台数:2ノード [1.536TFLOPS]
CPUコア: 80コア/node
メモリ: 2TB /node
【PCサーバ(HP Proliant DL980 G7)】
Medium計算ノード
台数:1ノード [8.171TFLOPS]
CPUコア: 768コア
メモリ: 10TB
【SMPサーバ(SGI Altix UV1000)】
Fat計算ノード
台数:352ノード [117TFLOPS以上(CPUのみ)]
CPUコア: 16コア/node
メモリ: 64GB /node
【PCクラスタ(HP Proliant SL230s Gen8)】
Thin計算ノード
合計容量:約2PB
【Lustre FileSystem(DDN SFA10000)】
高速領域
合計容量:約3PB
【NFS FileSystem(NEXSAN E60/E60X)】
省電力領域
台数:8ノード [6.144TFLOPS]
CPUコア: 80コア/node
メモリ: 2TB /node
【PCサーバ(HP Proliant DL980 G7)】
Medium計算ノード
合計容量:約3PB
【NFS FileSystem(Hitachi HUS150)】
省電力領域
2012年度導入機器 2014年度導入機器
Thinノード Fatノード Medノード 高速領域 省電力領域
554ノード
9,672コア
1ノード
768コア
10ノード
800コア
7PB 6PB
2014年増強後の総計
Rank:170th in Top500 (Nov,2011)
(Rank:11 th in Japan)
台数:202ノード [90TFLOPS以上(CPUのみ)]
CPUコア: 20コア/node
メモリ: 64GB /node
【PCクラスタ(HP Proliant SL230s Gen8)】
Thin計算ノード
合計容量:約5PB
【Lustre FileSystem(DDN SFA12000)】
高速領域
DDBJチャレンジで利用可能な計算資源
・計算ノード
DDBJチャレンジ専用のリソースを利用して計算し
て頂きます(challenge.q)。GPU搭載Thin 計算ノー
ドが計10ノードです。
[GPU搭載thin計算ノード(1ノードあたり)]
CPU:Intel Xeon E5‐2680v2(2.8GHz,10コア) × 2
メモリ:64GB
GPU:NVIDIA Tesla K20 ×1
・ホームディレクトリ
ユーザ登録をするとホームディレクトリとして1TB
の領域が与えられます。
ディレクトリパスは/home/usernameです。
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
スーパーコンピュータシステムではチャレンジ解析環境⽤に下記のソフトウェア
をインストールしています。
チャレンジ解析環境⽤ 利⽤可能ツール
URL ︓ https://sc.ddbj.nig.ac.jp/index.php/systemconfig/ja-biotools
その他の利⽤可能OSSは下記Webページをご覧ください。
URL ︓ https://sc.ddbj.nig.ac.jp/index.php/ja-oss-install-aplication
OSSインストール申請は下記ページよりお願いいたします。(8/21まで申請受付)
・R
2.14.1と3.1.1が利用可能です。
・python
python2.7.2とpython3.5.1が利用可能です。
・MATLAB
challenge.qでのみ利用可能です。
・caffe(v1.0.0)
challenge.qでのみ利用可能です。
URL ︓ https://sc.ddbj.nig.ac.jp/index.php/programming
各ツールの環境設定⽅法については下記Webページをご覧ください。
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
チャレンジ環境の利⽤の流れは以下のステップの通りです。
システム利⽤の流れ
ユーザアカウント登録
公開鍵の登録
システムログイン
インタラクティブノードへ移動、ジョブ準備
ジョブ投入&結果確認
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
スパコンホームページ(https://sc.ddbj.nig.ac.jp)で「新規ユーザ登録申請」を選択
ユーザアカウント登録
URL : https://sc.ddbj.nig.ac.jp/index.php/ja-new-application
•利⽤⽬的に”DDBJ Challenge”と記⼊して申請してください。
•郵送にてアカウント証を送付いたします(お時間を頂きます)。
•既存スパコンユーザはhttp://goo.gl/forms/ejSACyivlSHum2g13より申請してください。
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
システムにログインするために利⽤する端末から公開鍵を登録して頂きます。
登録⼿順等はWebページをご覧ください。
アカウント発⾏後の公開鍵の登録
URL : https://sc.ddbj.nig.ac.jp/index.php/2014-09-17-05-42-33
※本⽇のハンズオン講習では公開鍵登録は不要です
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
公開鍵を登録後、ゲートウェイノード(gw2.ddbj.nig.ac.jp)にsshログインしてください。
ゲートウェイノードは外部からのログイン専⽤ノードとなっておりますで、ジョブの実⾏
等はせずにインタラクティブノード(loginキュー)に移動して頂けるようお願いいたします。
インタラクティブノードでは⾃由にコマンドを実⾏頂き、投⼊するジョブやデータの準備、
ジョブの投⼊をして頂けます。ゲートウェイノードからインタラクティブノードに移動す
る際はqloginコマンドを実⾏してください。
システムログイン⽅法・インタラクティブノードへの移動
SSHログイン gateway
gw2.ddbj.nig.ac.jp
ゲートウェイノード
外部との通信専⽤ノードです
このノードではジョブの実⾏等はせず
qloginによりインタラクティブノード
への移動をお願いします。
ユーザ端末
qlogin
インタラクティブノード
インタラクティブにジョブの作成
やデータの準備をして頂けます
参考URL: https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
インタラクティブノードに移動後、UGEにジョブとして投⼊するためのデータ準備や
実⾏するスクリプトの作成をして頂けます。
インタラクティブノード上でGPUの利⽤が必要な場合はqloginコマンドを実⾏する際に、
-l gpu オプションを付与してください。
また、インタラクティブノード上でメモリリソースがデフォルトより多く必要な場合は
-l mem_req=XG,s_vmem=XGオプションを付与してください。デフォルトの利⽤
可能メモリは3.1GBです。
インタラクティブノードへの移動・ジョブ準備
gateway
ゲートウェイノード
$ qlogin –l gpu
インタラクティブノード
$ qlogin –l mem_req=6G,s_vmem=6G
GPU利用可能ノードに
移動します。メモリは
デフォルトの3.1GBま
で利用可能です。
メモリ6GBまで
利用可能です
参考URL: https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
ジョブの準備にあたり、各Webページを参考としてください。
[プログラミング環境]
https://sc.ddbj.nig.ac.jp/index.php/programming
各コンパイラの使⽤⽅法、RやMATLABの使⽤⽅法が記載されています。
[利⽤可能OSS]
https://sc.ddbj.nig.ac.jp/index.php/ja-avail-oss
スパコンで利⽤可能なバイオツールをはじめとしたOSSの⼀覧です。
challengeではこれに加えて、MATLAB、caffeをご利⽤頂けます(プログラミング環境参
照)。また、各⾃のホームディレクトリには⾃由にソフトウェアをインストール可能です。
[利⽤可能DB]
https://sc.ddbj.nig.ac.jp/index.php/ja-availavle-dbs
スパコンで利⽤可能なバイオ系DBの⼀覧です。
ジョブ準備
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
ジョブ投⼊準備が終わりましたらUGEにジョブを投⼊してください。キューにてジョブが
実⾏されます。チャレンジ環境⽤として以下のキューをご利⽤頂けます。
ジョブ投⼊
qsub
インタラクティブノード
インタラクティブにジョブの作成
やデータの準備をして頂けます
キュー名
ノード
数
ノードあたりの
リソース
ジョブ
スロット数
実行時間
の上限
投入時
オプション
用途など
challengeキュー 10 CPU:20コア
メモリ:64GB
200 62日 -l challenge チャレンジ環境のジョブ
はこのキューに投入され
ます
debugキュー 4 CPU:20コア
メモリ:64GB
80 1日 -l debug
(-l gpu)
ジョブの動作確認をする
場合に使用可能です
JobJobJob
バッチ専⽤ノード
UGEにより負荷分散され、適切な計算
ノード群(キュー)でジョブが実⾏されます
JobJobJob
参考URL: https://sc.ddbj.nig.ac.jp/index.php/ja-howtouse
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
ジョブ投⼊
16
#!/bin/sh
#$ -S /bin/sh
pwd
hostname
date
sleep 20
date
echo “to stderr” 1>&2
2⾏⽬の“#$”は、UGEオプションを指定するための接頭辞。
“#$ -S”で、このシェルスクリプトがUGE上で動作する際に使⽤する
インタプリタを指定する(この例の場合、インタプリタは/bin/sh)
この⾏を省略した場合、ジョブ投⼊時のコマンドオプションで
“-S 使⽤するインタプリタのパス”を指定する必要がある。
ジョブの投⼊例を⽰します。
UGE向けに記述したシェルスクリプトを作成して投⼊します。
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
ジョブ投⼊ & 結果確認
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/ 17
$ qsub –l challenge test.sh
qsubコマンドでジョブを投⼊します。
ジョブを投⼊すると、実⾏待ち⾏列にジョブが⼊ります。
投⼊したジョブの状況は、qstatコマンド(後述)で確認できます。
実⾏後、ジョブの出⼒を確認します。
ホームディレクトリに、ジョブの標準出⼒、標準エラー出⼒を記録した
ファイルが出⼒されます。
$ cat ~/test.sh.o325
/lustre3/home/ddbjuser
nt170
2016年 7月 1日 金曜日 11:15:01 JST
2016年 7月 1日 金曜日 11:15:21 JST
$ cat ~/test.sh.e325
to stderr
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
-S <インタプリタのパス>
スクリプトファイルを実⾏する際のインタプリタのパスを指定する。
シェル以外に、Perl,Ruby等のスクリプト⾔語のインタプリタも指定できる
例︓ (shを指定): -S /bin/sh (Perlを指定): -S /usr/local/bin/perl
-cwd
ホームディレクトリではなく、qsubコマンド実⾏時のディレクトリでジョブを
実⾏する。このオプションを指定した場合、標準出⼒および標準エラー出⼒
ファイルは、qsubコマンド実⾏時のディレクトリに出⼒される。
-o <標準出力の出力先> -e <標準エラー出力の出力先>
ジョブの標準出⼒および標準エラー出⼒の出⼒先を指定する。
標準出⼒または標準エラー出⼒をファイル出⼒しない場合は出⼒先に
“/dev/null”を指定する。
qsubのオプション
-N <ジョブの別名>
qstat等で確認可能なジョブの名前を、指定した名前に変更する。
指定しない場合、ジョブの名前はスクリプト名と同じとなる。
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
qsubのオプション2
-l リソース要求1,リソース要求2,…
主にキューの選択、メモリ利⽤上限の変更に使う。
-l リソース要求1 –l リソース要求2 –l …
オプション 用途
‐l challenge challengeキューにジョブを投入したい場合に使用します
‐l debug debugキューにジョブを投入したい場合に使用します
‐l gpu ジョブ内でGPUを利用したい場合に使用します。ただし、
challengeキューはデフォルトでGPUを利用出来ますので、
このオプションは付与する必要はありません
‐l mem_req=XG ジョブ内でデフォルト(3.1GB)以上のメモリが必要な場合
に使用します。s_vmemとセットで利用してください。
challenge.qの場合は最大で64GBまでです。
‐l s_vmem=XG ジョブ内でデフォルト(3.1GB)以上のメモリが必要な場合
に使用します。mem_reqとセットで利用してください
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
qsub実⾏例
・ジョブ(test.sh)をchallengeキューに投⼊する場合
$ qsub -l challenge test.sh
・ジョブ(test.sh)をchallengeキューに投⼊しメモリを6GB使⽤したい場合
$ qsub -l challenge –l mem_req=6G,s_vmem=6G test.sh
・ジョブ(test.sh)をchallengeキューに投⼊し、GPUを使⽤したい場合
$ qsub -l challenge test.sh ※-l gpuは不要
・ジョブ(test.sh)をdebugキューに投⼊しGPUを使⽤したい場合
$ qsub -l debug –l gpu test.sh
・ジョブ(arraytest.sh)をchallengeキューにアレイジョブとして投⼊したい場合
$ qsub -l challenge –t 1-6:2 arraytest.sh
⇒アレイジョブやMPIジョブについては参考URLをご参照ください
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
qstatによるジョブの状況確認
2121
投⼊したジョブの状況はqstatコマンドで確認できます。
$ qstat
job-ID prior name user state submit/start at
-------------------------------------------------------------
325 0.00000 test.sh ddbjuser qw 06/19/2016 19:11:56
・ジョブが待ち⾏列に⼊っている場合、stateに”qw”が表⽰されます
$ qstat
job-ID prior name user state submit/start at
-------------------------------------------------------------
325 0.00000 test.sh ddbjuser r 06/19/2016 19:11:56
・ジョブが実⾏中の場合、stateに”r”が表⽰されます
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
qstatオプション
-f
キューの利⽤状況を合わせて表⽰する
例︓ qstat –f
-u [uid]
指定した[uid]のジョブも表⽰する。「ʻ*ʼ」とすると、全ユーザのジョブを表⽰
する
例︓ qstat –u ʻ*ʼ
-j [jobid]
指定した[jobid]のジョブの詳細情報を確認する。エラーステータス“Eqw”と
なった理由を確認できる。
例︓ qstat –j 325
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
参考URL: https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials/
qacctによるジョブの確認
2323
実⾏が終了したジョブの詳細はqacctコマンドで確認できます。
ジョブが実際に消費したリソース等が確認できます。
$ qacct -j 325
==========================================================
qname challenge.q
hostname nt170i
group nig-challenge
owner ddbjuser
project NONE
(※中略※)
cpu 0.032
mem 0.001
io 0.000
iow 0.000
maxvmem 208.207M
arid undefined
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
その他UGEの使い⽅
スパコンWebページに講習会資料を掲載しておりますので参考にしてください。
[資料名]
・システム紹介
・システムの基本的使⽤⽅法
・Univa Grid Engine概説
・ジョブを投⼊するノウハウ
URL︓ https://sc.ddbj.nig.ac.jp/index.php/tutorial-materials
DDBJデータ解析チャレンジ キックオフ講習会(2016.7.6)
遺伝研スーパーコンピュータのビッグデータ解析環境
DDBJデータ解析チャレンジのために新規にアカウント発⾏したユーザの利⽤可能期間は
2016/6/27 〜 2016/8/31 となっております。期間後はご利⽤頂けなくなりますので
ご了承下さい。
期間後も継続して遺伝研スーパーコンピュータをご利⽤になりたい場合は期間終了までに
問い合わせ窓⼝よりご連絡頂けますようお願いいたします。継続申請⽅法は以下のWeb
ページをご参照ください。
諸注意
お問い合わせ窓口
URL: https://sc.ddbj.nig.ac.jp/index.php/ja-question2
継続申請方法について
URL: http://www.ddbj.nig.ac.jp/ddbj-challenge2016-j.html

[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境