安価なコンピュータを用いた
実験・教育用並列計算機システムの
性能評価
長谷川研究室
情報システム工学科4年
H112071 遠山秀和
目次
①研究背景
②従来システムについて
③研究目的
④従来システムの改良
⑤ベンチマークについて
⑥性能測定と測定結果
⑦構築費用
⑧考察・まとめ・今後の課題
2
研究背景
 世界最高ランクの並列計算機は高価で
希少であり、利用できる人が限定
 安価でスケーラブルな並列計算機環境
 本研究室で安価なコンピュータを用いた
実験・教育用並列計算機システムの構築
3
従来システムについて
 Pandaboard と Raspberry Pi の2種類の
ARMボードコンピュータを用いた並列計算
機システム
 Pandaboard 8台
Raspberry Pi 48台 で構築
4
従来システムで用いたARMボードコンピュータ
Pandaboard ES
Raspberry Pi
CPU 2コア・1.2GHz
RAM 1GB
CPU 1コア・700MHz
RAM 512MB
5
従来システムの構成図
ユーザ Panda
board 01
マスタノード
計算ノード
Pandaboard 02
…
Pandaboard 08
Raspberry Pi 01
Raspberry Pi 02
…
Raspberry Pi 48
…
6
従来システムの問題点
 Pandaboard の熱暴走
→システムが長時間稼働時、
Pandaboard の熱暴走でシステムが停止
長時間稼働が不可→性能評価が不十分
7
研究目的
本研究室の並列計算機システムの
 改良
 すべての Pandaboard の取り除き
 マスタノードを Intel NUC に入れ替え
 計算ノードに Raspberry Pi 2 の導入
 性能評価
 並列計算環境の長時間動作の確認
 Raspberry Pi と Raspberry Pi 2 の並列計算環境の
性能比較
8
従来システムの改良
 すべての Pandaboard の取り除き
 マスターノードとして Intel NUC の導入
 Raspberry Pi の台数増加(48台→64台)
 Raspberry Pi 2 の追加(16台)
9
Intel NUC(Next of Unit Computing)
 約10cm四方の大きさの小型コンピュータ
 本研究で用いたものは、
CPU
ストレージ
容量
RAM
Intel Celeron
8GB
500GB
10
Raspberry Pi 2
 Raspberry Pi の発展型で2015年2月に発表
CPU
RAM
4コア・900MHz
1GB
11
改良後のシステムの構成図
ユーザ Intel NUC
マスターノード
計算ノード
Raspberry Pi 01
Raspberry Pi 02
…
Raspberry Pi 64
Raspberry Pi 2 01
…
Raspberry Pi 2 16
…
12
改良後のシステムの写真
13
改良後のシステムの仕様
OS
合計RAM
並列計算
ライブラリ
Linux
Intel NUC Ubuntu 14.04.02
Raspberry Pi & Raspberry Pi 2 Raspbian wheezy
48GB
実利用可能合計RAM 約37GB
Raspberry Pi のみ 約24GB
Raspberry Pi 2 のみ 約13GB
MPICH2
14
ベンチマークについて
15
ベンチマークと性能単位
ベンチマーク
 コンピュータのハードウェアやソフトウェア
の処理速度を計測する試験
 コンピュータの性能を比較するために
使用されるプログラム
並列計算機の性能単位
 1秒間当たりの浮動小数点演算数 flops値
※flops ( floating-point operation per second )
16
LINPACKベンチマーク
 浮動小数点演算性能を評価するベンチマーク
 並列計算機の業界で長く使用
 並列計算機用ベンチマークの実装
HPLベンチマークプログラム
17
本研究の性能測定に用いたベンチマーク
mHPL (Modified HPL)
 HPLの派生ベンチマークプログラム
 LU分解を用いた密行列連立1次方程式の
解を求めるのにかかる実行時間で性能評価
 HPLの倍精度測定の他に
単精度・複素倍精度・複素単精度の4種類
18
性能測定と測定結果
19
測定方法
 使用したベンチマーク mHPL
 性能が出るように問題サイズをチューニング
 Raspberry Pi 1・2・4・8・16・32・64台
Raspberry Pi2 1・2・4・8・16台で
倍精度・単精度を性能測定
20
測定結果 倍精度
1台 Raspberry Pi 0.27Gflops
1台 Raspberry Pi 1.19Gflops
64台 Raspberry Pi 9.89Gflops
16台 Raspberry Pi 13.68Gflop 21
0
5
10
15
20
25
30
35
40
0 10 20 30 40 50 60 70 80
性能値(Gflops)
コア数(個)
Raspberry Pi
Raspberry Pi 2
0
5
10
15
20
25
30
35
40
0 10 20 30 40 50 60 70 80
性能値(Gflops)
コア数(個)
Raspberry Pi
Raspberry Pi 2
測定結果 単精度
1台 Raspberry Pi 0.41Gflops
1台 Raspberry Pi 2.72Gflops
64台 Raspberry Pi 18.82Gflop
s
22
構築費用 概算
23
構築費用 概算
18,000 4%
224,000
55%
80,000
20%
86,400
21% Intel NUC
Raspberry Pi
Raspberry Pi 2
周辺機器など
合計 408,400
1台
当たり
Raspberry
Pi 3,500
Raspberry Pi
2 5,00024
考察・まとめ・今後の課題
25
考察
 今回のベンチマーク測定で並列計算機システム
の24時間以上の連続稼働を確認
→長時間のプログラム動作が可能
 Raspberry Pi 2の並列計算機システムの方が安
価で高性能であり、また単精度演算が高速
 プロセッサの台数を容易に増加できる
→Megiddoのパラメトリックサーチ
に応用可能?
(特に単精度を用いるとさらに能力を発揮?)
26
まとめ
 並列計算システムの改良と性能比較を実施
 並列計算機システムの長時間の
連続稼働を確認
 性能比較の結果、Raspberry Pi 2 の
並列計算機システムの方が安価で高性能
さらに、単精度演算が強み
→今後、台数増加の際は Rasppberry Pi 2
27
今後の課題
 より整理された配線方法の考案
 Raspberry Pi 2の台数を増加させ、
機械学習やMegiddoのパラメトリックサーチ
を応用したソフトウェア開発
 他の研究室の方にも是非利用を!!
28

Raspberry Pi Cluster