pMatlab on BlueGene

Toward Mega-Scale Computing with pMatlab Chansup Byun and Jeremy Kepner MIT Lincoln Laboratory Vipin Sachdeva and Kirk E. Jordan IBM T.J. Watson Research Center HPEC 2010 This work is sponsored by the Department of the Air Force under Air Force contract FA8721-05-C-0002. Opinions, interpretations, conclusions and recommendations are those of the author and are not necessarily endorsed by the United States Government.

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Parallel Matlab (pMatlab) ,[object Object],[object Object],[object Object],Library Layer (pMatlab) Vector/Matrix Comp Task Conduit Application Parallel Library Parallel Hardware Input Analysis Output User Interface Hardware Interface Kernel Layer Math ( MATLAB/Octave ) Messaging ( MatlabMPI )

IBM Blue Gene/P System Core speed: 850 MHz cores LLGrid Core counts: ~1K Blue Gene/P Core counts: ~300K

Blue Gene Application Paths Serial and Pleasantly Parallel Apps Highly Scalable Message Passing Apps High Throughput Computing (HTC) High Performance Computing (MPI) Blue Gene Environment ,[object Object],[object Object],[object Object]

HTC Node Modes on BG/P ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Porting pMatlab to BG/P System ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Performance Studies ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Single Process Performance: Intel Xeon vs. IBM PowerPC 450 * conv2() performance issue in Octave has been improved in a subsequent release Lower is better HPL MandelBrot ZoomImage* Beamformer Blurimage* FFT 26.4 s 11.9 s 18.8 s 6.1 s 1.5 s 5.2 s

Octave Performance With Optimized BLAS DGEM Performance Comparison Matrix size (N x N) MFLOPS

Single Process Performance: Stream Benchmark Higher is better 944 MB/s 1208 MB/s 996 MB/s Relative Performance to Matlab Triad a = b + q c Add c = a + c Scale b = q c

Point-to-Point Communication ,[object Object],[object Object],[object Object],Pid = 0 Pid = 1 Pid = Np-1 Pid = 3 Pid = 2

Filesystem Consideration ,[object Object],[object Object],Pid = 0 Pid = 1 Pid = Np-1 Pid = 3 Pid = 2 Pid = 0 Pid = 1 Pid = Np-1 Pid = 3 Pid = 2

pSpeed Performance on LLGrid: Mode S Higher is better

pSpeed Performance on LLGrid: Mode M Lower is better Higher is better

pSpeed Performance on BG/P BG/P Filesystem: GPFS

pStream Results with Scaled Size ,[object Object],[object Object],563 GB/sec 100 % Efficiency at Np = 1024

pStream Results with Fixed Size ,[object Object],[object Object],VN: 8.832 TB/Sec 101% efficiency at Np=16384 DUAL: 4.333 TB/Sec 96% efficiency at Np=8192 SMP: 2.208 TB/Sec 98% efficiency at Np=4096

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object]

Current Aggregation Architecture ,[object Object],[object Object],[object Object],[object Object],Np = 8 Np: total number of processes 0 1 2 3 4 5 6 7 8

Binary-Tree Based Aggregation ,[object Object],[object Object],[object Object],Maximum number of message a process may send/receive is N, where Np = 2^(N) 0 1 2 3 4 5 6 7 0 2 4 6 0 4

BAGG() Performance ,[object Object],[object Object],[object Object],[object Object],IBRIX: 10x faster at Np=128 LUSTRE: 8x faster at Np=128

BAGG() Performance, 2 ,[object Object],[object Object],[object Object],2.5x faster at Np=1024

Generalizing Binary-Tree Based Aggregation ,[object Object],[object Object],[object Object],[object Object],0 1 2 3 4 5 6 7 0 2 4 6 0 4

BAGG() vs. HAGG() ,[object Object],[object Object],[object Object],[object Object],~3x faster at Np=128

BAGG() vs. HAGG(), 2 ,[object Object],[object Object],[object Object]

BAGG() Performance with Crossmounts ,[object Object],[object Object],Lower is better

Summary ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

pMatlab on BlueGene

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to pMatlab on BlueGene

Similar to pMatlab on BlueGene (20)

Recently uploaded

Recently uploaded (20)

pMatlab on BlueGene

Editor's Notes