Кулагин И.И., Пазников А.А., Курносов М.Г. Оптимизация информационных обменов в параллельных PGAS-программах

Кулагин И.И., ПазниковА.А., КурносовМ.Г.
Институт физики полупроводников им. А.В. РжановаСО РАН
Оптимизация информационных обменов в параллельных PGAS-программах
3-я Всероссийская научно-техническая конференция «Суперкомпьютерные технологии» (СКТ-2014)
29 сентября –4 октября 2014 г., с. Дивноморское

Общая память(PThreads, OpenMP, Cilk)
Распределённая память(MPI)
P
P
P
Разделяемое общее адресное пространство (Partitioned Global Address Space –PGAS)
P
M
Задача (процесс, поток)
Память (адресное пространство)
Доступ к памяти
Передача сообщений
•X10
•Chapel
•UPC
•Titanium
•Co-array Fortran
•HPF
Программные модели вычислительных систем
2
P
M
P
P
P
M
P
M
P
M

3
Глобальное разделённое адресное пространство (PGAS)
HPF, Co-array Fortran, Titanium, UPC, IBM X10, Cray Chapel

Основные программные конструкции PGAS-языков
4
begin S–асинхронное выполнение инструкций Sв отдельном потоке на вычислительном узле, с которого вызвана конструкция
on iS–выполнение инструкций Sна узле i
on x S–выполнение инструкций Sна том узле, в памяти которого находится объект x
coforallS–выполнение каждой итерации тела Sцикла в независимом потоке
sync T–синхронизациягруппы потоков T

5
begin S–асинхронное выполнение инструкций Sв отдельном потоке на вычислительном узле, с которого вызвана конструкция
Вычислительныйузел i
begin {
stmt1
stmt2
…
stmtk
}
…
stmt1
stmt2
…
stmtk

6
on iS–выполнение инструкций Sна узле i
Вычислительныйузел j
on i{
stmt1
stmt2
…
stmtk
}
stmt1
stmt2
…
stmtk

7
coforallS–выполнение каждой итерации тела Sцикла в независимом потоке
coforall{
stmt1
stmt2
…
stmtk
}
…
stmt1
stmt2
…
stmtk
stmt1
stmt2
…
stmtk
stmt1
stmt2
…
stmtk
…

8
sync T–синхронизациягруппы потоков T
stmt1
stmt2
…
stmtk
stmt1
stmt2
…
stmtk
barrier T
…
stmt1
stmt2
…
stmtk
stmt1
stmt2
…
stmtk
…

9
Параллелизм уровня потоков
порождение задач (begin, on)
параллельные циклы (coforall)
примитивы синхронизации (sync)
Параллелизм уровня данных
коллективные операции (редукция, префиксная сумма) над массивами
распределённые структуры(проблемы размещения, оптимизация доступа)

10
Параллелизм уровня потоков
порождение задач (begin, on)
параллельные циклы (coforall)
примитивы синхронизации (sync)
Параллелизм уровня данных
коллективные операции (редукция, префиксная сумма) над массивами
распределённые структуры(проблемы размещения, оптимизация доступа)
1
2

11
Оптимизация выполнения редукции распределённых массивов

12
Распределённые массивы (distributed arrays)
A:
Вычислительный узел 1
Потоки
Локальная память
Потоки
Вычислительный узелN
Потоки
…
A1
A2
AN

13
Параллельная редукция (reduce, reduction)
a1
a2
aD
A[1:D]
…
a1
a2
aD
r=
…
a3
a4
a5
a3




2
0
A[1:5]
2
0
3
r=
1
3
1
1
+
+
+
1
+
= 7
Редукция одномерного массива А:
Пример для операции сложения:

14
Параллельная редукция распределённого массива
RabenseifnerR.Optimization of Collective Reduction Operations// Computational Science - ICCS 2004 -Lecture Notes in Computer Science. 2004. Vol.3036.P.1-9.
LiS, HoeflerT., SnirM.NUMA-Aware Shared-Memory Collective Communication for MPI // HPDC 2013. 2013. P.85-96.
A:
2
0
1
3
A1
A2
A3
2
0
1
3
2
0
1
3
reduce(A, +)

15
A:
2
0
1
3
A1
A2
A3
2
0
1
3
2
0
1
3
A:
2
0
1
3
A1
A2
A3
2
0
1
3
2
0
1
3
r= 38
reduce(A, +)

16
A:
2
0
1
3
A1
A2
A3
2
0
1
3
2
0
1
3
A:
2
0
1
3
A1
A2
A3
2
0
1
3
2
0
1
3
r= 38
reduce(A, +)
Результат редукции
Распределённый массив

1
useBlockDist;
2
3
procmain {
4
varSpace = {1..n, 1..n};
5
varBlockSpace= Space dmapped
6
Block(boundingBox=Space);
7
varBA: [BlockSpace] real;
8
9
forall(i, j) inSpace do
10
BA[i, j] = i* 10 + j;
11
12
varsum = + reduceBA;
13
14
writeln(“REDUCE: ”, sum);
15
}
17
Пример редукции в Cray Chapel

1
useBlockDist;
2
3
procmain {
4
5
6
7
8
9
10
BA[i, j] = i* 10 + j;
11
12
13
14
15
}
18

1
useBlockDist;
2
3
procmain {
4
5
6
7
8
9
10
BA[i, j] = i* 10 + j;
11
12
13
14
15
}
19

1
useBlockDist;
2
3
procmain {
4
5
6
7
8
9
10
BA[i, j] = i* 10 + j;
11
12
13
14
15
}
20

21
Алгоритм редукции DefaultReduce
Потоки
Потоки
Потоки
…
A1
A2
AN

22
Потоки
Потоки
Потоки
…
Вычислительная трудоёмкость алгоритма DefaultReduce:
푻=푶(|푨|/푵+푵)
A1
A2
AN

23
Потоки
Потоки
Потоки
…
Вычислительная трудоёмкость алгоритма DefaultReduce:
푻=푶(|푨|/푵+푵)
Количество порождённых потоков:푲=|푨|
A1
A2
AN

24
Алгоритм редукции BlockReduce
Потоки
Потоки
Потоки
…
A1
A2
AN

25
Потоки
Потоки
Потоки
…
A1
A2
AN

26
Потоки
Потоки
Потоки
…
A1
A2
AN

27
Потоки
Потоки
Потоки
…
Количество порождённых потоков:푲=푵×풏
A1
A2
AN

28
Алгоритм редукции BlockReduce(II этап)
r[1]
r[2]
A[1:D]
…
r[3]
r[4]
r[5]
r12
r34
r56
r[6]
r
r
1234
BARRIER
BARRIER
r
5678
r[7]
r[8]
r78
…
…
r[1] r[2]
r[3] r[4]
r[5] r[6]
r[7] r[8]
r12r34
r56r78
rr
1234
5678
…
1
2
3
4
5
6
7
8
Узел
…

29
Потоки
Потоки
Потоки
…
Количество порождённых потоков:푲=푵×풏
A1
A2
AN
Вычислительная трудоёмкость алгоритма BlockReduce:
푻=푶(|푨|/푵+log(푵))

30
Алгоритм барьерной синхронизации потоков Central Counter
NanjegowdaR., HernandezO., ChapmanB., JinH.ScalabilityEvaluationofBarrierAlgorithmsforOpenMP// IWOMP '09 Proceedingsofthe5th InternationalWorkshoponOpenMP: EvolvingOpenMPinanAgeofExtremeParallelism. 2009. Vol. 5568. P. 42-52

31
Оптимизация доступа к удалённым массивам

32
Объявление массивов в IBM X10
x10.lang.Rail[T]
Одномерныймассив с элементами типа T
Индексы типа Long
Базовый класс для массивов
x10.regionarray.Array[T]
Многомерныймассива с элементами типа T
Основан на Rail массиве

varb:
Long = a(k);
// ...
33
Операции над распределёнными массивами в IBM X10
vala:Array[Long];
at(Place.place(i))
{
varb:
Long =a(k)
// ...
}
Доступ к элементам удалённого массива
Копирование всего массива a

varb:
Long = a(k);
// ...
34
vala:Array[Long];
for(iin 0..N) {
at(Place.place(i))
{
varb:
Long =a(k)
// ...
}
}
Циклический доступ к элементам удалённого массива

varb:
Long = a(k);
// ...
35
vala:Array[Long];
for(iin 0..N) {
at(Place.place(i))
{
varb:
Long =a(k)
// ...
}
}
Циклический доступ к элементам удалённого массива
Копирование всего массива a

36
Копирование удалённых массивов как узкое место
1
valA:Array[Long] =
2
new Array[Long](length, (i:Long) => i);
3
4
finish {
5
for (iin 0..(length –1)) {
6
valplaceId:Long= i%
7
Place.MAX_PLACES;
8
at (Place.place(placeId)) async{
9
valtmpA= A(i);
10
...
11
}
12
}
13
}

37
1
valA:Array[Long] =
2
3
4
finish {
5
6
valplaceId:Long= i%
7
Place.MAX_PLACES;
8
9
valtmpA= A(i);
10
...
11
}
12
}
13
}

38
1
valA:Array[Long] =
2
3
4
finish {
5
6
valplaceId:Long= i%
7
Place.MAX_PLACES;
8
9
valtmpA= A(i);
10
...
11
}
12
}
13
}

39
1
valA:Array[Long] =
2
3
4
finish {
5
6
valplaceId:Long= i%
7
Place.MAX_PLACES;
8
9
valtmpA= A(i);
10
...
11
}
12
}
13
}

40
tmpA= A(i)
Вычислительныйузелk
A: a[1], a[2],
..., a[n]
tmpA= A(i)
tmpA: ...
tmpA= A(i)
tmpA: ...

41
tmpA= A(i)
Вычислительныйузел k
A: a[1], a[2],
..., a[n]
tmpA= A(i)
tmpA: ...
tmpA= A(i)
tmpA: ...
Копирование всего массива на каждой итерации цикла

42
tmpA= A(i)
A: a[1], a[2],
..., a[n]
tmpA= A(i)
tmpA: ...
tmpA= A(i)
tmpA: ...
Копирование всего массива на каждой итерации цикла
Алгоритм Scalar replacement?

43
Алгоритм ArrayPreloadоптимизациидоступа к удалённым массивам
1
valsharedA:DistArray[Array[Long]] =
2
DistArray.make[Array[Long]]
3
(Dist.makeUnique(), A);
4
5
for(iin0..(length –1)) {
6
valplaceId:Long= i% Place.MAX_PLACES;
7
at(Place.place(placeId)) async{
8
valtmpA= sharedA(placeId)(i);
9
// ...
10
}
11
}

44
1
2
3
4
5
6
7
8
9
// ...
10
}
11
}

45
1
2
3
4
5
6
7
8
9
// ...
10
}
11
}

46
for() {
}
A
sharedA(0) = A
for() {
}
sharedA(j) = A
for() {
}
sharedA(i) = A
Копирование массива один раз перед выполнением цикла

Функциональная структура компилятора IBM Х10
47
X10 Runtime
X10 Application
X10 Class Libs
Front End
AST optimizationsAST-lowering
.cu
C++
Java
g++/xlC
g++/xlC
javac
Native Back End
Java Back End
Executable
Bytecode
X10 Runtime
X10 Runtime C++ Natives
X10 AST
JVM
X10 AST (Abstract Syntax Tree)
X10 Runtime
X10 Runtime Java Natives
Источник: http://x10.codehaus.org/X10+Day

Функциональная структура компилятора IBM Х10
48
X10 Runtime
X10 Application
X10 Class Libs
Front End
AST optimizationsAST-lowering
.cu
C++
Java
g++/xlC
g++/xlC
javac
Native Back End
Java Back End
Executable
Bytecode
X10 Runtime
X10 Runtime C++ Natives
X10 AST
JVM
X10 AST (Abstract Syntax Tree)
X10 Runtime
X10 Runtime Java Natives
Источник: http://x10.codehaus.org/X10+Day
Реализация ArrayPreload

Block
Loop
Block
At
Block
Call
Arg
Target
Stmt
Stmt
Stmt
...
...
...
Трансформация AST-дерева в алгоритме ArrayPreload
49
AST-дерево программы

Поиск в ASTдереве подходящей конструкции
Block
Block
At
Block
Call
Arg
Target
Stmt
Stmt
...
...
...
50
1
Loop
Stmt

Поискчтения массива Array[T]в цикле
Block
Block
At
Block
Call
Arg
Target
Stmt
Stmt
...
...
...
51
1
2
Loop
Stmt

Поискчтения массива Array[T]в цикле
Трансформация AST дерева
Block
Block
At
Block
Call
Arg
Call
Stmt
Stmt
...
...
...
Decl
Arg
Target
52
1
2
3
Loop
Stmt

푻=푻풄풐풑풚푨[]×푵
for ... A(i)
for ... A(i)
A()={…}
푻=푻풄풐풑풚푨[]
for ... A'(i)
for ... A'(i)
A()={…}
A' = A
A' = A
A' = A
Область j
Область i
Область k
Область j
Область i
Область k
A
53
Block
Block
At
Block
Call
Arg
Call
Stmt
Stmt
...
...
...
Decl
Arg
Target
Loop
Stmt
AST-дерево

Организация экспериментов (алгоритмBlockReduce)
54
Конфигурация подсистемы
Кластер А: 16 узлов 2 x IntelXeonE5420 2.5 GHz(8 процессорных ядер на узел), 25 GiB, сетьGigabit Ethernet
Кластер B: 6 узлов 2 x IntelXeonE5620 2.4 GHz(8 процессорных ядер на узел), 8 GiB, сеть InfiniBandQDR
Описание тестовых программ
Синтетический тест: 푅=100операций редукции
Размер массива 퐷=4000,8000,…,20000элементов
Chapel-программа PTRANS–транспонирование распределённых матриц
Chapel-программа miniMD–молекулярная динамика

55
Результаты экспериментов(алгоритмBlockReduce)
R= 100операций редукции массива A[1:D], 4узла кластера Jet
t, c
D
BlockReduce
DefReduce

56
R= 100операций редукции массива A[1:D], 8узлов кластера Jet
t, c
D
BlockReduce
DefReduce

Программа miniMD, Nузлов кластера Jet
57
t, c
N
BlockReduce
DefReduce

58
Программа PTRANS, Nузлов кластера Jet
t, c
N
BlockReduce
DefReduce

Организация экспериментов(алгоритм ArrayPreload)
59
Конфигурация подсистемы
Кластер А: 16 узлов 2 x IntelXeonE5420 2.5 GHz(8 процессорных ядер на узел), 25 GiB, сетьGigabit Ethernet
КластерB: 6 узлов 2 x IntelXeonE5620 2.4 GHz(8 процессорных ядер на узел), 8 GiB, сеть InfiniBandQDR
Описание тестовой программы
Тест циклического (Round-robin) обращения к массиву
Размер массива D{40000, 4000, 400, 40}элементов
Количество обращений к массиву R{40000, 4000, 400, 40}
Массив Array[Long]
Условия запуска
Количество потоков на один узел: 8
C++ Backend

60
Результаты экспериментов. Алгоритм Scalar replacement
Кластер А, Сеть Gigabit Ethernet
s
N
D= 40000, R= 40000
D= 40000, R= 4000
D= 40000, R= 4000
D= 40000, R= 40

61
Результаты экспериментов. Алгоритм ArrayPreload
Кластер А, Сеть Gigabit Ethernet
s
N
D= 40000, R= 40000
D= 40000, R= 4000
D= 40000, R= 4000
D= 40000, R= 40

62
Кластер В, Сеть InfinibandQDR
s
N
D= 40000, R= 40000
D= 40000, R= 4000
D= 40000, R= 4000
D= 40000, R= 40

63
Кластер В, Сеть InfinibandQDR
s
N
D= 40000, R= 40000
D= 4000, R= 40000
D= 400, R= 40000
D= 40, R= 40000

64
Предложены алгоритмы BlockReduceи ArrayPreloadоптимизации информационных обменов в параллельных PGAS-программах. Алгоритмы реализован для языков Cray Chapelи IBM X10.
Алгоритм BlockReduceобеспечивает сокращение времени выполнения операции редукции на 5-10% для массивов большого размера (D> 10000).
Алгоритм ArrayPreloadпредварительного копирования элементов удалённых массивов позволяет сократить время выполнения циклического доступа в среднем от 2 до 80 раз.
ArrayPreloadэффективен для программ, выполняющих обращение к массивам большого размера (D> 5000)в циклах с большим числом итераций(R> 500).
Результаты

65
Разработка алгоритмов реализации коллективных операций в PGAS-языках с учётом типа распределения элементов массива между узлами.
Создание алгоритмов оптимизации доступа к удалённым массивам по результатам предварительного профилирования PGAS-программ (profile guided optimization).
Развитие эвристических алгоритмов предварительного распределения данных по узлам распределённой ВС.
Применение алгоритмов компиляторной оптимизации для разрешения проблем согласованности памяти при выполнении операций с распределёнными массивами.
Разработка алгоритмов кэширования для PGAS-программ.
Направления дальнейших исследований

Спасибо за внимание!
Пазников А.А.apaznikov@gmail.com
https://bitbucket.org/apaznikov/chapel
Кулагин И.И.ivan.i.kulagin@gmail.com
КурносовМ.Г. mkurnosov@gmail.com

68
Алгоритм редукции BlockReduce(I этап)
Входныеданные:
A[1:D] –распределённый массив,
–ассоциативная операция редукции.
Выходные данные:
r–результатпримененияредукциидляA.
1
coforalliin[1,2,…,N] do // N–число узлов
2
oni
3
SPLITDOMAIN(Ai, n) // Разбиение на n блоков
4
//по числу процессорных ядер
5
coforalltin[1,2, …,n] do
6
foreachx inAitdo
7
rit= ritx
8
foreachtin[1,2…,n] do
9
ri= ririt

69
1
2
oni
3
4
5
6
foreachx inAitdo
7
rit= ritx
8
9
ri= ririt

70
1
2
oni
3
4
5
6
foreachx inAitdo
7
rit= ritx
8
9
ri= ririt

71
1
2
oni
3
4
5
6
foreachx inAitdo
7
rit= ritx
8
9
ri= ririt

72
1
2
oni
3
4
5
6
foreachx inAitdo
7
rit= ritx
8
9
ri= ririt

73
1
2
oni
3
4
5
6
foreachx inAitdo
7
rit= ritx
8
9
ri= ririt

74
…
9
while N> 1 do
10
while i+1<Ndo
11
begin
12
onri
13
ri= riri+1
14
i= i+ 2
15
BARRIER([1, 2, …, N]) // Барьерная синхронизация потоков
16
REFRESH(N) // Обновление числа NВУ
17
returnr

75
…
9
while N> 1 do
10
while i+1<Ndo
11
begin
12
onri
13
ri= riri+1
14
i= i+ 2
15
16
17
returnr

76
…
9
while N> 1 do
10
while i+1<Ndo
11
begin
12
onri
13
ri= riri+1
14
i= i+ 2
15
16
17
returnr

77
…
9
while N> 1 do
10
while i+1<Ndo
11
begin
12
onri
13
ri= riri+1
14
i= i+ 2
15
16
17
returnr

78
Определение распределённых массивов в IBM X10
valA:DistArray[Long] =
DistArray.make[Long](Dist.makeUnique(),
(p: Point) => {here.id});
Потоки
Потоки
Потоки
…
A1
A2
AN
A:

Кулагин И.И., Пазников А.А., Курносов М.Г. Оптимизация информационных обменов в параллельных PGAS-программах

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Кулагин И.И., Пазников А.А., Курносов М.Г. Оптимизация информационных обменов в параллельных PGAS-программах

Similar to Кулагин И.И., Пазников А.А., Курносов М.Г. Оптимизация информационных обменов в параллельных PGAS-программах (20)

More from Alexey Paznikov

More from Alexey Paznikov (13)

Кулагин И.И., Пазников А.А., Курносов М.Г. Оптимизация информационных обменов в параллельных PGAS-программах