Распределенные мультикластерные вычислительные системы и параллельное мультипрограммирование

Распределенные мультикластерные
вычислительные системы и параллельное
мультипрограммирование
Курносов Михаил Георгиевич1, 2
mkurnosov@gmail.com
1 Институт физики полупроводников им. А.В. Ржанова СО РАН,
Новосибирск, Россия
2 Сибирский государственный университет телекоммуникаций и информатики,
Новосибирск, Россия
Объединенный семинар Лаборатории вычислительных систем
и Лаборатории неравновесных полупроводниковых систем ИФП СО РАН
Новосибирск, 2 ноября 2012 г.

Направления работ научной школы
Курносов М.Г. Параллельное мультипрограммирование 2Семинар ИФП СО РАН, Новосибирск, 2 ноября 2012 г.
Архитектура распределённых вычислительных систем (ВС)
o теория структур ВС (коммуникационных сетей)
Надежность и живучесть ВС
o потенциальная и структурная живучесть ВС
o самоконтроль, самодиагностика и восстановление ВС
o отказоустойчивое выполнение параллельных программ
Организация функционирования ВС
o мультипрограммный режим
o монопрограммный режим
Проектирование и конфигурирование вычислительных
и GRID-систем
Системное программное обеспечение ВС

Мультиархитектура современных ВС
№ Название
системы
Производи-
тельность,
GFLOPS
Количество
ядер
CPU / GPU
Вычислительный
узел
Энергопотреб-
ление,
kW
Сеть
1 Sequoia
IBM
BlueGene/Q
20 132 659 1 572 864 / 0 16-core
Power BQC 16C
1.600 GHz
7 890 5D-тор
2 K computer
Fujitsu
11 280 384 705 024 / 0 8-core
SPARC64 VIIIfx
12 660 6D-тор
3 Mira
IBM
BlueGene/Q
10 066 330 786 432 / 0 16-core
Power BQC 16C
1.600 GHz
3 945 5D-тор
4 SuperMUC
IBM
iDataPlex
3 185 050 147 456 / 0 8-core
Intel Xeon E5 2680
2.700 GHz
3 423 Fat tree
(IB)
5 Tianhe-1A
NUDT YH
MPP
4 701 000 86 016 /
100 352
2 x Intel Xeon
X5670,
NVidia M2050
4 040 Fat tree
Top500 (июнь 2012, www.top500.org)

Параллельное мультипрограммирование
Поток параллельных задач
– единичный ранг
Вычислительная
система
Распределенная
операционная
система
Монозадачный режим
Вложение программ в ВС,
коллективные обменыМультизадачные режимы
Обслуживание потоков задач
Генерация подсистем в пределах ВС
• Техника теории игр
• Стохастическое программирование
Обработка наборов задач
Формирование расписаний решения
параллельных задач
Точные, эвристические и стохастические
методы и алгоритмы
Процессоры

Вложение параллельных программ в ВС
Вложение High Performance Linpack
в подсистему:
стандартными MPI-утилитами –
время выполнения 118 сек. (44 GFLOPS)
разработанными средствами –
время выполнения 100 сек. (53 GFLOPS)
High Performance Linpack (HPL)
Иерархическая ВС:
2 узла по 2 Intel Xeon 5150
Сеть связи Gigabit Ethernet
Общая память
Ядро Ядро
Кэш L2
Процессор
Ядро Ядро
Кэш L2
Процессор
Общая память
Ядро Ядро
Кэш L2
Процессор
Ядро Ядро
Кэш L2
Процессор
Граф
программы

Вложение параллельных программ в ВС
Метод вложения на основе многоуровневых (multilevel) алгоритмов разбиения
графов G = (V, E) параллельных программ
1. Граф G разбивается на k подмножеств; k – количество узлов, составляющих ВС. В каждое
из подмножеств включаются ветви, интенсивно обменивающиеся данными.
2. Параллельные ветви из i-го подмножества распределяются по ядрам i-го вычислительного
узла, ݅ ∈ ሼ1, 2, . . , ݇ሽ.
Разделяемая память
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
V1 V2 V3 V4
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
Ядро
Процессор
Ядро Ядро
Процессор
Ядро
13
14
15
16
1
2
3
4
5
6
7
8
9
10
11
12
V1 V2 V3 V4
Вложение MPI-программы Conjugate Gradient (CG) из пакета NAS Parallel Benchmarks,
реализующей решение системы линейных алгебраических уравнений методом
сопряженных градиентов в вычислительный кластер
Время выполнения
уменьшено в 2,3 раза
TopoMPI
MPIGridMap

Формирование расписаний решения задач
Масштабируемая задача (Moldable job) – параллельная задача,
допускающая решение на подсистемах с различным количеством
элементарных машин.
Свойством масштабируемости обладают более 80% задач, решаемых на
вычислительных системах (Cirne W., Berman F., 2001)
Задача
с фиксированными
параметрами
(t, r)
Задача
Времяtрешения
Ранг r
Масштабируемая задача
(с нефиксированными параметрами)
((t1, r1, w1), (t2, r2, w2), …, (tq, rq, wq))
Вариант 1
Времяt1решения
Ранг r1
Приоритет w1
Вариант 2Времяt2решения
Ранг r2
Приоритет w2
Вариант q
Времяtqрешения
Ранг rq
Приоритет wq

при ограничениях:
min ( ),
S
T S
∈Ω
Найти расписание S такое, что:
min ( ),
S
F S
∈Ω
( )
, 0,ik
i
i t
r N t
∈Ξ
≤ ∀ ≥∑
{1,2,..., }, {1,2,..., },i ik q i L∈ ∈
0, {1,2,..., }.is i L≥ ∈
1
1,
1
,
max
i
i
kL
i
k
i i
k q
w
e
L w=
=
≥∑
(1)
(2)
(3)
(4)
( )tΞ – множество номеров задач, решаемых в момент времени t;
1
( )
L
i i
i
F S s c
=
= ∑
1,
( ) max{ }ik
i i
i L
T S s t
=
= + – время решения задач набора
– штраф за задержку
решения задач

Разработаны стохастические алгоритмы формирования
субоптимальных расписаний решения на распределенных ВС
масштабируемых задач
MAUI
Генератор
наборов задач
Модуль анализа
эффективности
алгоритмов
Описание ВС
Модуль формирования
расписаний
Алгоритм
GA
Алгоритм
GA2
Алгоритм
GAC
Алгоритм
GAC2
Интерфейс с системами пакетной обработки заданий
TORQUE
Модуль
визуализации
расписаний
Отклонение суммарного времени решения задач от нижней границы
целевой функции T(S) составляет 15 – 25 %.
Программный пакет
MOJOS

Организация живучего функционирования ВС
[1] Sinisa Nikolic. High Performance Computing Directions: The Drive
to ExaScale Computing // Parallel computational Technologies, 2012
Отказы вычислительных ресурсов
В вычислительной системе из 106 узлов
отказы будут происходить каждые 5 мин.
(при безотказной работы узла 10 лет) [1]
Средств (само)контроля и (само)диагностики
Инструментарий отказоустойчивого выполнения
параллельных программ

Отказоустойчивое выполнение программ
КТ2 КТ3
t, c
S, Гб
В процессе выполнения параллельной
программы её состояние сохраняется
в контрольную точку (КТ)
Размер каждой КТ достигает сотен мегабайт
Критически важным является время записи
контрольной точки на носитель информации
Разработаны алгоритмы дельта-сжатия
контрольных точек восстановления
параллельных программ
Алгоритмы реализованы в пакете
HBICT – Hash Based Incremental
Checkpointing Tool
КТ1
...
...
......
...
...

Оптимизация контрольных точек восстановления
Дельта-сжатие контрольных точек восстановления
NAS Parallel Benchmark – Conjugate Gradient (CG)
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
V, ГБ
t, c
0
40
80
120
160
200
240
280
320
360
400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
τ, с
t, c
BLCR DMTCP+GZIP HBICT

Анализ функционирования распределенных ВС
Стохастическая модель функционирования
распределенных ВС со структурной избыточностью
Распределение вероятностей состояния системы {P0(i, t), P1(i, t), …, PN(i, t)}
Pj(i, t) – вероятность того, что в системе, начавшей функционировать в состоянии
i ∈ {0, 1, …, N}, в момент времени t ≥ 0 будет j исправных машин

Анализ функционирования распределенных ВС
Составляются дифференциальные уравнения для вероятностей
Pj(i, t) состояний ВС с учетом подмножества поглощающих состояний
Задаются начальные условия
Система дифференциальных уравнений с помощью преобразования
Лапласа сводится к алгебраической
По правилу Крамера определяется решение алгебраической
системы уравнений, причем решение выражается через полиномы,
вычисляемые рекуррентно
После обращения преобразования Лапласа выписываются формулы
для Pj(i, t) – аналитическое решение
Функция
готовности:
ࡿ ࢚ ൌ ෍ ࡼ࢐ሺ࢏, ࢚ሻ
ࡺ
࢐ୀ࢔
Мат. ожидание числа
исправных машин:
घ ࢏, ࢚ ൌ ෍ ࢐ࡼ࢐ሺ࢏, ࢚ሻ
ࡺ
࢐ୀ૙
Классический подход

Потенциальная живучесть ВС
Распределенная ВС, N ЭМ
Реконфигуратор
L(i,t)L(i,t)L(i,t)L(i,t)
Свободные ВУ
m - M(i,t)m - M(i,t)m - M(i,t)m - M(i,t)
Занятые ВУ
M (i,t)M (i,t)M (i,t)M (i,t)
Восстанавливающие устройства, m ВУ
Отказавшие ЭМ
''νλ'ν
µ
Работоспособные ЭМ
K (i,t)K (i,t)K (i,t)K (i,t) N (i,t)N (i,t)N (i,t)N (i,t)
Резервные
ЭМ
m – число восстанавливающих устройств (ВУ)
λ – интенсивность отказов ЭМ
– интенсивность восстановления ЭМ
одним ВУ
µ
– среднее число ЭМ, учитываемых
реконфигуратором
– число работоспособных ЭМ
в начальный момент времени (t = 0)
i
( , )i tN – среднее число работоспособных ЭМ,
0,t ≥ ( , 0)i i=N
( , )i tM – среднее число занятых ВУ
( , )i tL
( , ) ( , ) ( , )i t N i t i t= − −K N L
N – число элементарных машин (ЭМ)
Континуальный подход
( ) ( )
( , ) ,
N i N i t
i t e
µ λ µ λ µ
λ µ λ µ
− − − +
= +
+ +
N ( , ) ( , ),i t N i t= −M N

Мультикластерная вычислительная система
Кластер H
460 GFLOPS
(Intel Xeon 5620,
InfiniBand QDR)
Кластер F (Jet)
144 ядра
1.44 TFLOPS
(Intel Xeon 5420,
Gigabit Ethernet)

Программное обеспечение мультикластерной ВС
Операционная система GNU/Linux
Подсистема самоконтроля, самодиагностики ВС и организации
отказоустойчивого выполнения параллельных программ
(HBICT – Hash Based Incremental Checkpointing Tool)
Удаленныйдоступимониторинг
(SSH,GlobusToolkit;Ganglia)
Подсистема параллельного мультипрограммирования
(MOJOS, TORQUE, MAUI, mpiexec)
Средства организации распределенной очереди задач
(GBroker, GridWay)
Средства разработки параллельных программ
• MPI: MPICH2/MVAPICH2, Open MPI , TopoMPI, MPIGridMap
• PGAS: Cray Chapel, IBM X10
• OpenMP: GNU Compilers, Intel Compilers,
• Cредств анализа производительности: MPIPerf, mpistat, VampirTrace
Подсистема параллельного мультипрограммирования
Разрабатываемые в ИФП СО РАН и ЦПВТ ФГОБУ ВПО “СибГУТИ” компоненты

Спасибо за внимание!

Распределенные мультикластерные вычислительные системы и параллельное мультипрограммирование

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Распределенные мультикластерные вычислительные системы и параллельное мультипрограммирование

Similar to Распределенные мультикластерные вычислительные системы и параллельное мультипрограммирование (20)

More from Mikhail Kurnosov

More from Mikhail Kurnosov (20)

Распределенные мультикластерные вычислительные системы и параллельное мультипрограммирование