О.В.Сухорослов "Паралленльные вычисления"

03 Параллельные вычисления

О.В. Сухорослов

oleg.sukhoroslov@gmail.com

02.03.2011

О.В. Сухорослов () Параллельные вычисления
03 02.03.2011 1 / 89

План лекции

Введение
Параллельные вычислительные системы
Теоретические основы параллельных вычислений
Принципы разработки параллельных алгоритмов

03 02.03.2011 2 / 89

Параллельные вычисления
Использование нескольких процессоров для
Решения задачи за меньшее время
Решения бОльших задач, чем на одном процессоре

03 02.03.2011 3 / 89


Создание параллельного алгоритма
Поиск параллелизма в последовательном алгоритме,
модификация или создание нового алгоритма
Декомпозиция задачи на подзадачи,
которые могут выполняться одновременно
Определение подзадач и зависимостей между ними

03 02.03.2011 3 / 89


Создание параллельного алгоритма
Поиск параллелизма в последовательном алгоритме,
модификация или создание нового алгоритма
Декомпозиция задачи на подзадачи,
которые могут выполняться одновременно
Определение подзадач и зависимостей между ними

Реализация параллельной программы
Распределение подзадач между процессорами
Организация взаимодействия процессов
Учет архитектуры целевой параллельной системы
Запуск, измерение и анализ показателей эффективности

03 02.03.2011 3 / 89

Многопроцессность (concurrency)
В операционных системах, серверах, GUI...
Данность: много разных процессов, асинхронность
Безопасное разделение и оптимальное использование ресурсов
между многими процессами
Акцент на пропускной способности и времени отклика

03 02.03.2011 4 / 89

Многопроцессность (concurrency)
В операционных системах, серверах, GUI...
Данность: много разных процессов, асинхронность
Безопасное разделение и оптимальное использование ресурсов
между многими процессами
Акцент на пропускной способности и времени отклика

В параллельных вычислениях
Процессы надо найти внутри алгоритма, параллелизм
Изоляция процессов друг от друга не так важна
Минимизация времени выполнения одной программы

03 02.03.2011 4 / 89

Режимы выполнения параллельной программы
Многозадачный режим
Режим разделения времени
Активен только один процесс

03 02.03.2011 5 / 89


Параллельное выполнение
Многопроцессорная система
Конвейерные и векторные устройства

03 02.03.2011 5 / 89


Параллельное выполнение
Многопроцессорная система
Конвейерные и векторные устройства

Распределенные вычисления
Несколько независимых машин
Влияние сети на скорость обмена данными

03 02.03.2011 5 / 89

Параллельные вычислительные системы

03 02.03.2011 6 / 89

Классификация вычислительных систем (Flynn)

Поток команд
одиночный множественный
одиночный

Singe Instruction, Multiple Instruction,
Single Data Single Data
Поток данных

(SISD) (MISD)
множественный

Singe Instruction, Multiple Instruction,
Multiple Data Multiple Data
(SIMD) (MIMD)

03 02.03.2011 7 / 89

Детализация категории MIMD

Системы с общей разделяемой памятью (мультипроцессоры)
Системы с распределенной памятью (мультикомпьютеры)
Гибридные системы

03 02.03.2011 8 / 89

Общая разделяемая память
Однородный доступ к памяти (UMA)
Симметричные мультипроцессоры (SMP)
Неоднородный доступ к памяти (NUMA)

03 02.03.2011 9 / 89

Преимущества
Привычная модель программирования
Высокая скорость обмена данными

03 02.03.2011 10 / 89

Привычная модель программирования
Высокая скорость обмена данными

Проблемы
Синхронизация при доступе к общим данным
Когерентность кэшей, ложное разделение
Масштабируемость
Эффективное использование памяти в NUMA

03 02.03.2011 10 / 89

Распределенная память

Процессоры (Cell)
Массивно-параллельные системы (MPP)
Кластеры
Network of workstations (NOW)
Grid

03 02.03.2011 11 / 89

Низкая стоимость
Высокая масштабируемость
Меньше проблем с синхронизацией
Декомпозиция на крупные подзадачи

03 02.03.2011 12 / 89

Низкая стоимость
Высокая масштабируемость
Меньше проблем с синхронизацией
Декомпозиция на крупные подзадачи

Проблемы
Необходимость использования сообщений
Высокие временные задержки и низкая пропускная способность
=> ограниченный круг задач, оптимизация распределения данных
и взаимодействий между процессорами
Неоднородность / Отказы узлов

03 02.03.2011 12 / 89

Гибридные системы

03 02.03.2011 13 / 89

Теоретические основы параллельных вычислений

Анализ внутренней структуры алгоритма и выявление
параллелизма
Модель параллельного алгоритма
Показатели качества параллельного алгоритма
Законы Амдала и Густафсона

03 02.03.2011 14 / 89

Анализ внутренней структуры алгоритма и выявление
параллелизма

03 02.03.2011 15 / 89

Представление алгоритма в виде графа

Ориентированный ациклический граф "операции – операнды"G(V,R)
V — вершины графа, соответствующие выполняемым операциям
алгоритма
R — дуги графа r(i,j), указывающие на то, что операция i
использует результат операции j

03 02.03.2011 16 / 89

Пример

03 02.03.2011 17 / 89

Граф примера

03 02.03.2011 18 / 89

Параллельная форма графа

03 02.03.2011 19 / 89

Редукция высоты дерева

03 02.03.2011 20 / 89

Цикл 1
1 for ( i =1; i < N ; i ++) {
2 for ( j =1; j < M ; j ++) {
3 A [ i ][ j ] = A [i -1][ j ] + A [ i ][ j ];
4 }
5 }

03 02.03.2011 21 / 89

Цикл 2
1 for ( i =1; i < N ; i ++) {
2 for ( j =1; j < M ; j ++) {
3 A [ i ][ j ] = A [i -1][ j ] + A [ i ][ j -1];
4 }
5 }

03 02.03.2011 22 / 89

Устранение зависимостей

1 i1 = 4;
2 i2 = 0;
3 for ( k = 1; k < N ; k ++) {
4 B [ i1 ++] = function1 (k ,q , r );
5 i2 += k ;
6 A [ i2 ] = function2 (k ,r , q );
7 }

03 02.03.2011 23 / 89

Устранение зависимостей

1 i1 = 4;
2 i2 = 0;
3 for ( k = 1; k < N ; k ++) {
4 B [ i1 ++] = function1 (k ,q , r );
5 i2 += k ;
6 A [ i2 ] = function2 (k ,r , q );
7 }

1 i1 = 4;
2 i2 = 0;
3 for ( k = 1; k < N ; k ++) {
4 B [ k +4] = function1 (k ,q , r );
5 i2 = ( k * k + k )/2;
6 A [ i2 ] = function2 (k ,r , q );
7 }

03 02.03.2011 23 / 89

Редукция

1 sum = 0;
2 max = c [0];
3 for ( i = 0; i < N ; i ++) {
4 sum += c [ i ];
5 max = ( c [ i ] > max ? c [ i ] : max );
6 }

03 02.03.2011 24 / 89

"Плохие"примеры

1 for ( i = 1; i < N ; i ++)
2 a [ i ] = a [i -1] + b [ i ];

03 02.03.2011 25 / 89

"Плохие"примеры

1 for ( i = 1; i < N ; i ++)
2 a [ i ] = a [i -1] + b [ i ];

1 for ( k = 5; k < N ; k ++) {
2 b [ k ] = DoSomething ( k );
3 a [ k ] = b [k -5] + MoreStuff ( k );
4 }

03 02.03.2011 25 / 89

Последний пример

1 wrap = a [0] * b [0];
2 for ( i = 1; i < N ; i ++) {
3 c [ i ] = wrap ;
4 wrap = a [ i ] * b [ i ];
5 d [ i ] = 2 * wrap ;
6 }

03 02.03.2011 26 / 89

Последний пример

1 wrap = a [0] * b [0];
2 for ( i = 1; i < N ; i ++) {
3 c [ i ] = wrap ;
4 wrap = a [ i ] * b [ i ];
5 d [ i ] = 2 * wrap ;
6 }

1 for ( i = 1; i < N ; i ++) {
2 wrap = a [i -1] * b [i -1];
3 c[i] = wrap ;
4 wrap = a [ i ] * b [ i ];
5 d[i] = 2 * wrap ;
6 }

03 02.03.2011 26 / 89


Модель параллельного алгоритма Ap (G , Hp ), выполняемого с
использованием p процессоров

03 02.03.2011 27 / 89



Расписание Hp = {(i, Pi , ti ) : i ∈ V }
i - операция
Pi - номер процессора, выполняющего операцию
ti - время начала выполнения операции

03 02.03.2011 27 / 89



Расписание Hp = {(i, Pi , ti ) : i ∈ V }
i - операция
Pi - номер процессора, выполняющего операцию
ti - время начала выполнения операции

Условия реализуемости расписания
∀i, j ∈ V : ti = tj ⇒ Pi = Pj
∀(i, j) ∈ R : tj >= ti + 1

03 02.03.2011 27 / 89

Упрощающие предположения

Время выполнения любой операции = 1
Передача данных между процессорами выполняется мгновенно

03 02.03.2011 28 / 89

Время выполнения последовательного алгоритма

Время выполнения для заданной вычислительной схемы
T1 (G ) = |V |

03 02.03.2011 29 / 89


T1 (G ) = |V |

T1 = min T1 (G )
G

03 02.03.2011 29 / 89


T1 (G ) = |V |

T1 = min T1 (G )
G

Время последовательного решения задачи
∗
T1 = min T1

03 02.03.2011 29 / 89

Время выполнения параллельного алгоритма

Время выполнения с заданным расписанием
Tp (G , Hp ) = max(ti + 1)
i∈V

03 02.03.2011 30 / 89


Tp (G , Hp ) = max(ti + 1)
i∈V

Время выполнения с оптимальным расписанием
Tp (G ) = min Tp (G , Hp )
Hp

03 02.03.2011 30 / 89


Tp (G , Hp ) = max(ti + 1)
i∈V

Hp

Время выполнения с наилучшей вычислительной схемой
Tp = min Tp (G )
G

03 02.03.2011 30 / 89


Tp (G , Hp ) = max(ti + 1)
i∈V

Hp

Время выполнения с наилучшей вычислительной схемой
Tp = min Tp (G )
G

Минимально возможное время выполнения (неограниченный
параллелизм)
T∞ = min Tp
p>=1
T∞ (G ) = d(G )
03 02.03.2011 30 / 89


Ускорение
∗
T1 (n)
Sp (n) =
Tp (n)

03 02.03.2011 31 / 89


Ускорение
∗
T1 (n)
Sp (n) =
Tp (n)

Эффективность
Sp (n) T1 (n)
Ep (n) = =
p pTp (n)

03 02.03.2011 31 / 89

Ускорение
S =p
Идеальный случай

03 02.03.2011 32 / 89

Ускорение
S =p

S <p
Последовательные части алгоритма
Накладные расходы
Координация

03 02.03.2011 32 / 89

Ускорение
S =p

S <p

S >p

03 02.03.2011 32 / 89

Ускорение
S =p

S <p

S > p ???

03 02.03.2011 32 / 89

Ускорение
S =p

S <p

S >p
Увеличение кэша и оперативной памяти
Нелинейная зависимость сложности решения задачи от объема
входных данных
Различные вычислительные схемы

03 02.03.2011 32 / 89

Ускорение vs Эффективность

Показатели качества параллельного алгоритма часто являются
противоречивыми

03 02.03.2011 33 / 89

Максимально достижимое ускорение (Закон Амдала)

Доля последовательных вычислений
Tseq
f =
T1

03 02.03.2011 34 / 89


Tseq
f =
T1

(1 − f )T1
Tp = fT1 +
p

03 02.03.2011 34 / 89


Tseq
f =
T1

(1 − f )T1
Tp = fT1 +
p

Ускорение
1
Sp =
f + 1−f
p

03 02.03.2011 34 / 89


Tseq
f =
T1

(1 − f )T1
Tp = fT1 +
p

Ускорение
1
Sp =
f + 1−f
p

Максимально достижимое ускорение
1
lim Sp =
p→∞ f
03 02.03.2011 34 / 89

Ускорение

03 02.03.2011 35 / 89

Эффективность

03 02.03.2011 36 / 89

"Последовательные"части программы?

03 02.03.2011 37 / 89


Инициализация и завершение работы

03 02.03.2011 37 / 89


Чтение входных данных и запись

03 02.03.2011 37 / 89


Синхронизация, критические секции

03 02.03.2011 37 / 89


Синхронизация, критические секции

Пул потоков обрабатывает независимые задания
Извлечение заданий из очереди
Обработка результатов
Запись результатов в общую структуру данных
Слияние результатов из локальных структур данных

03 02.03.2011 37 / 89

Что делать?

03 02.03.2011 38 / 89


Выбор более подходящего алгоритма

03 02.03.2011 38 / 89


Выбор более подходящего алгоритма

Увеличение размера решаемой задачи
Эффект Амдала
Умножение матриц (I/O ∼ N 2 , вычисления ∼ N 3 )

03 02.03.2011 38 / 89

Ускорение масштабирования
(Закон Густафсона-Барсиса)

Tseq
g= Tpar
Tseq + p

03 02.03.2011 39 / 89


Tseq
g= Tpar
Tseq + p

T1 = gTp + p(1 − g )Tp

03 02.03.2011 39 / 89


Tseq
g= Tpar
Tseq + p

T1 = gTp + p(1 − g )Tp

Sp = p + (1 − p)g

03 02.03.2011 39 / 89

Принципы разработки параллельных алгоритмов

03 02.03.2011 40 / 89

Прежде чем начать

Стоит ли задача усилий?

Оптимизирован ли код?

Используется ли эффективный алгоритм?

Какие части задачи наиболее интенсивны в вычислительном
отношении?

Есть ли там параллелизм?

Есть ли готовые параллельные реализации?

03 02.03.2011 41 / 89

Предисловие

Parallel algorithm design is not easily reduced to simple recipes.
Rather, it requires the sort of integrative thought that is
commonly referred to as "creativity". However, it can beneﬁt
from a methodical approach that maximizes the range of options
considered, that provides mechanisms for evaluating alternatives,
and that reduces the cost of backtracking from bad choices.

(Foster I. Designing and Building Parallel Programs: Concepts
and Tools for Software Engineering. Reading, MA:
Addison-Wesley, 1995.)

03 02.03.2011 42 / 89

Методология PCAM

03 02.03.2011 43 / 89

Этапы разработки параллельного алгоритма

Декомпозиция на подзадачи

Анализ зависимостей и организация взаимодействия между
подзадачами

(Выбор вычислительной системы)

Масштабирование подзадач


03 02.03.2011 44 / 89


Выявление возможностей для параллельного выполнения

Размер подзадач выбирается минимальным (максимально
возможное число подзадач)
Далее подзадачи могут быть укрупнены

Виды декомпозиции
По данным (domain decomposition)
Функциональная (functional decomposition)

Избегание дублирования вычислений и данных

03 02.03.2011 45 / 89

Выбор структуры алгоритма

Существуют типовые структуры параллельных алгоритмов 1

Декомпозиция
По заданиям
По данным
По потокам данных

Комбинация нескольких структур
Последовательность, иерархия, композиция

1
Mattson T., Sanders B., Massingill B. Patterns for Parallel Programming.
Addison-Wesley, 2004.
03 02.03.2011 46 / 89

Декомпозиция на задания

на задания

Линейная процедура Рекурсивная процедура

Task Divide and
Parallelism Conquer

03 02.03.2011 47 / 89

Task Parallelism
Многовариантный счет, Монте-Карло, рендеринг
Большое количество заданий, нет зависимостей (embarassingly
parallel)

Молекулярная динамика
Вычисление сил, действующих на атом ∼ O(n ∗ N), n << N
Требуется координация ∼ O(N)

Метод "ветвей и границ"(branch and bound)
Обход и разбиение множества решений в соответствии с
правилами отсева и ветвления
Динамическое порождение заданий
Не требуется выполнение всех заданий

03 02.03.2011 48 / 89

Divide and Conquer

на задания


Task Divide and
Parallelism Conquer

03 02.03.2011 49 / 89

Divide and Conquer

03 02.03.2011 50 / 89

Примеры
Сортировка
Mergesort

Линейная алгебра
Алгоритм Штрассена

Обработка сигналов
Быстрое преобразование Фурье

Задача N тел
Barnes-Hut, Fast Multipole

Вычислительная геометрия
Convex hull, nearest neighbor

03 02.03.2011 51 / 89

Особенности

Степень параллелизма изменяется в ходе выполнения алгоритма

Операции split и merge могут стать узким местом (см. закон
Амдала)

Задания порождаются динамически

Очень большое количество заданий может привести к
значительным накладным расходам

03 02.03.2011 52 / 89

Геометрическая декомпозиция

данных


Геометрическая Рекурсивные
декомпозиция данные

03 02.03.2011 53 / 89

Геометрическая декомпозиция

Алгоритм организован вокруг структуры данных, разбитой на
набор одновременно обновляемых областей

Подзадачами являются обновления отдельных областей
структуры данных

Вычисления локализованы внутри области?
Да: независимый параллелизм, см. Task Parallelism
Нет: требуется разделение данных между областями

03 02.03.2011 54 / 89

Примеры

Численное решение дифференциальных уравнений методом
конечных разностей

Умножение матриц

03 02.03.2011 55 / 89

Ключевые моменты
Декомпозиция структуры данных на области
Размер подзадач обычно подбирается эмпирически
Форма области влияет на накладные расходы
Соотношение объема к площади поверхности
Дублирование соседних точек (ghost copies)

Реализация обмена данными
Перед операцией обновления
Совмещенно с операцией обновления

03 02.03.2011 56 / 89

Рекурсивные данные

данных


Геометрическая Рекурсивные
декомпозиция данные

03 02.03.2011 57 / 89

Рекурсивные данные
Алгоритм работает с рекурсивной структурой данных (список,
дерево, граф)
Часто кажется, что единственный способ решения –
последовательный обход структуры
Однако иногда возможно перестроить алгоритм так, что операции
над отдельными элементами можно выполнять одновременно

03 02.03.2011 58 / 89

Конвейерная обработка

Поток
данных

Регулярный Нерегулярный

Конвейерная Координация
обработка на основе событий

03 02.03.2011 59 / 89

Конвейерная обработка

Вычисления производятся над набором элементов данных,
каждый из которых проходит несколько стадий обработки

Регулярный, односторонний, стабильный поток данных

Примеры
Конвейерная обработка команд процессором
Векторно-конвейерные супекомпьютеры
Обработка сигналов, фильтры, графика, реализация в железе
Unix pipes

03 02.03.2011 60 / 89

Конвейерный параллелизм

03 02.03.2011 61 / 89

Подзадачи

Применение операции "стадия N"к каждому элементу данных

1 initialize
2 while ( more data ) {
3 receive data element from previous stage
4 perform operation on data element
5 send data element to next stage
6 } finalize

Ограничения на порядок применения стадий определяют
зависимости между заданиями

03 02.03.2011 62 / 89


Параллелизм ограничен числом стадий

В идеале времена работы каждой стадии должны быть
одинаковыми
Самая медленная стадия становится узким местом
Комбинирование и декомпозиция стадий
Распараллеливание медленной стадии

Работает лучше, если времена заполнения и опустошения
конвейера гораздо меньше полного времени работы

03 02.03.2011 63 / 89

Координация на основе событий

Поток
данных

Регулярный Нерегулярный

Конвейерная Координация
обработка на основе событий

03 02.03.2011 64 / 89

Координация на основе событий

Декомпозиция на слабозависимые компоненты,
взаимодействующие нерегулярным образом

Ср. с конвейером
Не обязательно линейная структура
Двусторонние потоки данных
Нерегулярные, непредсказуемые взаимодействия

Примеры
Моделирование с дискретными событиями
Координация между заданиями в других шаблонах
Actors, распределенные системы...

03 02.03.2011 65 / 89

Задания

Прием, обработка и отправка событий для отдельного компонента

1 initialize
2 while ( not done ){
3 receive event
4 process event
5 send events
6 } finalize

Задания взаимодействуют через генерацию, отправку и обработку
событий

03 02.03.2011 66 / 89


Сохранение порядка событий

Высокий риск возникновения взаимной блокировки

Нерегулярность усложняет распределение заданий по
исполнителям

03 02.03.2011 67 / 89

Этапы разработки параллельного алгоритма


Анализ зависимостей и организация взаимодействия между
подзадачами

(Выбор вычислительной системы)



03 02.03.2011 68 / 89


Контрольные вопросы
Превосходит ли количество подзадач число процессоров в
целевой системе как минимум на порядок?
Не приводит ли декомпозиция к дублированию вычислений и
увеличению требований к хранению данных?
Имеют ли подзадачи сопоставимый размер?
Увеличивается ли количество подзадач с ростом размера задачи?
Определено ли несколько альтернативных схем декомпозиции?

03 02.03.2011 69 / 89

Организация взаимодействия между подзадачами

Выделение информационных зависимостей между подзадачами
=> операции взаимодействия

Граф «подзадачи-каналы-сообщения»

Минимизация числа каналов и операций взаимодействия

Распределение операций взаимодействий между процессами, с
возможностью их параллельного выполнения

03 02.03.2011 70 / 89

Виды взаимодействий

Локальные и глобальные

Структурированные и неструктурированные

Статические и динамические

Синхронные и асинхронные

03 02.03.2011 71 / 89

Локальные взаимодействия
Методы конечных разностей
Гаусс-Якоби
Гаусс-Зейдель
Хаотическая релаксация
Red-Black

03 02.03.2011 72 / 89

Глобальные взаимодействия
Редукция
Централизованное решение
Распределенное решение
Divide and Conquer

03 02.03.2011 73 / 89

Организация взаимодействия между подзадачами

Является ли одинаковой интенсивность взаимодействий для всех
подзадач?
Взаимодействует ли каждая подзадача только с небольшим
числом «соседей» (локальность)?
Могут ли операции взаимодействия выполняться одновременно?
Не препятствует ли выбранная схема взаимодействия
параллельному выполнению подзадач?

03 02.03.2011 74 / 89

Выбор вычислительной системы
Соблюдение баланса между
Абстрактностью и переносимостью алгоритма
Эффективностью для целевой платформы

На ранних стадиях разработки параллельного алгоритма лучше
избегать тесной привязки к конкретной платформе
Алгоритм хорошо работает на целевой платформе
Алгоритм достаточно гибок для того, чтобы его можно было
адаптировать под другие платформы и архитектуры

03 02.03.2011 75 / 89

Выбор вычислительной системы
Количество процессоров P
Можно подобрать P одинаковых подзадач
Можно подобрать N >> P подзадач

Обмен данными между процессорами
Большой объем общих данных или интенсивные обмены данными
=> общая память, SMP
Группировка подзадач по процессорам

Соотношение между временами вычислений и обмена данными
(синхронизации)
Зависит от размера подзадачи и характеристик платформы

03 02.03.2011 76 / 89

Адаптация алгоритма для эффективного выполнения на целевой
системе
Учет доступного количества процессоров
Уменьшение накладных расходов на взаимодействие, создание
подзадач...

Укрупнение (агломерация) подзадач
Какое количество подзадач выбрать?

Репликация данных и вычислений

03 02.03.2011 77 / 89


03 02.03.2011 78 / 89


03 02.03.2011 79 / 89

Пример

Суммирование N чисел
Вычисленная сумма должна оказаться на каждой подзадаче
(процессе)

03 02.03.2011 80 / 89

Гибкость

Отсутствие ограничений на количество подзадач

Возможность легко увеличивать и уменьшать количество
подзадач

Возможность автоматически изменять число подзадач в
зависимости от количества процессоров

03 02.03.2011 81 / 89


Уменьшились ли расходы на взаимодействия в результате
увеличения локальности вычислений?
Перевешивают ли преимущества от дублирования вычислений
дополнительные расходы? (для задач разного размера и разного
кол-ва процессоров)
Не ограничивает ли дублирование данных масштабируемость
алгоритма?
Имеют ли полученные подзадачи одинаковую вычислительную и
коммуникационную сложность?
Масштабируется ли по-прежнему количество подзадач с ростом
размера задачи?
Достаточно ли имеющегося в алгоритме параллелизма для
текущей и будущих систем?
Может ли количество подзадач быть далее уменьшено без
нежелательных последствий?
03 02.03.2011 82 / 89

Признаки хорошего алгоритма

Возможность варьировать число и размер подзадач =>
параметризация подзадач

Подзадачи должны быть достаточно крупными, чтобы
компенсировать накладные расходы

Подзадачи должны быть достаточно независимыми, чтобы
координация не стала узким местом

Время обработки подзадач должно быть примерно одинаковым
для лучшей балансировки нагрузки

03 02.03.2011 83 / 89


Минимизация времени выполнения алгоритма

Размещение подзадач, которые могут выполняться одновременно,
на разных процессорах

Размещение подзадач, которые часто взаимодействуют, на одном
процессоре

Равномерная загрузка процессоров

NP-полная задача
Стратегии и эвристики

03 02.03.2011 84 / 89

Статическое планирование (тривиальное)

Подзадачи одинакового размера
Фиксированное число подзадач
Структурированные локальные и глобальные взаимодействия

Фиксированное число процессоров
Однородная система
Гетерогенная система

03 02.03.2011 85 / 89

Балансировка нагрузки

03 02.03.2011 86 / 89

Статическое планирование с балансировкой нагрузки

Подзадачи различного размера
Неструктурированные взаимодействия

Число подзадач >> числа процессоров
Случайное распределение
Циклическая схема

03 02.03.2011 87 / 89

Динамическое планирование с балансировкой нагрузки
Динамически изменяются во время выполнения алгоритма
Число подзадач
Вычислительная и коммуникационная сложность подзадач
Состав процессоров

Типичные стратегии
Общая очередь заданий (master-worker)
Децентрализованная схема (work stealing)
Миграция вычислений

03 02.03.2011 88 / 89


Существует ли необходимость динамической балансировки
вычислений?
Не станет ли мастер узким местом при централизованной схеме
балансировки нагрузки?
Произведена ли оценка относительной сложности различных
стратегий при динамической балансировке нагрузки?
Имеется ли достаточно большое число подзадач при
использовании случайной или циклической схем статической
балансировки?

03 02.03.2011 89 / 89

О.В.Сухорослов "Паралленльные вычисления"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

Similar to О.В.Сухорослов "Паралленльные вычисления"

Similar to О.В.Сухорослов "Паралленльные вычисления" (17)

More from Yandex

More from Yandex (20)

О.В.Сухорослов "Паралленльные вычисления"