Рассмотрим для первоначального ознакомления со способами построения и анализа параллельных методов вычислений сравнительно простую задачу нахождения частных сумм последовательности числовых значений
,
где есть количество суммируемых значений (данная задача известна также под названием prefix sum problem – см. п. 3.3).
Изучение возможных параллельных методов решения данной задачи начнем с еще более простого варианта ее постановки – с задачи вычисления общей суммы имеющегося набора значений (в таком виде задача суммирования является частным случаем общей задачи редукции – см. п. 3.3.)
.
Последовательный алгоритм суммирования
Традиционный алгоритм для решения этой задачи состоит в последовательном суммировании элементов числового набора
Вычислительная схема данного алгоритма может быть представлена следующим образом (см. рис. 4.1):
,
где есть множество операций суммирования (вершины обозначают операции ввода, каждая вершина , , соответствует прибавлению значения к накапливаемой сумме ), а
есть множество дуг, определяющих информационные зависимости операций.
Рис. 4.1. Последовательная вычислительная схема алгоритма суммирования
Как можно заметить, данный "стандартный" алгоритм суммирования допускает только строго последовательное исполнение и не может быть распараллелен.
Каскадная схема суммирования
Параллелизм алгоритма суммирования становится возможным только при ином способе построения процесса вычислений, основанном на использовании ассоциативности операции сложения. Получаемый новый вариант суммирования (известный в литературе как каскадная схема) состоит в следующем (см. рис. 4.2):
- на первой итерации каскадной схемы все исходные данные разбиваются на пары и для каждой пары вычисляется сумма значений,
- далее все полученные суммы пар также разбиваются на пары и снова выполняется суммирование значений пар и т.д.
Данная вычислительная схема может быть определена как граф (пусть )
,
Рис. 4.2. Каскадная схема алгоритма суммирования
где есть вершины графа ( - операции ввода, - операции первой итерации и т.д.), а множество дуг графа определяется соотношениями:
.
Как можно оценить, количество итераций каскадной схемы оказывается равным величине
,
а общее количество операций суммирования
совпадает с количеством операций последовательного варианта алгоритма суммирования. При параллельном исполнении отдельных итераций каскадной схемы общее количество параллельных операций суммирования является равным
.
Как результат, можно оценить показатели ускорения и эффективности каскадной схемы алгоритма суммирования
где есть необходимое для выполнения каскадной схемы количество процессоров.
Анализируя полученные характеристики, можно отметить, что время параллельного выполнения каскадной схемы совпадает с оценкой для паракомпьютера в теореме 2 (см. раздел 2). Однако при этом эффективность использования процессоров уменьшается при увеличении количества суммируемых значений
.
Модифицированная каскадная схема
Получение асимптотически ненулевой эффективности может быть обеспечено, например, при использовании модифицированной каскадной схемы [18]. В новом варианте каскадной схемы все проводимые вычисления подразделяется на два последовательно выполняемых этапа суммирования (см. рис. 4.3):
- на первом этапе вычислений все суммируемые значения подразделяются на групп, в каждой из которых содержится элементов; далее для каждой группы вычисляется сумма значений при помощи последовательного алгоритма суммирования; вычисления в каждой группе могут выполняться независимо друг от друга (т.е. параллельно – для этого необходимо наличие не менее процессоров);
- на втором этапе для полученных сумм отдельных групп применяется обычная каскадная схема.
Рис. 4.3. Модифицированная каскадная схема суммирования
Для упрощения построения оценок можно предположить . Тогда для выполнения первого этапа требуется выполнение параллельных операций при использовании процессоров. Для выполнения второго этапа необходимо
параллельных операций для процессоров. Как результат, данный способ суммирования характеризуется следующими показателями:
, .
С учетом полученных оценок показатели ускорения и эффективности модифицированной каскадной схемы определяются соотношениями:
Сравнивая данные оценки с показателями обычной каскадной схемы, можно отметить, что ускорение для предложенного параллельного алгоритма уменьшилось в 2 раза (по сравнению с обычной каскадной схемой), однако для эффективности нового метода суммирования можно получить асимптотически ненулевую оценку снизу
.
Можно отметить также, что данные значения показателей достигаются при количестве процессоров, определенном в теореме 5 (см. раздел 2).
Вычисление всех частных сумм
Вернемся к исходной задаче вычисления всех частных сумм последовательности значений и проведем анализ возможных способов последовательной и параллельной организации вычислений. Вычисление всех частных сумм на скалярном компьютере может быть получено при помощи того же самого обычного последовательного алгоритма суммирования при том же количестве операций (!)
.
При параллельном исполнении применение каскадной схемы в явном виде не приводит к желаемым результатам; достижение эффективного распараллеливания требует привлечения новых подходов (может даже не имеющих аналогов при последовательном программировании) для разработки новых параллельно-ориентированных алгоритмов решения задач. Так, для рассматриваемой задачи нахождения всех частных сумм алгоритм, обеспечивающий получение результатов за параллельных операций (как и в случае вычисления общей суммы), может состоять в следующем (см. рис. 4.4) [18]:
- перед началом вычислений создается копия вектора суммируемых значений ();
- далее на каждой итерации суммирования , формируется вспомогательный вектор путем сдвига вправо вектора на позиций (освобождающие при сдвиге позиции слева устанавливаются в нулевые значения); итерация алгоритма завершается параллельной операцией суммирования векторов и :
.
Рис. 4.4. Схема параллельного алгоритма вычисления всех частных сумм (величины означают суммы значений от до элементов числовой последовательности)
Всего параллельный алгоритм выполняется за параллельных операций сложения. На каждой итерации алгоритма параллельно выполняются скалярных операций сложения и, таким образом, общее количество выполняемых скалярных операций определяется величиной
(параллельный алгоритм содержит большее (!) количество операций по сравнению с последовательным способом суммирования). Необходимое количество процессоров определяется количеством суммируемых значений ().
С учетом полученных соотношений, показатели ускорения и эффективности параллельного алгоритма вычисления всех частных сумм оцениваются следующим образом:
.
Как следует из построенных оценок, эффективность алгоритма также уменьшается при увеличении числа суммируемых значений и при необходимости повышения величины этого показателя может оказаться полезной модификация алгоритма как и в случае с обычной каскадной схемой.