АЛ-31 для СУ-27 Двигатель для «Сухой
«Суперджет»
15 лет 6 лет
50 опытных образцов 8 тестовых образцов
3.5 млрд долларов 600 млн евро
Большинство суперкомпьютеров
(список top500.org) – гетерогенные среды.
CPU : GPU = 1 : n (n = 1, 2, 3,…)
Cray Titan
29 октября 2012
18 688 AMD Opteron (16 ядер в каждом)
18688 Tesla K20X
9 МВт, 404 кв. м
20 петафлопс (1015) – 1 место
Архитектура GPU. Технологии GPGPU.
Кизько Б. А.,
5085/2, ИИТ, ФГБОУ ВПО СПбГПУ
26.03.2013
GPU
Построение в реальном времени изображений по
описанию трехмерных сцен
GPU
Быстрая однородная обработка большого
количества элементов
Аппаратная реализация основных алгоритмов
Графический процессор изначально создавался
как многоядерная структура (сотни ядер).
GPU
CPU vs GPU
Гораздо больше транзисторов GPU
отведено на обработку данных,
а не на управление исполнением
(т.н. Flow control)
GPU
Cg, GLSL, HLSL
GPU
General-Purpose Computing
on Graphics Processing Unit
NVIDIA Compute Unified Device
Architecture
Intel Core i5 – 110 Гфлопс – 100 Вт
Core 2 Duo – 19 Гфлопс - 90 Вт
Tesla K20X – 3,95 Тфлопс – 225 Вт
Radeon HD 7660G – 380 Гфлопс - 35 Вт
GPGPU до 2007 года
Шейдерные языки Cg, GLSL и HLSL
GLSL – OpenGL
HLSL – Microsoft DirectX
1. Широкая поддержка оборудования.
2. Отсутствие готовых библиотек.
3. Необходимо знание специализированного
языка
4. Привязка к графическим API.
GPGPU до 2007 года
5. Отсутствует возможность взаимодействия
между пикселями.
6. Отсутствуют операции типа scatter – есть
только gather.
GPGPU до 2007 года
7. Приложения часто ограничены ПСП.
Простой вычислительных мощностей!
NVIDIA Compute Unified Device
Architecture
ноябрь 2006 г. - первый GPU с DirectX 10,
GeForce 8800 GTX с архитектурой CUDA
• Учѐт требований IEEE к арифметическим
операциям
• Набор команд, ориентированный на
вычисления. Независимость от графических
API
• Произвольный доступ к памяти для чтения и
записи
• CUDA Toolkit и CUDA SDK
NVIDIA CUDA
Есть байт-адресация
Gather
Scatter
NVIDIA CUDA
Доступ к регистровой разделяемой памяти
для обмена данными между потоками
NVIDIA Compute Unified Device
Architecture
Язык программирования C с расширениями
Распространѐнность GPU
GeForce 8, 9, 100, 200, 300, 400, 500, 600, 700
NVIDIA Compute Unified Device Architecture
GPU – сопроцессор (device) для CPU (host)
Собственная память (память устройства, device
memory)
Параллельная обработка множества потоков
Ядро (kernel) – исполняемая над большим числом
потоков функция с параллелизмом данных
Отличия потоков GPU от CPU:
•Для полной эффективности GPU нужны тысячи
потоков
•Легковесность, низкие накладные расходы на
создание
NVIDIA Compute Unified Device
Architecture
NVIDIA Compute Unified Device
Architecture
SIMD (Single Instruction – Multiple Data)
SIMT (Single Instruction – Multiple Thread)
Несколько видов памяти
(регистры, локальная,
разделяемая, глобальная,
константная, текстурная) с
разными правами доступа
NVIDIA Compute Unified Device
Architecture
Open Compute Language
Khronos Group: AMD, Intel, Motorola, Apple,
NVIDIA, IBM, ARM
2008 г. - OpenCL 1.0
1 декабря 2012 г. - OpenCL 1.2
C99 с новыми ключевыми словами
Открытый стандарт
Широкая поддержка оборудования
Прирост в WinZip 16.5 на AMD APU - 45%
Open Compute Language
CPU (host) управляет OpenCL-устройствами
(devices): CPU, GPU, DSP, …
Open Compute Language
WinZip, ArcSoft, Corel VideoStudio, GIMP,
Mathematica 8, vReveal, Blender, BattleField 3, …
PyOpenCL, WebCL (JS-интерфейс для обработки
вычислений в браузере, поддержка в Firefox и
WebKit), ScalaCL, Ruby-OpenCL
PGI OpenCL Compiler, OpenCL Studio, ZiiLABD
OpenCL SDK
http://openclnews.com/apps
Open Compute Language
AMD OpenCL University Kit
Набор материалов от AMD для обучения
технологии в течение семестра.
13 лекций с примерами кода и набором заданий
http://developer.amd.com/resources/heterogeneous-
computing/opencl-zone/
HSA Foundation
AMD, ARM, Samsung, Texas Instruments,
Qualcomm, MediaTek, Imagination Technologies
Intel
Larrabee -> Xeon Phi
Архитектура x86
Много ядер Pentium в одном чипе с общей памятью
Intel Xeon Phi
Сопроцессор 5110P:
60 ядер Pentium 1GHz с EM64T, 4 потока/ядро
512-бит SIMD
512К L2
1 TFLOPS
6/8 Gb GDDR5
RHEL 6.x
SuSE Linux 12
Intel Xeon Phi
Взаимодействие NVIDIA с ВУЗами
269 университетов мира
СПбГПУ, СПбГУ, "Дубна", ОИЯИ,
МИЭТ, МГТУ им. Баумана, МАИ,
"Курчатовский институт",
МГУ им. Ломоносова, ...
декабрь 2009 - научно-образовательный центр
"Параллельные вычисления", Дубна
Список источников
1. Сайты HSA Foundation, NVIDIA, AMD,
Khronos Group
2. thg.ru - подробный обзор Intel Xeon Phi
3. Wikipedia
4. Статьи с habrahabr.ru
5. Сайт научно-образовательного центра
"Параллельные вычисления"
http://www.parallel-compute.ru/
6. opencl.org
7. gpgpu.org
8. Результаты НИР на 3-4 курсах. Научный
руководитель - Семьянов П. В.
Благодарю за
внимание!

Hpc 2.26.03.2013.

  • 1.
    АЛ-31 для СУ-27Двигатель для «Сухой «Суперджет» 15 лет 6 лет 50 опытных образцов 8 тестовых образцов 3.5 млрд долларов 600 млн евро
  • 2.
    Большинство суперкомпьютеров (список top500.org)– гетерогенные среды. CPU : GPU = 1 : n (n = 1, 2, 3,…)
  • 3.
    Cray Titan 29 октября2012 18 688 AMD Opteron (16 ядер в каждом) 18688 Tesla K20X 9 МВт, 404 кв. м 20 петафлопс (1015) – 1 место
  • 4.
    Архитектура GPU. ТехнологииGPGPU. Кизько Б. А., 5085/2, ИИТ, ФГБОУ ВПО СПбГПУ 26.03.2013
  • 5.
    GPU Построение в реальномвремени изображений по описанию трехмерных сцен
  • 6.
    GPU Быстрая однородная обработкабольшого количества элементов Аппаратная реализация основных алгоритмов Графический процессор изначально создавался как многоядерная структура (сотни ядер).
  • 7.
    GPU CPU vs GPU Гораздобольше транзисторов GPU отведено на обработку данных, а не на управление исполнением (т.н. Flow control)
  • 8.
  • 9.
  • 10.
    NVIDIA Compute UnifiedDevice Architecture Intel Core i5 – 110 Гфлопс – 100 Вт Core 2 Duo – 19 Гфлопс - 90 Вт Tesla K20X – 3,95 Тфлопс – 225 Вт Radeon HD 7660G – 380 Гфлопс - 35 Вт
  • 12.
    GPGPU до 2007года Шейдерные языки Cg, GLSL и HLSL GLSL – OpenGL HLSL – Microsoft DirectX 1. Широкая поддержка оборудования. 2. Отсутствие готовых библиотек. 3. Необходимо знание специализированного языка 4. Привязка к графическим API.
  • 13.
    GPGPU до 2007года 5. Отсутствует возможность взаимодействия между пикселями. 6. Отсутствуют операции типа scatter – есть только gather.
  • 14.
    GPGPU до 2007года 7. Приложения часто ограничены ПСП. Простой вычислительных мощностей!
  • 15.
    NVIDIA Compute UnifiedDevice Architecture ноябрь 2006 г. - первый GPU с DirectX 10, GeForce 8800 GTX с архитектурой CUDA • Учѐт требований IEEE к арифметическим операциям • Набор команд, ориентированный на вычисления. Независимость от графических API • Произвольный доступ к памяти для чтения и записи • CUDA Toolkit и CUDA SDK
  • 16.
  • 17.
    NVIDIA CUDA Доступ крегистровой разделяемой памяти для обмена данными между потоками
  • 18.
    NVIDIA Compute UnifiedDevice Architecture Язык программирования C с расширениями Распространѐнность GPU GeForce 8, 9, 100, 200, 300, 400, 500, 600, 700
  • 19.
    NVIDIA Compute UnifiedDevice Architecture GPU – сопроцессор (device) для CPU (host) Собственная память (память устройства, device memory) Параллельная обработка множества потоков Ядро (kernel) – исполняемая над большим числом потоков функция с параллелизмом данных Отличия потоков GPU от CPU: •Для полной эффективности GPU нужны тысячи потоков •Легковесность, низкие накладные расходы на создание
  • 20.
    NVIDIA Compute UnifiedDevice Architecture
  • 21.
    NVIDIA Compute UnifiedDevice Architecture SIMD (Single Instruction – Multiple Data) SIMT (Single Instruction – Multiple Thread) Несколько видов памяти (регистры, локальная, разделяемая, глобальная, константная, текстурная) с разными правами доступа
  • 22.
    NVIDIA Compute UnifiedDevice Architecture
  • 23.
    Open Compute Language KhronosGroup: AMD, Intel, Motorola, Apple, NVIDIA, IBM, ARM 2008 г. - OpenCL 1.0 1 декабря 2012 г. - OpenCL 1.2 C99 с новыми ключевыми словами Открытый стандарт Широкая поддержка оборудования Прирост в WinZip 16.5 на AMD APU - 45%
  • 24.
    Open Compute Language CPU(host) управляет OpenCL-устройствами (devices): CPU, GPU, DSP, …
  • 25.
    Open Compute Language WinZip,ArcSoft, Corel VideoStudio, GIMP, Mathematica 8, vReveal, Blender, BattleField 3, … PyOpenCL, WebCL (JS-интерфейс для обработки вычислений в браузере, поддержка в Firefox и WebKit), ScalaCL, Ruby-OpenCL PGI OpenCL Compiler, OpenCL Studio, ZiiLABD OpenCL SDK http://openclnews.com/apps
  • 26.
    Open Compute Language AMDOpenCL University Kit Набор материалов от AMD для обучения технологии в течение семестра. 13 лекций с примерами кода и набором заданий http://developer.amd.com/resources/heterogeneous- computing/opencl-zone/
  • 27.
    HSA Foundation AMD, ARM,Samsung, Texas Instruments, Qualcomm, MediaTek, Imagination Technologies
  • 28.
    Intel Larrabee -> XeonPhi Архитектура x86 Много ядер Pentium в одном чипе с общей памятью
  • 29.
    Intel Xeon Phi Сопроцессор5110P: 60 ядер Pentium 1GHz с EM64T, 4 потока/ядро 512-бит SIMD 512К L2 1 TFLOPS 6/8 Gb GDDR5 RHEL 6.x SuSE Linux 12
  • 30.
  • 31.
    Взаимодействие NVIDIA сВУЗами 269 университетов мира СПбГПУ, СПбГУ, "Дубна", ОИЯИ, МИЭТ, МГТУ им. Баумана, МАИ, "Курчатовский институт", МГУ им. Ломоносова, ... декабрь 2009 - научно-образовательный центр "Параллельные вычисления", Дубна
  • 32.
    Список источников 1. СайтыHSA Foundation, NVIDIA, AMD, Khronos Group 2. thg.ru - подробный обзор Intel Xeon Phi 3. Wikipedia 4. Статьи с habrahabr.ru 5. Сайт научно-образовательного центра "Параллельные вычисления" http://www.parallel-compute.ru/ 6. opencl.org 7. gpgpu.org 8. Результаты НИР на 3-4 курсах. Научный руководитель - Семьянов П. В.
  • 33.