08 Видеокарты

Высшая школа экономики, Москва, 2013
www.hse.ru
ЛЕКЦИЯ 8
ВИДЕОАДАПТЕРЫ, ВИДЕОКАРТЫ
И УСКОРИТЕЛИ
Соболевский Алексей
ИНЖЕНЕРНАЯ И КОМПЬЮТЕРНАЯ
ГРАФИКА
2 КУРС

Темы лекции
• Что такое видеоадаптер/видеокарта?
• История и эволюция видеокарт
• Устройство современных видеокарт
• API современных видеокарт
• Параллельные вычисления на видеокартах
• Вычислительные кластеры на видеокартах

Немного истории
What does the Wiki say?
Видеокарта (также видеоадаптер, графический адаптер,
графическая плата, графическая карта, графический
ускоритель) — электронное устройство, преобразующее
графический образ, хранящийся, как содержимое памяти
компьютера (или самого адаптера), в форму, пригодную
для дальнейшего вывода на экран монитора.

• MDA (Monochrome Display Adapter)
• CGA (Color Graphics Adapter)
• EGA (Enhanced Graphics Adapter)
• VGA (Video Graphics Array)
– Графический контроллер
– видеопамять
– последовательный преобразователь
– контроллер атрибутов
– Синхронизатор
– контроллер ЭЛТ

CGA Adapter

CGA graphics

Test Drive Ferrari. CGA vs Now (NFS)

Раньше было:
Видеокарта (2D) + ускоритель (3D)
Сейчас:
Видеокарта (3D) + сопроцессоры (Shaders,
Physics)

Was ist GPU?
GPU (graphics processing unit) – устройство,
выполняющее графический рендеринг
(обработку).
Отличия от CPU:
•архитектура, максимально нацеленная на увеличение скорости
расчёта текстур и сложных графических объектов, а так же
микропрограмм, связанных с их обработкой
•ограниченный набор команд

¿Qué hay en la tarjeta gráfica?
• Графический процессор
• Видеоконтроллер
• Видео-ПЗУ
• Видеопамять
• Цифрово-аналоговый преобразователь
• Коннектор/разъём

Графический процессор
Собственно, это и есть GPU.
Очень много ядер
Очень-очень много ядер >.<

Итого: почти в 100 раз больше ядер для вычислений по сравнению с CPU

Почему их не используют
в качестве CPU?

Видеоконтроллер
• Формирование изображения в
видеопамяти
• Обрабатывает запросы от CPU
• Передаёт данные на i/o (ЦАП, RAMDAC)
• Контроллер внутренней шины данных и
контроллер видеопамяти
• Внутренняя шина – 128 или 256 разрядов
против 32 на внешнюю шину

Видеопамять
• Кадровый буфер (Frame Buffer)
• Невидимые и промежуточные элементы
изображения и прочие данные

Небольшой пример:
1024х768 * 24 бита цвет = 2,25 Мб
2,25 Мб*75Гц = 170 Мб/с (номинал, только
вывод)
1600х1200 * 32 бита * 75 Гц = 550 Мб/с

• FPM DRAM
• VRAM
• WRAM
• EDO DRAM
• SDRAM
• DDR SDRAM
• SGRAM
• MDRAM
• RDRAM

SDRAM
•Передача данных только по
одному фронту сигнала
синхроимпульса
•168 pins
DDR SDRAM
•Передача данных сразу по
двум фронтам сигнала
синхроимпульса
•184 pins
•«удвоенное» значение
частоты

ЦАП (RAMDAC)
Random Access Memory Digital-to-Analog Converter
•3 ЦАП (по 1 ЦАП на канал цветности) и 1 ЦАП для
гамма-коррекции
•Используется, в основном, для вывода на CRT

Видеокарта

Видеокарта
• Около 4 000 000 000 транзисторов на одной плате
• Около 1 000 ядер на обработку
• Отдельные блоки для буферизации, растеризации,
обработки команд CUDA, Direct 3D, Open CL, Open GL
• Сенсоры, датчики, обработчики ошибок, синхронизация,
доп. интерфейсы
• Техпроцесс 20-25 нм

API
API (Application programming interface, Интерфейс
программирования приложений)
Дополнительные специальные функции для обработки
определённых типов данных
Open GL Direct 3D/X

Open GL

Direct 3D/X
?

Direct 3D/X

Direct 3D/X
DirectX – мощнейший набор библиотек, API и расширений
•Direct3D
•Direct2D
•DirectPlay
•DirectInput
•DirectSound
•DirectShow
•…

Direct 3D
Обработка:
•Rendering Pipeline
•Anti-aliasing and mip-mapping
•Alpha Blending
•Z-buffer
•Shaders
•…

Direct 3D
• Не портируется
• Проще в работе с готовыми функциями
• Менее гибкий
• Нет возможности скорректировать часть драйвера
устройства (видеокарты)

Direct 3D/X vs OpenGL
void init_graphics(void)
{
// create the vertices using the CUSTOMVERTEX struct
CUSTOMVERTEX vertices[] =
{
{ -3.0f, 3.0f, -3.0f, D3DCOLOR_XRGB(0, 0, 255), },
{ 3.0f, 3.0f, -3.0f, D3DCOLOR_XRGB(0, 255, 0), },
{ -3.0f, -3.0f, -3.0f, D3DCOLOR_XRGB(255, 0, 0), },
{ 3.0f, -3.0f, -3.0f, D3DCOLOR_XRGB(0, 255, 255), },
{ -3.0f, 3.0f, 3.0f, D3DCOLOR_XRGB(0, 0, 255), },
{ 3.0f, 3.0f, 3.0f, D3DCOLOR_XRGB(255, 0, 0), },
{ -3.0f, -3.0f, 3.0f, D3DCOLOR_XRGB(0, 255, 0), },
{ 3.0f, -3.0f, 3.0f, D3DCOLOR_XRGB(0, 255, 255), },
};
// create a vertex buffer interface called v_buffer
d3ddev->CreateVertexBuffer(8*sizeof(CUSTOMVERTEX),
0,
CUSTOMFVF,
D3DPOOL_MANAGED,
&v_buffer,
NULL);
….
// select the vertex and index buffers to use
d3ddev->SetStreamSource(0, v_buffer, 0, sizeof(CUSTOMVERTEX));
d3ddev->SetIndices(i_buffer);
// draw the cube
d3ddev->DrawIndexedPrimitive(D3DPT_TRIANGLELIST, 0, 0, 8, 0, 12);
void display(){
// Clear screen and Z-buffer glClear(GL_COLOR_BUFFER_BIT|
GL_DEPTH_BUFFER_BIT);
// Reset transformations
glLoadIdentity();
// Other Transformations
// glTranslatef( 0.1, 0.0, 0.0 );
// Not included
// glRotatef( 180, 0.0, 1.0, 0.0 ); // Not included
// Rotate when user changes rotate_x and rotate_y
glRotatef( rotate_x, 1.0, 0.0, 0.0 );
glRotatef( rotate_y, 0.0, 1.0, 0.0 );
// Other Transformations
// glScalef( 2.0, 2.0, 0.0 ); // Not included
glBegin(GL_POLYGON);
glColor3f( 1.0, 0.0, 0.0 ); glVertex3f( 0.5, -0.5, -0.5 ); // P1 is red
glColor3f( 0.0, 1.0, 0.0 ); glVertex3f( 0.5, 0.5, -0.5 ); // P2 is green
glColor3f( 0.0, 0.0, 1.0 ); glVertex3f( -0.5, 0.5, -0.5 ); // P3 is blue
glColor3f( 1.0, 0.0, 1.0 ); glVertex3f( -0.5, -0.5, -0.5 ); // P4 is purple
glEnd();
int main(int argc, char* argv[]){
// Initialize GLUT and process user parameters
glutInit(&argc,argv);
// Request double buffered true color window with Z-buffer
glutInitDisplayMode(GLUT_DOUBLE | GLUT_RGB | GLUT_DEPTH);
// Create window
glutCreateWindow("Awesome Cube");
// Enable Z-buffer depth test
glEnable(GL_DEPTH_TEST);
// Callback functions
glutDisplayFunc(display); glutSpecialFunc(specialKeys);
// Pass control to GLUT for events
glutMainLoop();
// Return to OS
return 0;
}

Shaders
?

Shaders

Параллельные вычисления
Примеры задач для параллельного вычисления:
•Обработка графики для вывода на экран
•Параллельные вычисления однотипных задач «перебором»
•Поиск оптимального решения многопараметрической задачи
•…

Закон Амдала:
В случае, когда задача разделяется на несколько частей,
суммарное время её выполнения на параллельной системе
не может быть меньше времени выполнения самого
длинного фрагмента
α – доля только
«последовательных»
вычислений
p – количество ядер
вычисления

CUDA

CUDA
Программно-аппаратная архитектура параллельных
вычислений для Nvidia
Программы могут использовать GPU посредством:
•„Обращения к стандартным функциям библиотек (BLAS, FFTW)
– cublas dll (cublasemu dll)
– cufft.dll (cufftemu.dll)
+ очень просто
- НЕ очень эффективно
•„ Использования CUDA runtime API
•„ Использования CUDA driver API

CUDA

CUDA
CUDA driver API (функции cu*)
•„ Низкий уровень
– „ Тяжелее программировать
– „ Больший контроль над процессом
CUDA runtime API (функции cuda )*
•„ Более абстрактно чем driver API (простота)
•„ Возможность использовать эмуляцию устройства

CUDA
• Процессы объединяются в блоки (blocks), внутри которых
они имеют общую память (shared memory) и синхронное
исполнение
• Блоки объединяются в сетки (grids)
– Нет возможности предсказать очерёдность запуска блоков в сетке
– Между блоками нет и не может быть (см. выше) общей памяти

Вычислительные кластеры на видеокартах
• С/К «Ломоносов»
– 78 000 + ядер
– Реальная производительность – более 900 Тфлопс (i5 – около 100
Гфлопс)
– Использование спец. шины InfiniBand для коммутации (до 300
Гбит/сек)
– Гетерогенная архитектура

Вычислительные кластеры на видеокартах
• Области
– Нантехнологии
– Статистика
– Big Data
– Медицина
– …

Вопросы
?

08 Видеокарты

More Related Content

Similar to 08 Видеокарты

08 Видеокарты