Путівник по
актуальному ландшафту
тензорних
акселераторів NVidia
Ландшафт акселераторів NVidia
GPU споживацького класу («ігрові карти»)
• Призначені виключно для персонального використання
• NVidia EULA забороняє використання в середовище
датацентрів та віддалений доступ користувачів
• Віртуалізація GPU не підтримується
• Відносно невеликий об’єм VRAM (до 32GB) без ECC
• Активне охолодження, не призначені для встановлення в
промислове серверне обладнання та роботи 24x7
Графічні та тензорні акселератори рівня датацентру
Оптимізовані для обробки графіки:
• Підвищена кількість CUDA-ядер
• Містять RT-ядра (ray tracing rendering)
• Містять video/jpeg encoders/decoders
• Основне призначення тензорних ядер –
підтримка обробки графіки (DLSS, AI
denoising)
Оптимізовані для AI/ML та HPC:
• Підвищена кількість більш «просунутих»
тензорних ядер (FP64, FP8, FP4,
Transformer Engine, sparsing)
• Більший об’єм та швидкість пам’яті (HBM)
• Підтримка NVLink (до 1800 GB/s)
• Відсутні RT-ядра, encoders, video ports
A40, L40, L4
A100, B200
H100/200
RTX 6000 SE
Актуальні тензорні акселератори для AI/ML
Акселератор VRAM Вартість (GPL) Особливості
High-End
H200 NVL (Hopper) 141 GB HBM3 (~4.8 TB/s) ~$40K (~$280/GB)
Великий об’єм надшвидкої VRAM
(до 564 GB для 4x H200 NVL)
Підтримка NVLink (2x H100/A100
600GB/s, 4x H200 900GB/s)
Підтримка FP8 (Hopper)
H100 NVL (Hopper) 94 GB HBM3 (~3.9 TB/s) ~$40K (~$425/GB)
H100 PCI (Hopper) 80 GB HBM2 (~2.0 TB/s) End of Sale
A100 PCI (Ampere) 80 GB HBM2 (~2.0 TB/s) End of Sale
Mid-Range
RTX 6000 SE (Blackwell) 96 GB GDDR7 (~1.8 TB/s) ~$13K (~$135/GB) Наявність NVENC (video encoders)
Підтримка FP8/FP4 (Blackwell), FP8 (Ada)
L40S (Ada) 48 GB GDDR6 (~0.9 TB/s) ~$10K (~$210/GB)
Low-End
L4 (Ada) 24 GB GDDR6 (~0.3 TB/s) ~$3K (~$125/GB) Найнижча ціна на одиницю ресурсу
• Об’єм відеопам’яті (framebuffer, VRAM). В ідеалі, модель повинна повністю поміститися у
VRAM акселератора. Технології multi-GPU/multi-node training/inference мають право на життя,
але лінійного масштабування досягти майже неможливо (за виключенням випадків
використання мережі NVLink/NVSwitch)
• Підтримка необхідних для запуску моделі числових форматів (наприклад, FP8/INT8,
FP4/INT4). Запуск моделі у форматі, що не підтримується акселератором, технічно можливий,
але будуть втрачені всі переваги формату (швидкість та менша потреба у VRAM)
• Арифметична інтенсивність моделі (ops/byte). Моделі з низькою арифметичною
інтенсивністю (memory-bound) отримають значні переваги від використання high-end
акселераторів з пам'яттю HBM (High Bandwidth Memory, 2.0-4.8 TB/s) порівняно з
mid-range/low-end акселераторами з пам’яттю GDDR (0.3-1.8 TB/s).
• Підтримка віртуалізації GPU (vGPU). Особливо важливий фактор для production real-time
inference. Віртуалізація дозволяє використовувати лише частину акселератора (відповідно до
потреб моделі та потоку вхідних даних) та забезпечує високу доступність vGPU
Тензорні акселератори: фактори вибору
Загальне правило:
запуск моделі на акселераторі найнижчого рівня (за умови, що вона на ньому запускається та
швидкість її роботи задовільна) дозволяє досягти найкращого співвідношення price/performance
Методи запуску великих (>VRAM) моделей (у порядку зменшення ефективності)
• Квантування моделі. Зниження числової точності моделі (FP32->FP16->FP8/INT8->FP4/INT4)
дозволяє в рази зменшити потребу в VRAM (достатньо одного акселератора) та пришвидшити
роботу моделі з незначної втратою якості. Багато відкритих моделей (в тому числі, у
квантованих форматах) можна знайти на Hugging Face Hub (https://huggingface.co).
Важлива деталь: зазвичай, квантована модель з більшою кількістю параметрів дає значно
кращі результати ніж неквантована при однаковій (або близький) потребі в VRAM. А якщо
акселератор підтримує квантований числовий формат (наприклад, FP4) – швидкість помітно не
постраждає. Приклад: при наявності GPU з 48GB VRAM квантована до 4-bit llama3 70B покаже
значно кращу якість ніж неквантована (BF16) llama3 8B.
• Multi-GPU/single-node + NVLink. Використання надшвидкісної мережі NVLink (900 GB/s)
дозволяє досягнути майже лінійного масштабування.
• Multi-GPU/single-node. Обмін даними між акселераторами здійснюється через PCIe (128GB/s
для PCIe 5.0), що дозволяє досягти прийнятного масштабування обчислювальної потужності.
• Multi-GPU/multi-node. (vGPU). Цей варіант масштабується найгірше, вузьким містом є
міжсерверна мережа Ethernet/Infiniband (10-40 GB/s).
Моделі 100B+: що робити з ними?
Вибір акселератора: практична порада
Right Now
High-End
H100 PCI 80GB
2x A100 PCI 80GB +NVLink
Mid-Range
L40S 48GB
Low-End
L4 24GB
Q3 2025
High-End
Up to 4x H200 141 GB +NVLink
Mid-Range
RTX 6000 SE 96GB
Low-End
Як показав практичний досвід, теоретично «вирахувати» найкращий акселератор для конкретного
use case неможливо, потрібно тестування.
Компанія De Novo пропонує безкоштовне тестування акселераторів на платформі Tensor Cloud.
Підтримуються як standalone GPU-instances, так і акселерований Managed Kubernetes.
Акселератори віртуалізовані (vGPU), можливо замовлення частини GPU (1/2, 1/4, 1/8)
Потрібен тест? Можливість є…
Замовити
Стандартна програма безкоштовного тестування хмари «Try & Buy»

"Choosing Tensor Accelerators for Specific Tasks: Compute vs Memory Bound Models, Arithmetic Intensity, and Model Quantization", Hennadiy Karpov

  • 1.
  • 2.
    Ландшафт акселераторів NVidia GPUспоживацького класу («ігрові карти») • Призначені виключно для персонального використання • NVidia EULA забороняє використання в середовище датацентрів та віддалений доступ користувачів • Віртуалізація GPU не підтримується • Відносно невеликий об’єм VRAM (до 32GB) без ECC • Активне охолодження, не призначені для встановлення в промислове серверне обладнання та роботи 24x7 Графічні та тензорні акселератори рівня датацентру Оптимізовані для обробки графіки: • Підвищена кількість CUDA-ядер • Містять RT-ядра (ray tracing rendering) • Містять video/jpeg encoders/decoders • Основне призначення тензорних ядер – підтримка обробки графіки (DLSS, AI denoising) Оптимізовані для AI/ML та HPC: • Підвищена кількість більш «просунутих» тензорних ядер (FP64, FP8, FP4, Transformer Engine, sparsing) • Більший об’єм та швидкість пам’яті (HBM) • Підтримка NVLink (до 1800 GB/s) • Відсутні RT-ядра, encoders, video ports A40, L40, L4 A100, B200 H100/200 RTX 6000 SE
  • 3.
    Актуальні тензорні акселераторидля AI/ML Акселератор VRAM Вартість (GPL) Особливості High-End H200 NVL (Hopper) 141 GB HBM3 (~4.8 TB/s) ~$40K (~$280/GB) Великий об’єм надшвидкої VRAM (до 564 GB для 4x H200 NVL) Підтримка NVLink (2x H100/A100 600GB/s, 4x H200 900GB/s) Підтримка FP8 (Hopper) H100 NVL (Hopper) 94 GB HBM3 (~3.9 TB/s) ~$40K (~$425/GB) H100 PCI (Hopper) 80 GB HBM2 (~2.0 TB/s) End of Sale A100 PCI (Ampere) 80 GB HBM2 (~2.0 TB/s) End of Sale Mid-Range RTX 6000 SE (Blackwell) 96 GB GDDR7 (~1.8 TB/s) ~$13K (~$135/GB) Наявність NVENC (video encoders) Підтримка FP8/FP4 (Blackwell), FP8 (Ada) L40S (Ada) 48 GB GDDR6 (~0.9 TB/s) ~$10K (~$210/GB) Low-End L4 (Ada) 24 GB GDDR6 (~0.3 TB/s) ~$3K (~$125/GB) Найнижча ціна на одиницю ресурсу
  • 4.
    • Об’єм відеопам’яті(framebuffer, VRAM). В ідеалі, модель повинна повністю поміститися у VRAM акселератора. Технології multi-GPU/multi-node training/inference мають право на життя, але лінійного масштабування досягти майже неможливо (за виключенням випадків використання мережі NVLink/NVSwitch) • Підтримка необхідних для запуску моделі числових форматів (наприклад, FP8/INT8, FP4/INT4). Запуск моделі у форматі, що не підтримується акселератором, технічно можливий, але будуть втрачені всі переваги формату (швидкість та менша потреба у VRAM) • Арифметична інтенсивність моделі (ops/byte). Моделі з низькою арифметичною інтенсивністю (memory-bound) отримають значні переваги від використання high-end акселераторів з пам'яттю HBM (High Bandwidth Memory, 2.0-4.8 TB/s) порівняно з mid-range/low-end акселераторами з пам’яттю GDDR (0.3-1.8 TB/s). • Підтримка віртуалізації GPU (vGPU). Особливо важливий фактор для production real-time inference. Віртуалізація дозволяє використовувати лише частину акселератора (відповідно до потреб моделі та потоку вхідних даних) та забезпечує високу доступність vGPU Тензорні акселератори: фактори вибору Загальне правило: запуск моделі на акселераторі найнижчого рівня (за умови, що вона на ньому запускається та швидкість її роботи задовільна) дозволяє досягти найкращого співвідношення price/performance
  • 5.
    Методи запуску великих(>VRAM) моделей (у порядку зменшення ефективності) • Квантування моделі. Зниження числової точності моделі (FP32->FP16->FP8/INT8->FP4/INT4) дозволяє в рази зменшити потребу в VRAM (достатньо одного акселератора) та пришвидшити роботу моделі з незначної втратою якості. Багато відкритих моделей (в тому числі, у квантованих форматах) можна знайти на Hugging Face Hub (https://huggingface.co). Важлива деталь: зазвичай, квантована модель з більшою кількістю параметрів дає значно кращі результати ніж неквантована при однаковій (або близький) потребі в VRAM. А якщо акселератор підтримує квантований числовий формат (наприклад, FP4) – швидкість помітно не постраждає. Приклад: при наявності GPU з 48GB VRAM квантована до 4-bit llama3 70B покаже значно кращу якість ніж неквантована (BF16) llama3 8B. • Multi-GPU/single-node + NVLink. Використання надшвидкісної мережі NVLink (900 GB/s) дозволяє досягнути майже лінійного масштабування. • Multi-GPU/single-node. Обмін даними між акселераторами здійснюється через PCIe (128GB/s для PCIe 5.0), що дозволяє досягти прийнятного масштабування обчислювальної потужності. • Multi-GPU/multi-node. (vGPU). Цей варіант масштабується найгірше, вузьким містом є міжсерверна мережа Ethernet/Infiniband (10-40 GB/s). Моделі 100B+: що робити з ними?
  • 6.
    Вибір акселератора: практичнапорада Right Now High-End H100 PCI 80GB 2x A100 PCI 80GB +NVLink Mid-Range L40S 48GB Low-End L4 24GB Q3 2025 High-End Up to 4x H200 141 GB +NVLink Mid-Range RTX 6000 SE 96GB Low-End Як показав практичний досвід, теоретично «вирахувати» найкращий акселератор для конкретного use case неможливо, потрібно тестування. Компанія De Novo пропонує безкоштовне тестування акселераторів на платформі Tensor Cloud. Підтримуються як standalone GPU-instances, так і акселерований Managed Kubernetes. Акселератори віртуалізовані (vGPU), можливо замовлення частини GPU (1/2, 1/4, 1/8)
  • 7.
    Потрібен тест? Можливістьє… Замовити Стандартна програма безкоштовного тестування хмари «Try & Buy»