SlideShare a Scribd company logo
1 of 29
Download to read offline
大规模高性能计算集群
优化实践
叶璐/冯瑞青
2
1. 高性能计算的趋势与挑战
2. 支撑超大规模训练的 RDMA 网络架构和优化
火山引擎 实例产品 应用
高性能计算的趋势与挑战
www.volcengine.com
高性能计算——趋势
• HPC市场快速增长;
• HPDA(HP Data Analysis)的增长速度快于整个HPC市场
• AI子领域的增长速度快于所有HPDA
Source: Hyperion Research
www.volcengine.com
HPC&AI——趋势
图片区域
模型 GPU
计算时间
(前向 + 反向)
训练收敛步数 训练时间
ResNet-50 1x Tesla V100
32ms + 64ms
(batch size 32)
3.6M 96 小时
BERT-Large 1x Tesla V100
339ms + 508ms
(batch size 35)
8M 78.4 天
GPT-3
单卡无法容纳,多机训练时间数以月计
Switch Transformer
趋势1 大数据 趋势2 大模型
www.volcengine.com
HPC&AI——挑战
图片区域
纯数据并行+PS方案
预计训练时间
•按目前 的实现, 卡训练 需
•
• 卡约需要 年
•按 纯 方案,假设 预计 卡训练约 个月
时间花在
通讯上
www.volcengine.com
HPC趋势与挑战——小结
精度训练
算子融合
梯度累加
网络优化
通讯拓扑优化
服务器架构
模型并行
数据并行
流水线并行
算力供给
算力成本
海量小文件
高性能存储
支撑超大规模训练的 网络
架构和优化
www.volcengine.com
RDMA 简介
图片区域
Remote Direct Memory
Access
www.volcengine.com
性能对比
与 相比 性能优势:
高吞吐
低时延
~ 开销
0
10
20
30
40
50
60
70
80
90
100
1 KB 4 KB 16 KB 64 KB 256 KB 1 MB 4 MB
Throughput(Gbps)
Message size
Mellanox ConnectX-5-100G
TCP mtu 1500
RDMA mtu 1k
TCP mtu 4200
RDMA mtu 4k
0
5
10
15
20
25
30
1 K 4 K
Time
to
transfer
message(μs)
Message size
Mellanox ConnectX-5-100G
TCP mtu 1500 RDMA mtu 1k
0
10
20
30
40
50
60
70
80
90
4 KB 16 KB 64 KB 256 KB 1 MB 4 MB
CPU
Utilization(%)
message size
TCP RDMA
www.volcengine.com
协议
图片区域
网络协议主要有 ,其中 不支持
转发而被 取代。
•
• 需要 网络( 网卡 交换机),建
设成本高
• 性能最好, 超算领域有广泛部
署和使用
•
• 网络协议,基于 复杂
度高导致性能和稳定性都比较差
• 业界没有大规模部署
•
• 网络协议,基于
• 性能接近
• 业界有许多大规模部署案例
www.volcengine.com
字节 网络业务
交换机
ByteExpress
虚拟化
NCCL
RDMA 业务
… 部署
自动化运维平台
智能排障
自动化测试
BytePS
业务
自动化运维平台
www.volcengine.com
ByteExpress
字节自研基于 的高性能网络通信库,旨在让公司大量
已有业务从 轻松迁移到 ,屏蔽 编程细节。
Storage PS Search Ads
BRPC ByteRPC ArchonRPC …
ByteExpress
RDMA NIC
verbs
www.volcengine.com
已在上线平稳运行 年,对接业务主要有:头条推荐 抖音推荐 西瓜
推荐。
在线推理
离线训练
www.volcengine.com
• 网络面临挑战:
• 基于 协议 从
协议设计上要求保证无损网络
• 基于以太网 以太网不保证无
损,在网卡或交换机上会出现丢包:
丢包检测会导致时延很大
重传会导致有效吞吐降低
网络拥塞会加剧丢包
• 引入 保证无损同时引入了
网络可扩展性问题。
QoS Flow Control
Congestion Control
Rx Buffer Management
Lossy Algorithms
Configuration on NIC Configuration on Switch
QoS Flow Control
Congestion Control
www.volcengine.com
特性
基于 的 挑战:
严重拥塞将导致传输暂停
单个故障 可能会影
响整个网络拓扑传输
www.volcengine.com
减少数据在 和 之间的拷贝,充分发挥
特性,大大降低 之间的传输时延
System
Memory
GPU
Memory
Chipset
RDMA NIC
CPU
GPU
GPU
Chipset
CPU
System
Memory
GPU
Memory
RDMA NIC
GDR
www.volcengine.com
基于 的 收益:
快速 到 通信
用于高效数据传输的本机
将 通信的延迟降低
www.volcengine.com
虚拟化
RoCE Overlay
通过 与 技术
实现 弹性 网络
RDMA NIC
SRIOV
vf vf vf
VM Container
eswitch
Hypervisor
VSWITCH
火山引擎 实例产品 应用
www.volcengine.com
面向 场景优化的超算集群
• 超大算力池
• 搭载英伟达
•
• 单一集群 卡,提供
算力
• 超强网络性能
• 机内 双向 通道
• 网络高速互联,
支持
• 并行文件系统
• 百 带宽,亚毫秒延迟
• 数亿小文件随机读取
www.volcengine.com
应用:广告
广告 上进行实验,
仅用 即可训练完过去两年的数据,
效率提升 倍,训练时长降低
痛点:
• 非常稀疏的高维类别特征,特别是 类特征,百万以上,经常上亿级
• 模型趋势,
软硬件一体的改造,充分挖掘硬件性能
• 模型参数和计算应入尽入 ,无 ,并使用
高性能网络同步参数,实现超大吞吐
• 同步训练,支持更深更宽的网络,避免了异步训练大并发下 过
大问题,可以支持更加复杂模型的训练
原架构 软硬一体改造后
训练效率
24x
www.volcengine.com
火山引擎 实例产品介绍
搭载英伟达 等设备,提供 计算服务,满足多种场景
高性能计算 AI 训练 / 推理 可视化渲染
面向不同场景的计算: 实例
www.volcengine.com
火山引擎 实例产品介绍
产品 实例规格族 异构卡类型 实例规格 可用区域
GPU云服务器 GPU计算型pni2 A100-80G NVLink
单卡标配14vCPU,245G内存,
套餐支持1、4、8卡
北京、南通、广州
GPU计算型g1v V100 NVLink
单卡标配8vCPU,32G内存,
套餐支持1、2、4、8卡
北京
GPU计算型ini2 A30
单卡标配28vCPU,234G内存,
套餐支持1、2、4卡
北京、上海
GPU计算型g1t T4
单卡标配8vCPU,28G内存,
套餐支持1、2、4、8卡
北京
GPU计算型g1tl T4
单卡标配16vCPU,64G内存,
套餐支持1、2、4卡
北京、广州
HPC高性能云服务器
高性能计算GPU型
hpcpni2
A100-80G NVLink RoCE 网络,112vCPU,全闪存硬盘 北京、上海、南通
高性能计算GPU型hpcg1v V100 NVLink RoCE 网络,84vCPU 北京、南通
www.volcengine.com
火山引擎GPU实例产品介绍
自研 卡
自研虚拟化
自研
自研服务器
定制 协议
全栈自研
• 专属硬件性能加速
• 彻底释放服务器CPU算力
• 自研虚拟化深度适配云原生
www.volcengine.com
弹性&成本
•充分利用字节跳动大体量的内部资源池,盘活闲置资源
•资源高效流转,实现削峰填谷,日常潮汐资源数十万核
•最大化稀缺资源利用率
•成本=采购成本/售卖率
•弹性 = 释放效率*供给能力
火山引擎
字节跳动
内部业务
提高售卖率降低成本
提升弹性和可售卖规模
www.volcengine.com
硬件&未来展望
图片区域
算力
• 解耦设计, 资源池化
• 灵活适配多种形态 ,支持
• 模型大小不再成为瓶颈,新型架构,如 ,最大共享显存
• 模块化设计,兼容 、
网络 良好的多机扩展性
• 外接 灵活,扩展灵活
• 多网卡组网灵活
存储
• 磁盘
• 近计算存储资源和架构支持
散热 供电
• 支持风冷、液冷(冷板 浸没)
• 供电
www.volcengine.com
28
欢迎加入
扫码关注
“火山引擎开发者社区”公众号
扫码加入活动群
扫码加入火山引擎 团队 扫码联系
并获取 IaaS 更多产品资料
www.volcengine.com

More Related Content

Similar to 大规模高性能计算集群优化.pdf

淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践drewz lin
 
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳  -淘宝软件基础设施构建实践稳定、高效、低碳  -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践Wensong Zhang
 
实时消息推送系统
实时消息推送系统实时消息推送系统
实时消息推送系统Yi Feng Yang
 
MongoDB at Qihoo 360
MongoDB at Qihoo 360MongoDB at Qihoo 360
MongoDB at Qihoo 360MongoDB
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践Wensong Zhang
 
微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构Chen Fei
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at TaobaoJoshua Zhu
 
百度 刘宁 系统也智慧
百度 刘宁 系统也智慧百度 刘宁 系统也智慧
百度 刘宁 系统也智慧guiyingshenxia
 
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统锐 张
 
Golang 高性能实战
Golang 高性能实战Golang 高性能实战
Golang 高性能实战rfyiamcool
 
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend partHow do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend partacelyc1112009
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务drewz lin
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Wensong Zhang
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰Scourgen Hong
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验colderboy17
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验guiyingshenxia
 
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践丁 宇
 
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践Feng Yu
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲84zhu
 

Similar to 大规模高性能计算集群优化.pdf (20)

淘宝软件基础设施构建实践
淘宝软件基础设施构建实践淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
 
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳  -淘宝软件基础设施构建实践稳定、高效、低碳  -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
 
实时消息推送系统
实时消息推送系统实时消息推送系统
实时消息推送系统
 
MongoDB at Qihoo 360
MongoDB at Qihoo 360MongoDB at Qihoo 360
MongoDB at Qihoo 360
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
 
微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
 
百度 刘宁 系统也智慧
百度 刘宁 系统也智慧百度 刘宁 系统也智慧
百度 刘宁 系统也智慧
 
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统
 
Golang 高性能实战
Golang 高性能实战Golang 高性能实战
Golang 高性能实战
 
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend partHow do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践
 
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践
 
Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲
 

大规模高性能计算集群优化.pdf