Submit Search
Upload
大规模高性能计算集群优化.pdf
•
0 likes
•
44 views
C
chachachat
Follow
火山引擎大规模高性能计算集群优化实践。 sorry,用来下载一下其他文件,马上删除。
Read less
Read more
Devices & Hardware
Report
Share
Report
Share
1 of 29
Download now
Download to read offline
Recommended
淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化
丁 宇
周敏奇:Cliaims—集群感知的内存计算系统
周敏奇:Cliaims—集群感知的内存计算系统
hdhappy001
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
drewz lin
了解集群
了解集群
Feng Yu
快速搭建高性能服务端
快速搭建高性能服务端
moonbingbing
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
Wensong Zhang
Taobao base
Taobao base
mysqlops
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
lovingprince58
Recommended
淘宝前台系统性能分析与优化
淘宝前台系统性能分析与优化
丁 宇
周敏奇:Cliaims—集群感知的内存计算系统
周敏奇:Cliaims—集群感知的内存计算系统
hdhappy001
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
F1 07 淘宝软件基础设施构建实践_章文嵩_淘宝
drewz lin
了解集群
了解集群
Feng Yu
快速搭建高性能服务端
快速搭建高性能服务端
moonbingbing
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
Wensong Zhang
Taobao base
Taobao base
mysqlops
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
lovingprince58
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
drewz lin
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
Wensong Zhang
实时消息推送系统
实时消息推送系统
Yi Feng Yang
MongoDB at Qihoo 360
MongoDB at Qihoo 360
MongoDB
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构
Chen Fei
Hacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
百度 刘宁 系统也智慧
百度 刘宁 系统也智慧
guiyingshenxia
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统
锐 张
Golang 高性能实战
Golang 高性能实战
rfyiamcool
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
acelyc1112009
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
drewz lin
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
Wensong Zhang
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Scourgen Hong
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
colderboy17
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
guiyingshenxia
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践
丁 宇
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践
Feng Yu
Nosql三步曲
Nosql三步曲
84zhu
More Related Content
Similar to 大规模高性能计算集群优化.pdf
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
drewz lin
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
Wensong Zhang
实时消息推送系统
实时消息推送系统
Yi Feng Yang
MongoDB at Qihoo 360
MongoDB at Qihoo 360
MongoDB
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构
Chen Fei
Hacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
百度 刘宁 系统也智慧
百度 刘宁 系统也智慧
guiyingshenxia
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统
锐 张
Golang 高性能实战
Golang 高性能实战
rfyiamcool
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
acelyc1112009
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
drewz lin
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
Wensong Zhang
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
Scourgen Hong
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
colderboy17
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
guiyingshenxia
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践
丁 宇
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践
Feng Yu
Nosql三步曲
Nosql三步曲
84zhu
Similar to 大规模高性能计算集群优化.pdf
(20)
淘宝软件基础设施构建实践
淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
稳定、高效、低碳 -淘宝软件基础设施构建实践
实时消息推送系统
实时消息推送系统
MongoDB at Qihoo 360
MongoDB at Qihoo 360
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
微博平台混合云实践 - Docker全架构
微博平台混合云实践 - Docker全架构
Hacking Nginx at Taobao
Hacking Nginx at Taobao
百度 刘宁 系统也智慧
百度 刘宁 系统也智慧
20110625.【打造高效能的cdn系统】.易统
20110625.【打造高效能的cdn系统】.易统
Golang 高性能实战
Golang 高性能实战
How do we manage more than one thousand of Pegasus clusters - backend part
How do we manage more than one thousand of Pegasus clusters - backend part
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践
淘宝商品库MySQL优化实践
淘宝商品库MySQL优化实践
Nosql三步曲
Nosql三步曲
大规模高性能计算集群优化.pdf
1.
大规模高性能计算集群 优化实践 叶璐/冯瑞青
2.
2 1. 高性能计算的趋势与挑战 2. 支撑超大规模训练的
RDMA 网络架构和优化 火山引擎 实例产品 应用
3.
高性能计算的趋势与挑战
4.
www.volcengine.com 高性能计算——趋势 • HPC市场快速增长; • HPDA(HP
Data Analysis)的增长速度快于整个HPC市场 • AI子领域的增长速度快于所有HPDA Source: Hyperion Research
5.
www.volcengine.com HPC&AI——趋势 图片区域 模型 GPU 计算时间 (前向 +
反向) 训练收敛步数 训练时间 ResNet-50 1x Tesla V100 32ms + 64ms (batch size 32) 3.6M 96 小时 BERT-Large 1x Tesla V100 339ms + 508ms (batch size 35) 8M 78.4 天 GPT-3 单卡无法容纳,多机训练时间数以月计 Switch Transformer 趋势1 大数据 趋势2 大模型
6.
www.volcengine.com HPC&AI——挑战 图片区域 纯数据并行+PS方案 预计训练时间 •按目前 的实现, 卡训练
需 • • 卡约需要 年 •按 纯 方案,假设 预计 卡训练约 个月 时间花在 通讯上
7.
www.volcengine.com HPC趋势与挑战——小结 精度训练 算子融合 梯度累加 网络优化 通讯拓扑优化 服务器架构 模型并行 数据并行 流水线并行 算力供给 算力成本 海量小文件 高性能存储
8.
支撑超大规模训练的 网络 架构和优化
9.
www.volcengine.com RDMA 简介 图片区域 Remote Direct
Memory Access
10.
www.volcengine.com 性能对比 与 相比 性能优势: 高吞吐 低时延 ~
开销 0 10 20 30 40 50 60 70 80 90 100 1 KB 4 KB 16 KB 64 KB 256 KB 1 MB 4 MB Throughput(Gbps) Message size Mellanox ConnectX-5-100G TCP mtu 1500 RDMA mtu 1k TCP mtu 4200 RDMA mtu 4k 0 5 10 15 20 25 30 1 K 4 K Time to transfer message(μs) Message size Mellanox ConnectX-5-100G TCP mtu 1500 RDMA mtu 1k 0 10 20 30 40 50 60 70 80 90 4 KB 16 KB 64 KB 256 KB 1 MB 4 MB CPU Utilization(%) message size TCP RDMA
11.
www.volcengine.com 协议 图片区域 网络协议主要有 ,其中 不支持 转发而被
取代。 • • 需要 网络( 网卡 交换机),建 设成本高 • 性能最好, 超算领域有广泛部 署和使用 • • 网络协议,基于 复杂 度高导致性能和稳定性都比较差 • 业界没有大规模部署 • • 网络协议,基于 • 性能接近 • 业界有许多大规模部署案例
12.
www.volcengine.com 字节 网络业务 交换机 ByteExpress 虚拟化 NCCL RDMA 业务 …
部署 自动化运维平台 智能排障 自动化测试 BytePS 业务 自动化运维平台
13.
www.volcengine.com ByteExpress 字节自研基于 的高性能网络通信库,旨在让公司大量 已有业务从 轻松迁移到
,屏蔽 编程细节。 Storage PS Search Ads BRPC ByteRPC ArchonRPC … ByteExpress RDMA NIC verbs
14.
www.volcengine.com 已在上线平稳运行 年,对接业务主要有:头条推荐 抖音推荐
西瓜 推荐。 在线推理 离线训练
15.
www.volcengine.com • 网络面临挑战: • 基于
协议 从 协议设计上要求保证无损网络 • 基于以太网 以太网不保证无 损,在网卡或交换机上会出现丢包: 丢包检测会导致时延很大 重传会导致有效吞吐降低 网络拥塞会加剧丢包 • 引入 保证无损同时引入了 网络可扩展性问题。 QoS Flow Control Congestion Control Rx Buffer Management Lossy Algorithms Configuration on NIC Configuration on Switch QoS Flow Control Congestion Control
16.
www.volcengine.com 特性 基于 的 挑战: 严重拥塞将导致传输暂停 单个故障
可能会影 响整个网络拓扑传输
17.
www.volcengine.com 减少数据在 和 之间的拷贝,充分发挥 特性,大大降低
之间的传输时延 System Memory GPU Memory Chipset RDMA NIC CPU GPU GPU Chipset CPU System Memory GPU Memory RDMA NIC GDR
18.
www.volcengine.com 基于 的 收益: 快速
到 通信 用于高效数据传输的本机 将 通信的延迟降低
19.
www.volcengine.com 虚拟化 RoCE Overlay 通过 与
技术 实现 弹性 网络 RDMA NIC SRIOV vf vf vf VM Container eswitch Hypervisor VSWITCH
20.
火山引擎 实例产品 应用
21.
www.volcengine.com 面向 场景优化的超算集群 • 超大算力池 •
搭载英伟达 • • 单一集群 卡,提供 算力 • 超强网络性能 • 机内 双向 通道 • 网络高速互联, 支持 • 并行文件系统 • 百 带宽,亚毫秒延迟 • 数亿小文件随机读取
22.
www.volcengine.com 应用:广告 广告 上进行实验, 仅用 即可训练完过去两年的数据, 效率提升
倍,训练时长降低 痛点: • 非常稀疏的高维类别特征,特别是 类特征,百万以上,经常上亿级 • 模型趋势, 软硬件一体的改造,充分挖掘硬件性能 • 模型参数和计算应入尽入 ,无 ,并使用 高性能网络同步参数,实现超大吞吐 • 同步训练,支持更深更宽的网络,避免了异步训练大并发下 过 大问题,可以支持更加复杂模型的训练 原架构 软硬一体改造后 训练效率 24x
23.
www.volcengine.com 火山引擎 实例产品介绍 搭载英伟达 等设备,提供
计算服务,满足多种场景 高性能计算 AI 训练 / 推理 可视化渲染 面向不同场景的计算: 实例
24.
www.volcengine.com 火山引擎 实例产品介绍 产品 实例规格族
异构卡类型 实例规格 可用区域 GPU云服务器 GPU计算型pni2 A100-80G NVLink 单卡标配14vCPU,245G内存, 套餐支持1、4、8卡 北京、南通、广州 GPU计算型g1v V100 NVLink 单卡标配8vCPU,32G内存, 套餐支持1、2、4、8卡 北京 GPU计算型ini2 A30 单卡标配28vCPU,234G内存, 套餐支持1、2、4卡 北京、上海 GPU计算型g1t T4 单卡标配8vCPU,28G内存, 套餐支持1、2、4、8卡 北京 GPU计算型g1tl T4 单卡标配16vCPU,64G内存, 套餐支持1、2、4卡 北京、广州 HPC高性能云服务器 高性能计算GPU型 hpcpni2 A100-80G NVLink RoCE 网络,112vCPU,全闪存硬盘 北京、上海、南通 高性能计算GPU型hpcg1v V100 NVLink RoCE 网络,84vCPU 北京、南通
25.
www.volcengine.com 火山引擎GPU实例产品介绍 自研 卡 自研虚拟化 自研 自研服务器 定制 协议 全栈自研 •
专属硬件性能加速 • 彻底释放服务器CPU算力 • 自研虚拟化深度适配云原生
26.
www.volcengine.com 弹性&成本 •充分利用字节跳动大体量的内部资源池,盘活闲置资源 •资源高效流转,实现削峰填谷,日常潮汐资源数十万核 •最大化稀缺资源利用率 •成本=采购成本/售卖率 •弹性 = 释放效率*供给能力 火山引擎 字节跳动 内部业务 提高售卖率降低成本 提升弹性和可售卖规模
27.
www.volcengine.com 硬件&未来展望 图片区域 算力 • 解耦设计, 资源池化 •
灵活适配多种形态 ,支持 • 模型大小不再成为瓶颈,新型架构,如 ,最大共享显存 • 模块化设计,兼容 、 网络 良好的多机扩展性 • 外接 灵活,扩展灵活 • 多网卡组网灵活 存储 • 磁盘 • 近计算存储资源和架构支持 散热 供电 • 支持风冷、液冷(冷板 浸没) • 供电
28.
www.volcengine.com 28 欢迎加入 扫码关注 “火山引擎开发者社区”公众号 扫码加入活动群 扫码加入火山引擎 团队 扫码联系 并获取
IaaS 更多产品资料
29.
www.volcengine.com
Download now