科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:科技 > 快讯 >

英伟达发布新一代X800网络交换平台

英伟达发布新一代X800网络交换平台
2024-05-05 21:15:19 来源:财讯网

在最新的GTC开发者大会上,英伟达推出了其最新一代的X800网络交换平台。这些平台首次实现800Gb/s的端到端吞吐量,可突破人工智能和计算工作负载的网络性能限制。

具体来说,X800系列包括适用于InfiniBand的NVIDIA Quantum-X800平台和适用于标准以太网的NVIDIA Spectrum-X800 。

大模型的发展推动着算力的不断提升,同时降低算力功耗的需求也已经变得更为苛刻。如何在提升计算性能同时,又能降低能源的消耗,更高性能的GPU和网络是构建新型AI基础设施的关键。NVIDIA Quantum-X800平台是专为NVIDIA Blackwell架构产品的Scale Out而量身打造,为超过万亿参数级的GPU计算和AI基础设施进行了全面的优化,相比上一代计算平台实现了性能的大幅提升,同时在同等算力的前提下又实现了功耗的大幅降低。

NVIDIA Quantum-X800 平台(英文名【NVIDIA Quantum-X800 Platform】) 是业界第一代800Gb/s的端到端高性能网络平台,包括了NVIDIA Quantum Q3400交换机和NVIDIA ConnectXⓇ-8 SuperNIC,它的出现,树立了AI专用基础设施极致性能的新标杆。

Quantum-X800是Quantum-2平台的下一代产品,在Quantum-2平台的基础之上,进一步提升了端口的速度、交换机端口的密度、网络计算的能力、以及在软件上和业界流行的通信框架上进行了更深层优化,单交换机可支持144个800GB/s端口,实现了FP8的网络计算,SuperNIC内置PCIe6.0交换机,可直连GPU和CPU,摆脱了GPU和网络之间的通信需要依赖于CPU或者PCIe交换机总线带宽的限制,大幅提升了AI、数据处理和高性能计算的性能。

核心是由交换机 + SuperNIC(超级网卡) + PCIe交换机 + LinkX + 网络计算引擎 + NCCL集合通信库组成。 Quantum Q3400 平台可以支持14.4TFlops的网络计算能力(SHARPv4),是上一代交换机的9倍,可以卸载GPU和CPU的计算类集合通信;Connect-X800 SuperNIC可以通过内置PCIe6.0交换机直接与最新的Blackwell架构产品互连,提供800Gb/s的单端口网络通信带宽,仅用两层网络交换就可以支持10,368卡的800Gb/s/GPU互连或者13,824卡的400Gb/s/GPU互连,三层网络可以支持超过70万张卡的800Gb/s/GPU互连。

NVIDIA Quantum-X800平台实现了单端口性能的加倍,交换容量的5倍提升,网络计算能力的9倍提升,为大模型训练和生成式AI提供超强的性能。

NVIDIA Quantum-X800 平台主要应用在AI工厂、生成式AI云、企业级AI云、HPC、数据处理领域。

NVIDIA Spectrum-X800 平台(英文名【NVIDIA Spectrum-X800 Platform】) 是业界第一代800Gb/s的以太网网络平台包括了NVIDIA Spectrum SN5600 800Gb/s 以太网交换机和NVIDIA BlueField-3 SuperNIC,为多租户生成式AI云和大型企业级用户提供了各种至关重要的先进功能。

大模型的发展推动了AI云的爆发性增长,由于资金、经验、时间、能耗等因素的影响,很多AI用户选择通过云的方式解决算力问题。如何快速构建AI云,在云上提供高性能的算力资源,保障多用户上云和运行业务的安全性,避免多用户运行多任务时的互相干扰导致业务性能降低,是当前AI云提供商首要考虑的问题。NVIDIA Spectrum-X800通过优化网络性能,加快AI工作负载的处理、分析和执行速度,进而缩短AI解决方案的开发、部署和上市时间。Spectrum-X800专为多租户环境打造,实现了每个租户的AI工作负载的性能隔离,使业务性能能够持续保持在最佳状态,提升客户满意度和服务质量。

NVIDIA Spectrum-X800 平台的出现是生成式AI云发展的必然趋势,AI云的出现彻底颠覆了数据中心对于网络的需求。传统的数据中心运行的任务多,但是单任务的算力需求不大,任务的耦合性不强,网络的性能对于业务的影响不大。但是大模型的出现,替代了大量的传统任务,All In AI成为了很多云服务商和数据中心的追求目标,数据中心成为了运行少量的AI任务,但是每个AI任务的计算量都相当大,且每个计算单元之间的耦合性很强,网络决定了数据中心的性能。Spectrum-X800平台是基于NCCL的全面RoCE端到端优化平台,涵盖了对于AI训练至关重要的动态路由(AR - Adaptive Routing)、可编程拥塞控制等技术和业务性能隔离技术等,可以充分发挥网络的通信效率,摆脱了以太网难扩展的桎梏,保障了云上任务的性能和安全性。

NVIDIA Spectrum-X800平台的核心结构包括交换机 + SuperNIC(超级网卡) + LinkX + DOCA软件开发包 + NCCL集合通信库。Spectrum SN5600 800Gb/s可以支持51.2Tb/s的交换能力,提供稳定的超低网络转发延迟,支持先进的硬件遥测技术,和BlueField-3 SuperNIC配合可实现端到端的高性能动态路由和拥塞控制技术,专门对于AI集合通信库NCCL中的RDMA通信进行了优化,可以在两层交换网络支持8,192卡的400Gb/s/GPU互连及三层网络交换就支持超过50万卡的400Gb/s/GPU互连。

NVIDIA Spectrum-X800端到端解决方案可以实现全网95%的通信效率;在NCCL Allreduce通信性能上相较传统以太网提升了50%,消除了系统噪声(Noise)对于Allreduce通信性能的影响;LLM训练性能在2000卡的时候提升了40%,实现了在多租户、多任务的环境下的业务性能隔离。

NVIDIA Spectrum-X800平台应用生成式AI云、企业级AI云、数据处理、存储等领域。

 

关键词:

责任编辑:kj005

文章投诉热线:182 3641 3660  投诉邮箱:7983347 16@qq.com
关键词:

iPad配件全攻略:提升你平板体验的必备之选

2024-05-07 14:46:20iPad配件全攻略:提升你平板体验的必备之选

应对中国家庭的早餐难,盖狮推出三色藜麦燕麦脆

2024-04-29 09:36:19应对中国家庭的早餐难,盖狮推出三色藜麦燕麦脆

微风企释放数字生产力,助力企服机构搭建品牌专属生态

2024-04-28 14:14:21微风企释放数字生产力,助力企服机构搭建品牌专属生态

易云思控发布全新智能化产品,助力企业跨越数字化转型新高度!

2024-04-26 13:10:19易云思控发布全新智能化产品,助力企业跨越数字化转型新高度!

​2.5-25T高压重载锂电叉车正式入市,别格乔开创搬运新纪元

2024-04-24 10:06:03​2.5-25T高压重载锂电叉车正式入市,别格乔开创搬运新纪元

紫光国微:海外业务持续扩充,汽车电子有望成为新的增长点

2024-04-23 09:13:02紫光国微:海外业务持续扩充,汽车电子有望成为新的增长点

相关新闻

最新资讯