NVIDIA通过Spectrum-X网络支持全球最大AI超级计算机

realtime news  Oct 29, 2024 11:03  UTC 03:03

1 Min Read

根据NVIDIA新闻室,NVIDIA宣布成功部署xAI的Colossus超级计算机,该计算机现为全球最大的AI超级计算机集群。Colossus集群位于田纳西州孟菲斯,由100,000个NVIDIA Hopper Tensor Core GPU组成,并利用NVIDIA Spectrum-X™以太网网络平台。

革命性的AI训练能力

Colossus旨在为多租户和超大规模AI工厂提供无与伦比的性能,采用Spectrum-X以太网平台促进其远程直接内存访问(RDMA)网络。这项技术对训练xAI的Grok大型语言模型家族至关重要,包括提供给X Premium订阅者的聊天机器人。目前,xAI正扩展Colossus以整合共计200,000个NVIDIA Hopper GPU。

快速部署和性能

这一最先进超级计算机的建造仅在122天内完成,相较于此类项目的典型时间表大幅缩短。令人惊讶的是,训练在首个设备机架安装后仅19天就已开始。这一加速的设置突显了NVIDIA-xAI协作所实现的效率。

Colossus展示了卓越的网络性能,凭借Spectrum-X的拥塞控制,实现了95%的数据吞吐量,而无应用延迟退化或数据包丢失。这样的性能指标超越了标准以太网的能力,后者通常导致大量流量冲突,并仅有60%的数据吞吐量。

行业影响和未来前景

“AI正成为至关重要的任务,需要更高的性能、安全性、可扩展性和成本效率,”NVIDIA的网络高级副总裁Gilad Shainer表示。Spectrum-X平台旨在增强AI工作负载处理,从而加速AI解决方案的开发和部署。

埃隆·马斯克在社交媒体上赞扬了xAI团队和NVIDIA的努力,强调Colossus是全球最强大的训练系统。xAI的一位发言人也对此表示赞同,强调NVIDIA的Hopper GPU和Spectrum-X如何推动大规模AI模型训练,突破AI工厂优化的界限。

先进的网络功能

Spectrum-X平台的核心组件Spectrum SN5600以太网交换机提供高达800Gb/s的端口速度,并由Spectrum-4交换机ASIC供电。xAI将其与NVIDIA BlueField-3® SuperNIC搭配使用,以实现前所未有的性能水平。适用于AI的Spectrum-X以太网网络引入了诸如自适应路由、拥塞控制和增强的AI架构可视性等高级功能,这对于多租户生成性AI云和大型企业环境至关重要。



Read More