NVIDIA Blackwell 在 MLPerf Training v5.0 中实现 2.6 倍性能提升

realtime news   Jun 05, 2025 02:32  UTC 18:32

1 Min Read

NVIDIA 最新的 Blackwell 架构在人工智能领域取得了重大进展,在 MLPerf Training v5.0 基准测试中表现出高达 2.6 倍的性能提升。根据 NVIDIA 的说法,这一成就突显了 Blackwell 带来的架构进步,尤其是在大型语言模型(LLM)和其他 AI 应用领域的严格需求中。

Blackwell 的架构创新

与其前身 Hopper 架构相比,Blackwell 引入了若干增强功能。这些功能包括第五代 NVLink 和 NVLink Switch 技术,大大提高了 GPU 之间的带宽。这种改进对于减少训练时间和提高吞吐量至关重要。此外,Blackwell 的第二代 Transformer Engine 和 HBM3e 内存促进了更快速和更高效的模型训练。

这些进步使得 NVIDIA 的 GB200 NVL72 系统取得了显著成果,例如训练 Llama 3.1 405B 模型的速度比 Hopper 架构快 2.2 倍。该系统的训练吞吐量可达到高达 1,960 TFLOPS。

基准测试中的性能表现

MLPerf Training v5.0 以其严格的基准测试而闻名,包括 LLM 预训练、文本到图像生成和图神经网络等不同领域的测试。NVIDIA 的平台在所有七个基准测试中表现优异,其速度和效率得到了充分展示。

例如,在使用 Llama 2 70B 模型进行 LLM 微调时,Blackwell GPU 比使用 DGX H100 系统的之前提交表现提升了 2.5 倍。同样,Stable Diffusion v2 预训练基准测试上的每 GPU 性能提高了 2.6 倍,在规模上创下了新的性能纪录。

影响及未来展望

性能的提升不仅突显了 Blackwell 架构的能力,还为 AI 模型的更快部署铺平了道路。更快的训练和微调意味着组织可以更迅速地将他们的 AI 应用推向市场,增强其竞争优势。

NVIDIA 持续专注于优化其软件栈,包括 cuBLAS 和 cuDNN 等库,这在性能提升中起到了关键作用。这些优化有助于有效利用 Blackwell 增强的计算能力,特别是在 AI 数据格式中。

通过这些发展,NVIDIA 进一步巩固其在 AI 硬件领域的领先地位,提供满足复杂和大规模 AI 模型不断增长需求的解决方案。

有关 NVIDIA 在 MLPerf Training v5.0 中性能的更多详细信息,请访问 NVIDIA 博客



Read More