NVIDIA Blackwell 在 MLPerf Training v5.0 中实现 2.6 倍性能提升
realtime news Jun 04, 2025 18:32
NVIDIA 的 Blackwell 架构在 MLPerf Training v5.0 中展示了显著的性能提升,提供了高达 2.6 倍的训练速度提升,涵盖多种基准测试。

NVIDIA 最新的 Blackwell 架构在人工智能领域取得了重大进展,在 MLPerf Training v5.0 基准测试中表现出高达 2.6 倍的性能提升。根据 NVIDIA 的说法,这一成就突显了 Blackwell 带来的架构进步,尤其是在大型语言模型(LLM)和其他 AI 应用领域的严格需求中。
Blackwell 的架构创新
与其前身 Hopper 架构相比,Blackwell 引入了若干增强功能。这些功能包括第五代 NVLink 和 NVLink Switch 技术,大大提高了 GPU 之间的带宽。这种改进对于减少训练时间和提高吞吐量至关重要。此外,Blackwell 的第二代 Transformer Engine 和 HBM3e 内存促进了更快速和更高效的模型训练。
这些进步使得 NVIDIA 的 GB200 NVL72 系统取得了显著成果,例如训练 Llama 3.1 405B 模型的速度比 Hopper 架构快 2.2 倍。该系统的训练吞吐量可达到高达 1,960 TFLOPS。
基准测试中的性能表现
MLPerf Training v5.0 以其严格的基准测试而闻名,包括 LLM 预训练、文本到图像生成和图神经网络等不同领域的测试。NVIDIA 的平台在所有七个基准测试中表现优异,其速度和效率得到了充分展示。
例如,在使用 Llama 2 70B 模型进行 LLM 微调时,Blackwell GPU 比使用 DGX H100 系统的之前提交表现提升了 2.5 倍。同样,Stable Diffusion v2 预训练基准测试上的每 GPU 性能提高了 2.6 倍,在规模上创下了新的性能纪录。
影响及未来展望
性能的提升不仅突显了 Blackwell 架构的能力,还为 AI 模型的更快部署铺平了道路。更快的训练和微调意味着组织可以更迅速地将他们的 AI 应用推向市场,增强其竞争优势。
NVIDIA 持续专注于优化其软件栈,包括 cuBLAS 和 cuDNN 等库,这在性能提升中起到了关键作用。这些优化有助于有效利用 Blackwell 增强的计算能力,特别是在 AI 数据格式中。
通过这些发展,NVIDIA 进一步巩固其在 AI 硬件领域的领先地位,提供满足复杂和大规模 AI 模型不断增长需求的解决方案。
有关 NVIDIA 在 MLPerf Training v5.0 中性能的更多详细信息,请访问 NVIDIA 博客。
Image source: Shutterstock