NEW
NVIDIA DGX Cloud 提供新的基准测试模板以优化 AI 性能 - Blockchain.News

NVIDIA DGX Cloud 提供新的基准测试模板以优化 AI 性能

realtime news Feb 12, 2025 09:36

NVIDIA DGX Cloud 引入基准测试配方,以增强 AI 平台性能,指导用户通过全面的评估方法来优化训练工作负载。

NVIDIA DGX Cloud 提供新的基准测试模板以优化 AI 性能

在 AI 技术方面的重大进展中,NVIDIA 宣布推出 DGX 云基准测试配方,旨在提高 AI 平台的性能。根据 NVIDIA 的说明,该计划通过提供即用型模板指导用户优化 AI 训练工作负载,提供性能指标的全面评估。

全面的 AI 性能评估

DGX 云基准测试配方作为一种端到端的基准测试套件,允许用户在真实环境中衡量性能,同时识别潜在的优化区域。这些模板解决了传统芯片中心指标(如每秒峰值浮点运算次数,FLOPS)的局限性,后者往往难以提供准确的端到端性能评估。通过考虑网络、软件和基础设施等因素,NVIDIA 的方法可以更准确地反映训练时间和成本。

优化 AI 工作负载

这些配方不仅评估性能,还提供优化流行 AI 模型和工作负载的策略,包括 Llama 3.1 和 Grok。每个工作负载都根据特定配置进行定制以最大化性能,例如调整并行策略并利用 NVIDIA 的 NVLink 提升数据吞吐量。这种方法确保整个 AI 堆栈针对训练和微调应用进行了优化。

集成先进技术

NVIDIA 的基准测试配方集成了如 FP8 精度格式和高带宽 NVLink 网络等先进技术,这对于高效扩展 AI 工作负载至关重要。这些技术帮助弥合理论性能与实际性能之间的差距,使用户能够在真实应用中实现更高的 FLOPS。配方还包括各型号的基线性能指标,使用户能够设定现实的性能目标并相应地优化其系统。

开始使用基准测试配方

通过 NVIDIA 的 NGC 目录,用户可以获取 DGX 云基准测试配方,其中包括容器化基准测试、合成数据生成脚本和性能指标收集工具。这些资源促进了可重复性,并提供了适用于不同平台的最佳实践配置。目前这些工具需要 Slurm 集群管理,但对 Kubernetes 的支持正在进行中,扩展了这些配方在各种环境中的适用性。

通过不断优化其技术堆栈,NVIDIA 旨在推动 AI 行业内的显著性能提升和创新。引入这些基准测试模板不仅增强了 AI 基础设施投资,还强调了 NVIDIA 优化 AI 工作负载以提高效率和降低成本的承诺。

Image source: Shutterstock