NVIDIA MLPerf v5.0:复现LLM基准的训练分数
realtime news Jun 04, 2025 18:44
NVIDIA概述了如何复现MLPerf v5.0的LLM基准训练分数,重点介绍了硬件要求和逐步执行过程。

NVIDIA详细介绍了复现MLPerf v5.0基准训练分数的过程,特别关注Llama 2 70B LoRA微调和Llama 3.1 405B预训练。这一举措紧随NVIDIA早前公告实现了在MLPerf Training v5.0中高达2.6倍的性能提升之后进行,正如Sukru Burc Eryilmaz在NVIDIA博客中所报道的。这些基准测试是MLPerf全面评估套件的一部分,旨在衡量机器学习模型的性能。
基准测试的前提条件
要运行这些基准测试,必须满足特定的硬件和软件要求。对于Llama 2 70B LoRA,需使用NVIDIA DGX B200或GB200 NVL72系统,而Llama 3.1 405B则至少需要四个通过InfiniBand连接的GB200 NVL72系统。此外,还需要大量的磁盘空间:Llama 3.1需要2.5 TB,LoRA微调需要300 GB。
集群和环境设置
NVIDIA使用由NVIDIA Base Command Manager (BCM)管理的集群设置,该设置需要基于Slurm,Pyxis和Enroot的环境。推荐配置为RAID0的快速本地存储以最小化数据瓶颈。网络应结合NVIDIA NVLink和InfiniBand以实现最佳性能。
执行基准测试
执行过程包括多个步骤,首先是构建一个Docker容器并下载必要的数据集和检查点。基准测试通过SLURM运行,配置文件中详细列出超参数和系统设置。该过程设计为灵活的,可以根据不同的系统规模和要求进行调整。
分析基准测试日志
在基准测试过程中,会生成包含关键MLPerf标记的日志。这些日志提供了有关初始化、训练进度和最终准确性的见解。最终目标是达到一个目标评估损失,以此信号标志着基准测试的成功完成。
有关更详细的说明,包括特定脚本和配置示例,请参阅NVIDIA博客。
Image source: Shutterstock