根据NVIDIA技术博客,NVIDIA的新Blackwell架构在最新的MLPerf Inference v4.1中设立了前所未有的基准。该平台在NVIDIA GTC 2024上推出,配备了基于2080亿个晶体管的超级芯片,采用专为NVIDIA量身定制的TSMC 4NP工艺,使其成为迄今为止最大的GPU。
在MLPerf Inference首秀中大放异彩
在MLPerf Inference的首次提交中,NVIDIA的Blackwell架构在Llama 2 70B LLM基准测试中取得了显著成绩,其每个GPU的每秒Token数比之前的H100 GPU高出最多4倍。这一性能提升得益于新的第二代Transformer Engine,它利用了Blackwell Tensor Core技术和TensorRT-LLM创新。
根据MLPerf的结果显示,Blackwell的FP4 Transformer Engine约50%的工作负载在FP4中完成,实际数学计算吞吐量达到了5.2 petaflops。Blackwell基于的提交结果属于封闭组,这意味着模型未经修改但依然满足高准确性标准。
NVIDIA H200 Tensor Core GPU的卓越表现
作为Hopper架构的升级版,NVIDIA H200 GPU在所有基准测试中都表现出色。H200配备了HBM3e内存,在内存容量和带宽方面有显著提升,特别有利于内存敏感型应用。
例如,通过TensorRT-LLM的软件增强,H200在Llama 2 70B基准测试中取得了14%的显著提升。此外,当其热设计功率(TDP)增加到1000瓦时,H200的性能又提高了12%。
Jetson AGX Orin在边缘AI领域的巨大飞跃
NVIDIA的Jetson AGX Orin在边缘生成AI方面展现出令人印象深刻的性能提升,在GPT-J 6B参数LLM基准测试中实现了6.2倍的吞吐量和2.4倍的延迟改善。这一成就得益于大量的软件优化,包括使用INT4激活感知权重量化(AWQ)和飞行批处理。
Jetson AGX Orin平台在运行像GPT-J、视觉变换器和Stable Diffusion等复杂模型方面处于独特地位,能够从图像和视频等传感器数据中提供实时、有可操作性的见解。
结论
总而言之,NVIDIA的Blackwell架构在MLPerf Inference v4.1中设立了新的标准,其性能比前代H100提高了最多4倍。H200 GPU在多个基准测试中继续保持顶级性能,而Jetson AGX Orin在边缘AI方面展示了显著的进步。
NVIDIA在技术栈上的持续创新确保其在从大型数据中心到低功耗边缘设备的AI推理性能方面继续处于领先地位。
Image source: Shutterstock