NVIDIA 使用 Llama 4 Maverick 和 Blackwell GPU 超越每用户 1,000 TPS
realtime news May 23, 2025 02:53
NVIDIA 使用 Blackwell GPU 和 Llama 4 Maverick 达成世界纪录的每用户 1,000 TPS 推理速度,为 AI 模型性能设定了新的标准。

NVIDIA 在人工智能性能方面设立了新的标准,其最新成就利用 Llama 4 Maverick 模型和 Blackwell GPU 打破了每用户 1,000 tokens per second (TPS) 的障碍。这个成就经过 AI 基准测试服务 Artificial Analysis 的独立验证,标志着大型语言模型 (LLM) 推理速度的一个重要里程碑。
技术进步
这一突破在配备八个 NVIDIA Blackwell GPU 的单个 NVIDIA DGX B200 节点上实现,它可以在 Llama 4 Maverick —— 一个拥有 4000 亿参数的模型上处理每用户超过 1,000 TPS。这一性能使 Blackwell 成为部署 Llama 4 的最佳硬件,无论是为了最大化吞吐量还是最小化延迟,在高吞吐量配置中达到每台服务器 72,000 TPS。
优化技术
NVIDIA 使用 TensorRT-LLM 进行了广泛的软件优化,充分利用 Blackwell GPU。公司还使用 EAGLE-3 技术训练了一种投机解码草稿模型,使速度比之前的基线提高了四倍。这些增强措施在提升性能的同时保持了响应准确性,并利用 FP8 数据类型进行 GEMM 和专家混合运算,确保准确性可与 BF16 指标相媲美。
低延迟的重要性
在生成式 AI 应用中,平衡吞吐量和延迟至关重要。对于需要快速决策的关键应用,NVIDIA 的 Blackwell GPU 通过最小化延迟表现卓越,正如每用户 TPS 记录所示。这种硬件能够处理高吞吐量和低延迟,使其成为各种 AI 任务的理想选择。
CUDA 内核与投机解码
NVIDIA 为 GEMM、MoE 和 Attention 操作优化了 CUDA 内核,利用空间分区和高效的内存数据加载以最大化性能。使用较小、较快的草稿模型预测推测 tokens,并由较大的目标 LLM 验证的投机解码被用于加速 LLM 推理速度。这种方法特别在草稿模型的预测准确时能显著提升速度。
编程依赖启动
为了进一步增强性能,NVIDIA 使用了编程依赖启动 (PDL) 来减少连续 CUDA 内核之间的 GPU 闲置时间。这一技术允许重叠内核执行,提高了 GPU 利用率并消除了性能差距。
NVIDIA 的成就彰显了其在 AI 基础设施和数据中心技术领域的领导地位,为 AI 模型部署设定了新的速度和效率标准。关于 Blackwell 架构和软件优化的创新继续推动 AI 性能的可能性边界,确保了响应迅速、实时的用户体验和强大的 AI 应用。
有关更详细的信息,请访问NVIDIA 官方博客。
Image source: Shutterstock