NVIDIA H100 GPUs 和 TensorRT-LLM 实现 Mixtral 8x7B 的突破性性能

realtime news  Jul 03, 2024 15:56  UTC 07:56

1 Min Read

随着大型语言模型 (LLM) 的规模和复杂性不断扩大,对高效且经济的性能解决方案的需求变得越来越重要。最近,NVIDIA 宣布其 H100 Tensor Core GPU 与 TensorRT-LLM 软件在行业标准的、同行评审的 MLPerf Inference v4.0 基准测试中创下了新的性能纪录,据 NVIDIA 技术博客报道。这一成就凸显了 NVIDIA 全栈推理平台的能力。

Mixtral 8x7B 和专家混合架构

由 Mistral AI 开发的 Mixtral 8x7B 模型采用了专家混合 (MoE) 架构。与传统的密集架构相比,这种设计在模型容量、训练成本和首标记服务延迟方面具有潜在优势。NVIDIA 的 H100 Tensor Core GPU 建在 Hopper GPU 架构上,TensorRT-LLM 软件在 Mixtral 8x7B 模型下展示了出色的性能。

优化吞吐量和延迟

在大规模 LLM 部署中,优化查询响应时间和吞吐量至关重要。TensorRT-LLM 支持飞行中批处理,在 LLM 服务期间允许完成的请求被新请求替换,从而增强性能。选择合适的响应时间预算需要在吞吐量和用户互动之间找到平衡,吞吐量与延迟的图表是有用的工具。

FP8 精度和性能提升

NVIDIA Hopper 架构包括支持 FP8 数据类型的第四代 Tensor Core,提供比 FP16 或 BF16 高两倍的峰值计算速率。TensorRT-LLM 支持 FP8 量化,允许将模型权重转换为 FP8 并使用高度优化的 FP8 内核。这带来了显著的性能收益,H100 GPU 在 0.5 秒响应时间限制内提供了近 50% 更多的吞吐量。

流模式和标记处理

在流模式下,H100 GPU 和 TensorRT-LLM 的性能引人注目。无需等待完整推理请求完成,当一个输出标记生成时立即报告结果。这种方法即使在每个输出标记的平均时间非常低的情况下也能保持高吞吐量。例如,运行 TensorRT-LLM 且使用 FP8 精度的一对 H100 GPU 在每个输出标记平均时间仅为 0.016 秒的情况下实现了每秒 38.4 个请求的吞吐量。

无延迟约束场景

在无延迟约束场景下,例如离线任务如数据标注和情感分析,H100 GPU 显示出惊人的吞吐量。在 1,024 的批处理大小下,使用 FP8 精度的推理吞吐量达到每秒近 21,000 个标记。Hopper 架构的 FP8 吞吐能力和减少的内存占用使得更大的批处理能够高效处理。

TensorRT-LLM:开源和优化

TensorRT-LLM 是一个旨在优化 LLM 推理的开源库,通过简单的 Python API 提供流行 LLM 的性能优化。它包括一般的 LLM 优化,如优化的注意力内核、KV 缓存以及 FP8 或 INT4 AWQ 等量化技术。使用 TensorRT-LLM 的 Mixtral 可与 NVIDIA Triton 推理服务器软件一起托管。

未来的创新

NVIDIA 不断创新,预计今年晚些时候推出基于突破性 Blackwell 架构的产品。GB200 NVL72 结合 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU,旨在为实时 1.8 万亿参数 MoE LLM 推理提供显著的加速。

欲了解更多信息,请访问 NVIDIA 技术博客



Read More