根据 NVIDIA 技术博客,NVIDIA 的 Triton 推理服务器在最新的 MLPerf Inference 4.1 基准测试中表现非凡。在配置了八个 H200 GPU 的系统上运行的服务器,在 Llama 2 70B 基准测试上的表现几乎与 NVIDIA 的裸机提交结果相同,突显了它在生产级 AI 推理中平衡丰富功能和最大吞吐量性能的能力。
NVIDIA Triton 主要特点
NVIDIA Triton 是一个开源的 AI 模型服务平台,旨在简化和加速生产环境中的 AI 推理工作负载部署。主要特点包括对所有 AI 框架的支持、无缝的云集成、业务逻辑脚本编写、模型集成和模型分析工具。
通用 AI 框架支持
Triton 于 2016 年首次推出,最初支持 NVIDIA TensorRT 后端,现在支持包括 TensorFlow、PyTorch、ONNX 在内的所有主要框架。广泛的支持使开发人员能够快速将新模型部署到现有的生产实例中,显著缩短了产品上市时间。
无缝云集成
NVIDIA Triton 深度集成了主要的云服务提供商,使得在云中的部署变得简单,几乎不需要编写代码。它支持包括 OCI Data Science、Azure ML CLI、GKE 管理的集群和 AWS 深度学习容器等平台。
业务逻辑脚本编写
Triton 允许通过业务逻辑脚本将自定义的 Python 或 C++ 脚本集成到生产管道中,使组织能够根据其特定需求定制 AI 工作负载。
模型集成
模型集成使企业能够将预处理和后处理工作流连接成一个统一的管道,无需编程,从而优化基础设施成本并减少延迟。
模型分析工具
模型分析工具允许对各种部署配置进行实验,通过可视化映射这些配置,以确定最有效的生产配置。它还包括一个名为 GenA-Perf 的工具,专门用于生成式 AI 性能基准测试。
在 MLPerf 4.1 中取得卓越的吞吐量结果
在由 MLCommons 主办的 MLPerf Inference v4.1 中,NVIDIA Triton 在一个经过 TensorRT-LLM 优化的 Llama-v2-70B 模型上展示了其能力。服务器的表现几乎与裸机提交结果相同,证明企业能够实现既丰富功能的生产级 AI 推理,又能达到最大吞吐量性能的双重目标。
MLPerf 基准测试提交细节
提交包括两个场景:离线场景,输入数据批量处理;服务器场景,模拟现实世界的生产部署,处理离散的输入请求。NVIDIA Triton 实现采用了 gRPC 客户端-服务器设置,服务器提供一个 gRPC 端点与 TensorRT-LLM 进行交互。
下次用户线下交流会
NVIDIA 宣布下次 Triton 用户交流会将于 2024 年 9 月 9 日在旧金山福特梅森艺术文化中心举行。此次活动将聚焦新的 LLM 特性和未来创新。
Image source: Shutterstock