人工智能(AI)正在通过解决重大挑战,革新众多行业,例如精确的药物发现和自主车辆开发。根据NVIDIA 技术博客的报道,部署具有万亿参数的大型语言模型(LLM)是这个变革过程中的关键部分。
LLM 部署的挑战
LLM 生成映射到自然语言的标记,然后将其返还给用户。增加标记吞吐量可以通过服务更多的用户来增强投资回报(ROI),尽管这可能会降低用户互动性。在 LLM 不断发展的过程中,在这些因素之间取得平衡变得日益复杂。
例如,GPT MoE 1.8T 参数模型具有独立执行计算的子网络。此类模型的部署考虑因素包括批处理、并行化和分块,所有这些都影响推理性能。
平衡吞吐量和用户互动性
企业的目标是通过不增加基础设施成本来最大化服务用户请求的数量。这涉及批量处理用户请求,以最大化 GPU 资源利用率。然而,以每秒每用户标记数为衡量标准的用户体验则要求较小的批量,以便将更多的 GPU 资源分配给每个请求,这可能导致 GPU 资源的未充分利用。
在生产环境中部署 LLM 时,在最大化 GPU 吞吐量和确保高用户互动性之间的权衡是一个重大挑战。
并行技术
部署万亿参数模型需要多种并行技术:
- 数据并行化:在不同的 GPU 上托管多个模型副本,独立处理用户请求。
- 张量并行化:将每个模型层拆分到多个 GPU 上,共享用户请求。
- 流水并行化:将模型层组分布到不同的 GPU 上,顺序处理请求。
- 专家并行化:请求被路由到变换块中的不同专家,从而减少参数交互。
结合这些并行方法可以显著提高性能。例如,同时使用张量、专家和流水并行化,可以在不牺牲用户互动性的情况下实现显著的 GPU 吞吐量。
管理预填充和解码阶段
推理包括两个阶段:预填充和解码。预填充处理所有输入标记以计算中间状态,然后用于生成第一个标记。解码则依次生成输出标记,更新每个新标记的中间状态。
诸如飞行中批处理和分块等技术优化了 GPU 的利用率和用户体验。飞行中批处理动态插入和驱逐请求,而分块则将预填充阶段拆分为更小的块,以防止瓶颈。
NVIDIA Blackwell 架构
NVIDIA Blackwell 架构简化了优化万亿参数 LLM 的推理吞吐量和用户互动性的复杂性。该架构拥有 2080 亿个晶体管和第二代变压器引擎,支持 NVIDIA 的第五代 NVLink 以实现高带宽的 GPU 对 GPU 操作。
与之前的产品相比,Blackwell 可以提供 30 倍以上的吞吐量,是企业部署大规模 AI 模型的强大工具。
结论
组织现在可以使用数据、张量、流水和专家并行技术来并行化万亿参数模型。NVIDIA 的 Blackwell 架构、TensorRT-LLM 和 Triton 推理服务器提供了探索整个推理空间并优化吞吐量和用户互动性部署所需的工具。
Image source: Shutterstock