据[NVIDIA](https://developer.nvidia.com/blog/nvidia-gh200-superchip-accelerates-inference-by-2x-in-multiturn-interactions-with-llama-models/)报道,NVIDIA GH200 Grace Hopper超级芯片正在AI社区引起轰动,在与Llama模型的多轮互动中,将推理速度提高了两倍。这一进步解决了在部署大型语言模型(LLM)时,用户互动性与系统吞吐量之间长期存在的平衡难题。
通过KV缓存卸载提升性能
像Llama 3 70B模型这样的LLM部署通常需要大量计算资源,尤其是在输出序列的初始生成期间。NVIDIA GH200通过将键值(KV)缓存卸载到CPU内存中,大大减轻了这种计算负担。这一方法允许重用先前计算的数据,从而最大限度地减少重新计算的需要,并使首个标记生成时间(TTFT)相比传统的基于x86的NVIDIA H100服务器提高了多达14倍。
解决多轮互动挑战
在需要多轮互动的场景中,诸如内容摘要和代码生成,KV缓存卸载尤其有利。通过将KV缓存存储在CPU内存中,多个用户可以与相同内容进行交互而无需重新计算缓存,从而优化成本和用户体验。这种方法正在内容提供商中间获得认可,他们正在将生成式AI功能集成到他们的平台中。
解决PCIe瓶颈问题
NVIDIA GH200超级芯片通过使用NVLink-C2C技术解决了传统PCIe接口相关的性能问题,该技术在CPU和GPU之间提供了高达900 GB/s的惊人带宽。这是标准PCIe Gen5通道的七倍,允许更高效的KV缓存卸载并实现实时用户体验。
广泛采用与未来展望
目前,NVIDIA GH200为全球九台超级计算机提供动力,并通过各种系统制造商和云供应商提供。其在无需额外基础设施投资的情况下提高推理速度的能力,使其对于数据中心、云服务提供商和寻求优化LLM部署的AI应用开发人员来说是一个有吸引力的选择。
GH200的高级内存架构继续推动AI推理能力的边界,为大型语言模型的部署设定了新的标准。
Image source: Shutterstock