Place your ads here email us at info@blockchain.news
NEW
NVIDIA的Helix并行性通过多百万令牌推理革新AI - Blockchain.News

NVIDIA的Helix并行性通过多百万令牌推理革新AI

realtime news Jul 07, 2025 17:53

NVIDIA引入Helix并行性,这是AI的突破性进展,支持在多百万令牌环境中实现更快速的实时推理,提升性能和用户体验。

NVIDIA的Helix并行性通过多百万令牌推理革新AI

在增强人工智能能力方面取得的重要进展中,NVIDIA推出了Helix并行性,这是一种旨在优化人工智能模型处理多百万令牌环境的突破性方法。这一发展在NVIDIA的博客中得到强调,有望彻底改变AI应用如何管理大量数据,同时保持实时互动。

解决AI模型中的瓶颈

现代AI应用通常由于解码瓶颈而面临挑战,主要是由于键值(KV)缓存流和前馈网络(FFN)权重加载。这些问题可能会阻碍AI模型的效率,特别是在处理大型数据集时。Helix并行性旨在通过引入一种混合分片策略解决这些挑战,该策略能够解耦注意力和FFN的并行策略,优化KV缓存和FFN权重读取流程。

通过Helix并行性提升性能

与NVIDIA的Blackwell系统共同设计的Helix并行性,旨在利用高带宽的大NVLink域和FP4计算能力。通过在给定延迟下最多增加32倍的并发用户数量,这种方法显著提升了人工智能代理和虚拟助手的速度和效率,使它们能够同时为更多用户提供服务而不影响性能。

技术见解和执行流程

Helix并行性的执行流程将KV、张量和专家等多维并行性交织成一个统一的执行循环。这种方法确保AI模型的每个阶段都能最佳运行,有效解决瓶颈问题。该策略包括在序列维度上对多百万令牌KV缓存进行分片,并在注意力头上应用张量并行性,确保KV缓存不会在多个GPU间重复,从而提高可扩展性和降低延迟。

模拟结果和未来前景

在NVIDIA的Blackwell硬件上的模拟显示,Helix并行性为长上下文的大型语言模型(LLM)解码设定了新的基准。这种方法在吞吐量和延迟方面提供了显著改善,能够将并发用户数量提高至最多32倍,并将用户互动性能提高1.5倍。这一进步推动了吞吐量延迟帕累托前沿,使得即使在更低的延迟下也能实现更高的吞吐量。

随着NVIDIA的不断创新,Helix并行性在AI技术中显得尤为重要。通过解决关键瓶颈并提升性能,它为更高效和交互性更强的AI应用铺平了道路。如需进一步了解,您可以访问NVIDIA的博客上的原始博文。

Image source: Shutterstock
Place your ads here email us at info@blockchain.news