NEW
NVIDIA NeMo Guardrails 增强了 LLM 流媒体功能,以实现更安全的 AI 交互 - Blockchain.News

NVIDIA NeMo Guardrails 增强了 LLM 流媒体功能,以实现更安全的 AI 交互

realtime news May 23, 2025 10:39

NVIDIA 推出了 NeMo Guardrails,以通过实时逐个代币输出验证来增强大语言模型 (LLM) 流媒体,改善生成式 AI 应用程序的延迟和安全性。

NVIDIA NeMo Guardrails 增强了 LLM 流媒体功能,以实现更安全的 AI 交互

NVIDIA 推出了其最新创新 NeMo Guardrails,旨在通过提高性能和安全性来改变大语言模型 (LLM) 流媒体的格局。随着企业日益依赖生成式 AI 应用程序,流媒体已成为关键,提供模仿自然对话的实时逐个代币响应。然而,这一转变带来了保护交互的新挑战,而根据 NVIDIA 的说法,NeMo Guardrails 有效地解决了这些问题。

改善延迟和用户体验

传统上,LLM 的响应需要等待完整的输出,尤其是在复杂应用中可能会导致延迟。通过流媒体,初始代币 (TTFT) 的时间显著减少,允许即时用户反馈。这种方法将初始响应能力与稳态吞吐量分开,确保无缝的用户体验。NeMo Guardrails 通过启用增量验证进一步优化了这一过程,其中响应以块的形式被检查,平衡速度与全面的安全检查。

确保实时交互的安全性

NeMo Guardrails 将策略驱动的安全控制与模块化验证管道集成在一起,使开发人员能够在不影响安全性的情况下保持响应能力。该系统使用滑动窗口缓冲区评估响应,确保在多个块中检测到任何潜在违规行为。这种上下文感知的管理在防止提示注入或数据泄漏等问题方面至关重要,这些都是实时流媒体环境中的重要问题。

配置和实施

实施 NeMo Guardrails 涉及配置模型以启用流媒体,并可根据具体应用需要调整块大小和上下文设置。例如,较大的块可以为检测幻觉提供更好的上下文,而较小的块可以减少延迟。NeMo Guardrails 支持各种 LLM,包括来自 HuggingFace 和 OpenAI 的 LLM,确保广泛兼容性和易于集成。

对生成式 AI 应用程序的好处

通过启用流媒体,生成式 AI 应用程序可以从整体响应模型转向动态增量交互流。这种变化减少了感知延迟,优化了吞吐量,并通过渐进渲染提高了资源效率。对于如客服代理等企业应用程序,流媒体改善了速度和用户体验,尽管实施复杂,但仍是一种推荐的方法。

NVIDIA 的 NeMo Guardrails 在 LLM 流媒体方面代表了重大的进步,结合了增强的性能和强大的安全措施。通过将实时代币流媒体与轻量级护栏集成,开发人员可以在确保合规和安全性的同时,不牺牲现代 AI 应用程序所需的响应能力。

欲了解更多信息,请访问 NVIDIA 开发者博客

Image source: Shutterstock