Place your ads here email us at info@blockchain.news
NEW
NVIDIA 推出高性能 FlashInfer,用于高效的 LLM 推理 - Blockchain.News

NVIDIA 推出高性能 FlashInfer,用于高效的 LLM 推理

realtime news Jun 13, 2025 11:31

NVIDIA 的 FlashInfer 通过优化计算内核提高了 LLM 推理速度和开发者效率,并提供了一个可定制的库,用于高效的 LLM 服务引擎。

NVIDIA 推出高性能 FlashInfer,用于高效的 LLM 推理

NVIDIA 推出了 FlashInfer,这是一种旨在提高大型语言模型 (LLM) 推理性能和开发者效率的尖端库。正如 NVIDIA 最新的博客文章所强调的,这一发展将彻底改变推理内核的部署和优化方式。

FlashInfer 的主要特点

FlashInfer 旨在通过高度优化的计算内核最大化底层硬件的效率。该库具有适应性,允许快速采用新内核并加速模型和算法。它利用块稀疏和可组合格式来改善内存访问并减少冗余,而负载均衡调度算法则调整动态用户请求。

FlashInfer 的集成到领先的 LLM 服务框架中,包括 MLC Engine、SGLang 和 vLLM,凸显了其多功能性和效率。该库是保罗·G·艾伦计算机科学与工程学院、卡内基·梅隆大学和 OctoAI(现属于 NVIDIA)共同努力的结果。

技术创新

该库提供了一个灵活的架构,将 LLM 工作负载分为四个操作符家族:Attention、GEMM、Communication 和 Sampling。每个家族通过高性能集合暴露,能够无缝集成到任何服务引擎中。

例如,Attention 模块利用统一的存储系统和模板 & JIT 内核来处理各种推理请求动态。GEMM 和通信模块支持先进的特性,如专家混合和 LoRA 层,而令牌采样模块使用基于拒绝的无排序采样器以提高效率。

为未来的 LLM 推理做好准备

FlashInfer 确保 LLM 推理保持灵活和面向未来,允许更改 KV 缓存布局和注意力设计,而无需重写内核。此功能将推理路径保持在 GPU 上,从而保持高性能。

开始使用 FlashInfer

FlashInfer 可通过 PyPI 获取,并可通过 pip 轻松安装。它提供了 Torch 原生 API,旨在将内核编译和选择与内核执行分离,确保低延迟的 LLM 推理服务。

有关更多技术细节和获取该库,请访问 NVIDIA 博客

Image source: Shutterstock
Place your ads here email us at info@blockchain.news