NVIDIA 推出高性能 FlashInfer，用于高效的 LLM 推理

NEW

NVIDIA 推出高性能 FlashInfer，用于高效的 LLM 推理 - Blockchain.News

NVIDIA 推出了 FlashInfer，这是一种旨在提高大型语言模型 (LLM) 推理性能和开发者效率的尖端库。正如 NVIDIA 最新的博客文章所强调的，这一发展将彻底改变推理内核的部署和优化方式。

FlashInfer 的主要特点

FlashInfer 旨在通过高度优化的计算内核最大化底层硬件的效率。该库具有适应性，允许快速采用新内核并加速模型和算法。它利用块稀疏和可组合格式来改善内存访问并减少冗余，而负载均衡调度算法则调整动态用户请求。

FlashInfer 的集成到领先的 LLM 服务框架中，包括 MLC Engine、SGLang 和 vLLM，凸显了其多功能性和效率。该库是保罗·G·艾伦计算机科学与工程学院、卡内基·梅隆大学和 OctoAI（现属于 NVIDIA）共同努力的结果。

该库提供了一个灵活的架构，将 LLM 工作负载分为四个操作符家族：Attention、GEMM、Communication 和 Sampling。每个家族通过高性能集合暴露，能够无缝集成到任何服务引擎中。

例如，Attention 模块利用统一的存储系统和模板 & JIT 内核来处理各种推理请求动态。GEMM 和通信模块支持先进的特性，如专家混合和 LoRA 层，而令牌采样模块使用基于拒绝的无排序采样器以提高效率。

FlashInfer 确保 LLM 推理保持灵活和面向未来，允许更改 KV 缓存布局和注意力设计，而无需重写内核。此功能将推理路径保持在 GPU 上，从而保持高性能。

FlashInfer 可通过 PyPI 获取，并可通过 pip 轻松安装。它提供了 Torch 原生 API，旨在将内核编译和选择与内核执行分离，确保低延迟的 LLM 推理服务。

有关更多技术细节和获取该库，请访问 NVIDIA 博客。

Image source: Shutterstock