NVIDIA通过GPU自动扩缩和Kubernetes自动化加强Dynamo
realtime news May 21, 2025 18:48
NVIDIA在最新的Dynamo v0.2版本中引入了GPU自动扩缩、Kubernetes自动化和网络优化,以提升AI模型的部署和效率。

在NVIDIA GTC 2025大会上,NVIDIA宣布对其开源推理服务框架NVIDIA Dynamo进行了重大增强。据NVIDIA开发者博客报道,最新的v0.2版本通过GPU自动扩缩、Kubernetes自动化和网络优化,旨在提高生成式AI模型的部署和效率。
增强效率的GPU自动扩缩
GPU自动扩缩成为云计算中的关键组件,能够根据实时需求自动调整计算能力。然而,传统的每秒查询数(QPS)等指标在现代大型语言模型(LLM)环境中已显得不够。为了解决此问题,NVIDIA推出了NVIDIA Dynamo Planner,这是为分离提供工作负载设计的推理感知自动扩缩器。它通过了解LLM特定的推理模式,动态管理计算资源,优化GPU利用率并降低成本。
简化的Kubernetes部署
将AI模型从本地开发环境转移到生产环境面临重大挑战,通常涉及复杂的手动过程。NVIDIA新的Dynamo Kubernetes Operator自动化了这些部署,简化了从原型到大规模生产的过渡。这种自动化包括镜像构建和图形管理能力,使AI团队能够通过一条命令高效地在数千个GPU上扩展部署。
Amazon EC2的网络优化
有效管理KV缓存对于成本效益的LLM部署至关重要。NVIDIA的推理传输库(NIXL)为跨异构环境的数据传输提供了简化的解决方案。v0.2版本扩展了NIXL的功能,包括对AWS弹性面适配器(EFA)的支持,增强了在NVIDIA驱动的EC2实例上多节点设置的效率。
这些进步使NVIDIA Dynamo成为寻求大规模利用AI的开发人员的强大框架,提供了在资源管理和部署自动化方面的显著改进。随着NVIDIA继续开发Dynamo,这些增强预计将促进在各种云环境中的高效且可扩展的AI部署。
Image source: Shutterstock