Place your ads here email us at info@blockchain.news
NEW
NVIDIA Dynamo 扩展 AWS 支持以增强 AI 推理效率 - Blockchain.News

NVIDIA Dynamo 扩展 AWS 支持以增强 AI 推理效率

realtime news Jul 15, 2025 18:27

NVIDIA Dynamo 现已支持 AWS 服务,为开发者提供增强的AI推理效率。该集成承诺性能提升和成本节约。

NVIDIA Dynamo 扩展 AWS 支持以增强 AI 推理效率

NVIDIA 宣布其开源推理服务框架 NVIDIA Dynamo 与 Amazon Web Services (AWS) 深度集成,为 AWS 开发者和解决方案架构师提供增强的功能。据 NVIDIA 的博客 介绍,该发展允许用户利用基于 NVIDIA GPU 的 Amazon EC2 实例,尤其是由 NVIDIA 的 Blackwell 架构加速的 P6 实例,以更高效地执行大规模推理任务。

NVIDIA Dynamo 的高级功能

NVIDIA Dynamo 专为支持大规模分布式环境而设计,与包括 PyTorch 和 TensorRT-LLM 在内的主要推理框架兼容。诸如解耦服务、支持 LLM 的路由和 KV 缓存卸载等关键功能被纳入其中,以最大限度地提高吞吐量并降低计算成本。这些功能对于高效处理大规模语言模型 (LLM) 至关重要。

与 AWS 服务的无缝集成

与 AWS 服务的集成简化了 AI 工作负载的部署和扩展。Dynamo 现在支持 Amazon S3,允许开发者卸载 KV 缓存以释放 GPU 内存。这减少了开发者创建自定义插件的负担并降低整体推理成本。此外,Dynamo 与 Amazon EKS 的兼容性简化了容器化应用的部署,提供了如支持 LLM 的请求路由和解耦服务这样的高级组件,而不必管理 Kubernetes 基础设施的复杂性。

此外,Dynamo 支持 AWS Elastic Fabric Adapter (EFA),它促进了 Amazon EC2 实例之间的低延迟通信,这对于在多个 GPU 之间分布推理数据至关重要。此集成确保开发者能够高效管理推理工作负载,而无需自定义解决方案。

由 Blackwell 驱动的实例增强性能

当与由 NVIDIA 的 Blackwell 架构驱动的 Amazon EC2 P6 实例配对使用时,Dynamo 为像 DeepSeek R1 和 Llama 4 这样的复杂模型提供了显著的性能提升。这些实例具有先进功能,如第五代 Tensor Cores 和增加的 NVLink 带宽,提高了 GPU 利用率和每美元的吞吐量。这种组合对于需要大型计算资源的生产规模 AI 工作负载尤其有利。

未来展望

随着 NVIDIA Dynamo 与 AWS 的更深入集成,开发者可以预期其推理工作负载的扩展会有进一步的增强。该合作关系强调了 NVIDIA 框架在云平台上优化 AI 部署的潜力,承诺性能改进和成本节约。

Image source: Shutterstock
Place your ads here email us at info@blockchain.news