NVIDIA Dynamo 扩展 AWS 支持以增强 AI 推理效率

NEW

NVIDIA Dynamo 扩展 AWS 支持以增强 AI 推理效率 - Blockchain.News

NVIDIA 宣布其开源推理服务框架 NVIDIA Dynamo 与 Amazon Web Services (AWS) 深度集成，为 AWS 开发者和解决方案架构师提供增强的功能。据 NVIDIA 的博客介绍，该发展允许用户利用基于 NVIDIA GPU 的 Amazon EC2 实例，尤其是由 NVIDIA 的 Blackwell 架构加速的 P6 实例，以更高效地执行大规模推理任务。

NVIDIA Dynamo 的高级功能

NVIDIA Dynamo 专为支持大规模分布式环境而设计，与包括 PyTorch 和 TensorRT-LLM 在内的主要推理框架兼容。诸如解耦服务、支持 LLM 的路由和 KV 缓存卸载等关键功能被纳入其中，以最大限度地提高吞吐量并降低计算成本。这些功能对于高效处理大规模语言模型 (LLM) 至关重要。

与 AWS 服务的无缝集成

与 AWS 服务的集成简化了 AI 工作负载的部署和扩展。Dynamo 现在支持 Amazon S3，允许开发者卸载 KV 缓存以释放 GPU 内存。这减少了开发者创建自定义插件的负担并降低整体推理成本。此外，Dynamo 与 Amazon EKS 的兼容性简化了容器化应用的部署，提供了如支持 LLM 的请求路由和解耦服务这样的高级组件，而不必管理 Kubernetes 基础设施的复杂性。

此外，Dynamo 支持 AWS Elastic Fabric Adapter (EFA)，它促进了 Amazon EC2 实例之间的低延迟通信，这对于在多个 GPU 之间分布推理数据至关重要。此集成确保开发者能够高效管理推理工作负载，而无需自定义解决方案。

由 Blackwell 驱动的实例增强性能

当与由 NVIDIA 的 Blackwell 架构驱动的 Amazon EC2 P6 实例配对使用时，Dynamo 为像 DeepSeek R1 和 Llama 4 这样的复杂模型提供了显著的性能提升。这些实例具有先进功能，如第五代 Tensor Cores 和增加的 NVLink 带宽，提高了 GPU 利用率和每美元的吞吐量。这种组合对于需要大型计算资源的生产规模 AI 工作负载尤其有利。

未来展望

随着 NVIDIA Dynamo 与 AWS 的更深入集成，开发者可以预期其推理工作负载的扩展会有进一步的增强。该合作关系强调了 NVIDIA 框架在云平台上优化 AI 部署的潜力，承诺性能改进和成本节约。

Image source: Shutterstock

NVIDIA Dynamo 扩展 AWS 支持以增强 AI 推理效率

NVIDIA Dynamo 的高级功能

与 AWS 服务的无缝集成

由 Blackwell 驱动的实例增强性能

未来展望

Premium Sponsors

Flash News