NVIDIA和AWS携手提升AI训练的可扩展性
realtime news Jun 24, 2025 13:03
NVIDIA Run:ai和AWS SageMaker HyperPod的整合简化了AI训练,在混合云环境中提供增强的可扩展性和资源管理。

NVIDIA Run:ai 和亚马逊网络服务(AWS)宣布了一项战略性集成,旨在提升复杂AI训练工作负载的可扩展性和管理能力。根据NVIDIA的说法,这一合作将AWS SageMaker HyperPod与NVIDIA Run:ai的高级AI工作负载和GPU编排平台相结合,承诺提高效率和灵活性。
简化AI基础设施
AWS SageMaker HyperPod专为大规模分布式训练和推理提供一个具有弹性和持久性的集群。通过优化多GPU的资源利用,它显著缩短了模型训练时间。该功能兼容任何模型架构,使团队能够有效地扩展其训练任务。
此外,SageMaker HyperPod通过自动检测和处理基础设施故障来增强弹性,确保训练任务在不中断的情况下恢复,大幅减少停机时间。这种能力加快了机器学习的生命周期并提高了生产力。
通过NVIDIA Run:ai实现集中管理
NVIDIA Run:ai为跨混合环境(包括本地和云设置)的AI工作负载和GPU编排提供了集中式界面。这种方法允许IT管理员高效地管理跨多个地理位置的GPU资源,轻松应对需求高峰的云扩展。
该集成经过AWS和NVIDIA Run:ai的技术团队充分测试。用户可以在享有NVIDIA Run:ai的GPU优化和资源管理功能的同时,利用SageMaker HyperPod的灵活性。
动态且具成本效益的扩展
此次合作使组织能够无缝地将其AI基础设施扩展至本地和云环境。NVIDIA Run:ai的控制平面允许企业高效管理GPU资源,无论是在本地还是云服务中。这种能力支持动态扩展而无需超量配置硬件,从而在保持性能的同时降低成本。
SageMaker HyperPod的灵活基础设施非常适合大规模模型训练和推理,适用于专注于训练或微调基础模型的企业,如Llama或Stable Diffusion。
增强的资源管理
NVIDIA Run:ai通过其先进的调度和GPU分片能力,确保AI基础设施的高效使用。这种灵活性对于管理波动需求的企业尤为有利,因为它能适应计算需求的变化,减少空闲时间并最大化GPU投资回报。
作为验证过程的一部分,NVIDIA Run:ai测试了几个关键功能,包括混合和多集群管理、硬件故障后的自动任务恢复和推理服务。此集成是跨混合环境管理AI工作负载的重要进展。
Image source: Shutterstock