NVIDIA通过Mission Control软件革新AI工厂
realtime news Mar 18, 2025 22:03
NVIDIA在GTC大会上推出Mission Control,这是一个AI数据管理平台,通过先进的编排和自动化提升AI工厂的运营效率。

NVIDIA推出了其最新创新——Mission Control,这是一款全面的操作和编排软件平台,旨在简化AI数据中心的管理。根据NVIDIA博客的介绍,这款软件是在NVIDIA GTC全球AI会议上宣布的,其目标是自动化和优化运行AI工厂所涉及的复杂流程。
变革AI工厂运营
Mission Control旨在通过促进基于NVIDIA Blackwell系统的从预训练到后期训练的高效过渡,来革新AI工厂的运营。它使企业能够在训练和推理工作负载之间无缝切换,动态优化资源分配。对于希望快速将数据转化为可操作见解的企业来说,这一功能至关重要。
该软件集成了NVIDIA Run:ai技术,提升作业编排并将基础设施利用率提高至五倍。其自主恢复功能通过快速检查点和自动分级重启,承诺作业恢复速度提高至十倍,显著提升AI训练和推理效率。
增强的基础设施管理
Mission Control的设计重点是最大限度地减少企业在管理AI基础设施上花费的时间。它自动化了AI工厂操作的各个方面,从部署配置到开发者工作负载管理。通过预测和识别停机和效率低下的来源,旨在节省时间、能源和成本。
该平台提供了一些优势,包括简化的集群设置、无缝工作负载编排、优化能耗的电源配置文件和可定制的仪表板。这些功能帮助企业在优化性能的同时保持不间断的运营。
与领先系统制造商的合作
戴尔、HPE、联想和Supermicro等主要系统制造商计划将NVIDIA Mission Control集成到其产品中。此集成将使企业能够轻松扩展AI模型,比以往更快地将数据转化为可操作的见解。例如,戴尔将把Mission Control纳入其AI工厂解决方案中,而HPE将其与其NVIDIA Grace Blackwell系统一起提供。
可用性及未来前景
NVIDIA Mission Control目前适用于NVIDIA DGX GB200和DGX B200系统。它将很快适用于来自戴尔、HPE、联想和Supermicro等全球供应商的GB200 NVL72系统。此外,NVIDIA的Base Command Manager软件将在有限范围内免费提供,提供经济高效的AI集群管理解决方案。
随着NVIDIA不断提升其AI解决方案,Mission Control代表了迈向使先进AI基础设施对全球行业更易接近和高效的重大一步。
Image source: Shutterstock