利用人工智能代理和OODA循环提升数据中心性能

realtime news  Sep 18, 2024 01:35  UTC 17:35

1 Min Read

管理数据中心中大型复杂的 GPU 集群是一项艰巨的任务,需要对冷却、电力、网络等进行精细的监督。为了应对这种复杂性,NVIDIA 根据NVIDIA 技术博客,开发了一个利用 OODA 循环策略的可观测性 AI 代理框架。

人工智能驱动的可观测性框架

负责跨主要云服务提供商和 NVIDIA 自己数据中心的全球 GPU 集群的 NVIDIA DGX Cloud 团队实施了这一创新框架。该系统使操作员能够与他们的数据中心互动,询问有关 GPU 集群可靠性和其他操作指标的问题。

例如,操作员可以查询系统关于供应链风险最高的五个最常更换的部件,或安排技术人员解决最脆弱集群中的问题。这种能力是一个名为 LLo11yPop(LLM + Observability)的项目的一部分,该项目使用 OODA 循环(观察、定向、决策、行动)来增强数据中心管理。

监控加速数据中心

随着每一代 GPU 的推出,对全面可观测性的需求也在增加。利用率、错误和吞吐量等标准指标只是基础。要完全了解操作环境,还必须考虑温度、湿度、电源稳定性和延迟等其他因素。

NVIDIA 的系统利用现有的可观测性工具,并将其与 NIM 微服务集成,允许操作员以人类语言与 Elasticsearch 进行对话。这提供了对整个车队中的风扇故障等问题的准确且可操作的洞察。

模型架构

该框架由各种代理类型组成:

  • 协调员代理:将问题路由到适当的分析员并选择最佳行动。
  • 分析员代理:将广泛的问题转换为由检索代理回答的具体查询。
  • 行动代理:协调响应,例如通知站点可靠性工程师(SREs)。
  • 检索代理:针对数据源或服务端点执行查询。
  • 任务执行代理:通过工作流引擎执行特定任务。

这种多代理方法模仿了组织层次结构,导演协调努力,管理者使用领域知识分配工作,工人优化特定任务。

朝多 LLM 复合模型迈进

为了管理有效集群管理所需的多样化遥测数据,NVIDIA 采用了一种混合代理(MoA)方法。这涉及使用多个大型语言模型(LLMs)来处理不同类型的数据,从 GPU 指标到 Slurm 和 Kubernetes 等编排层。

通过将小而集中的模型串联在一起,系统可以优化特定任务,例如为 Elasticsearch 生成 SQL 查询,从而优化性能和精度。

带有 OODA 循环的自主代理

下一步是通过操作在 OODA 循环内的自主监督代理来闭合循环。这些代理观察数据,定位自己,决定行动并执行它们。起初,人类监督确保这些行动的可靠性,形成一个增强学习循环,随着时间的推移改进系统。

经验教训

开发此框架的关键见解包括作为赛动作提示工程的重要性,早期模型训练的正要求选择正确的模型以完成特定任务,以及保持人类监督直到系统证明其可靠性和安全性。

构建您的 AI 代理应用程序

NVIDIA 提供了各种工具和技术供那些有兴趣构建自己的 AI 代理和应用程序的人使用。资源可在ai.nvidia.com获取 详细指南可以在 NVIDIA 开发者博客上找到。



Read More