NVIDIA 推出了 NIM Operator,这是一款 Kubernetes 操作器,旨在简化 AI 推理管道的部署、扩展和管理。这款新工具有望简化 NVIDIA NIM 微服务的使用,这些微服务是云原生服务,有助于在各种环境中部署生成 AI 模型,包括云、数据中心和 GPU 加速的工作站,根据 NVIDIA 技术博客 报道。
核心能力和优势
NIM Operator 预计将大大减少大规模部署 AI 推理管道所需的工作量。该操作器支持简化和轻量化部署,并管理 Kubernetes 上 AI NIM 推理管道的生命周期。它的一个关键功能是模型预缓存,这可以减少初始推理延迟并实现更快的自动扩展。这个功能对于隔离环境中的部署尤其有益。
智能模型预缓存
通过 NIM Operator,用户可以预缓存模型以最小化初始推理延迟。操作器允许基于 NIM 配置文件和标签预缓存模型,或者它可以根据 Kubernetes 集群中可用的 GPU 自动检测最佳模型。模型可以预缓存到任何可用的节点,无论是仅 CPU 节点还是 GPU 加速节点。操作器在 Kubernetes 中创建一个持久卷声明 (PVC),以下载和缓存 NIM 模型,随后使用 NIMCache
自定义资源管理该 PVC 的生命周期。
自动化 AI NIM 管道部署
NVIDIA 引入了两个 Kubernetes 自定义资源定义 (CRD) 以促进 NIM 微服务的部署:NIMService
和 NIMPipeline
。NIMService
CRD 将每个 NIM 微服务作为独立的服务进行管理,而 NIMPipeline
CRD 则使多个 NIM 微服务的集体部署和管理成为可能。这种方法使用户可以将多个管道作为一个集合来管理,而不是单个服务。
自动扩展
NIM Operator 通过 Kubernetes 水平 Pod 自动扩展器 (HPA) 支持自动扩展。它允许指定最小和最大副本数,并支持基于各种指标进行扩展,包括每个 Pod 的资源指标如 CPU、自定义指标如 GPU 内存使用情况和外部指标。用户还可以定义 HPA 扩展和收缩行为,以控制副本数量变化的速率。
Day 2 操作
NIMService
和 NIMPipeline
CRD 支持轻松的滚动升级,带有可自定义的滚动策略。NIMService
pod 的更改会反映在 CRD 状态中,用户还可以为 NIMService
添加 Kubernetes 入口。
支持矩阵
在推出时,NIM Operator 支持推理 LLM 和检索-嵌入 NIM 微服务。NVIDIA 计划不断扩展支持的 NIM 微服务列表。对于支持的完整微服务列表,用户可以参考 NVIDIA 提供的平台支持文档。
结论
通过自动化 NVIDIA NIM 微服务的部署、扩展和生命周期管理,NIM Operator 旨在简化这些服务的采用并加速企业环境中的 AI 采用。这一计划是 NVIDIA 承诺使 NIM 微服务易于采用、生产就绪和安全的一部分。NIM Operator 将包含在未来的 NVIDIA AI Enterprise 版本中,以提供企业支持、API 稳定性和主动的安全补丁。
Image source: Shutterstock