NEW
通过NVIDIA的NIM微服务自动扩展增强Kubernetes - Blockchain.News

通过NVIDIA的NIM微服务自动扩展增强Kubernetes

realtime news Jan 24, 2025 15:07

探索NVIDIA在Kubernetes上利用自定义指标对NIM微服务进行水平扩展的方法,以提高资源管理效率。

通过NVIDIA的NIM微服务自动扩展增强Kubernetes

NVIDIA在其开发者博客上,通过Juana Nakfour详细介绍了一种在Kubernetes上水平自动扩展其NIM微服务的综合方法。该方法利用Kubernetes水平Pod自动扩展(HPA)根据自定义指标动态调整资源,从而优化计算和内存使用。

理解NVIDIA NIM微服务

NVIDIA NIM微服务作为模型推理容器,可部署在Kubernetes上,对管理大规模机器学习模型至关重要。这些微服务在生产环境中需要清晰了解其计算和内存概况,以确保高效的自动扩展。

设置自动扩展

该过程始于设置一个配备必要组件的Kubernetes集群,如Kubernetes Metrics Server、Prometheus、Prometheus Adapter和Grafana。这些工具对于抓取和显示HPA服务所需的指标至关重要。

Kubernetes Metrics Server从Kubelet收集资源指标,并通过Kubernetes API Server公开它们。Prometheus和Grafana用于从pod中抓取指标并创建仪表板,而Prometheus Adapter允许HPA利用自定义指标进行扩展策略。

部署NIM微服务

NVIDIA提供了一个详细的指南,用于利用NIM for LLMs模型来部署NIM微服务。这涉及到设置必要的基础设施,并确保NIM for LLMs微服务已准备好根据GPU缓存使用指标进行扩展。

Grafana仪表板可视化这些自定义指标,促进了根据流量和工作负载需求调整资源分配的监控和调整。部署过程包括使用genai-perf等工具生成流量,以帮助评估不同并发级别对资源利用的影响。

实施水平Pod自动扩展

为了实施HPA,NVIDIA展示了创建一个专注于gpu_cache_usage_perc指标的HPA资源。通过在不同的并发级别运行负载测试,HPA自动调整Pod的数量以保持最佳性能,展示了其在处理波动工作负载方面的有效性。

未来前景

NVIDIA的方法开启了更深入探索的途径,例如基于请求延迟或GPU计算利用等多个指标进行扩展。此外,利用Prometheus查询语言(PromQL)创建新指标可以增强自动扩展能力。

欲获取更多详细信息,请访问NVIDIA开发者博客

Image source: Shutterstock