NVIDIA通过DPU增强型Kubernetes服务代理推动AI工厂发展

realtime news   Jul 07, 2025 23:20  UTC 15:20

1 Min Read

随着人工智能(AI)领域的不断发展,NVIDIA正通过其数据处理单元(DPU)加速的Kubernetes服务代理为更高效的AI工厂铺平道路。根据NVIDIA,这项创新旨在简化复杂AI工作流程的部署,提高性能和操作效率。

增强的AI应用部署

AI应用程序变得越来越复杂,从基本的模型训练发展到高级的计划和推理任务。这种演变需要一个能够支持主动性AI应用的强大基础设施。NVIDIA的解决方案包括一个软件定义的、硬件加速的应用交付控制器(ADC),由NVIDIA BlueField-3 DPU提供支持。此设置允许动态负载均衡、强大的安全性和高效的云原生多租户管理。

自从OpenAI的ChatGPT于2022年推出以来,AI从简单的基于GPU的模型训练扩展到分布式推理技术。大型语言模型(LLM)现如今整合企业数据并采用推理模型(如DeepSeek R1)来解决复杂问题。NVIDIA的数字人类蓝图体现了这一进步,利用容器化的NVIDIA推理微服务(NIM)创建一个统一的主动性工作流。

优化AI操作

BlueField-3 DPU在优化AI云中的数据移动方面发挥着至关重要的作用。通过将高性能加速引擎与高效的Arm计算核心结合,BlueField提高了性能和灵活性,这对于编程主动性的AI数据流至关重要。NVIDIA为主权AI云运营商提供的参考架构强调了BlueField在管理GPU集群南北向网络时的重要性。

F5针对Kubernetes的BIG-IP Next

通过BlueField-3加速的F5针对Kubernetes的BIG-IP Next(BINK)ADC为AI云提供了必要的基础设施优化。这一解决方案提供了高性能网络、零信任安全性和跨多个客户的高效资源利用。BINK的功能对于云原生多租户尤其有利,允许高效的GPU资源管理而无需过度配置。

此外,BINK通过将数据路径从主机CPU卸载到BlueField的节能型Arm核心,提高了能源效率,进而实现了更高的网络能源效率。

案例分析:软银

作为超级计算领域的领导者,软银在NVIDIA H100 GPU集群上使用BINK进行了概念验证(PoC)。结果显示,在网络性能和资源利用方面有显著改善。BINK在不消耗CPU核心的情况下实现了77 Gbps的吞吐量,明显优于消耗30个主机核心但吞吐量较低的开源替代品如Nginx。

在延迟方面,BlueField加速的BINK将HTTP GET响应时间减少了11倍,相较于Nginx,BlueField加速的BINK表现出99%更低的CPU利用率和190倍更高的网络能源效率。

结论

NVIDIA与F5的合作标志着AI基础设施的重大进步,提供了增强的性能、安全性和效率。软银的PoC结果凸显了与DPUs一起卸载和加速应用交付的潜力,使AI工厂能够应对当代AI工作负载的严格要求。

有关这些功能的详细探索,请参阅NVIDIA博客



Read More