NVIDIA通过DPU增强型Kubernetes服务代理推动AI工厂发展

NEW

NVIDIA通过DPU增强型Kubernetes服务代理推动AI工厂发展 - Blockchain.News

随着人工智能（AI）领域的不断发展，NVIDIA正通过其数据处理单元（DPU）加速的Kubernetes服务代理为更高效的AI工厂铺平道路。根据NVIDIA，这项创新旨在简化复杂AI工作流程的部署，提高性能和操作效率。

增强的AI应用部署

AI应用程序变得越来越复杂，从基本的模型训练发展到高级的计划和推理任务。这种演变需要一个能够支持主动性AI应用的强大基础设施。NVIDIA的解决方案包括一个软件定义的、硬件加速的应用交付控制器（ADC），由NVIDIA BlueField-3 DPU提供支持。此设置允许动态负载均衡、强大的安全性和高效的云原生多租户管理。

自从OpenAI的ChatGPT于2022年推出以来，AI从简单的基于GPU的模型训练扩展到分布式推理技术。大型语言模型（LLM）现如今整合企业数据并采用推理模型（如DeepSeek R1）来解决复杂问题。NVIDIA的数字人类蓝图体现了这一进步，利用容器化的NVIDIA推理微服务（NIM）创建一个统一的主动性工作流。

优化AI操作

BlueField-3 DPU在优化AI云中的数据移动方面发挥着至关重要的作用。通过将高性能加速引擎与高效的Arm计算核心结合，BlueField提高了性能和灵活性，这对于编程主动性的AI数据流至关重要。NVIDIA为主权AI云运营商提供的参考架构强调了BlueField在管理GPU集群南北向网络时的重要性。

F5针对Kubernetes的BIG-IP Next

通过BlueField-3加速的F5针对Kubernetes的BIG-IP Next（BINK）ADC为AI云提供了必要的基础设施优化。这一解决方案提供了高性能网络、零信任安全性和跨多个客户的高效资源利用。BINK的功能对于云原生多租户尤其有利，允许高效的GPU资源管理而无需过度配置。

此外，BINK通过将数据路径从主机CPU卸载到BlueField的节能型Arm核心，提高了能源效率，进而实现了更高的网络能源效率。

案例分析：软银

作为超级计算领域的领导者，软银在NVIDIA H100 GPU集群上使用BINK进行了概念验证（PoC）。结果显示，在网络性能和资源利用方面有显著改善。BINK在不消耗CPU核心的情况下实现了77 Gbps的吞吐量，明显优于消耗30个主机核心但吞吐量较低的开源替代品如Nginx。

在延迟方面，BlueField加速的BINK将HTTP GET响应时间减少了11倍，相较于Nginx，BlueField加速的BINK表现出99%更低的CPU利用率和190倍更高的网络能源效率。

结论

NVIDIA与F5的合作标志着AI基础设施的重大进步，提供了增强的性能、安全性和效率。软银的PoC结果凸显了与DPUs一起卸载和加速应用交付的潜力，使AI工厂能够应对当代AI工作负载的严格要求。

有关这些功能的详细探索，请参阅NVIDIA博客。

Image source: Shutterstock

NVIDIA通过DPU增强型Kubernetes服务代理推动AI工厂发展

增强的AI应用部署

优化AI操作

F5针对Kubernetes的BIG-IP Next

案例分析：软银

结论

Premium Sponsors

Flash News