NVIDIA 推出具有增强 GPU 通信功能的 NVSHMEM 3.0 - Blockchain.News

NVIDIA 推出具有增强 GPU 通信功能的 NVSHMEM 3.0

realtime news Sep 07, 2024 09:15

NVIDIA 的 NVSHMEM 3.0 提供多节点支持、ABI 向后兼容性和 CPU 辅助的 InfiniBand GPU Direct Async,增强了 GPU 通信。

NVIDIA 推出具有增强 GPU 通信功能的 NVSHMEM 3.0

NVIDIA 宣布发布 NVSHMEM 3.0,这是其并行编程接口的最新版本,旨在促进 NVIDIA GPU 集群的高效和可扩展通信。根据NVIDIA 技术博客,此次更新是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,旨在增强应用程序的可移植性和跨平台兼容性。

新功能和接口支持

NVSHMEM 3.0 引入了多节点多互连支持、主机设备 ABI 向后兼容性和 CPU 辅助的 InfiniBand GPU Direct Async (IBGDA) 等多项新功能。

多节点多互连支持

新版本支持在节点内多个 GPU 之间通过 P2P 互连(如 NVIDIA NVLink/PCIe)连接,并且通过 RDMA 互连(如 InfiniBand 和 RoCE)在节点之间连接。这一增强功能包括对通过 RDMA 网络连接的多机架 NVIDIA GB200 NVL72 系统的支持。

主机设备 ABI 向后兼容性

NVSHMEM 3.0 引入了跨次要版本的向后兼容性,使得链接到较旧版本 NVSHMEM 的应用程序可以在安装有新版本的系统上运行。这一功能简化了更新过程,减少了每次新发布时重新编译应用程序的需求。

CPU 辅助的 InfiniBand GPU Direct Async

最新发布还支持 CPU 辅助的 IBGDA,将控制平面职责分配给 GPU 和 CPU。这种方法有助于在非一致性平台上提高 IBGDA 的采用率,并放宽大型集群中的管理级配置限制。

非接口支持和小幅增强

NVSHMEM 3.0 包括小幅增强和非接口支持,如:

对称堆的面向对象编程框架

此版本引入了一个面向对象编程(OOP)框架来管理不同类型的对称堆,包括静态和动态设备内存。OOP 框架简化了对高级功能的扩展,并提高了数据封装性。

性能改进和错误修复

NVSHMEM 3.0 带来了各种性能改进和错误修复,包括 IBGDA 设置方面的增强、块范围内的设备上减少操作、系统范围的原子内存操作(AMO)和团队管理。

总结

NVSHMEM 3.0 的发布标志着 NVIDIA 并行编程接口的重大升级。多节点多互连支持、主机设备 ABI 向后兼容性和 CPU 辅助的 IBGDA 等关键特性旨在增强 GPU 通信和应用程序的可移植性。管理员和开发人员现在可以在不干扰现有应用程序的情况下更新到 NVSHMEM 的新版本,从而确保大型 GPU 集群中的平滑过渡和更好的性能。

Image source: Shutterstock