NEW
NVIDIA 的 NCCL 2.24 增强了网络的可靠性和可观察性 - Blockchain.News

NVIDIA 的 NCCL 2.24 增强了网络的可靠性和可观察性

realtime news Mar 14, 2025 02:49

NVIDIA 最新的 NCCL 2.24 版本引入了新功能以增强多 GPU 和多节点通信,包括 RAS 子系统、NIC 合并和 FP8 支持,优化深度学习训练。

NVIDIA 的 NCCL 2.24 增强了网络的可靠性和可观察性

NVIDIA 集体通信库 (NCCL) 推出了其最新版本 2.24,为多 GPU 和多节点 (MGMN) 通信带来了网络可靠性和可观察性的显著提升。据 NVIDIA 开发者博客 报道,此版本专为 NVIDIA GPUs 和网络进行优化,成为多 GPU 深度学习训练的重要组件。

NCCL 2.24 新功能

此次更新包含多个旨在提升性能和可靠性的新功能:

  • 可靠性、可用性和可维护性 (RAS) 子系统
  • 用于多节点集合的用户缓冲区 (UB) 注册
  • NIC 合并
  • 可选的接收完成
  • FP8 支持
  • 严格执行 NCCL_ALGONCCL_PROTO

RAS 子系统

RAS 子系统是 NCCL 2.24 的亮点之一。它旨在帮助用户诊断应用程序问题,如在大规模部署中出现的崩溃和挂起。这个低开销的基础设施为正在运行的应用程序提供全局视图,能够检测异常,如无响应节点或滞后进程。它通过在 NCCL 进程间创建一网络线程,通过定期的保活消息监控彼此的健康运行。

用户缓冲区注册的增强

NCCL 2.24 引入了用于多节点集合的用户缓冲区 (UB) 注册,允许更高效的数据传输和减少 GPU 资源消耗。该库现在支持多排名每节点集合网络和标准对等网络的 UB 注册,特别是在 AllGather 和 Broadcast 等操作中表现出显著的性能提升。

NIC 合并

随着多 NIC 系统的扩展,NCCL 已经进行了适配以优化网络通信。新的 NIC 合并功能允许将多个 NIC 逻辑合并为一个实体,以确保网络资源的高效利用。这项能力对每 GPU 多于一个 NIC 的系统特别有益,解决了诸如崩溃和资源分配不当的问题。

其他功能和修复

此更新还引入了 LL 和 LL128 协议的可选接收完成,降低了开销和拥塞。NCCL 2.24 支持 NVIDIA Hopper 和更新架构上的原生 FP8 简约,增强了处理能力。此外,严格执行 NCCL_ALGONCCL_PROTO 的措施的推出,确保了更精确的调整和错误处理。

此更新还包括各种错误修复和小幅改进,例如 PAT 调优的调整和内存分配功能的增强,提高了 NCCL 库的整体稳定性和效率。

Image source: Shutterstock