NVIDIA 的 NCCL 2.24 增强了网络的可靠性和可观察性
realtime news Mar 14, 2025 02:49
NVIDIA 最新的 NCCL 2.24 版本引入了新功能以增强多 GPU 和多节点通信,包括 RAS 子系统、NIC 合并和 FP8 支持,优化深度学习训练。

NVIDIA 集体通信库 (NCCL) 推出了其最新版本 2.24,为多 GPU 和多节点 (MGMN) 通信带来了网络可靠性和可观察性的显著提升。据 NVIDIA 开发者博客 报道,此版本专为 NVIDIA GPUs 和网络进行优化,成为多 GPU 深度学习训练的重要组件。
NCCL 2.24 新功能
此次更新包含多个旨在提升性能和可靠性的新功能:
- 可靠性、可用性和可维护性 (RAS) 子系统
- 用于多节点集合的用户缓冲区 (UB) 注册
- NIC 合并
- 可选的接收完成
- FP8 支持
- 严格执行
NCCL_ALGO
和NCCL_PROTO
RAS 子系统
RAS 子系统是 NCCL 2.24 的亮点之一。它旨在帮助用户诊断应用程序问题,如在大规模部署中出现的崩溃和挂起。这个低开销的基础设施为正在运行的应用程序提供全局视图,能够检测异常,如无响应节点或滞后进程。它通过在 NCCL 进程间创建一网络线程,通过定期的保活消息监控彼此的健康运行。
用户缓冲区注册的增强
NCCL 2.24 引入了用于多节点集合的用户缓冲区 (UB) 注册,允许更高效的数据传输和减少 GPU 资源消耗。该库现在支持多排名每节点集合网络和标准对等网络的 UB 注册,特别是在 AllGather 和 Broadcast 等操作中表现出显著的性能提升。
NIC 合并
随着多 NIC 系统的扩展,NCCL 已经进行了适配以优化网络通信。新的 NIC 合并功能允许将多个 NIC 逻辑合并为一个实体,以确保网络资源的高效利用。这项能力对每 GPU 多于一个 NIC 的系统特别有益,解决了诸如崩溃和资源分配不当的问题。
其他功能和修复
此更新还引入了 LL 和 LL128 协议的可选接收完成,降低了开销和拥塞。NCCL 2.24 支持 NVIDIA Hopper 和更新架构上的原生 FP8 简约,增强了处理能力。此外,严格执行 NCCL_ALGO
和 NCCL_PROTO
的措施的推出,确保了更精确的调整和错误处理。
此更新还包括各种错误修复和小幅改进,例如 PAT 调优的调整和内存分配功能的增强,提高了 NCCL 库的整体稳定性和效率。
Image source: Shutterstock