NVIDIA 的 NCCL 2.24 增强了网络的可靠性和可观察性
NVIDIA 集体通信库 (NCCL) 推出了其最新版本 2.24,为多 GPU 和多节点 (MGMN) 通信带来了网络可靠性和可观察性的显著提升。据 NVIDIA 开发者博客 报道,此版本专为 NVIDIA GPUs 和网络进行优化,成为多 GPU 深度学习训练的重要组件。
NCCL 2.24 新功能
此次更新包含多个旨在提升性能和可靠性的新功能:
- 可靠性、可用性和可维护性 (RAS) 子系统
- 用于多节点集合的用户缓冲区 (UB) 注册
- NIC 合并
- 可选的接收完成
- FP8 支持
- 严格执行
NCCL_ALGO
和NCCL_PROTO
RAS 子系统
RAS 子系统是 NCCL 2.24 的亮点之一。它旨在帮助用户诊断应用程序问题,如在大规模部署中出现的崩溃和挂起。这个低开销的基础设施为正在运行的应用程序提供全局视图,能够检测异常,如无响应节点或滞后进程。它通过在 NCCL 进程间创建一网络线程,通过定期的保活消息监控彼此的健康运行。
用户缓冲区注册的增强
NCCL 2.24 引入了用于多节点集合的用户缓冲区 (UB) 注册,允许更高效的数据传输和减少 GPU 资源消耗。该库现在支持多排名每节点集合网络和标准对等网络的 UB 注册,特别是在 AllGather 和 Broadcast 等操作中表现出显著的性能提升。
NIC 合并
随着多 NIC 系统的扩展,NCCL 已经进行了适配以优化网络通信。新的 NIC 合并功能允许将多个 NIC 逻辑合并为一个实体,以确保网络资源的高效利用。这项能力对每 GPU 多于一个 NIC 的系统特别有益,解决了诸如崩溃和资源分配不当的问题。
其他功能和修复
此更新还引入了 LL 和 LL128 协议的可选接收完成,降低了开销和拥塞。NCCL 2.24 支持 NVIDIA Hopper 和更新架构上的原生 FP8 简约,增强了处理能力。此外,严格执行 NCCL_ALGO
和 NCCL_PROTO
的措施的推出,确保了更精确的调整和错误处理。
此更新还包括各种错误修复和小幅改进,例如 PAT 调优的调整和内存分配功能的增强,提高了 NCCL 库的整体稳定性和效率。
Read More
ElevenLabs Achieves HIPAA Compliance for Conversational AI Platform
Mar 14, 2025 1 Min Read
NVIDIA's NCCL 2.24 Enhances Networking Reliability and Observability
Mar 14, 2025 1 Min Read
NVIDIA GTC 2025: AI Innovations and Keynote Highlights
Mar 14, 2025 1 Min Read
NVIDIA and Microsoft Introduce Revolutionary Neural Shading for Gaming
Mar 14, 2025 1 Min Read
U.S. Strategic Crypto Reserve Sparks Debate Amid Bitcoin (BTC) Policy Shift
Mar 14, 2025 1 Min Read