Place your ads here email us at info@blockchain.news
NEW
NVIDIA 发布 NCCL 2.27:提升 AI 训练和推理效率 - Blockchain.News

NVIDIA 发布 NCCL 2.27:提升 AI 训练和推理效率

realtime news Jul 15, 2025 06:51

NVIDIA 推出 NCCL 2.27,以通过加速 GPU 通信、降低延迟和增强弹性来改善 AI 工作负载,满足现代 AI 基础设施的需求。

NVIDIA 发布 NCCL 2.27:提升 AI 训练和推理效率

NVIDIA 宣布发布 NCCL 2.27,此次升级的集体通信库旨在通过改善 GPU 通信显著提升 AI 工作负载的效率。根据NVIDIA 官方博客,最新版本旨在满足训练和推理任务的不断增长的需求,确保在大规模操作中的快速可靠性能。

关键性能增强

NCCL 2.27 版本集中于降低延迟和提高 GPU 间的带宽效率。关键改进包括具有对称内存的低延迟内核,通过使用具有相同虚拟地址的缓冲区优化集体操作。这些更新显著减少了延迟,小消息大小的延迟最多降低至 7.6 倍,非常适合实时推理管道。

另一个重要特性是引入了直接 NIC 支持,促进了 GPU 扩展通信的完整网络带宽利用。这对于高吞吐量推理和训练负载特别有利,确保了网络效率,而不会饱和 CPU-GPU 带宽。

NVLink 和 InfiniBand SHARP 的新支持

NCCL 2.27 还引入了对 NVLink 和 InfiniBand 结构的 SHARP(可扩展分层汇聚和归约协议)支持。该协议将计算密集型任务卸载,从而通过减少 GPU 上的计算需求来增强大规模训练,提高了可扩展性和性能,尤其适用于大型语言模型(LLM)训练。

通过通信器收缩提高弹性

为了解决大规模分布式训练的挑战,NCCL 2.27 引入了通信器收缩功能。此功能允许动态排除失败或不必要的 GPU,确保训练过程不间断。它支持计划重配置和意外设备故障的默认和错误模式。

增强的开发者工具

更新还为开发者带来了新功能,包括对称内存 API 和增强的性能分析工具。这些增强功能为开发者提供了更精确的仪器,用于诊断通信性能和优化 AI 工作负载。

有关 NCCL 2.27 及其新功能的更多信息,感兴趣的各方可以访问NVIDIA/nccl GitHub 仓库

Image source: Shutterstock
Place your ads here email us at info@blockchain.news