Place your ads here email us at info@blockchain.news
NEW
NVIDIA通过NCCL 2.26版本增强多GPU通信 - Blockchain.News

NVIDIA通过NCCL 2.26版本增强多GPU通信

realtime news Jun 18, 2025 17:56

NVIDIA的NCCL 2.26引入了性能增强、改进的监控和服务质量功能,优化了AI和HPC应用中的多GPU和多节点通信。

NVIDIA通过NCCL 2.26版本增强多GPU通信

NVIDIA宣布发布其集体通信库(NCCL)2.26版本,这是一项关键更新,旨在增强多GPU和多节点通信能力。根据NVIDIA的博客文章,NCCL 2.26带来了显著的性能提升、先进的监控能力和增强的服务质量(QoS)。

主要特性和增强功能

作为NVIDIA的Magnum IO套件的一部分,NCCL的这一新版本旨在优化GPU间和多节点通信的性能,这对于AI和高性能计算(HPC)应用至关重要。更新引入了几个关键特性:

  • PAT优化:增强了并行全归约树(PAT)算法,提高了执行效率,特别是在大规模操作中。
  • 隐式启动顺序:新功能可防止死锁并确保在多个通信器之间同步启动操作。
  • 探查器支持:扩展了对GPU内核和网络探查的支持,允许在内核和网络层面进行详细的性能分析。
  • QoS控制:引入通信器级别的QoS控制,以高效管理网络资源分配。
  • RAS改进:对集体操作的稳定性和诊断进行了增强,使其更可靠且信息更丰富。

详细功能分析

PAT优化将计算和执行过程分离,允许多个子模拟(warp)同时执行步骤,从而在具有多个并行树的场景中提升性能。隐式启动顺序功能通过NCCL_LAUNCH_ORDER_IMPLICIT控制,自动管理内核启动依赖,降低了死锁风险。

探查器增强包括新的内核探查器基础设施和网络定义事件支持,提供了NCCL性能的全面视图。网络插件QoS支持引入了一个trafficClass字段,使应用程序能够优先处理关键网络通信,从而在重叠通信场景中改善端到端性能。

Bug修复和小更新

NCCL 2.26还解决了若干bug并引入了小功能,例如直接NIC支持、增强的诊断消息时间戳和使用NVLink SHARP的改进内存使用。这些更新有助于在各种系统上提供更好的性能和可靠性。

有关NCCL 2.26版本的更多详情,请访问NVIDIA博客

Image source: Shutterstock
Place your ads here email us at info@blockchain.news