增强AI训练:NVIDIA的NCCL推进跨数据中心通信

realtime news   Jul 15, 2025 16:35  UTC 08:35

1 Min Read

在人工智能(AI)训练的重大进展中,NVIDIA的集体通信库(NCCL)推出了新功能,以增强跨数据中心的通信。这些进步旨在支持AI日益增长的计算需求,这些需求往往超过单个数据中心的能力。根据NVIDIA的说法,新功能允许在多个数据中心之间进行无缝通信,通过考虑网络拓扑来优化性能。

理解NCCL的新功能

最近开源的NCCL功能旨在通过利用网络拓扑促进数据中心(无论是同地或地理上分散的)之间的通信。这是至关重要的,因为AI训练的规模扩大,需要比单个数据中心能提供的更多的计算能力。NCCL的跨数据中心(cross-DC)功能旨在以最小化对现有AI训练工作的修改来提供最佳性能并启用多数据中心通信。

网络拓扑感知

为了实现高效的跨数据中心通信,NCCL通过fabricId引入了网络拓扑感知。这个标识符捕捉拓扑信息和设备连接性,允许NCCL查询网络路径并优化通信算法。在初始化过程中交换fabricId,用于确定设备之间的连接性,这有助于优化通信路径。

通过算法进行优化

NCCL使用多个算法,比如RingTree,来优化通信模式。这些算法被调整以最小化使用较慢的跨数据中心链接,同时最大化可用网络设备的使用。例如,环算法通过在每个数据中心内重新排序等级并利用松散的末端连接不同中心来减少跨数据中心的连接。而树算法在每个数据中心内建立树并将它们连接起来形成一个全局树,优化跨数据中心通信的深度和性能。

性能考量

跨数据中心连接的质量是决定整体应用程序性能的关键因素。NCCL提供了几个参数来调节性能,如NCCL_SCATTER_XDCNCCL_MIN/MAX_CTAS,它们能在多个设备上分散频道和控制使用的频道数量。其他参数,如NCCL_IB_QPS_PER_CONNECTIONNCCL_SOCKET_INLINE,则根据特定网络配置进一步调优性能。

未来影响

NVIDIA对NCCL的增强反映了一种更广泛的AI基础设施发展趋势,其中跨数据中心通信起着关键作用。通过集成网络拓扑感知和优化通信算法,NVIDIA旨在支持更高效的分布式数据中心AI训练。随着这些技术的发展,它们可能会影响大规模AI模型的训练方式,提供性能提升和可扩展性的新可能性。



Read More