NVIDIA通过CUDA内核融合工具扩展Python功能

NEW

NVIDIA通过CUDA内核融合工具扩展Python功能 - Blockchain.News

NVIDIA在其CUDA开发生态系统中推出了一个重要进展，推出了名为cuda.cccl的工具集，旨在为Python开发者提供内核融合的必要构建模块。据NVIDIA的官方博客，此开发旨在提高编写CUDA应用程序时的性能和灵活性。

弥补Python的差距

传统上，像CUB和Thrust这样的C++库对于CUDA开发者来说非常重要，能够编写出与架构无关的高度优化代码。这些库被广泛用于像PyTorch和TensorFlow这样的项目中。然而，直到现在，Python开发者缺乏类似的高级抽象，迫使他们在实现复杂算法时不得不恢复使用C++。

cuda.cccl的引入填补了这一空白，提供了这些核心计算库的Python接口，让开发者无需深入C++或从头编写复杂的CUDA内核就能构建高性能算法。

cuda.cccl由两个主要库组成：parallel和cooperative。parallel库允许创建可以操作整个数组或数据范围的可组合算法，而cooperative则有助于编写高效的numba.cuda内核。

一个实际的例子展示了使用parallel执行自定义归约操作，其高效地利用迭代器算法计算总和。这一特性显著减少了内存分配，并将多种操作融合到单个内核中，提高了性能。

在NVIDIA RTX 6000 Ada Generation卡上的基准测试表明，使用parallel构建的算法明显优于使用CuPy数组操作的简单实现。parallel方法表现出减少的执行时间，强调了其在实际应用中的效率和效能。

cuda.cccl并非旨在取代现有的Python库如CuPy或PyTorch，而是旨在简化库扩展和自定义操作的开发过程。对于从简单组件构建复杂算法或需要在不进行内存分配的情况下对序列进行高效操作的开发者特别有利。

通过提供一个CUB/Thrust功能上的薄层，cuda.cccl减少了Python的开销，为开发者提供了更大的内核融合和操作执行控制。

NVIDIA鼓励开发者探索cuda.cccl的功能，该工具可通过pip轻松安装。公司提供了全面的文档和示例，以帮助开发者有效利用这些新工具。

Image source: Shutterstock