NEW
NVIDIA 的 cuML 通过森林推理库提升树模型推理性能 - Blockchain.News

NVIDIA 的 cuML 通过森林推理库提升树模型推理性能

realtime news Jun 05, 2025 08:29

NVIDIA 的 cuML 25.04 引入了对森林推理库的增强,借助新功能和优化提升树模型推理性能。

NVIDIA 的 cuML 通过森林推理库提升树模型推理性能

NVIDIA 宣布在 cuML 25.04 版本中对其森林推理库 (FIL) 进行了重大更新,旨在大幅提升基于树模型的推理性能。据NVIDIA介绍,该增强旨在加速和提高在 XGBoost、LightGBM 和 scikit-learn 这些框架中训练的梯度提升树和随机森林的推理效率。

新功能和优化

关键更新之一是重新设计的 C++ 实现,它支持在 GPU 和 CPU 上进行批量推理。更新后的 FIL 具备 optimize() 函数以调优推理模型,并引入了高级推理 API,如 predict_per_tree 和 apply。值得注意的是,新版本在 GPU 吞吐量方面比之前的 FIL 版本提高了多达四倍。

自动优化功能是一个亮点,通过内置方法根据批量大小调整超参数,简化了优化性能的过程。这对于希望利用 FIL 功能而不需要进行过多人工配置的用户特别有用。

性能基准测试

在性能测试中,cuML 25.04 显示出比前代产品显著的速度提升。在各种模型参数和批量大小下,新版 FIL 在 75% 的场景中表现优于之前的版本,实现了 1.16 倍的中位数加速。增强在需要批量大小为 1 的性能和最大吞吐量的场景中特别明显。

与 scikit-learn 的原生执行相比,FIL 的性能明显优越,速度加速范围从 13.9 倍到 882 倍不等,具体取决于模型和批量大小。这些改进突显了 FIL 取代更高资源消耗的 CPU 设置的潜力,仅需单个 GPU 即可实现速度和成本效益。

广泛适用性和未来发展

cuML 25.04 中 FIL 的多功能性在于它能够在没有 NVIDIA GPU 的系统上运行,从而提供本地测试和部署的灵活性。该库支持 GPU 和 CPU 环境,适用于从高容量批处理作业到混合部署场景的广泛应用。

展望未来,NVIDIA 计划将这些功能集成到 Triton 推理服务器的未来版本中,进一步扩大 FIL 的应用范围和实用性。用户可以通过下载 cuML 25.04 版本来探索这些增强功能,后续博客预计将深入探讨技术细节并提供额外的基准测试。

有关森林推理库及其功能的更多信息,感兴趣的用户可以参考cuML FIL 文档

Image source: Shutterstock