使用 NVIDIA CUDA-X 和 Coiled 增强云端数据科学

realtime news   May 16, 2025 16:50  UTC 08:50

1 Min Read

NVIDIA CUDA-X 与云平台 Coiled 的集成正在通过显著提高计算效率和简化基础设施管理来改变数据科学领域。根据 NVIDIA 的博客文章,这一发展特别有利于处理大量数据集的数据科学家,如来自纽约市拼车的旅程数据。

使用 NVIDIA RAPIDS 加速数据处理

NVIDIA RAPIDS 是 CUDA-X 套件的一部分,它为数据科学工作流程提供 GPU 加速,而无需更改代码。通过利用 cudf.pandas 加速器,数据科学家可以即时在 GPU 上执行 pandas 操作,实现高达 150 倍的速度提升。这种效率对于分析大规模数据集至关重要,例如包含数百万次出行细节的纽约市出租车和豪华轿车委员会 (TLC) 行程记录数据。

云端 GPU 可访问性

云平台提供对最新 NVIDIA GPU 架构的即时访问,允许团队根据计算需求扩展资源。这种方式使高级 GPU 加速的使用得以民主化,支持更快的数据处理和更深入的分析见解。例如,在 CPU 上需要数分钟的任务现在可以在 GPU 上在数秒内完成,从而允许更加迭代和探索性的分析。

利用 Coiled 简化基础设施

Coiled 通过将云配置的复杂性抽象化来简化 GPU 加速数据科学的部署。使用 Coiled,数据科学家可以专注于分析而不是基础设施管理,从而加速创新。Coiled 促进了在云 GPU 上使用 Jupyter notebooks 和 Python 脚本,确保从本地开发到云执行的无缝过渡。

案例研究:纽约市拼车数据集

通过 S3 可访问的纽约市 TLC 行程记录数据是 GPU 加速强大功能的实用示例。以前需要大量计算资源的操作现在可以快速完成。例如,加载和优化数据类型、按公司计算收入和利润以及根据行程时长分类均通过 cudf.pandas 显著加速,与传统 pandas 相比大大加快。

性能指标

实际上,GPU 加速的数据处理操作版本相比 CPU 实现获得了 8.9 倍的速度提升。即使考虑到基础设施设置的时间,总体性能改进依然显著,突显了将 NVIDIA RAPIDS 与 Coiled 集成的好处。

结论

NVIDIA CUDA-X 和 Coiled 的结合为数据科学家提供了强大的工具包,使他们能够加速分析工作流并缩短开发周期,而不会因基础设施管理而陷入困境。这种方法确保数据科学家能够专注于从数据中获得洞察,而不是管理计算资源。

有关更多详细信息,请访问原文章在 NVIDIA 博客



Read More