Anyscale 推出 Ray Train 和 Ray Data 仪表板以增强可观察性

realtime news   May 20, 2025 12:33  UTC 04:33

1 Min Read

Anyscale 发布了新的 Ray Train 和 Ray Data 仪表板,旨在简化调试并增强分布式 AI 模型训练和数据处理的性能调优。据Anyscale称,这些仪表板提供了一个统一的界面来监控和优化机器学习工作流程。

通过 Ray Train 仪表板增强可观察性

Ray Train 仪表板提供了四个关键的可观察性功能:训练进度可视化、错误归因、全面的日志和指标以及分析工具。这些工具允许用户深入了解工作人员级别的行为,方便识别性能瓶颈。例如,集成的工具如 dynolog 可以高效剖析 PyTorch 训练运行。

该仪表板解决了监控分布式训练任务的复杂性,这通常需要手动关联分散的日志和指标。通过提供一个统一的界面,Ray Train 仪表板简化了这一过程,使用户可以从单一平台访问来自 Train 控制器和 Worker 进程的日志和指标。

Ray Data 仪表板用于数据管道优化

Ray Data 仪表板引入了树和有向无环图(DAG)视图,以及操作级别的指标和数据集感知的日志聚合。这些功能帮助机器学习工程师快速识别瓶颈并优化数据管道,这是 AI 应用程序的基础。

有了新的仪表板,团队可以轻松可视化数据管道的结构、监控进度并确定效率低下的地方。这一功能对于调试和优化大规模数据处理工作负载非常关键,这些工作通常复杂且耗费资源。

未来的增强和集成计划

两个仪表板将随未来的增强而发展,包括自动问题检测和与实验跟踪平台(如 Weights & Biases 和 MLflow)的集成。这些改进旨在提供更深入的见解和更强大的工具来管理分布式 AI 系统。

Anyscale 的新仪表板在其平台上可用,为 AI 从业者提供强大的工具,以更高的效率构建、优化和扩展其系统。这些进展标志着简化分布式 AI 工作负载管理的重要一步,使用户能够更多地专注于创新,而较少处理故障排除和性能问题。



Read More