Place your ads here email us at info@blockchain.news
NEW
探索开源AI计算技术堆栈:Kubernetes、Ray、PyTorch和vLLM - Blockchain.News

探索开源AI计算技术堆栈:Kubernetes、Ray、PyTorch和vLLM

realtime news Jun 12, 2025 10:26

发现现代开源AI计算技术堆栈的组成部分,包括Kubernetes、Ray、PyTorch和vLLM,这些技术被Pinterest、Uber和Roblox等领先公司所采用。

探索开源AI计算技术堆栈:Kubernetes、Ray、PyTorch和vLLM

在快速发展的人工智能领域,用于运行和扩展AI工作负载的软件堆栈的复杂性显著增加。随着深度学习和生成AI的不断进步,行业正在采用通用的开源技术堆栈,据Anyscale称。这一转变类似于大数据分析领域从Hadoop向Spark的过渡,其中Kubernetes成为容器编排的标准,PyTorch则在深度学习框架中占据主导地位。

AI计算堆栈的关键组件

现代AI计算堆栈的核心组件是Kubernetes、Ray、PyTorch和vLLM。这些开源技术构成了一种强大的基础设施,能够处理AI应用的强大计算和数据处理需求。该堆栈分为三个主要层次:

  • 训练和推理框架:这一层专注于优化GPU上的模型性能,包括模型编译、内存管理和并行策略等任务。PyTorch因其多功能性和效率而成为这一领域的主导框架。
  • 分布式计算引擎:Ray作为管控任务安排、数据移动和故障处理的支柱。它特别适合于Python原生和GPU感知任务,非常适合AI工作负载。
  • 容器编排器:Kubernetes分配计算资源,管理作业调度,并确保多租户环境。它提供了在云环境中高效扩展AI工作负载所需的灵活性。

案例研究:行业采用

像Pinterest、Uber和Roblox这样的领先公司已经采用这种技术堆栈来推动他们的AI计划。例如,Pinterest利用Kubernetes、Ray、PyTorch和vLLM来提高开发者的工作速度并降低成本。他们从Spark向Ray的转移显著提高了GPU利用率和训练吞吐量。

Uber也采用了这一堆栈,将其整合到他们的Michelangelo机器学习平台中。Ray和Kubernetes的结合使Uber优化了他们的大语言模型训练和评估过程,显著提高了吞吐量和成本效率。

Roblox在AI基础设施方面的旅程突出了该堆栈的适应性。他们最初依赖于Kubeflow和Spark,随后转向集成Ray和vLLM,从而大幅提升了AI工作负载的性能和成本效率。

为AI工作负载的未来做好准备

这一技术堆栈的适应性对于为AI工作负载的未来做好准备至关重要。它使团队能够在不需要大量重构的情况下无缝整合新模型、框架和计算资源。鉴于AI的持续发展,这种灵活性至关重要,从而确保组织能够跟上技术进步的步伐。

总的来说,Kubernetes、Ray、PyTorch和vLLM的标准化正在塑造AI基础设施的未来。通过利用这些开源工具,各公司能够构建可扩展、高效和适应性强的AI应用,将自己置于AI领域创新的前沿。

欲了解更多详细见解,请访问Anyscale上的原文章。

Image source: Shutterstock
Place your ads here email us at info@blockchain.news