Together AI 宣布与 NVIDIA 建立战略合作,利用 NVIDIA 的 DGX Cloud 增强企业级 Llama 3.1 模型的功能。合作旨在使企业和开发人员能够利用公开可用的模型,在 NVIDIA 的先进基础设施上实现优化的 AI 推理。
针对企业的优化 AI 推理
本次合作向 NVIDIA AI Foundry 的客户介绍了 Together 推理引擎,提供了一个强大的平台在 NVIDIA DGX Cloud 上运行 Llama 3.1 模型。根据Together AI 表示,该集成使企业能够在生产规模上实现出色的性能、精确度和成本效率。
“企业希望利用像 Llama 3.1 这样公开可用的 AI 模型,定制化满足他们的特定需求,”NVIDIA DGX Cloud 副总裁 Alexis Bjorlin 说,“通过与 Together AI 合作,我们将高度优化的 Together 推理引擎引入 DGX Cloud,为公司提供高效和可扩展的 AI 推理能力。”
创新技术和优势
Together 推理引擎基于多项技术进步构建,包括 FlashAttention-3 内核、基于 RedPajama 定制开发的推测器,以及先进的量化技术。这些创新为 NVIDIA Tensor Core GPU 优化企业工作负载,支持高效开发和部署生成 AI 应用。
通过此次合作,NVIDIA AI Foundry 客户可以利用最新的 NVIDIA AI 架构,实现更快的部署。企业能够使用专有数据微调模型,确保更高的准确性和性能,同时保持数据所有权。
对开源 AI 的影响
此次合作标志着开源 AI 的一个重要里程碑,推出了 Llama 3.1 405B,这是目前最大规模的公开可用基础模型。它在一般知识、可控性、数学、工具使用和多语言翻译等方面提供了全面的能力,可媲美顶级的封闭源模型,同时提供安全工具以促进负责任的发展。
在 Together AI,公司始终专注于推进开放研究和增强研究人员、开发人员及企业之间的信任。公司率先开发了诸如 FlashAttention 3、Mixture of Agents、Medusa、Sequoia、Hyena、Mamba 和 CocktailSGD 等方法,推动了 AI 解决方案更快的创新和上市时间。
实际应用
Zomato、DuckDuckGo 和华盛顿邮报等企业已经在利用 Together 推理引擎用于他们的生成 AI 应用。通过与 NVIDIA 的合作,具有复杂工作负载的企业可以在 DGX Cloud 上部署开源模型,提升性能、可扩展性和安全性。
这一合作将加速开源 AI 技术的应用,为开发人员和企业提供所需的工具,以高效和有效地构建先进的 AI 解决方案。
Image source: Shutterstock