生成式 AI 通过自动化任务(如文本摘要、翻译、洞察预测和内容生成)有潜力彻底改变各种业务运营。然而,完全集成这项技术面临重大挑战,尤其是在硬件需求和成本方面。据 AMD.com 介绍,运行像 ChatGPT-4 这样强大的生成式 AI 模型可能需要数万个 GPU,每个推理实例都会产生显著的成本。
AMD 在生成式 AI 方面的创新
AMD 通过提供强大的解决方案来解锁生成式 AI 在企业中的潜力,在应对这些挑战方面取得了实质性进展。公司专注于数据中心的 GPU 产品,如 AMD Instinct™ MI300X 加速器和开放软件 ROCm™,同时还开发了一个协作的软件生态系统。
高性能硬件解决方案
AMD MI300X 加速器以其领先的推理速度和大容量内存而著称,这是管理生成式 AI 模型沉重计算需求所必需的。该加速器提供高达 5.3 TB/s 的峰值理论内存带宽,显著超过 Nvidia H200 的 4.9 TB/s。凭借 192 GB 的 HBM3 内存,MI300X 可以在单个 GPU 上支持像 Llama3 这样具有 80 亿参数的大型模型,无需将模型拆分到多个 GPU 上。这种大容量内存允许 MI300X 高效处理海量数据集和复杂模型。
软件生态系统和兼容性
为了使生成式 AI 更加普及,AMD 在软件开发方面投入大量资金,以最大限度地提高其 ROCm 软件生态系统与 NVIDIA CUDA® 生态系统的兼容性。与 Megatron 和 DeepSpeed 等开源框架的合作在弥合 CUDA 和 ROCm 之间的差距方面发挥了重要作用,使开发人员的转型更加顺畅。
AMD 与行业领导者的合作进一步将 ROCm 软件堆栈集成到流行的 AI 模板和深度学习框架中。例如,最大的开源模型库 Hugging Face 是一个重要的合作伙伴,确保几乎所有 Hugging Face 模型都可以在 AMD Instinct 加速器上运行而无需修改。这简化了开发人员进行推理或微调的过程。
合作与实际应用
AMD 的合作工作延伸到与 PyTorch 基金会的合作,确保新的 PyTorch 版本在 AMD 硬件上得到充分测试。这导致了显著的性能优化,如 Torch Compile 和基于 PyTorch 的量化。此外,与 Google 开发的关键 AI 框架 JAX 的开发人员合作,促进了 ROCm 软件兼容版本的 JAX 及相关框架的编译。
值得注意的是,Databricks 成功利用 AMD Instinct MI250 GPU 培训大型语言模型 (LLM),展示了显著的性能改进和多节点配置中的近线性扩展。此类合作展示了 AMD 在有效处理苛刻 AI 工作负载方面的能力,为进军生成式 AI 的企业提供了强大且具有成本效益的解决方案。
高效的扩展技术
AMD 采用先进的 3D 并行技术来增强大规模生成式 AI 模型的训练。数据并行性将庞大的数据集分割到不同的 GPU 上,效率处理 TB 级数据。张量并行性在多个 GPU 间分配大型模型的张量级别负载,平衡工作负载并加速复杂模型处理。流水线并行性在多个 GPU 上分布模型层,启用同步处理,并显著加速训练过程。
这些技术在 ROCm 内得到全面支持,使客户可以轻松处理极大模型。例如,Allen AI 研究所在使用 AMD Instinct MI250 加速器网络及这些并行技术训练其 OLMo 模型方面取得了成功。
全面支持企业
AMD 通过采用支持常见数据工作流的微服务简化了生成式 AI 模型的开发和部署。这些微服务促进了数据处理和模型训练自动化,确保数据管道顺畅运行,从而使客户能够专注于模型开发。
最终,AMD 对客户的承诺——无论规模大小——使其与竞争对手区分开来。对于可能缺乏独立应对复杂 AI 部署资源的企业应用伙伴来说,这种关注尤为有益。
Image source: Shutterstock