NVIDIA NIM 提升多语言 LLM 部署 - Blockchain.News

NVIDIA NIM 提升多语言 LLM 部署

realtime news Jul 09, 2024 04:42

NVIDIA NIM 引入了对多语言大型语言模型的支持,通过 LoRA 调整适配器提升全球业务的沟通和效率。

NVIDIA NIM 提升多语言 LLM 部署

在当今全球化的市场中,多语言大型语言模型(LLMs)对于企业变得越来越重要。随着企业在不同区域和文化之间扩展其业务,能够用多种语言进行有效沟通是成功的关键。支持并投资于多语言 LLMs 可以帮助公司克服语言障碍,促进包容性,并在全球范围内获得竞争优势。

然而,大多数基础模型在处理多语言时面临重大挑战。许多模型主要是基于英语文本语料库进行训练,导致对西方语言模式和文化规范存在偏见。这使得 LLMs 很难准确捕捉非西方语言的细微差别、习语和文化背景。对于许多资源贫乏语言来说,缺乏高质量的数字化文本数据进一步加剧了这一问题。

根据最近的Meta Llama 3 博客文章,“为了为即将到来的多语言使用案例做好准备,Llama 3 预训练数据集中有超过 5% 是高质量的非英语数据,涵盖超过 30 种语言。然而,我们并不期望在这些语言中的表现与英语一致。”

在这种背景下,NVIDIA 的新举措旨在通过使用 NVIDIA NIM 部署 LoRA 调整适配器来提高多语言 LLMs 的性能。通过集成这些适配器,NVIDIA NIM 提升了中文和印地语等语言的准确性,这些语言经过针对性额外文本数据的微调。

NVIDIA NIM 是什么?

NVIDIA NIM 是一组旨在加速企业生成式 AI 部署的微服务。它是 NVIDIA AI Enterprise 的一部分,支持各种 AI 模型,确保模型在本地和云端无缝、可扩展地推理。NIM 利用行业标准 API 来简化这一过程。

NIM 提供了用于在 AI 模型上运行推理的交互式 API。每个模型都打包在自己的 Docker 容器中,包含与任何具有足够内存的 NVIDIA GPU 兼容的运行时。

使用 NIM 部署多语言 LLMs

部署多语言 LLMs 面临着有效服务众多调优模型的挑战。一个基础 LLM,如 Llama 3,可能会有每种语言的多个 LoRA 调整变体。传统系统需要独立加载所有这些模型,从而消耗大量内存资源。

NVIDIA NIM 通过使用 LoRA 的设计来解决这一问题,每个模型捕获额外的语言信息在较小的低秩矩阵中。此方法允许单个基础模型动态高效地加载多个 LoRA 调整变体,最大限度地减少 GPU 内存使用。

通过集成使用 HuggingFace 或 NVIDIA NeMo 训练的 LoRA 适配器,NIM 在 Llama 3 8B Instruct 模型之上增加了对非西方语言的强大支持。此功能使企业能够在相同的基础 NIM 上动态选择相应的适配器来服务数百个 LoRA。

高级工作流程和推理

对于部署多个 LoRA 模型,用户需要组织其 LoRA 模型存储并设置相关的环境变量。该过程涉及下载和组织 LoRA 调整模型,设置特定模型的最大秩,并使用适当的配置运行 NIM Docker 容器。

设置完成后,用户可以使用简单的 API 命令对任何存储的 LoRA 模型进行推理。这种灵活的部署模型确保企业能够有效扩展其多语言 LLM 能力。

结论

NVIDIA NIM 对多语言 LLMs 的支持标志着在帮助全球企业进行更有效和包容性沟通方面迈出了重要的一步。通过利用 LoRA 调整适配器,NIM 实现了多语言模型的高效、可扩展部署,在全球市场中提供了重要的优势。

开发人员可以直接在 NVIDIA API 目录中开始原型设计或免费与 API 进行交互。有关部署 NIM 推理微服务的更多信息,请访问NVIDIA 技术博客

Image source: Shutterstock