NVIDIA推出NeMo Retriever以增强RAG管道性能

NEW

NVIDIA推出NeMo Retriever以增强RAG管道性能 - Blockchain.News

企业正越来越多地寻求利用其大量数据储备来提高运营效率、降低成本并提升生产力。NVIDIA的最新产品NeMo Retriever旨在通过使开发人员能够构建和部署先进的检索增强生成（RAG）管道来实现这一目标。根据NVIDIA技术博客，NeMo Retriever系列推出了四个新的基于社区的NeMo Retriever NIMs，专为文本嵌入和重排序而设计。

增强文本检索的新模型

NVIDIA宣布发布三个NeMo Retriever嵌入NIM和一个NeMo Retriever重排序NIM。这些模型是：

NV-EmbedQA-E5-v5：针对文本问答检索进行了优化。
NV-EmbedQA-Mistral7B-v2：一个多语言模型，经过微调用于文本嵌入和准确的问答。
Snowflake-Arctic-Embed-L：一个针对文本嵌入进行了优化的模型。
NV-RerankQA-Mistral4B-v3：针对文本重排序和精准问答进行了微调。

理解检索管道

检索管道利用嵌入模型生成文本的向量表示以进行语义编码，并将其存储在向量数据库中。当用户查询数据库时，问题被编码成一个向量，与已存储的向量进行匹配以检索相关信息。然后，重排序模型对检索到的文本片段的相关性进行评分，确保呈现最准确的信息。

嵌入模型提供速度和成本效率，而重排序模型提供更高的准确性。通过结合这些模型，企业可以在性能和成本之间取得平衡，使用嵌入模型识别相关片段，使用重排序模型优化结果。

NeMo Retriever NIMs：成本和稳定性

成本

NeMo Retriever NIMs旨在减少上市时间和运营成本。这些容器化解决方案配备了行业标准的API和Helm chart，便于轻松和大规模的模型部署。利用NVIDIA AI Enterprise软件套件，NIMs最大化模型推理效率，从而降低部署成本。

稳定性

NIMs是NVIDIA AI Enterprise许可证的一部分，保证API稳定性，安全补丁，质量保证和支持，为AI驱动企业从原型到生产提供顺利过渡。

选择适合您的管道的NIMs

在设计检索管道时，开发人员需要平衡准确性、延迟、数据摄取吞吐量和生产吞吐量。NVIDIA提供了选择适当NIMs的指南基于这些因素：

最大化吞吐量和最小化延迟：使用NV-EmbedQA-E5-v5进行优化的轻量级嵌入模型推理。
针对低容量、低速率数据库进行优化：使用NV-EmbedQA-Mistral7B-v2用于摄取和生产，以平衡吞吐量和准确性与低延迟。
针对高容量、高速率数据进行优化：结合NV-EmbedQA-E5-v5进行文档摄取，与NV-RerankQA-Mistral4B-v3进行重排序，以提高检索准确性。

性能基准如NQ, HotpotQA, FiQA和TechQA表明，NeMo Retriever NIMs在嵌入和重排序性能上显著提升，使其适用于各种企业检索用例。

开始使用

开发人员可以在API目录中探索NVIDIA NeMo Retriever NIMs，并在GitHub上访问NVIDIA的生成性AI示例。NVIDIA还提供实验室，通过NVIDIA LaunchPad试用带有RAG工作流的AI聊天机器人，允许定制和部署NIMs在各种数据环境中。

Image source: Shutterstock