NVIDIA 的 Llama 3.2 NeMo Retriever 增强多模态 RAG 管道

realtime news   Jul 01, 2025 11:35  UTC 03:35

1 Min Read

NVIDIA 发布了 Llama 3.2 NeMo Retriever 多模态嵌入模型,这是一项在检索增强生成(RAG)管道中的重大进展,增强了视觉和文本数据处理的整合。根据NVIDIA 的博客,该模型旨在应对多模态数据的复杂性,其中不只包括文本,还有图像、视频、音频及其他格式。

视觉语言模型的进展

视觉语言模型(VLMs)在弥合视觉与文本信息之间的差距方面发挥了关键作用。这些模型通过处理文本和图像,促进了诸如视觉问答和多模态搜索等应用的发展。在 VLMs 的最新进展中,开发了诸如 Gemma 3、PaliGemma 和 LLaVA-1.5 等模型,以更高效率处理复杂的视觉数据。

传统 RAG 管道的挑战

传统的 RAG 管道主要集中于文本数据,需要从文档中进行复杂的文本提取过程。尽管 VLMs 的引入简化了这些流程,但其仍容易受到称为幻觉的错误影响。为应对此问题,NVIDIA 强调了通过多模态嵌入模型实现精准检索步骤的重要性。

Llama 3.2 NeMo Retriever 的特点

Llama 3.2 NeMo Retriever 多模态嵌入模型具有 16 亿参数,旨在将图像和文本映射到一个共享的特征空间,增强跨模态的检索任务。该模型特别适用于产品搜索引擎或内容推荐系统等应用,在这些情境中,快速而准确的检索至关重要。

文档检索效率

该模型通过绕过传统的文本文档嵌入所需的多步骤流程,简化了文档检索过程。它能够直接嵌入原始页面图像,保留视觉信息的同时捕捉文本语义,进而简化了检索管道。

性能基准

在诸如 ViDoRe V1、DigitalCorpora 和 Earnings 之类的数据集上的性能评估中,该模型在 Recall@5 的检索准确率上优于其他视觉嵌入模型。这些基准突显了其在有效检索相关文档图像和回答用户查询方面的能力。

NVIDIA 推出的 NeMo Retriever 微服务标志着在开发强大的多模态 RAG 管道方面迈出了一大步,为企业提供了高准确性和数据隐私的实时商业洞察增强工具。



Read More