Meta 宣布发布 Llama 3.1 405B,这是他们迄今为止最强大的开放大型语言模型(LLM)。根据 NVIDIA 技术博客,这款模型旨在增强合成数据生成,这是在金融、零售、电信和医疗等各个行业中微调基础 LLM 的关键元素。[来源]
利用 LLM 生成的合成数据进行生成式 AI
随着大型语言模型的出现,生成合成数据的动机和技术已显著提升。企业正在利用 Llama 3.1 405B 对基础 LLM 进行微调,以特定的用例改进,如提高金融风险评估、优化零售供应链、增强电信客户服务以及提升医疗患者护理。
利用 LLM 生成的合成数据来改进语言模型
生成用于微调模型的合成数据有两种主要方法:知识蒸馏和自我改进。知识蒸馏将较大模型的能力转化为较小模型,而自我改进使用同一模型批判性地审视自己的推理。两种方法都可以利用 Llama 3.1 405B 改进较小的 LLM。
训练一个 LLM 包括三个步骤:预训练、微调和对齐。预训练使用大量信息语料库教导模型语言的总体结构。然后,微调调整模型以遵循特定指令,例如改进逻辑推理或代码生成。最后,对齐确保 LLM 的回应在风格和语气上符合用户期望。
利用 LLM 生成的合成数据改进其他模型和系统
合成数据的应用超越了 LLM,扩展到相邻模型和 LLM 驱动的管道。例如,检索增强生成(RAG)使用嵌入模型检索相关信息,并使用 LLM 生成答案。LLM 可以用来解析文档并合成数据,以评估和微调嵌入模型。
用合成数据评估 RAG
为了说明合成数据的使用,考虑一个生成用于检索评估的数据管道。这涉及基于不同用户角色生成多样化的问题,并对这些问题进行筛选以确保相关性和多样性。最后,这些问题会重写以匹配角色的写作风格。
例如,金融分析师可能对公司合并中的财务表现感兴趣,而法律专家可能会关注监管审查。通过生成这些视角量身定制的问题,合成数据可以有效评估检索管道。
要点
合成数据生成对于企业开发特定领域的生成式 AI 应用至关重要。Llama 3.1 405B 模型与 NVIDIA Nemotron-4 340B 奖励模型配对,促进高质量合成数据的创建,从而开发准确的定制模型。
RAG 管道对于基于最新信息生成扎实的响应至关重要。所描述的合成数据生成工作流程有助于评估这些管道,确保其准确性和有效性。
Image source: Shutterstock