NVIDIA 与 Mistral AI 合作,宣布推出 Mistral-NeMo-Minitron 8B 模型,这是一个高度先进的开放访问大语言模型(LLM)。根据 NVIDIA 技术博客,该模型在九项受欢迎的基准测试中,在准确性方面超越了其他类似大小的模型。
先进的模型剪枝和蒸馏
Mistral-NeMo-Minitron 8B 模型通过对更大的 Mistral NeMo 12B 模型进行宽度剪枝,然后使用知识蒸馏进行轻微的再训练而开发。这种方法最初由 NVIDIA 在其关于通过剪枝和知识蒸馏产生紧凑语言模型的论文中提出,并在多次成功实现中得到验证,包括 NVIDIA Minitron 8B 和 4B 模型以及 Llama-3.1-Minitron 4B 模型。
模型剪枝涉及通过删除层(深度剪枝)或神经元和注意头(宽度剪枝)来减少模型的大小和复杂性。这个过程通常与再训练结合,以恢复任何丧失的准确性。另一方面,模型蒸馏将知识从一个大的、复杂的模型(教师模型)传递到一个更小、更简单的模型(学生模型),旨在保持原始模型的大部分预测能力,同时提高效率。
剪枝和蒸馏的结合允许从一个大型预训练模型中创建逐步更小的模型。这种方法显著减少了计算成本,因为再训练只需要 100-4000 亿个标记,而相比之下,从头开始训练需要更大的数据集。
Mistral-NeMo-Minitron 8B 性能表现
Mistral-NeMo-Minitron 8B 模型在多个基准测试中展示了领先的准确性,超越了其同类的其他模型,包括 Llama 3.1 8B 和 Gemma 7B 模型。下表突出了性能指标:
训练标记 | Wino-Grande 5-shot | ARC Challenge 25-shot | MMLU 5-shot | Hella Swag 10-shot | GSM8K 5-shot | TruthfulQA 0-shot | XLSum en (20%) 3-shot | MBPP 0-shot | Human Eval 0-shot | ||
Llama 3.1 8B | 15T | 77.27 | 57.94 | 65.28 | 81.80 | 48.60 | 45.06 | 30.05 | 42.27 | 24.76 | |
Gemma 7B | 6T | 78 | 61 | 64 | 82 | 50 | 45 | 17 | 39 | 32 | |
Mistral-NeMo-Minitron 8B | 380B | 80.35 | 64.42 | 69.51 | 83.03 | 58.45 | 47.56 | 31.94 | 43.77 | 36.22 | |
Mistral NeMo 12B | N/A | 82.24 | 65.10 | 68.99 | 85.16 | 56.41 | 49.79 | 33.43 | 42.63 | 23.78 |
实施与未来工作
遵循结构化权重剪枝和知识蒸馏的最佳实践,Mistral-NeMo 12B 模型经过宽度剪枝后生成了 8B 目标模型。该过程涉及使用 1270 亿个标记对未剪枝的 Mistral NeMo 12B 模型进行微调以纠正分布变化,然后使用 3800 亿个标记进行仅宽度剪枝和蒸馏。
Mistral-NeMo-Minitron 8B 模型展示了卓越的性能和效率,是 AI 领域的一项重要进步。NVIDIA 计划继续优化蒸馏过程,以生产更小且更准确的模型。此技术的实施将逐步整合到 NVIDIA NeMo 框架中用于生成式 AI。
欲了解更多详情,请访问 NVIDIA 技术博客。
Image source: Shutterstock