NVIDIA 推出 EoRA,提升 LLM 压缩性能无需微调
realtime news Jun 09, 2025 08:30
NVIDIA 推出 EoRA,这是一种无需微调即可提高压缩大型语言模型(LLM)准确率的解决方案,优于传统方法如 SVD。

NVIDIA 宣布在模型压缩领域取得突破,推出了特征空间低秩近似(Eigenspace Low-Rank Approximation,EoRA)。这种方法能够快速恢复大型语言模型(LLM)中的压缩误差,无需进行微调。根据NVIDIA的介绍,这一进步旨在解决现有模型压缩技术面临的常见挑战,如准确性下降和训练时间长。
模型压缩的革命
EoRA 通过引入剩余低秩路径重新定义了模型压缩,这些路径补偿了各种压缩技术引起的误差,从而保持模型在不同用户需求下的准确性。该方法消除了梯度计算的需求,仅需几分钟和极少的校准数据即可执行,为需要时的微调提供了强大的初始设置。
性能和应用
EoRA 的效能在语言生成、常识推理和数学等任务中表现明显。它始终优于传统的奇异值分解(SVD)方法,在激进压缩的模型中实现显著的准确性提升。例如,EoRA 提升了 2:4 剪枝的 Llama3-8B 模型在 ARC-Challenge 中的性能提高了 4.53%、在 MathQA 中提高了 3.48%,在 GSM8K 中提高了 11.83%。
此外,EoRA 对量化具有抗性,进一步减少了开销成本,同时保持了最低限度的准确性损失。这使其成为在特定容量需求下部署大型模型的有吸引力的选择。
技术见解
EoRA 通过将压缩误差投射到相应层的输入激活特征空间中来运行。这种方法确保误差近似损失与总体模型压缩损失直接相关,充分利用了低秩表示的容量。
EoRA 在开源库 GPTQModel 中的集成进一步扩展了其实用性。用户现在只需启用 EoRA 作为一个功能,就能提高量化模型的准确率,从而在 Hugging Face 和 vLLM 等平台上促进模型性能的提升。
开源与未来影响
EoRA 在 GPTQModel 库中的加入标志着朝着广泛采用迈出了重要一步,使开发者能够轻松实现这一方法以提升压缩模型的准确性。这一集成支持在 CPU 和 GPU 上加速推理,使其成为多种应用的通用工具。
凭借其无需训练的特性和强大的稳健性,EoRA 提供了一种可扩展的解决方案用于模型补偿,在计算机视觉、生成式 AI 和机器人等领域承诺带来实质性益处。NVIDIA 的 EoRA 方法不仅提升了模型性能,还为模型压缩领域设定了新的标准。
Image source: Shutterstock