NVIDIA发布Nemotron-H推理模型以提升吞吐量
realtime news Jun 06, 2025 10:37
NVIDIA推出了Nemotron-H推理模型系列,提供显著的吞吐量提升和在推理密集型任务中的多样应用, 据NVIDIA博客称。

在人工智能领域的一项重大进展中,NVIDIA宣布了Nemotron-H推理模型系列,这些模型旨在提高吞吐量而不影响性能。这些模型特别用于处理推理密集型任务,特别是数学和科学领域,其中输出长度显著扩展,有时达到数万个标记。
AI推理模型的突破
NVIDIA最新推出的产品包括Nemotron-H-47B-Reasoning-128K和Nemotron-H-8B-Reasoning-128K模型,两者均有FP8量化版本。根据NVIDIA博客,这些模型派生自Nemotron-H-47B-Base-8K和Nemotron-H-8B-Base-8K基础模型。
在这个系列中最强大的Nemotron-H-47B-Reasoning模型提供了几乎四倍于类似变压器模型如Llama-Nemotron Super 49B V1.0的吞吐量。它支持128K标记上下文,并在推理密集型任务中表现优异。同样,Nemotron-H-8B-Reasoning-128K模型相比Llama-Nemotron Nano 8B V1.0也显示出显著的改进。
创新特点和许可
Nemotron-H模型引入了灵活的操作功能,允许用户选择推理和非推理模式。这种适应性使其对各种现实应用程序适用。NVIDIA在开放研究许可下发布了这些模型,鼓励研究社区进一步探索和创新。
训练与性能
这些模型的训练涉及使用包括明确推理轨迹的示例进行的监督微调(SFT)。这种全面的训练方法,涵盖了超过30,000步的数学、科学和编码,导致在内部STEM基准上的持续改进。随后一个训练阶段专注于指令遵循、安全对齐和对话,进一步提升了模型在各种任务中的表现。
长上下文处理与强化学习
为了支持128K标记上下文,这些模型使用合成序列进行了训练,长度达256K标记,以增强其长上下文注意能力。此外,使用群体相对策略优化(GRPO)的强化学习被应用于细化指令遵循和工具使用等技能,提高了模型的整体响应质量。
最终结果及吞吐量比较
在与Llama-Nemotron Super 49B V1.0和Qwen3 32B等模型的基准测试中,Nemotron-H-47B-Reasoning-128K模型显示出卓越的准确性和吞吐量。值得注意的是,其实现了比传统变压器模型高出约四倍的吞吐量,标志着AI模型效率的重大进步。
总体而言,Nemotron-H推理模型代表了在需要精度和速度的应用中,一个多功能且高性能的基础,提供了显著的AI推理能力进步。
有关更详细的信息,请参阅NVIDIA博客上的官方公告。
Image source: Shutterstock