NVIDIA 的 GB200 NVL72 和 Dynamo 提升 MoE 模型性能
realtime news Jun 06, 2025 12:30
NVIDIA 最新的创新产品 GB200 NVL72 和 Dynamo 显著提升了专家混合(MoE)模型的推理性能,提高了 AI 部署的效率。

据 NVIDIA 最近的 报告,NVIDIA 通过其最新产品 GB200 NVL72 和 NVIDIA Dynamo 不断突破 AI 性能的界限,显著增强了专家混合(MoE)模型的推理性能。这些进步有望优化计算效率并降低成本,使其成为 AI 部署的变革者。
释放 MoE 模型的力量
最新一波的开源大型语言模型(LLMs),如 DeepSeek R1、Llama 4 和 Qwen3,都采用了 MoE 架构。与传统的密集模型不同,MoE 模型在推理过程中只激活一部分专门参数或“专家”,从而实现更快的处理速度和更低的运营成本。NVIDIA 的 GB200 NVL72 和 Dynamo 利用了这一架构,解锁了新的效率水平。
解耦服务与模型并行化
其中一个关键创新是解耦服务,将预填充和解码阶段分布在不同的 GPU 上,允许独立优化。这种方法通过应用针对每个阶段特定需求的各种模型并行策略来提高效率。专家并行(EP)被引入为一个新维度,将模型专家分布到 GPU 上以改善资源利用。
NVIDIA Dynamo 在优化中的角色
NVIDIA Dynamo 是一个分布式推理服务框架,它简化了解耦服务架构的复杂性。它管理 GPU 之间 KV 缓存的快速转移,并智能地路由请求以优化计算。Dynamo 的动态速率匹配确保资源的高效分配,防止 GPU 闲置并优化吞吐量。
利用 NVIDIA GB200 NVL72 NVLink 架构
GB200 NVL72 的 NVLink 架构支持多达 72 个 NVIDIA Blackwell GPU,其通信速度是当前以太网标准的 36 倍。这一基础设施对于 MoE 模型至关重要,其中专家之间需要高速的全对全通信。GB200 NVL72 的能力使其成为服务拥有广泛专家并行化的 MoE 模型的理想选择。
超越 MoE:加速密集模型
除了 MoE 模型,NVIDIA 的创新也提升了传统密集模型的性能。GB200 NVL72 搭配 Dynamo 为如 Llama 70B 等模型显示出显著的性能提升,适应更严格的延迟约束并增加吞吐量。
结论
NVIDIA 的 GB200 NVL72 和 Dynamo 代表着 AI 推理效率的重大飞跃,使 AI 工厂能够最大化 GPU 利用率,并在每项投资中服务更多请求。这些进步标志着优化 AI 部署的重要一步,推动持续增长和效率。
Image source: Shutterstock