DeepSeek-R1通过推理时间缩放增强GPU内核生成

realtime news Feb 14, 2025 02:39 UTC 18:39

1 Min Read

在AI模型效率的重大进步中，NVIDIA引入了一种名为推理时间缩放的新技术，由DeepSeek-R1模型促成。据NVIDIA称，这种方法旨在优化GPU内核生成，通过在推理期间合理分配计算资源来提高性能。

推理时间缩放的作用

推理时间缩放，也称为AI推理或长时思考，使AI模型能够评估多种潜在结果并选择最优方案。这种方法反映了人类解决问题的技术，允许对复杂问题提出更具战略性和系统性的解决方案。

在NVIDIA的最新实验中，工程师们将DeepSeek-R1模型与增强的计算能力结合使用，以自动生成GPU注意力内核。这些内核在各种注意力类型上是数值准确且优化的，无需显式编程，有时甚至超过了经验丰富的工程师所创造的结果。

注意力机制在大型语言模型（LLMs）的发展中至关重要，它使AI能够有选择地关注关键输入片段，从而改善预测并揭示隐藏的数据模式。然而，注意力操作的计算需求随输入序列长度呈二次增长，需要优化的GPU内核实现来避免运行时错误并提高计算效率。

各种注意力变体，如因果和相对位置嵌入，进一步增加了内核优化的复杂性。多模态模型如视觉变压器引入了额外的复杂性，需要专业的注意力机制来维护时空信息。

NVIDIA的工程师利用DeepSeek-R1开发了一种新颖的工作流程，在推理期间在闭环系统中整合了验证器。该过程从手动提示开始，生成初始GPU代码，随后通过验证器反馈进行分析和迭代改进。

这种方法显著提高了注意力内核的生成，在斯坦福的KernelBench基准测试中，Level-1问题的数值正确率达到了100%，而Level-2问题则达到了96%。

通过DeepSeek-R1引入的推理时间缩放标志着GPU内核生成的有希望的进步。虽然初步结果令人鼓舞，但持续的研究和开发对于在更广泛的问题范围内始终取得更优异的结果至关重要。

对于有兴趣进一步探索此技术的开发者和研究人员，DeepSeek-R1 NIM微服务现已在NVIDIA的构建平台上可用。