Place your ads here email us at info@blockchain.news
NEW
DeepSWE:通过开源强化学习革新编程代理 - Blockchain.News

DeepSWE:通过开源强化学习革新编程代理

realtime news Jul 02, 2025 18:40

DeepSWE-Preview 是一个先进的编程代理,在 SWE-Bench-Verified 测试中实现了 59% 的成功率,树立了开源 AI 的新标杆,展示了利用强化学习的最先进性能。

DeepSWE:通过开源强化学习革新编程代理

在 AI 驱动的软件开发取得重大进展的背景下,DeepSWE-Preview 作为一个开创性的开源编程代理出现。根据Together AI的说法,该代理由 Agentica 团队与 Together AI 联合开发,利用强化学习(RL)在 SWE-Bench-Verified 基准测试中实现了 59% 的通过率。

革新软件工程

DeepSWE-Preview 构建在 Qwen3-32B 模型之上,仅利用强化学习提升其能力。该方法使该代理超越其他开放权重的编程代理,实现了 42.2% 的 Pass@1 率和 71.0% 的 Pass@16 率。该模型在六天内使用 64 台 H100 GPU 进行了训练,解决了 4,500 个来自 R2E-Gym 训练环境的实际软件工程任务。

利用 rLLM 的力量

DeepSWE-Preview 的训练由 rLLM 平台支持,这是 Agentica 为后训练语言代理设计的框架。该框架允许数据集、代码和训练日志的开源化,鼓励通过强化学习进行协作,扩大和改进代理的能力。32B 模型开发为智能编程代理的完整训练方案现已向公众开放,促进透明度和创新。

新兴行为与表现

DeepSWE-Preview 在训练期间表现出新兴行为,如预判极端情况和进行全面的回归测试。这些能力对于处理复杂的软件工程任务至关重要,这些任务需要浏览庞大的代码库并确保与现有功能的兼容性。

测试时刻扩展与进一步发展

DeepSWE-Preview 采用测试时刻扩展(TTS)来提升性能,结合了无执行和基于执行的验证方法。这种混合扩展策略显著提升了其 Pass@1 性能,使其与其他模型区别开来。未来的研究将探索更大的模型,并扩展到不同领域,包括网络代理。

DeepSWE-Preview 代表着在民主化 AI 开发方面的一个关键步骤,展示了强化学习在解决软件工程中长期、多步骤挑战的潜力。其开源特性邀请全球研究界参与和构建其成功之上。

Image source: Shutterstock
Place your ads here email us at info@blockchain.news