根据anthropic.com报道,最近升级的 Claude 3.5 Sonnet 模型在软件工程评估中设立了新的基准,在 SWE-bench Verified 上取得了49%的分数。这一表现超越了之前的最先进模型,其得分为45%。Claude 3.5 Sonnet 旨在通过提供增强的推理和编码能力来提高开发人员的效率。
理解 SWE-bench Verified
SWE-bench 是一个著名的 AI 评估基准,通过评估模型解决现实世界软件工程任务的能力来进行测试。它侧重于解决来自热门开源 Python 仓库的 GitHub 问题。该基准包括设置 Python 环境并在解决问题之前检查存储库的本地工作副本。AI 模型必须理解、修改和测试代码以提出解决方案。每个解决方案都与解决问题的拉取请求中的原始单元测试进行比较,以确保 AI 模型实现与人类开发者相同的功能。
创新的代理框架
Claude 3.5 Sonnet 的成功可以归功于一个优化模型性能的创新代理框架。该框架包括一个最小的脚手架系统,使语言模型能够行使重大控制权,从而增强其决策能力。框架包括提示、用于执行命令的 Bash 工具和用于文件管理的编辑工具。这种设置使模型能够灵活地执行任务,利用自己的判断而不是遵循严格的工作流程。
SWE-bench 评估不仅仅单独评估 AI 模型,而是评估整个“代理”系统,包括模型及其软件脚手架。这种方法越来越受欢迎,因为它使用真实的工程任务而不是假设场景,并测量整个代理的性能而不仅仅是模型。
挑战和未来前景
尽管成功,使用 SWE-bench Verified 仍呈现几个挑战。这些挑战包括运行评估的时间和高代币成本、评分复杂性以及模型无法查看保存到文件系统的文件,因而使调试变得复杂。此外,某些任务需要解决 GitHub 问题之外的附加上下文,这也为未来增强指明了方向。
总体而言,Claude 3.5 Sonnet 模型展示出优越的推理、编码和数学能力,以及改进的代理能力。这些进步得益于旨在最大化其潜力的工具和脚手架设计。随着开发人员继续在此框架上进行构建,预计在 SWE-bench 分数上将取得进一步的改进,为更高效的 AI 驱动的软件工程解决方案铺平道路。
Image source: Shutterstock