Claude 3.5 十四行诗：提升 AI 的计算机交互能力

realtime news Oct 23, 2024 10:27 UTC 02:27

1 Min Read

Anthropic 发布了一项人工智能领域的重要里程碑，推出了 Claude 3.5 十四行诗，其现已具备类似人类与计算机交互的能力。根据 Anthropic 的说法，这一进步使得 AI 能够执行诸如移动光标、点击和在虚拟键盘上打字等任务。

为什么计算机交互至关重要

AI 能够直接与计算机软件交互被视为向前迈出的关键一步，因为现代工作的很大一部分是在数字平台上进行的。这项能力扩展了 AI 应用的可能性，使之摆脱了以前无法企及的限制，标志着 AI 发展的新前沿。此前在逻辑推理和图像识别方面取得了进展，但这一新功能打破了需要专用工具进行交互的障碍。

Claude 的计算机交互技能的开发基于工具使用和多模态性方面的先前研究。AI 的训练涉及解释屏幕图像并根据视觉线索执行命令。令人瞩目的是，Claude 能够将其训练从简单的软件环境（如计算器和文本编辑器）推广到更复杂的任务。

在开发过程中，遇到了典型的 AI 研究相关挑战，包括反复测试和优化。最终，Claude 在 OSWorld 的评估中达到 14.9% 的成功率，比其他 AI 模型有显著提升。

每项技术进步都会带来新的挑战，尤其是在安全方面。虽然 Claude 目前的能力并未增加边界威胁的风险，但滥用风险（例如提示注入攻击）仍然存在。Anthropic 实施了安全措施以减轻这些风险，确保 Claude 的计算机使用能力得到负责任的管理。

为应对潜在的滥用，特别是即将到来的美国大选，Anthropic 已建立协议，以监控和指导 Claude 的活动远离敏感领域。

计算机交互的引入标志着从适应工具以适应 AI 到适应 AI 以适应现有工具的转变。尽管 Claude 当前的交互能力仍在发展中，但预计速度、可靠性和可用性会有所提升。Anthropic 的研究人员和安全团队之间的持续合作旨在平衡高级功能与强大的安全措施。

参与公开测试版的开发者被鼓励提供反馈，以进一步完善 AI 的能力和安全协议。