Anthropic推出新计划以提升第三方AI模型评估 - Blockchain.News

Anthropic推出新计划以提升第三方AI模型评估

realtime news Jul 02, 2024 06:58

Anthropic宣布了一项新计划,旨在资助第三方评估以更好地评估AI能力和风险,以应对这一领域日益增长的需求。

Anthropic推出新计划以提升第三方AI模型评估

Anthropic报道,Anthropic已宣布一项新计划,旨在资助第三方评估,以更好地评估AI能力和风险,以应对这一领域日益增长的需求。

解决当前评估挑战

当前的AI评估环境有限,难以开发高质量、安全相关的评估。对这些评估的需求超过了供应,促使Anthropic推出这一计划,资助能够有效衡量高级AI能力的第三方组织。其目标是通过提供有价值的工具,提升整个生态系统的AI安全性。

重点领域

Anthropic的计划优先考虑三个关键领域:

  1. AI安全等级评估
  2. 高级能力和安全指标
  3. 开发评估的基础设施、工具和方法

AI安全等级评估

Anthropic正在寻求评估以衡量其《负责任扩展政策》中定义的AI安全等级(ASL)。这些评估对于确保AI模型的负责任开发和部署至关重要。重点领域包括:

  • 网络安全:评估模型在网络操作中协助或自主行动的能力。
  • 化学、生物、放射和核(CBRN)风险:评估模型增强或创建CBRN威胁的能力。
  • 模型自主性:评估模型的自主操作能力。
  • 国家安全风险:评估在国家安全、国防和情报操作中识别和评估新兴风险。
  • 社会操纵:评估模型扩大与劝说相关的威胁的潜力。
  • 错位风险:监控模型追求危险目标和欺骗人类用户的能力。

高级能力和安全指标

除了ASL评估,Anthropic还旨在开发可以评估高级模型能力和相关安全标准的评估。这些指标将全面了解模型的优点和潜在风险。关键领域包括:

  • 高级科学:开发挑战模型的研究生水平知识和自主研究项目评估。
  • 有害性和拒绝:加强对检测有害输出的分类器能力的评估。
  • 改进多语言评估:支持跨多种语言的能力基准。
  • 社会影响:开发针对偏见、经济影响和心理影响等概念的细致评估。

开发评估的基础设施、工具和方法

Anthropic有兴趣资助简化高质量评估开发的工具和基础设施。这包括:

  • 模板/无代码评估平台:使没有编码技能的主题专家能够开发强大的评估。
  • 模型评分评估:改进模型使用复杂评分标准审核和打分输出的能力。
  • 提升试验:进行控制试验以衡量模型对任务绩效的影响。

良好评估的原则

Anthropic强调了良好评估的几个特征,包括足够的难度、不包含在训练数据中、效率、可扩展性和领域专业知识。他们还推荐记录开发过程并迭代初步评估,以确保它们捕捉到所需的行为和风险。

提交提案

Anthropic邀请有兴趣的各方通过他们的申请表格提交提案。团队将滚动审查提交并提供针对每个项目需求的资助选项。选定的提案将有机会与Anthropic内各团队的领域专家互动,以完善其评估。

这一计划旨在推动AI评估领域的发展,设定行业标准并促进一个更安全、更可靠的AI生态系统。

Image source: Shutterstock