据Anthropic报道,Anthropic已宣布一项新计划,旨在资助第三方评估,以更好地评估AI能力和风险,以应对这一领域日益增长的需求。
解决当前评估挑战
当前的AI评估环境有限,难以开发高质量、安全相关的评估。对这些评估的需求超过了供应,促使Anthropic推出这一计划,资助能够有效衡量高级AI能力的第三方组织。其目标是通过提供有价值的工具,提升整个生态系统的AI安全性。
重点领域
Anthropic的计划优先考虑三个关键领域:
- AI安全等级评估
- 高级能力和安全指标
- 开发评估的基础设施、工具和方法
AI安全等级评估
Anthropic正在寻求评估以衡量其《负责任扩展政策》中定义的AI安全等级(ASL)。这些评估对于确保AI模型的负责任开发和部署至关重要。重点领域包括:
- 网络安全:评估模型在网络操作中协助或自主行动的能力。
- 化学、生物、放射和核(CBRN)风险:评估模型增强或创建CBRN威胁的能力。
- 模型自主性:评估模型的自主操作能力。
- 国家安全风险:评估在国家安全、国防和情报操作中识别和评估新兴风险。
- 社会操纵:评估模型扩大与劝说相关的威胁的潜力。
- 错位风险:监控模型追求危险目标和欺骗人类用户的能力。
高级能力和安全指标
除了ASL评估,Anthropic还旨在开发可以评估高级模型能力和相关安全标准的评估。这些指标将全面了解模型的优点和潜在风险。关键领域包括:
- 高级科学:开发挑战模型的研究生水平知识和自主研究项目评估。
- 有害性和拒绝:加强对检测有害输出的分类器能力的评估。
- 改进多语言评估:支持跨多种语言的能力基准。
- 社会影响:开发针对偏见、经济影响和心理影响等概念的细致评估。
开发评估的基础设施、工具和方法
Anthropic有兴趣资助简化高质量评估开发的工具和基础设施。这包括:
- 模板/无代码评估平台:使没有编码技能的主题专家能够开发强大的评估。
- 模型评分评估:改进模型使用复杂评分标准审核和打分输出的能力。
- 提升试验:进行控制试验以衡量模型对任务绩效的影响。
良好评估的原则
Anthropic强调了良好评估的几个特征,包括足够的难度、不包含在训练数据中、效率、可扩展性和领域专业知识。他们还推荐记录开发过程并迭代初步评估,以确保它们捕捉到所需的行为和风险。
提交提案
Anthropic邀请有兴趣的各方通过他们的申请表格提交提案。团队将滚动审查提交并提供针对每个项目需求的资助选项。选定的提案将有机会与Anthropic内各团队的领域专家互动,以完善其评估。
这一计划旨在推动AI评估领域的发展,设定行业标准并促进一个更安全、更可靠的AI生态系统。
Image source: Shutterstock