FutureBench:AI 代理将彻底改变事件预测

realtime news   Jul 18, 2025 11:25  UTC 03:25

1 Min Read

根据 together.ai 的说法,FutureBench 在突破性的发展中,旨在通过专注于预测未来事件来重新定义人工智能的能力。这个新的基准挑战 AI 代理预见实际世界的发生,例如利率调整和地缘政治变化,提供对推理能力的实时和可验证的测试。

彻底改变 AI 基准

传统上,AI 基准主要集中在根据对过去事件的理解来评估模型。然而,FutureBench 试图颠覆这一脚本,要求 AI 预测未来的发展。这种方法不仅需要模式识别,更需要深刻的推理、信息的综合能力和对潜在结果的真正理解,而不仅仅是记忆。

FutureBench 的创造者强调,预测提供了一个独特的优势,即消除数据污染的可能性。由于预测基于尚未发生的事件,AI 代理必须依赖推理能力而非预先存在的数据。这确保了一个公平的竞争环境,成功由真正的分析技能决定。

方法论和评估

FutureBench 的预测任务来源于真实的预测市场和新兴新闻,专注于重要且不确定的事件。该基准采用基于代理的方法,策划需要深入推理的情景。此方法不仅测试了 AI 的预测能力,还解决了与传统基准相关的方法论问题,例如数据污染。

评估框架在三个层面上运行:框架比较、工具性能和模型能力。这样可以对 AI 代理进行全面评估,隔离不同框架、工具和模型对表现的影响。FutureBench 的系统方法提供了关于 AI 系统内部性能增益和损失出现位置的有价值见解。

生成预测问题

为了生成有意义的预测问题,FutureBench 采用了两种互补的方法。第一种方法利用 AI 从当前新闻中挖掘预测机会,从分析文章中创建特定的、有时间限制的问题。第二种方法结合了 Polymarket(预测市场平台)的数据,以获得经过筛选的相关性和可行性的问题。

这些方法确保稳步流出相关且有挑战性的预测问题,反映真实世界的事件,并要求 AI 代理应用复杂的推理技巧。

初步发现和未来方向

FutureBench 的初步结果揭示了 AI 模型之间多样的推理模式。该基准凸显了模型在信息收集、预测制定和不确定性推理方面的方法差异。例如,像 Claude3.7 这样的模型展示了全面的研究方法,而其他模型如 GPT-4.1 则专注于未来事件的共识预测。

FutureBench 是一个不断演进的基准,不断融合新发现和模式。FutureBench 背后的团队邀请 AI 社区的反馈,以改进问题来源,精细化实验,并分析最相关的数据。

有关 FutureBench 的进一步见解和详细信息,可以在 together.ai 网站上探索该计划。



Read More