最新消息:关注人工智能 AI赋能新媒体运营

AI基准测试Terminal-Bench升级2.0,强化任务验证提升代理评测可靠性

科技资讯 admin 浏览

由斯坦福大学与Laude Institute合作开发的终端人工智能代理基准测试Terminal-Bench正式推出2.0版本。新版重点在于提升任务验证质量,确保测试结果更可靠且可复现,并同步推出名为Harbor的云端容器化执行框架,使代理评估更贴近实际运行环境。

Terminal-Bench自问世以来,迅速成为人工智能代理开发者的重要评估工具。早期版本虽广受使用,但部分任务因外部依赖或环境变动而难以复现,例如涉及YouTube下载的题目,可能因平台反机器人机制更新而导致评估失准。官方因此全面审查任务数据集,2.0版本引入大量人工与语言模型辅助的验证机制,使每一项任务都能在一致条件下重复执行,并得到相同结果。

2.0改版的目标不只是提高难度,更是让评估真正反映代理的稳定性与持续可行性。官方表示,代理的真实能力不仅在于能否解题,更在于能否在相同条件下稳定完成任务,而新版的验证流程就是要确保评估能反映这种可靠性。

与Terminal-Bench 2.0同时发布的Harbor框架,是此次更新的另一个重点。Harbor将原本在本地环境执行的测试,迁移至可并行扩展的云端容器,支持上千实例同时评估,并可整合强化学习与监督微调(SFT)流程。开发者可以在标准化环境中重复进行代理训练与评估,减少外部变量对成绩造成的影响,也让测试本身成为持续提升代理能力的手段。

Terminal-Bench已被主要人工智能研究机构与产业实验室采用,官方排行榜上出现OpenAI、Anthropic、Google、xAI、阿里巴巴与斯坦福等团队提交的测试结果。Terminal-Bench的开发机构Laude Institute成立于2025年,由Databricks与Perplexity共同创始人Andy Konwinski以个人资金创立,目标是资助长期具有影响力的计算研究。