AI基准测试Terminal-Bench升级2.0,强化任务验证提升代理评测可靠性
admin 2025-11-12 50浏览
由斯坦福大学与Laude Institute合作开发的终端人工智能代理基准测试Terminal-Bench正式推出2.0版本。新版重点在于提升任务验证质量,确保测试结果更可靠且可复现,并同步推出名为Harbor的...
admin 2025-11-12 50浏览
由斯坦福大学与Laude Institute合作开发的终端人工智能代理基准测试Terminal-Bench正式推出2.0版本。新版重点在于提升任务验证质量,确保测试结果更可靠且可复现,并同步推出名为Harbor的...