标签：AI代理评测

科技资讯

AI基准测试Terminal-Bench升级2.0，强化任务验证提升代理评测可靠性

admin 2025-11-12 55浏览

由斯坦福大学与Laude Institute合作开发的终端人工智能代理基准测试Terminal-Bench正式推出2.0版本。新版重点在于提升任务验证质量，确保测试结果更可靠且可复现，并同步推出名为Harbor的...

共 1页1条记录