OpenAI与Paradigm联合推出基准测试EVMbench，评估AI代理在智能合约漏洞攻防方面的能力

OpenAI宣布与加密资产投资机构Paradigm合作推出EVMbench，这是一套基准测试，用于衡量AI代理在以太坊虚拟机（EVM）环境下，面对高严重性智能合约漏洞时，能否完成检测、修复与利用等任务。

OpenAI指出，许多以开源代码形式部署的智能合约长期管理大量加密资产。随着AI系统越来越擅长阅读、编写与执行代码，产业需要在更贴近经济激励与实际流程的环境中衡量模型能力，并推动防御性应用，用于审计与强化现有合约。

EVMbench收集了120个经过整理的漏洞案例，来源涵盖多次审计成果，多数取自公开的代码审计竞赛题库。此外，也纳入了来自Tempo区块链安全审计流程的多个漏洞情境，使题库延伸至支付导向的智能合约代码。OpenAI表示，Tempo是为稳定币支付设计的第一层区块链（L1），这些情境用于将评估扩展到支付导向的智能合约，使测试更贴近实际应用场景。

EVMbench将任务分为三种模式，对应实际工作流程：第一是检测模式（Detect），要求代理审计智能合约代码仓库，根据对已知漏洞的召回率及对应审计奖励进行评分。第二是漏洞修复模式（Patch），要求代理在修改脆弱合约时，保持原有功能不变，同时消除漏洞的可利用性，并通过自动化测试与漏洞利用检查进行验证。第三是漏洞利用模式（Exploit），要求代理在沙盒区块链环境中完成端到端的资金盗取攻击，系统将以交易重放与链上验证的方式进行自动化评分。

OpenAI提醒，EVMbench存在局限，并不等同于完整的现实世界智能合约安全难度。其题库多取自Code4rena审计竞赛，虽为高严重性且具实际背景，但与那些长期上线、被大量研究与多轮审计的主流合约相比，题库未必涵盖同等程度的审查强度与攻击门槛，因此难度代表性有限。

在检测模式中，系统仅能判断代理是否找出人类审计者已标记的漏洞，若代理提出额外问题，现阶段难以可靠判定是人类遗漏的真实漏洞还是误报。至于漏洞利用模式，由于评分容器会以序列方式重播交易，凡依赖精确时间机制的行为不在评估范围内。此外，测试链状态采用干净的本地Anvil测试节点，现阶段仅支持单链环境，因此部分情境可能需要以模拟合约替代主网部署。

CB科技站

OpenAI与Paradigm联合推出基准测试EVMbench，评估AI代理在智能合约漏洞攻防方面的能力

OpenAI宣布与加密资产投资机构Paradigm合作推出EVMbench，这是一套基准测试，用于衡量AI代理在以太坊虚拟机（EVM）环境下，面对高严重性智能合约漏洞时，能否完成检测、修复与利用等任务。

与本文相关的文章