继英国AI安全研究所(AI Security Institute,AISI)之后,网络基础设施及安全服务厂商Cloudflare于本周一(5月18日)公布了Anthropic安全模型Claude Mythos Preview的测试结果,指出该模型不仅能发现代码漏洞,还能将多个低风险漏洞串联成可执行的攻击链,并自主编写与运行概念验证(PoC)程序,显示出先进AI在漏洞研究方面的能力已显著提升。
Claude Mythos是Anthropic专为安全研究打造的实验性AI模型,主打漏洞分析、攻击链推理与PoC生成等功能。Anthropic今年4月启动名为Project Glasswing的研究计划,邀请Cloudflare等安全与基础设施厂商,在受控环境中测试Mythos Preview对真实代码库的漏洞研究能力,以评估先进AI模型在攻防两端可能带来的影响。
Cloudflare将Mythos Preview应用于超过50个内部代码仓库,涵盖运行环境、边缘数据路径、通信协议栈、控制平面及其依赖的开源项目等,以此测试模型在真实大型代码库中的漏洞发现能力。Cloudflare并未直接使用单一通用编码代理扫描整个代码库,而是构建了一套名为Harness的协调框架,将漏洞搜索、验证、去重与可利用性追踪等工作拆分给多个AI代理并行执行。
Cloudflare表示,Mythos Preview最显著的进步在于能够将多个低风险漏洞组合成完整的攻击链,而不仅停留在漏洞描述阶段。例如,模型可将多个攻击原语(Attack Primitive)串联成可实际利用的漏洞利用流程,甚至能自主编写、编译和运行概念验证(PoC)代码。
过去其他前沿模型虽也能发现部分漏洞,但往往仅停留在“描述问题”阶段,无法真正完成漏洞利用链;而Mythos Preview则能在验证失败后,根据错误结果自行调整假设并重新尝试。这种能力已更接近资深漏洞研究人员,而非传统自动化扫描工具。
不过,Cloudflare发现,Mythos Preview的安全边界仍有待厘清。本次测试的实验版模型虽未加入公开模型常见的额外安全限制,但在合法漏洞研究中,模型有时仍会拒绝生成攻击示例程序;而同样的请求若换一种表述,又可能得到不同结果。这表明模型的拒绝机制并不稳定,不能单独作为安全防线。
Cloudflare认为,面对AI加速漏洞研究与攻击能力的提升,企业不能仅依靠“更快修补漏洞”来应对,因为若压缩修复周期而跳过完整回归测试,反而可能引入更多新问题。未来更重要的是调整整体系统架构,例如在应用程序前端加入防护机制、降低单个漏洞的横向扩散能力,以及建立可同步部署补丁的基础设施,以减少漏洞从发现到修复期间的风险。