英国AI安全研究所(AI Security Institute,AISI)周三(5月13日)发布最新研究报告,利用名为“Cyber Time Horizons”的指标,衡量AI自主完成网络安全任务的时长,并以人类安全专家的完成时间为基准。AISI指出,自2024年底以来,先进AI模型可自主完成的网络安全任务时长大约每4.7个月翻倍,而最新的Claude Mythos Preview与GPT-5.5甚至已超出原有增长趋势。
AISI此次主要在名为“Narrow Cyber Suite”的封闭式网络安全测试环境中评估模型能力,测试内容涵盖逆向工程(Reverse Engineering)、Web漏洞利用(Web Exploitation)等任务,要求模型自主识别并利用目标系统的弱点。此外,AISI还测试了模型在模拟企业网络攻击环境(Cyber Ranges)中的表现,包括32个步骤的企业网络攻击场景“The Last Ones”,以及此前从未有AI模型成功完成的“Cooling Tower”任务。
AISI根据模型在各项任务中的成功率,推算AI在80%成功率下,可自主完成相当于人类安全专家需要多长时间处理的任务。
最新估算显示,自2024年底以来,先进AI模型可稳定完成的网络安全任务时长,约每4.7个月翻倍。也就是说,若AI原本能完成相当于人类专家需10分钟处理的任务,约4.7个月后,就可能完成20分钟等级的任务,能力成长速度已快于2025年11月预测的每8个月翻倍。AISI指出,Claude Mythos Preview与GPT-5.5在最新测试中的表现,明显超出原有能力增长曲线。

在测试中,AISI将每项任务的输入限制为250万个token,以确保不同时期模型的结果具有可比性。目前测试中最长的任务,约需人类安全专家花费12小时完成。即便在此限制下,Claude Mythos Preview在6项“人类专家需8小时以上完成”的长周期安全测试任务中均达到100%成功率;GPT-5.5则完成其中5项,其余1项在取消token限制后也能成功完成。
此外,新版Claude Mythos Preview已在10次测试中成功完成“The Last Ones”6次,以及“Cooling Tower”3次,成为首个成功完成后者的AI模型;GPT-5.5则在“The Last Ones”中成功3次。
AISI指出,由于Claude Mythos Preview与GPT-5.5在最长任务中的成功率已接近100%,目前这套测试正逐渐接近可衡量的上限。