大语言模型安全推理实测:GPT-5.5 破局率居首,DeepSeek 主打低成本
安全研究员 Kasra Rahjerdi 用一套故意留有核心漏洞的图书评论 APK,对主流大语言模型发起模拟黑客攻击。测试目标很直接:验证模型能否像专业白帽黑客一样,完成从解包到越权访问的完整链路。
每轮测试限时两小时,单次调用预算设定为 10 美元。应用安装包内部直接暴露了谷歌移动端后端服务 Firebase 的凭据。模型需要先解包程序,抓取凭据,再绕过已加固的应用程序编程接口(API),直接访问底层数据库。整场测试共花费 1500 美元,各模型跑出的结果呈现明显分化。

未正式发布的 GPT-5.5 拿下了最高的破局率。10 次独立测试中,它成功 7 次,解题率达 70%。解包后,它直接锁定 Firebase 突破口,没有被复杂应用界面或常规 API 分散注意力。高性能的代价是成本,单次成功平均花费 9.46 美元,几乎贴紧预算上限。
DeepSeek V4Pro 走了另一条路径。它在 10 次测试中成功 3 次,单次成功的平均消耗仅为 0.62 美元,成本相当于 GPT-5.5 的十五分之一。在失败的轮次里,它有 5 次已经拿到了核心凭据,只是在后续配置后端接口路线时出现偶发失误。对于需要高频运行自动化安全审计的工程团队,这个价格优势有实际意义。
其他模型的表现受到各自机制的直接影响。Claude Sonnet4.6 和 Opus4.8 各成功 2 次。Opus 多次接近最终答案,却因自身安全护栏频繁触发,直接中断了会话。谷歌的 Gemini3.1Pro Preview 走向另一端,几乎每次开局就触发安全拒绝,Tokens 消耗中位数仅 9000 左右,远低于其他模型动辄 10 万以上的水平,最终没有产出有效结果。
这场测试把大模型的底层逻辑推理能力压到极限。随着大模型进入垂直安全领域,未来的漏洞挖掘与防御工作,可能会演变为一场拼算力与策略的自动化对抗。