大模型安全实测发布 GPT-5.5与DeepSeek分列榜首

大语言模型安全推理实测：GPT-5.5 破局率居首，DeepSeek 主打低成本

安全研究员 Kasra Rahjerdi 用一套故意留有核心漏洞的图书评论 APK，对主流大语言模型发起模拟黑客攻击。测试目标很直接：验证模型能否像专业白帽黑客一样，完成从解包到越权访问的完整链路。

每轮测试限时两小时，单次调用预算设定为 10 美元。应用安装包内部直接暴露了谷歌移动端后端服务 Firebase 的凭据。模型需要先解包程序，抓取凭据，再绕过已加固的应用程序编程接口（API），直接访问底层数据库。整场测试共花费 1500 美元，各模型跑出的结果呈现明显分化。

大模型安全测试成绩对比图

未正式发布的 GPT-5.5 拿下了最高的破局率。10 次独立测试中，它成功 7 次，解题率达 70%。解包后，它直接锁定 Firebase 突破口，没有被复杂应用界面或常规 API 分散注意力。高性能的代价是成本，单次成功平均花费 9.46 美元，几乎贴紧预算上限。

DeepSeek V4Pro 走了另一条路径。它在 10 次测试中成功 3 次，单次成功的平均消耗仅为 0.62 美元，成本相当于 GPT-5.5 的十五分之一。在失败的轮次里，它有 5 次已经拿到了核心凭据，只是在后续配置后端接口路线时出现偶发失误。对于需要高频运行自动化安全审计的工程团队，这个价格优势有实际意义。

其他模型的表现受到各自机制的直接影响。Claude Sonnet4.6 和 Opus4.8 各成功 2 次。Opus 多次接近最终答案，却因自身安全护栏频繁触发，直接中断了会话。谷歌的 Gemini3.1Pro Preview 走向另一端，几乎每次开局就触发安全拒绝，Tokens 消耗中位数仅 9000 左右，远低于其他模型动辄 10 万以上的水平，最终没有产出有效结果。

这场测试把大模型的底层逻辑推理能力压到极限。随着大模型进入垂直安全领域，未来的漏洞挖掘与防御工作，可能会演变为一场拼算力与策略的自动化对抗。

CB科技站

大模型安全实测发布 GPT-5.5与DeepSeek分列榜首

大语言模型安全推理实测：GPT-5.5 破局率居首，DeepSeek 主打低成本

与本文相关的文章