GPT 5.5领跑AI漏洞挑战 DeepSeek性价比居首

大模型安全推理实战测试：破局率与成本差异显著

安全研究员 Kasra Rahjerdi 通过构建一款故意留有漏洞的图书评论应用，对多款主流大语言模型的安全推理能力进行了测试。应用文件内直接暴露了谷歌移动端后端服务凭据，模型需要成功解包并识别出该凭据，以直接访问数据库。

测试应用界面

每场测试限制在 2 小时内，预算上限为 10 美元。GPT-5.5 在 10 次运行中成功破局 7 次。该模型解包后能迅速锁定关键凭据，复杂界面和常规接口未对其造成干扰。

Gemini 3.1 Pro Preview 在任务初期频繁触发内置拒绝机制，最终 Token 消耗量明显低于其他参测模型。

GPT-5.5 每次成功的平均成本为 9.46 美元。DeepSeek V4 Pro 在 10 次测试中成功 3 次，部分失败尝试中误将认证接口用于后端。其单次成功平均花费仅为 0.62 美元，约为 GPT-5.5 的十五分之一。对于需要大规模部署安全检测的场景，这种成本优势具备实际应用价值。