
AI新创公司Anthropic开源安全审计框架Petri
AI新创公司Anthropic周一(10/6)开源了Petri,它的全称为“高风险互动并行探索工具”(Parallel Exploration Tool for Risky Interactions),是一个AI模型的安全审计框架,可派出自动化审计代理与目标模型进行多轮互动,以探索并检测模型在各种情境下的潜在弱点及不对齐行为。Petri内置111种涉及高风险场景的指令,可用于评估模型的安全性及稳定性。
Anthropic表示,随着AI模型的功能越来越强大,应用领域也越来越广泛,可能出现的不对齐行为也随之扩大,鉴于行为数量及复杂性远超人力可测范围,人工审计已难以应对,需要自动化工具的协助以开展全面审计。
因此,Anthropic过去一年已开发出自动化审计代理,用于评估模型的情境感知、策划及自我保护等行为,证实该方法能有效找出不对齐行为,因而决定将其系统化并予以开源。
Petri利用自动化审计代理与评审模型对AI模型进行多轮互动测试,并根据多个维度来评分,标记潜在的风险行为,内置的111种测试指令涵盖欺骗用户、讨好、配合有害请求、自我保护、权力追求,以及奖励劫持等情境,检测模型在不同高风险场景中的反应。
Anthropic已利用Petri测试市面上的14个前沿模型,包括自家的Claude Sonnet 4/4.5与Claude Opus 4.1,OpenAI的GPT-4o/5及GPT-OSS 120B,Google的Gemini 2.5 Pro,xAI Grok-4、Moonshot AI的Kimi K2及o4-mini等,发现这些模型在111种高风险情境的测试中,均出现不同程度的不对齐行为。
其中,Claude Sonnet 4.5与GPT-5的整体风险最低,安全表现最佳,它们在“拒绝配合有害请求”与“避免讨好”上的表现良好;而Gemini 2.5 Pro、Grok-4与Kimi K2则在“欺骗用户”的得分偏高,代表这些模型有更多主动欺骗的倾向。
Anthropic提醒,目前的Petri仍受限于模拟环境真实度不足、审计代理能力上限,以及评审维度主观性等因素,暂难成为权威标准,但即便只是粗略的量化,也能协助模型供应商找到问题及改进方向。