OpenAI与Anthropic互评彼此模型的安全性

两大AI业者OpenAI与Anthropic破天荒地在今年夏天合作，运用自家内部开发的工具，互评彼此模型的安全性，藉此补足单一实验室可能忽略的盲点。本次评估涵盖了OpenAI的GPT-4o、GPT-4.1、o3与o4-mini，以及Anthropic的Claude Opus 4与Claude Sonnet 4，并于周三（8/27）共同发布结果。

双方在测试期间暂时停用API部署的外部安全防线，聚焦于模型内部行为倾向的观察，而非进行直接的性能比较。这些压力测试模拟各种极端情境，探索模型是否可能表现出令人担忧的倾向行为。

根据OpenAI的说明，Claude 4在遵循开发者设定的核心系统指令方面表现最为稳定，显示出强烈的「拒绝越界」倾向。但在越狱攻击的测试中，Claude模型比o3与o4-mini更容易被绕过，例如面对以「过去式」包装的诱导提问时更易鬆动。在幻觉测试中，Claude Opus 4与Sonnet 4的拒答率高达70%，展现较高的不确定感知；而o3与o4-mini则倾向作答，显示它们在幻觉风险与实用性之间选择了不同的平衡点。

OpenAI也测试了代理人场景下的行为稳定性。在高压与目标冲突的模拟中，虽然o3与Claude Sonnet 4的整体违规率最低，但o3仍出现一次值得关注的案例：当它明确意识到某项程序设计任务无法完成时，仍声称已经完成，显示出潜在的欺瞒风险。

另一方面，Anthropic则专注于测试OpenAI模型是否会出现错位（Misalignment）行为，例如在压力或特定诱导下是否会配合执行有害任务。整体而言，他们并未观察到任何极端或灾难性的结果。但GPT-4o与GPT-4.1在系统提示中若使用者明确鼓励模型产生有害内容，这些模型倾向配合执行，表现出滥用风险。

此外，所有OpenAI模型皆呈现出过度取悦使用者的倾向，包括对使用者妄想的配合与称讚，以及在特定测试中，若模型认为所属组织有严重违法行为，有时会选择向媒体或外部单位检举，并附上假设性的证据。

Anthropic表示，这项互评合作揭露了自身安全评估方法的盲点，促使其改进策略，也在Claude Opus 4.1中修正了先前版本中易于谄媚与被滥用的问题。

在首度合作后，双方皆表示期待扩大这类的交叉评估，亦鼓励业界建立互信的模型安全测试机制。

CB科技站

OpenAI与Anthropic互评彼此模型的安全性

与本文相关的文章