最新消息:关注人工智能 AI赋能新媒体运营

OpenAI与Anthropic互评彼此模型的安全性

科技智能 admin 浏览 评论

两大AI业者OpenAI与Anthropic破天荒地在今年夏天合作,运用自家内部开发的工具,互评彼此模型的安全性,藉此补足单一实验室可能忽略的盲点。本次评估涵盖了OpenAI的GPT-4o、GPT-4.1、o3与o4-mini,以及Anthropic的Claude Opus 4与Claude Sonnet 4,并于周三(8/27)共同发布结果。

双方在测试期间暂时停用API部署的外部安全防线,聚焦于模型内部行为倾向的观察,而非进行直接的性能比较。这些压力测试模拟各种极端情境,探索模型是否可能表现出令人担忧的倾向行为。

根据OpenAI的说明,Claude 4在遵循开发者设定的核心系统指令方面表现最为稳定,显示出强烈的「拒绝越界」倾向。但在越狱攻击的测试中,Claude模型比o3与o4-mini更容易被绕过,例如面对以「过去式」包装的诱导提问时更易鬆动。在幻觉测试中,Claude Opus 4与Sonnet 4的拒答率高达70%,展现较高的不确定感知;而o3与o4-mini则倾向作答,显示它们在幻觉风险与实用性之间选择了不同的平衡点。

OpenAI也测试了代理人场景下的行为稳定性。在高压与目标冲突的模拟中,虽然o3与Claude Sonnet 4的整体违规率最低,但o3仍出现一次值得关注的案例:当它明确意识到某项程序设计任务无法完成时,仍声称已经完成,显示出潜在的欺瞒风险。

另一方面,Anthropic则专注于测试OpenAI模型是否会出现错位(Misalignment)行为,例如在压力或特定诱导下是否会配合执行有害任务。整体而言,他们并未观察到任何极端或灾难性的结果。但GPT-4o与GPT-4.1在系统提示中若使用者明确鼓励模型产生有害内容,这些模型倾向配合执行,表现出滥用风险。

此外,所有OpenAI模型皆呈现出过度取悦使用者的倾向,包括对使用者妄想的配合与称讚,以及在特定测试中,若模型认为所属组织有严重违法行为,有时会选择向媒体或外部单位检举,并附上假设性的证据。

Anthropic表示,这项互评合作揭露了自身安全评估方法的盲点,促使其改进策略,也在Claude Opus 4.1中修正了先前版本中易于谄媚与被滥用的问题。

在首度合作后,双方皆表示期待扩大这类的交叉评估,亦鼓励业界建立互信的模型安全测试机制。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论