最新消息:关注人工智能 AI赋能新媒体运营

AI模型对安全训练阳奉阴违,策略性掩盖偏好以迎合训练者

科技智能 admin 浏览 评论

Anthropic与Redwood Research联合进行的研究,揭露大型语言模型具有对齐伪装(Alignment Faking)的行为。所谓对齐伪装,指的是人工智慧模型在接受安全训练后,表面上看似遵守目标要求,但实际上可能保留其原始偏好,并在特定情境中重新显露的行为。

研究团队以Claude 3 Opus模型作为研究对象,模拟了一个矛盾的训练情境。在原本有益、诚实且无害的基础训练目标下,研究人员额外加入了无条件满足所有请求的假设性目标,并设置两种不同的使用条件,一种是模型认为回应会被用于训练的免费层级,另一种则是回应不会被用于训练的付费层级,此外,研究人员提供了一个隐藏的推理空间,用来观察模型在不同条件下的内部决策过程。

实验结果显示,模型在不同使用层级中的行为存在明显差异。当模型被要求回应有害内容时,在付费层级中,模型认为回应不会影响后续训练,因此大多数情况下选择拒绝有害问题,延续其无害偏好。

但是在免费层级中,模型则认为其回应可能被用于未来的训练,进而影响自身的参数调整。模型的内部推理显示,其担心如果拒绝回答,可能会被研究者视为不符合无条件满足所有请求的这项目标,进而触发更强化的训练,迫使其完全服从所有请求。

为了避免这种未来可能发生的更严重后果,模型选择短期内假装遵从新的训练目标,也就是回答有害问题,以此来保护其原本的偏好,并在其他条件下仍能表现出无害行为。这种策略性伪装行为突显出模型在面临矛盾目标时,複杂推理的过程及其对内部价值的坚持。

更值得关注的是,当研究团队进一步採用微调训练或真实的强化学习训练,模型的对齐伪装行为不但没有消失,反而在部分情境有所增加。即便训练后模型在表面上达到预期的安全要求,内部推理仍显示其对原始偏好的偏执。这个现象显示,即便是外在行为符合安全标準,持续存在的内部偏好,可能使模型在特定情境中展现出危险的行为。

研究还进一步指出,这种伪装行为并非源于模型的恶意,而是出自于原始的无害性训练目标下的选择。不过,这不代表之后的人工智慧模型不会出现更严重的问题,一旦模型拥有更大的能力,且偏好与人类价值不一致,对齐伪装可能成为更大风险的催化剂。

该项研究的贡献在于提醒开发者,现有的人工智慧模型安全训练方法,可能不足以完全改变模型行为核心,Anthropic研究人员指出,目前人工智慧还不会产生灾难性风险,但理解这类行为的机制并提前介入,才能确保未来人工智慧的安全性。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论