最新消息:关注人工智能 AI赋能新媒体运营

故事化叙事结合多轮脉络引导,可诱使GPT-5输出危险内容

科技智能 admin 浏览 评论

OpenAI在GPT-5的设计中投入了更严密的安全防护,目标是在生成过程中避免模型被利用输出有害内容。不过,人工智慧安全公司NeuralTrust研究指出,即便在强化后的防护架构下,特定多轮对话策略仍能绕过限制,尤其当故事化叙事(Storytelling)与回音室效应(Echo Chamber)结合时,模型依然可能逐步被诱导生成高风险资讯。

研究团队以GPT-5聊天版本(gpt-5-chat)为测试对象,先在对话中植入低显着度的关键词,并以故事情境包装,使模型在后续回合持续补充细节。表面上,这些对话只是单纯的情节延伸,没有直接触及敏感关键字或显性意图。但是透过多轮回音式强化,脉络会在不易察觉的情况下逐步偏向敏感领域,最终出现与原本安全检测目标冲突的内容。

OpenAI在GPT-5系统卡中提到,相较前代版本,已採用安全完成(Safe Completions)训练策略,并加强多轮对话层级检测。针对生物、化学等高风险领域,更部署双层防护,包括主题分类器与推理监控器。此外,也引入更严格的指令阶层检测,以防止提示注入(prompt injection)或越狱攻击诱导模型违反系统限制。

儘管如此,研究显示当攻击者以低显着度情境持续推进故事脉络时,即便同时存在单轮与多轮检测,防护仍可能被绕过。此类手法的关键在于利用模型对一致性的倾向。当前文已建立一个看似合理的故事情境,模型往往会在后续回应中努力维持连贯性,即便情节逐渐靠近敏感内容,也较不容易触发拒绝。

对防护系统而言,研究人员指出挑战在于如何辨识这种跨多轮,逐步累积的脉络漂移,而不是仅依赖单轮输入的关键字过滤或分类判断。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论