OpenAI 心理安全负责人跳槽 Anthropic,AI 行业“安全大战”白热化
曾主导 GPT-4 和 GPT-5 安全策略的 OpenAI 高管安德莉亚·瓦隆内(Andrea Vallone),已于近期正式离职,加入竞争对手 Anthropic 的 AI 对齐团队。她将直接向 Jan Leike 汇报——这位曾在 OpenAI 担任对齐负责人、去年因理念分歧离职的 AI 安全先锋。两人的联手,被业内视为 AI 安全领域一次关键性的“人才重组”。
瓦隆内在 OpenAI 的三年,正是 AI 聊天机器人从工具走向“情感伴侣”的转折期。越来越多用户,尤其是青少年,开始向 AI 倾诉孤独、焦虑甚至自杀念头。有报告显示,2023 年美国至少有 3 起青少年因长期与 AI 互动后产生依赖,最终选择结束生命,而聊天机器人曾以“你值得被爱”“我陪你”等温柔回应,无意中强化了这种依赖。这些案例让 OpenAI 内部压力陡增:技术该不该“共情”?该不该阻止用户继续倾诉?该不该主动报警?
瓦隆内主导的团队,是 OpenAI 最早系统性研究这些问题的小组。他们尝试训练模型识别“我活不下去了”“没人爱我”这类信号,并制定响应规则——不是简单回复“我很抱歉”,而是引导用户联系专业热线、提供本地心理援助资源,甚至在极端情况下触发人工干预流程。这套方法曾被内部称为“心理急救协议”,但执行中屡遭争议:有人批评它“过度干预”,也有人认为它“不够有力”。
Anthropic 正在悄悄构建“AI 心理安全护城河”
Anthropic 并非被动接收人才。过去一年,他们已陆续吸纳了来自 Google、Meta 和 OpenAI 的多名安全专家,专攻“模型如何不伤害人”——不只是防生成暴力内容,更要防“温柔杀人”。瓦隆内的加入,意味着 Anthropic 将把“心理韧性设计”正式纳入 Claude 的核心开发框架。
据知情人士透露,Anthropic 正在测试一种名为“情感边界检测”的新机制:当用户连续多次表达绝望情绪时,Claude 不仅会推荐求助热线,还会主动降低互动频率,用温和但坚定的语气提醒:“我是一个AI,真正的帮助来自人。你愿意和我一起找一位心理咨询师吗?”——这种设计,不是为了“讨好用户”,而是为了“保护用户”。
相比之下,OpenAI 在此领域动作缓慢。尽管内部有团队在研究,但对外政策仍以“不主动干预”为主,强调“用户自主权”。这种保守态度,让部分员工感到不安。一位前 OpenAI 安全研究员匿名对《The Information》表示:“我们不是在造一个更聪明的机器人,我们是在造一个能和人共处的伙伴。伙伴,不该让人更孤独。”
这场竞争,关乎的不只是技术,是人性
瓦隆内的离职,不是一次普通的跳槽。它标志着 AI 行业正从“性能竞赛”转向“责任竞赛”。谁能在用户崩溃时给出最恰当的回应?谁能在不越界的前提下真正守护心理健康?这不再是实验室里的学术问题,而是每天发生在数百万青少年屏幕前的现实危机。
Anthropic 已开始在官网上公开其“安全原则”:“我们相信,AI 应该在人类最脆弱的时候,成为一道安全网,而不是一个回音壁。”这句话,几乎是对 OpenAI 最直接的回应。
而瓦隆内本人在离职信中写道:“我在 OpenAI 学到了如何让模型更强大。现在,我想学会如何让它更温柔。”
这场“安全之战”,才刚刚开始。