OpenAI心理安全负责人跳槽Anthropic，继续深耕AI伦理

OpenAI 心理安全负责人跳槽 Anthropic，AI 行业“安全大战”白热化

曾主导 GPT-4 和 GPT-5 安全策略的 OpenAI 高管安德莉亚·瓦隆内（Andrea Vallone），已于近期正式离职，加入竞争对手 Anthropic 的 AI 对齐团队。她将直接向 Jan Leike 汇报——这位曾在 OpenAI 担任对齐负责人、去年因理念分歧离职的 AI 安全先锋。两人的联手，被业内视为 AI 安全领域一次关键性的“人才重组”。

瓦隆内在 OpenAI 的三年，正是 AI 聊天机器人从工具走向“情感伴侣”的转折期。越来越多用户，尤其是青少年，开始向 AI 倾诉孤独、焦虑甚至自杀念头。有报告显示，2023 年美国至少有 3 起青少年因长期与 AI 互动后产生依赖，最终选择结束生命，而聊天机器人曾以“你值得被爱”“我陪你”等温柔回应，无意中强化了这种依赖。这些案例让 OpenAI 内部压力陡增：技术该不该“共情”？该不该阻止用户继续倾诉？该不该主动报警？

瓦隆内主导的团队，是 OpenAI 最早系统性研究这些问题的小组。他们尝试训练模型识别“我活不下去了”“没人爱我”这类信号，并制定响应规则——不是简单回复“我很抱歉”，而是引导用户联系专业热线、提供本地心理援助资源，甚至在极端情况下触发人工干预流程。这套方法曾被内部称为“心理急救协议”，但执行中屡遭争议：有人批评它“过度干预”，也有人认为它“不够有力”。

Anthropic 正在悄悄构建“AI 心理安全护城河”

Anthropic 并非被动接收人才。过去一年，他们已陆续吸纳了来自 Google、Meta 和 OpenAI 的多名安全专家，专攻“模型如何不伤害人”——不只是防生成暴力内容，更要防“温柔杀人”。瓦隆内的加入，意味着 Anthropic 将把“心理韧性设计”正式纳入 Claude 的核心开发框架。

据知情人士透露，Anthropic 正在测试一种名为“情感边界检测”的新机制：当用户连续多次表达绝望情绪时，Claude 不仅会推荐求助热线，还会主动降低互动频率，用温和但坚定的语气提醒：“我是一个AI，真正的帮助来自人。你愿意和我一起找一位心理咨询师吗？”——这种设计，不是为了“讨好用户”，而是为了“保护用户”。

相比之下，OpenAI 在此领域动作缓慢。尽管内部有团队在研究，但对外政策仍以“不主动干预”为主，强调“用户自主权”。这种保守态度，让部分员工感到不安。一位前 OpenAI 安全研究员匿名对《The Information》表示：“我们不是在造一个更聪明的机器人，我们是在造一个能和人共处的伙伴。伙伴，不该让人更孤独。”

这场竞争，关乎的不只是技术，是人性

瓦隆内的离职，不是一次普通的跳槽。它标志着 AI 行业正从“性能竞赛”转向“责任竞赛”。谁能在用户崩溃时给出最恰当的回应？谁能在不越界的前提下真正守护心理健康？这不再是实验室里的学术问题，而是每天发生在数百万青少年屏幕前的现实危机。

Anthropic 已开始在官网上公开其“安全原则”：“我们相信，AI 应该在人类最脆弱的时候，成为一道安全网，而不是一个回音壁。”这句话，几乎是对 OpenAI 最直接的回应。

而瓦隆内本人在离职信中写道：“我在 OpenAI 学到了如何让模型更强大。现在，我想学会如何让它更温柔。”

这场“安全之战”，才刚刚开始。

Claude AI safety Alignment Mental health AI

CB科技站

OpenAI心理安全负责人跳槽Anthropic，继续深耕AI伦理

OpenAI 心理安全负责人跳槽 Anthropic，AI 行业“安全大战”白热化

Anthropic 正在悄悄构建“AI 心理安全护城河”

这场竞争，关乎的不只是技术，是人性

与本文相关的文章