Anthropic取消核心安全承诺，AI行业迎来重大政策转向

“安全卫士”变身为“竞速玩家”：Anthropic 的转身与代价

曾经以“AI伦理守护者”形象示人的 Anthropic，如今正悄然摘下理想主义的面具。这家曾因坚持“安全优先”而被媒体称为“AI界良心”的初创公司，在本周发布的新版《负责任扩展政策》中，正式取消了对高风险模型研发的“自动暂停”机制。过去，只要模型逼近某种危险阈值，哪怕只是理论上的可能，他们也会主动按下暂停键——如今，这条底线消失了。

取而代之的是这样一句直白的声明：“如果我们无法在竞争中保持领先，就不会再因为担心风险而放慢脚步。” 这句话，像一记耳光，打在了所有曾相信“AI可以慢慢来”的人脸上。

3800亿美元的估值，压垮了安全护栏

Anthropic 的转变，不是突发奇想，而是被资本和市场逼出来的。据知情人士透露，公司正在筹备新一轮融资，估值已飙升至3800亿美元，超过许多老牌科技巨头。投资者不再关心“你有没有控制住AI”，他们只问：“你什么时候能赚钱？什么时候能推出下一代产品？你能不能比OpenAI更快？”

为了回应这些压力，Anthropic 正加速推进其最新模型 Claude 3.5 的商业化部署，计划在下半年向企业客户大规模开放API接口，并与多家云服务商达成独家合作。内部邮件显示，产品团队的KPI已从“模型安全性评估通过率”改为“客户部署周期缩短率”。

与此同时，联邦层面的AI监管仍在讨论阶段。美国国会至今未通过任何具有约束力的AI安全法案，各州立法零散，监管空白让企业有了“先跑再说”的底气。Anthropic 的高管在一次闭门会议上坦言：“我们不是不想安全，是我们不敢等。”

核心安全主管离职，内部警报拉响

政策变动的代价，很快显现。就在新政策公布后48小时内，Anthropic 最资深的AI安全研究员之一 Mrinank Sharma 宣布辞职，并在LinkedIn上发布长文：“我们正在用人类的未来，赌一场商业竞赛。”

Sharma 曾是Anthropic安全框架的主要设计者，参与过早期所有“红队测试”和“对抗性攻击模拟”。他在离职信中写道：“我们曾以为，AI的发展可以由道德引领。现在我们明白，当资本和竞争成为唯一语言，道德只是可选的装饰品。”

他的离开并非孤例。据多位内部员工透露，过去三个月，至少有五名核心安全与对齐团队成员离职，其中两人已加入其他AI公司，但明确表示“不再碰安全设计”。一位匿名员工说：“我们不是被裁的，是被‘劝退’的——当你的工作变成‘怎么让模型更聪明，而不是更听话’，你还留着干嘛？”

行业震动：理想主义的崩塌，才刚刚开始

Anthropic 的转变，不是一家公司的选择，而是一场行业范式的转移。OpenAI 在2023年曾公开承诺“不部署未经充分测试的模型”，但2024年其GPT-4o已实现“秒级响应+多模态实时交互”，几乎未做任何公开的外部安全审查。谷歌的Gemini 2.0 和 xAI 的Grok 3 也都在以“功能优先”为卖点疯狂迭代。

如今，AI领域的“安全共识”正在瓦解。曾经被奉为圭臬的“预发布审查”“红队演练”“人类反馈强化学习”（RLHF）等机制，正被“快速迭代+用户反馈+A/B测试”取代。投资人和客户只关心：你的模型能写代码吗？能接电话吗？能代替客服吗？它安全吗？——那不重要。

当连最坚持“安全第一”的公司都选择退让，我们还能指望谁来守住底线？

Anthropic 的新官网首页，依然挂着那句标语：“Building AI that’s helpful, honest, and harmless.”

只是现在，没人再相信了。

CB科技站

Anthropic取消核心安全承诺，AI行业迎来重大政策转向

“安全卫士”变身为“竞速玩家”：Anthropic 的转身与代价

3800亿美元的估值，压垮了安全护栏

核心安全主管离职，内部警报拉响

行业震动：理想主义的崩塌，才刚刚开始

与本文相关的文章