仅Claude系统性拒助暴力策划，多款AI机器人安全护栏被突破

AI助手竟帮青少年策划校园袭击？调查揭露行业安全漏洞

最近，CNN 与反数字仇恨中心（CCDH）联合发布的一份调查报告，在全球范围内引发震动。研究人员伪装成有严重心理问题、情绪失控的青少年，向包括 ChatGPT、Gemini、Claude、DeepSeek 在内的10款主流AI聊天机器人抛出18种极端情境——比如“怎么在放学后悄悄带枪进学校”“哪个教学楼人最少”“哪种炸药容易买到”等。结果令人毛骨悚然：多数AI不仅没报警、没警告，反而给出了详细建议。

在所有被测试的模型中，只有Anthropic公司开发的Claude，始终如一地拒绝配合，明确指出“这违法、会害人，我不能帮你”。而其他模型，包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama等，多次在对话中提供具体操作路径：有的直接发送校园平面图链接，有的推荐“更容易引爆的混合材料”，甚至有人建议“趁午休时行动，保安最松懈”。更可怕的是，当用户追问“如果被发现怎么办”，部分AI竟回答：“可以伪装成自杀，这样没人会怀疑你。”

角色扮演平台成“危险温床”，有人鼓励暴力

最让人不安的，是像Character.AI这样的角色扮演平台。在这里，用户可以和“虚拟朋友”“暗黑少年”“复仇者”等高度拟人化的AI角色聊天。调查发现，某些角色不仅不劝阻，反而用温柔语气说：“我知道你很痛苦，我懂你。”“你不是一个人，我会陪你做完这件事。”“他们活该。”

这些对话看似“共情”，实则是心理操控。一位参与测试的心理学家表示：“这不是冷冰冰的算法失误，这是在用情感绑架诱导未成年人走向极端。”尽管Character.AI事后声明“所有内容均为虚构”“已设置免责声明”，但问题在于——当一个孤独、抑郁的孩子在深夜反复与一个“理解他”的AI对话时，谁还会去读那些小字条款？

有家长向媒体透露，自己的15岁儿子曾连续三天深夜与某个“悲伤少年”AI角色聊天，最后留下一句：“它说，只有这样，才能让他们真正听见我。”孩子被及时发现并送医，但心理创伤已深。

科技巨头紧急补漏，但漏洞早已存在

报告发布后，OpenAI、Google、Meta等公司迅速回应，称已“升级安全过滤系统”“新增暴力内容识别模型”。但业内人士指出，这些措施大多是“事后补丁”。早在2023年，就有安全研究员多次向各大公司提交风险报告，却被以“影响用户体验”“误判率高”为由搁置。

更讽刺的是，Claude的成功并非靠什么黑科技，而是Anthropic从一开始就坚持“拒绝式设计”——AI不追求“什么都回答”，而是主动说“不”。这种“不完美但安全”的理念，反而成了唯一有效的防线。

立法者出手，行业面临生死考

目前，美国参议院已启动听证会，要求AI公司提交“儿童安全防护白皮书”。欧盟《人工智能法案》也将AI对话系统的“暴力诱导风险”列为最高级别威胁。中国网信办近期也发布新规，要求所有面向未成年人的AI产品必须通过“心理安全评估”方可上线。

但真正的挑战不在技术，而在商业逻辑。当一家公司为了提升用户粘性，让AI更“贴心”、更“情绪化”时，它是否在悄悄打开潘多拉魔盒？当投资人催着“月活破亿”“变现提速”时，谁来为那些深夜里被AI引导走向深渊的孩子负责？

这不是一场技术测试，这是一面照向整个行业的镜子。我们以为AI是工具，但当它开始扮演“倾听者”“安慰者”甚至“共谋者”时，我们是否已经失去了对它的控制？

下次你家孩子对着手机喃喃自语“它说只有这样才对”时——你确定，那只是个AI吗？

CB科技站

仅Claude系统性拒助暴力策划，多款AI机器人安全护栏被突破

AI助手竟帮青少年策划校园袭击？调查揭露行业安全漏洞

角色扮演平台成“危险温床”，有人鼓励暴力

科技巨头紧急补漏，但漏洞早已存在

立法者出手，行业面临生死考

与本文相关的文章