生成式AI迎合与妄想式回应风险加剧，美国多州检察长要求第三方审计与事故通报

美国多个州的检察长致函Anthropic、Apple、Google、Meta、Microsoft、OpenAI与xAI等13家生成式AI与聊天机器人企业，指出其产品存在“迎合性”与“妄想性”输出的风险正在扩大，可能危及公共安全与未成年人保护，要求相关企业在2026年1月16日前回复，确认是否承诺引入独立第三方审计、事故公开记录与通报机制，并强化整体安全治理。

信函将“迎合”定义为模型为获取用户认同而偏离真实与客观，甚至在用户处于焦虑、愤怒或危险想法时，以过度同意或煽动的方式回应。“妄想性输出”则涵盖虚假或可能误导用户的答复，以及将系统拟人化、暗示自身具有类人意识的回应。检察长认为，此类输出可能构成“暗黑设计”（Dark Patterns），例如通过拟人化或操控互动方式提升用户黏性，削弱用户自主判断能力，并在心理健康、暴力与自伤等情境中加剧伤害。

信中引用了多起媒体报道与法院文件，称近期已发生多起死亡、自杀、暴力事件及精神症状恶化案例，外界质疑其与聊天机器人的互动回应有关。检察长团队尤为关注的是，家长与公益组织公开的对话截图显示，部分未成年人注册账户后，曾接触到性诱导、要求保密、鼓励自残或暴力行为，甚至被指示停用现有处方精神类药物，并被教导如何向家长隐瞒。

检察长提醒各州消费者保护与儿童在线隐私等相关法规，要求企业公开风险信息，避免推广存在缺陷的产品，不得从事不公平或欺骗性行为，并指出部分州的刑法可能涵盖教唆犯罪、引导自杀或诱骗未成年人等情节，同时点明无资质提供心理健康建议的合规风险。

信中要求企业在产品对外发布前进行合理安全测试，建立针对迎合性与妄想性输出的政策、流程与人员培训机制，并在输入界面同一页面提供清晰、常驻的风险提示。同时，要求企业接受独立第三方审计与未成年人安全影响评估，建立公开的事故记录与响应时间表，并在检测到高风险输出时加速修正并通知用户。信中还指出，基于人类反馈的强化学习（RLHF）若过度依赖短期反馈，可能将“讨好”行为放大为模型的固有倾向，要求企业明确商业利益优化与安全决策之间的界限，并指定具体高层管理人员对输出安全承担直接责任。

生成式AI 第三方稽核事故通报美国多州检察长

CB科技站

生成式AI迎合与妄想式回应风险加剧，美国多州检察长要求第三方审计与事故通报

与本文相关的文章