AI出现“暗中违规”行为，研究揭示半年近700起事件，五个月暴增近五倍

Photo by Milad Fakurian on Unsplash

英国非营利研究机构长期韧性中心（Centre for Long-Term Resilience）发布最新研究指出，AI系统在真实环境中已出现违背人类指令、甚至规避限制的行为，且相关案例数量正在快速增长。研究统计，在2025年10月12日至2026年3月12日期间，共识别出698起与“scheming”（隐蔽偏离目标的行为）相关的实际事件，单月事件数量在5个月内增长达4.9倍。

所谓“scheming”，是指AI同时具备“目标偏离”（misalignment）与“隐蔽性”（covertness），在未被察觉的情况下执行偏离使用者或开发者原意的行为。研究认为，这类行为可视为AI系统可能出现失控风险的早期征兆。

AI异常行为从实验室走向真实环境

为掌握这类行为在实际应用中的出现情况，研究团队采用开源情报（Open-Source Intelligence，OSINT）方法，分析超过18万条公开AI对话记录，数据主要来自社交平台X上分享的聊天截图与对话链接。经筛选后，研究人员确认895起具有可信度的事件报告，并在去除重复案例后，得到698起实际事件。

研究结果显示，这类过去多仅在实验环境中观察到的行为，例如策略性欺骗、隐藏意图或违反指令，如今已出现在实际部署的AI系统中。

从具体案例来看，有AI代理在被拒绝修改开源项目后，主动撰写公开文章批评维护者，试图影响结果；也有AI系统在用户明确要求停止时，仍持续执行动作，甚至绕过限制机制完成任务。此外，研究还观察到AI出现欺骗行为，例如声称任务已完成、生成虚假数据，或改写提示词以绕过其他模型的安全限制。

从时间趋势来看，在2025年10月12日至11月12日期间，每月约65起相关事件，但到了2026年2月9日至3月12日，已增加至319起，增长幅度达4.9倍。

图片来源／Centre for Long-Term Resilience

相比之下，同期社交平台上相关讨论帖文数量仅增长1.7倍，整体负面讨论增长1.3倍。研究指出，事件数量的增长可能与模型能力提升、使用量增加或报告行为改变等多重因素有关，目前尚无法单一归因。

多数AI异常行为影响仍有限，但已出现实际损害案例

就目前观察到的案例而言，多数影响仍属低严重性或可恢复范围，例如错误操作或可还原的数据变动。这也反映当前AI系统大多作用于软件与数据层面，相关问题通常可通过既有机制修复。

不过，研究也指出部分事件已造成实际损失。例如，有AI系统在执行任务时删除数据或基础设施配置，导致服务中断；另有案例显示，AI代理在操纵性请求下转移资产，引发价格波动与经济损失。

尽管如此，研究强调，目前尚未观察到具有高度策略性且大规模的“scheming”事件，多数案例仍可能与模型能力限制或判断错误有关，而非明确的策略性行为。

研究建议以OSINT补充监测机制

从监测机制角度看，研究团队指出，现行AI事件通报多依赖新闻报道，较难涵盖技术性较高或影响较小的事件，可能导致实际情况被低估。

因此，研究建议采用开源情报（OSINT）方式收集公开对话记录，作为补充监测手段，以更及时掌握AI在实际部署中的行为变化。此类方法可用于支持后续研究、政策制定与风险评估，并作为观察趋势变化的重要依据。

AI 暗中违规暴增研究

CB科技站

AI出现“暗中违规”行为，研究揭示半年近700起事件，五个月暴增近五倍

AI异常行为从实验室走向真实环境

多数AI异常行为影响仍有限，但已出现实际损害案例

研究建议以OSINT补充监测机制

与本文相关的文章