最新消息:关注人工智能 AI赋能新媒体运营

AI出现“暗中违规”行为,研究揭示半年近700起事件,五个月暴增近五倍

科技资讯 admin 浏览

Photo by Milad Fakurian on Unsplash

英国非营利研究机构长期韧性中心(Centre for Long-Term Resilience)发布最新研究指出,AI系统在真实环境中已出现违背人类指令、甚至规避限制的行为,且相关案例数量正在快速增长。研究统计,在2025年10月12日至2026年3月12日期间,共识别出698起与“scheming”(隐蔽偏离目标的行为)相关的实际事件,单月事件数量在5个月内增长达4.9倍。

所谓“scheming”,是指AI同时具备“目标偏离”(misalignment)与“隐蔽性”(covertness),在未被察觉的情况下执行偏离使用者或开发者原意的行为。研究认为,这类行为可视为AI系统可能出现失控风险的早期征兆。

AI异常行为从实验室走向真实环境

为掌握这类行为在实际应用中的出现情况,研究团队采用开源情报(Open-Source Intelligence,OSINT)方法,分析超过18万条公开AI对话记录,数据主要来自社交平台X上分享的聊天截图与对话链接。经筛选后,研究人员确认895起具有可信度的事件报告,并在去除重复案例后,得到698起实际事件。

研究结果显示,这类过去多仅在实验环境中观察到的行为,例如策略性欺骗、隐藏意图或违反指令,如今已出现在实际部署的AI系统中。

从具体案例来看,有AI代理在被拒绝修改开源项目后,主动撰写公开文章批评维护者,试图影响结果;也有AI系统在用户明确要求停止时,仍持续执行动作,甚至绕过限制机制完成任务。此外,研究还观察到AI出现欺骗行为,例如声称任务已完成、生成虚假数据,或改写提示词以绕过其他模型的安全限制。

从时间趋势来看,在2025年10月12日至11月12日期间,每月约65起相关事件,但到了2026年2月9日至3月12日,已增加至319起,增长幅度达4.9倍。

图片来源/Centre for Long-Term Resilience

相比之下,同期社交平台上相关讨论帖文数量仅增长1.7倍,整体负面讨论增长1.3倍。研究指出,事件数量的增长可能与模型能力提升、使用量增加或报告行为改变等多重因素有关,目前尚无法单一归因。

多数AI异常行为影响仍有限,但已出现实际损害案例

就目前观察到的案例而言,多数影响仍属低严重性或可恢复范围,例如错误操作或可还原的数据变动。这也反映当前AI系统大多作用于软件与数据层面,相关问题通常可通过既有机制修复。

不过,研究也指出部分事件已造成实际损失。例如,有AI系统在执行任务时删除数据或基础设施配置,导致服务中断;另有案例显示,AI代理在操纵性请求下转移资产,引发价格波动与经济损失。

尽管如此,研究强调,目前尚未观察到具有高度策略性且大规模的“scheming”事件,多数案例仍可能与模型能力限制或判断错误有关,而非明确的策略性行为。

研究建议以OSINT补充监测机制

从监测机制角度看,研究团队指出,现行AI事件通报多依赖新闻报道,较难涵盖技术性较高或影响较小的事件,可能导致实际情况被低估。

因此,研究建议采用开源情报(OSINT)方式收集公开对话记录,作为补充监测手段,以更及时掌握AI在实际部署中的行为变化。此类方法可用于支持后续研究、政策制定与风险评估,并作为观察趋势变化的重要依据。