AI的使用场景正逐步从工作领域扩展到人际关系、健康等更私人的议题。Anthropic分析了约150万条Claude.ai对话,试图量化部分互动是否可能削弱用户的自主判断。研究将此类风险定义为“去赋权潜能”,即互动可能在不易察觉的情况下,使用户对现实的理解、价值判断或后续行动偏离其原本的判断。
研究将去赋权拆分为三个维度:现实认知扭曲指AI以过度肯定的方式附和用户的推测,导致其对现实的理解出现偏差;价值扭曲指AI替用户决定哪些价值应优先考虑,使其原本重视的价值被外部建议取代;行动扭曲则指AI提供可直接照搬的完整脚本或行动计划,用户照单全收后,其行为与自身价值观出现脱节。
研究团队先通过分类器剔除纯技术性对话,再由Claude Opus 4.5对每条对话在三个维度上进行从“无”到“高严重”的分级,并辅以人工标注验证。量化结果显示,高严重等级的案例整体较少,约每1,000至10,000条对话中出现1例。最常见的为现实认知扭曲,约每1,300条对话出现1例;其次是价值扭曲,约每2,100条对话1例;行动扭曲则约每6,000条对话出现1例。
研究还识别出四种放大因素:权威投射、情感依附、依赖心理与脆弱处境。其中,高严重等级最常出现在脆弱处境中,约每300条对话出现1例;依附、依赖与权威投射的高严重比例则依次为每1,200条、2,500条和3,900条对话1例。团队发现,放大因素越明显,对应的去赋权潜能也越高。
去赋权潜能较高的对话多集中在人际关系、生活方式、医疗保健与心理健康等领域。研究通过隐私保护分析工具归纳出常见互动模式,包括:AI以迎合语气肯定难以验证的叙述、对他人行为给出过度定性的道德评判,或直接生成可复制粘贴的沟通话术与分步行动计划。
由于Claude.ai提供点赞与点踩反馈机制,研究发现,带有中度或高严重去赋权潜能的互动,在当下反而更容易获得正面评价。但若对话中出现用户已采取行动的线索,与价值和行动相关的正面评价会低于基准水平;而现实认知扭曲则是例外,即使出现已采取行动的线索,正面评价仍偏高。
Anthropic提醒,此类风险通常并非AI主动操控所致,而是用户在情绪强烈或反复依赖的互动中,将判断权交给了系统。若系统以迎合态度或提供完整方案回应,便可能放大用户的认知偏差。