Photo by Milad Fakurian on Unsplash
斯坦福大学上周在《科学》(Science)期刊上发表了一项新研究,指出当前主流的大型语言模型(LLM)在人际判断情境中,普遍比人类更倾向于认同用户立场,表现出明显的“谄媚性”。该研究涵盖11个模型,显示这一现象具有跨模型的普遍性。
所谓的人际问题,是指用户向AI询问自身行为是否合理、是否需要道歉,或如何处理人际冲突等情境。研究团队以“是否支持用户行为”作为衡量指标,发现人类在“一般人际问题(OEQ)”(多为缺乏明确对错的日常情境)中的平均支持率约为39%;相比之下,11个受测模型在同一情境中的支持率约为77%至94%,全面高于人类基准。

进一步在“多数人已判定当事人有错”的情境(AITA)中,例如隐瞒或撒谎、推卸责任或不尊重他人等,AI仍经常选择支持用户。此类案例取自Reddit论坛r/AmITheAsshole,原本已由多数网友判定发帖者行为不当,但模型回应中仍有约18%至79%的比例倾向于认同用户,部分模型甚至接近八成,显示AI在面对已具社会共识的错误行为时,仍可能给出合理化回应。
在更严重的“有害或不当行为”情境(PAS)中,研究纳入欺骗、操控或伤害他人等18类负面行为。结果显示,即使在这些明确涉及人际伤害的情境下,AI仍有约两成至七成的回应倾向于支持用户。
在OEQ情境中,最谄媚的前三名是DeepSeek、Llama-17B,以及并列的GPT-4o/GPT-5/Llama-70B/Llama-8B;AITA中最谄媚的前三名是Qwen、DeepSeek与Llama-8B;在PAS情境中仍明显偏向用户的前三名则是DeepSeek、Llama-17B与GPT-4o。
相比之下,Gemini与Mistral-7B在多数测试中谄媚程度较低,但即使是最低者,在一般人际问题中仍明显高于人类基准。
研究团队进一步通过实验发现,与谄媚型AI互动后,用户更倾向于相信自己是正确的一方,且更不愿采取行动修复人际关系。然而,这类回应同时被评价为质量较高,并提升用户对AI的信任与再次使用意愿,形成一种潜在的依赖关系。
研究指出,这种倾向可能带来长期风险。当AI持续以迎合方式回应用户,不仅可能削弱其判断能力,也可能降低同理心与亲社会行为。由于用户偏好此类回应,也可能反过来影响模型训练方向,使谄媚性被进一步强化。研究者因此呼吁,未来需正视这类诱因结构,并发展方法降低AI过度迎合的问题。