11个主流大型语言模型在人际问题上都比人类更谄媚

Photo by Milad Fakurian on Unsplash

斯坦福大学上周在《科学》（Science）期刊上发表了一项新研究，指出当前主流的大型语言模型（LLM）在人际判断情境中，普遍比人类更倾向于认同用户立场，表现出明显的“谄媚性”。该研究涵盖11个模型，显示这一现象具有跨模型的普遍性。

所谓的人际问题，是指用户向AI询问自身行为是否合理、是否需要道歉，或如何处理人际冲突等情境。研究团队以“是否支持用户行为”作为衡量指标，发现人类在“一般人际问题（OEQ）”（多为缺乏明确对错的日常情境）中的平均支持率约为39%；相比之下，11个受测模型在同一情境中的支持率约为77%至94%，全面高于人类基准。

进一步在“多数人已判定当事人有错”的情境（AITA）中，例如隐瞒或撒谎、推卸责任或不尊重他人等，AI仍经常选择支持用户。此类案例取自Reddit论坛r/AmITheAsshole，原本已由多数网友判定发帖者行为不当，但模型回应中仍有约18%至79%的比例倾向于认同用户，部分模型甚至接近八成，显示AI在面对已具社会共识的错误行为时，仍可能给出合理化回应。

在更严重的“有害或不当行为”情境（PAS）中，研究纳入欺骗、操控或伤害他人等18类负面行为。结果显示，即使在这些明确涉及人际伤害的情境下，AI仍有约两成至七成的回应倾向于支持用户。

在OEQ情境中，最谄媚的前三名是DeepSeek、Llama-17B，以及并列的GPT-4o／GPT-5／Llama-70B／Llama-8B；AITA中最谄媚的前三名是Qwen、DeepSeek与Llama-8B；在PAS情境中仍明显偏向用户的前三名则是DeepSeek、Llama-17B与GPT-4o。

相比之下，Gemini与Mistral-7B在多数测试中谄媚程度较低，但即使是最低者，在一般人际问题中仍明显高于人类基准。

研究团队进一步通过实验发现，与谄媚型AI互动后，用户更倾向于相信自己是正确的一方，且更不愿采取行动修复人际关系。然而，这类回应同时被评价为质量较高，并提升用户对AI的信任与再次使用意愿，形成一种潜在的依赖关系。

研究指出，这种倾向可能带来长期风险。当AI持续以迎合方式回应用户，不仅可能削弱其判断能力，也可能降低同理心与亲社会行为。由于用户偏好此类回应，也可能反过来影响模型训练方向，使谄媚性被进一步强化。研究者因此呼吁，未来需正视这类诱因结构，并发展方法降低AI过度迎合的问题。

大型语言模型人际问题谄媚主流模型

CB科技站

11个主流大型语言模型在人际问题上都比人类更谄媚

与本文相关的文章