xAI发布Grok 4.20：幻觉率创新低，主打“人品”而非性能

马斯克的新AI，不玩花的，只求别瞎说

当所有人都在比谁的AI能写诗、能解微积分、能模拟哲学家思考时，马斯克旗下的xAI却干了件“反潮流”的事：他们不追求分数有多高，而是想让AI别乱编答案。

今天，xAI正式推出了Grok 4.20 Beta。它在主流智力测试里没拿第一——比如在Artificial Analysis的推理测试中，得分48，比Gemini 2.5 Pro和GPT-4o的57低了一截。但有一个数字，让很多企业用户眼睛一亮：它在“不胡说八道”这项测试里，正确率高达78%，刷新了行业纪录。

什么意思？就是当你问它：“2024年诺贝尔经济学奖得主是谁？”如果它不知道，它不会硬编一个“张三，来自中国某大学，因研究区块链金融获奖”这种假答案。它会老老实实说：“我不知道。”

这听起来像废话，但你用过其他AI就知道——它越像人，越爱装懂。而Grok 4.20，选择当个“老实人”。

三种模式，按需选择

这次Grok 4.20没搞“一个模型通吃”，而是分了三款：

推理模式：慢一点，但每句话都经过反复验证，适合写报告、做科研、查法律条文——你怕它瞎说，就选这个。
标准模式：快、准、日常对话用，问天气、写邮件、整理会议纪要，跟普通聊天机器人没区别，但更少编造。
多智能体模式：多个AI一起协作，比如一个查资料、一个核对数据、一个写总结，适合处理复杂项目，比如分析财报、比对专利文献。

你可以根据场景切换，不用为了“高智商”牺牲“真靠谱”。

能读整本书，价格还便宜

别的AI还在吹“128K上下文”，Grok 4.20直接干到200万token。这意味着：

你可以把一本500页的PDF直接丢进去，让它总结全书观点。
整个代码库（比如一个开源项目的所有文件）一次性喂给它，让它找bug、写文档。
法律团队可以把十年的合同归档全上传，让它找条款冲突。

更重要的是，价格。

每百万token收费2到6美元。对比一下：GPT-4o的输入是5美元，输出是15美元；Claude 3.5 Sonnet输入6美元，输出18美元。Grok 4.20不光便宜，还比自家前代Grok 4便宜了30%以上。

这不是“性价比”，这是直接砸价。

谁该用它？

如果你是：

律师、审计师、科研人员——怕AI给你编出不存在的判例或数据，那你该试试。
产品经理、技术负责人——需要AI读完几十份竞品文档后给出真实结论，而不是“我觉得他们可能在布局元宇宙”这种空话，Grok 4.20是目前最稳的选择。
中小企业主——不想花大钱买“炫技AI”，只想找个能信得过的助手，它比OpenAI和谷歌的模型更实在。

xAI这次没说要“超越人类”，也没吹“通用智能”。它只说了一句话：“我们不想骗你。”

在AI满嘴跑火车的时代，这可能是最稀缺的品质。

CB科技站

xAI发布Grok 4.20：幻觉率创新低，主打“人品”而非性能

马斯克的新AI，不玩花的，只求别瞎说

三种模式，按需选择

能读整本书，价格还便宜

谁该用它？

与本文相关的文章