最新消息:关注人工智能 AI赋能新媒体运营

xAI发布Grok 4.20:推理性能大幅提升,不幻觉率达78%创行业新高

科技资讯 admin 浏览

Grok 4.20 Beta 正式发布:更诚实、更便宜、更实用

2026年3月12日,埃隆·马斯克旗下的人工智能公司xAI正式推出Grok 4.20 Beta。这不是又一个参数堆砌的“大模型”,而是一次对AI“说谎”问题的正面反击。它不追求碾压式分数,而是把“不知道”说出口的勇气,变成了产品核心竞争力。

在权威评测机构Artificial Analysis的测试中,Grok 4.20的“智能指数”达到48分,虽然仍落后于Gemini 3.1 Pro Preview和GPT-5.4(均为57分),但它在一项名为“全知测试”的真实场景评估中表现惊人:**78%的回答没有编造事实**。这意味着,当你问它“2025年特斯拉的自动驾驶事故率是多少?”、“马斯克最近一次公开演讲说了什么?”——它不会为了显得“聪明”而瞎编数据。它更可能回答:“我找不到可靠来源”或“这个数据尚未公开”。

QQ20260313-091756.jpg

价格直降,上下文翻倍,开发者终于能用得起

这次更新不只是技术上的“克制”,更是商业上的“狠招”。

xAI同步上线了三种API版本:带推理、不带推理、多智能体协同模式,适配从个人开发者到企业级应用的各类需求。最让开发者心动的是——**每百万tokens的费用只要2到6美元**。对比Grok 4,价格直接砍掉近一半;对比GPT-4 Turbo的10美元以上,优势明显。

同时,上下文窗口扩展到**200万个tokens**,相当于能一次性处理一本800页的书,或完整分析一整份财报+100条用户评论+相关新闻。这意味着,你不再需要把长文档拆成碎片喂给AI,效率直接翻倍。

更重要的是,Grok 4.20学会了“装傻”。在面对模糊、未知或高风险问题时,它主动承认“我不知道”的频率比上一代提升了3倍。错误率下降到约20%,远低于行业平均的40%-50%。这不是“能力弱”,而是**更负责任的智能**。

Grok、马斯克、xAI

为什么这波更新,比参数暴涨更重要?

过去两年,大模型的竞争像一场军备竞赛:参数越大越好,速度越快越牛。结果呢?很多AI在回答医疗、法律、财经问题时,一本正经地胡说八道,害得用户还得自己查证。

Grok 4.20的出现,打破了这个怪圈。它不追求“全能”,而是专注“可信”。在金融分析、医疗辅助、新闻核查、法律文书生成等对准确性要求极高的领域,这种“不撒谎”的特性,比多答对10道题更有价值。

有工程师在Reddit上分享:“我用它做财报摘要,以前总得反复核对,现在它会说‘这部分数据来源不明,建议人工确认’——反而让我更放心了。”

马斯克曾在推特上说:“AI不该是魔术师,而该是助手。”Grok 4.20,就是这句话的落地版本。

未来已来:AI也开始“诚实内卷”了

这不是终点。xAI正在测试“事实溯源”功能——未来你问一个问题,AI不仅能回答,还能标出它依据的是哪条新闻、哪份报告、哪个数据库。这将彻底改变AI在专业场景中的使用方式。

目前,Grok 4.20 Beta已向部分开发者和企业用户开放。如果你厌倦了AI的“自信错误”,想找个真正靠谱的助手,这可能是2026年最值得尝试的一次升级。