马斯克的新AI,不玩花的,只求别瞎说
当所有人都在比谁的AI能写诗、能解微积分、能模拟哲学家思考时,马斯克旗下的xAI却干了件“反潮流”的事:他们不追求分数有多高,而是想让AI别乱编答案。
今天,xAI正式推出了Grok 4.20 Beta。它在主流智力测试里没拿第一——比如在Artificial Analysis的推理测试中,得分48,比Gemini 2.5 Pro和GPT-4o的57低了一截。但有一个数字,让很多企业用户眼睛一亮:它在“不胡说八道”这项测试里,正确率高达78%,刷新了行业纪录。
什么意思?就是当你问它:“2024年诺贝尔经济学奖得主是谁?”如果它不知道,它不会硬编一个“张三,来自中国某大学,因研究区块链金融获奖”这种假答案。它会老老实实说:“我不知道。”
这听起来像废话,但你用过其他AI就知道——它越像人,越爱装懂。而Grok 4.20,选择当个“老实人”。
三种模式,按需选择
这次Grok 4.20没搞“一个模型通吃”,而是分了三款:
- 推理模式:慢一点,但每句话都经过反复验证,适合写报告、做科研、查法律条文——你怕它瞎说,就选这个。
- 标准模式:快、准、日常对话用,问天气、写邮件、整理会议纪要,跟普通聊天机器人没区别,但更少编造。
- 多智能体模式:多个AI一起协作,比如一个查资料、一个核对数据、一个写总结,适合处理复杂项目,比如分析财报、比对专利文献。
你可以根据场景切换,不用为了“高智商”牺牲“真靠谱”。
能读整本书,价格还便宜
别的AI还在吹“128K上下文”,Grok 4.20直接干到200万token。这意味着:
- 你可以把一本500页的PDF直接丢进去,让它总结全书观点。
- 整个代码库(比如一个开源项目的所有文件)一次性喂给它,让它找bug、写文档。
- 法律团队可以把十年的合同归档全上传,让它找条款冲突。
更重要的是,价格。
每百万token收费2到6美元。对比一下:GPT-4o的输入是5美元,输出是15美元;Claude 3.5 Sonnet输入6美元,输出18美元。Grok 4.20不光便宜,还比自家前代Grok 4便宜了30%以上。
这不是“性价比”,这是直接砸价。
谁该用它?
如果你是:
- 律师、审计师、科研人员——怕AI给你编出不存在的判例或数据,那你该试试。
- 产品经理、技术负责人——需要AI读完几十份竞品文档后给出真实结论,而不是“我觉得他们可能在布局元宇宙”这种空话,Grok 4.20是目前最稳的选择。
- 中小企业主——不想花大钱买“炫技AI”,只想找个能信得过的助手,它比OpenAI和谷歌的模型更实在。
xAI这次没说要“超越人类”,也没吹“通用智能”。它只说了一句话:“我们不想骗你。”
在AI满嘴跑火车的时代,这可能是最稀缺的品质。
