xAI释出Grok 4，首度于基準测试中称冠

图片来源:

Artificial?Analysis

由马斯克（Elon Musk）创办及领军的AI新创xAI周四（7/10）发表新一代AI模型Grok 4，第三方AI基準测试业者Artificial?Analysis指出，Grok 4是xAI首款于基準测试中胜出的模型，凌驾OpenAI、Google、Anthropic Claude与DeepSeek的高阶模型。

Grok 4是个懂得思考的推理模型，支援25.6万个Token的脉络长度，可输入文字或图像，并生成文字。

在Artificial?Analysis的模型排行榜上，Grok 4的智慧指数（Intelligence Index）为73，胜过OpenAI o3-pro的71，或是并列70的Google Gemini 2.5 Pro、o3、o4-mini，也超越DeepSeek R1 0528的68。

除了整体成绩之外，Artificial?Analysis发现Grok 4不管是在跟程序有关的LiveCodeBench及SciCode，或是跟数学有关的AIME24与MATH-500等测试，也都处于领先地位。并在测试高阶科学知识的GPQA Diamond基準测试中创下88%的新纪录。

不只是Artificial?Analysis，ARC Prize的模型排行榜显示Grok 4处于明显的领先地位。

不过，相较于採用各种基準测试，英国开源工程师Simon Willison有自己的测试方式，他先要求Grok 4产生一张鹈鹕骑脚踏车的SVG图档，再请Grok描述该图档，结果Grok便说这是只类似鸟类的可爱生物在骑脚踏车。

Willison亦批评Grok 4甚至没有提供用来记录开发者、版本、日期、技术与架构等技术细节，或是模型用途，效能指标，训练资料或是偏误与限制的模型卡。还说在Grok 3本周才登上新闻版面后，xAI应该要更努力来赢得开发者的信任。

此外，Grok 3才因歧视犹太人引起争议，最新的Grok 4也声称以色列是美国的寄生虫，试图控制与扼杀美国。惟目前并不确定该回答是否由某些刻意及有心的提示所生成。

Grok 4每100万个Token输入价格为3美元，输出为15美元，与Claude 4 Sonnet相当，但高于Gemini 2.5 Pro及o3。其订阅方案除了既有的、每月30美元的SuperGrok之外，本周新增了SuperGrok Heavy，可抢先体验新功能，但每月费用高达300美元。

AI开发者也可透过由Willison建置与负责维护的大型语言模型比价及计价网站来试算模型费用。

CB科技站

xAI释出Grok 4，首度于基準测试中称冠

与本文相关的文章