最新消息:关注人工智能 AI赋能新媒体运营

xAI释出Grok 4,首度于基準测试中称冠

科技智能 admin 浏览 评论
图片来源:

Artificial?Analysis

由马斯克(Elon Musk)创办及领军的AI新创xAI周四(7/10)发表新一代AI模型Grok 4,第三方AI基準测试业者Artificial?Analysis指出,Grok 4是xAI首款于基準测试中胜出的模型,凌驾OpenAI、Google、Anthropic Claude与DeepSeek的高阶模型。

Grok 4是个懂得思考的推理模型,支援25.6万个Token的脉络长度,可输入文字或图像,并生成文字。

在Artificial?Analysis的模型排行榜上,Grok 4的智慧指数(Intelligence Index)为73,胜过OpenAI o3-pro的71,或是并列70的Google Gemini 2.5 Pro、o3、o4-mini,也超越DeepSeek R1 0528的68。

除了整体成绩之外,Artificial?Analysis发现Grok 4不管是在跟程序有关的LiveCodeBench及SciCode,或是跟数学有关的AIME24与MATH-500等测试,也都处于领先地位。并在测试高阶科学知识的GPQA Diamond基準测试中创下88%的新纪录。

不只是Artificial?Analysis,ARC Prize的模型排行榜显示Grok 4处于明显的领先地位。

不过,相较于採用各种基準测试,英国开源工程师Simon Willison有自己的测试方式,他先要求Grok 4产生一张鹈鹕骑脚踏车的SVG图档,再请Grok描述该图档,结果Grok便说这是只类似鸟类的可爱生物在骑脚踏车。

Willison亦批评Grok 4甚至没有提供用来记录开发者、版本、日期、技术与架构等技术细节,或是模型用途,效能指标,训练资料或是偏误与限制的模型卡。还说在Grok 3本周才登上新闻版面后,xAI应该要更努力来赢得开发者的信任。

此外,Grok 3才因歧视犹太人引起争议,最新的Grok 4也声称以色列是美国的寄生虫,试图控制与扼杀美国。惟目前并不确定该回答是否由某些刻意及有心的提示所生成。

Grok 4每100万个Token输入价格为3美元,输出为15美元,与Claude 4 Sonnet相当,但高于Gemini 2.5 Pro及o3。其订阅方案除了既有的、每月30美元的SuperGrok之外,本周新增了SuperGrok Heavy,可抢先体验新功能,但每月费用高达300美元。

AI开发者也可透过由Willison建置与负责维护的大型语言模型比价及计价网站来试算模型费用。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论