ARC Prize基金会发布ARC-AGI系列首个交互式推理基准ARC-AGI-3
与前两代以静态题目为主的设计不同,ARC-AGI-3采用陌生的回合制环境,测试AI代理系统在交互过程中的探索能力、目标判断、环境建模与行动规划能力。官方指出,ARC-AGI-3的所有环境均已验证可由人类完整解答,但截至2026年3月,当前主流AI系统在该基准上的整体得分仍低于1%。
ARC-AGI-3的形式更接近游戏场景,被测系统每回合面对一个二维网格环境,网格最大尺寸为64x64,每个格子有16种可能颜色。每个游戏都会明确标注可用动作,标准化接口包括5个基础动作、一个可携带x、y坐标的复合动作,以及撤销上一步操作。官方公布的公开示例游戏包括ls20、ft09与vc33,分别归类为代理推理、基础逻辑与协同调度。官方也说明,这些公开游戏可供人类和AI代理系统体验,上线初期匿名用户可先尝试3款游戏。
ARC-AGI-3不仅考察模型能否通关,也评估完成任务的效率,因此AI得分低于1%不仅反映通关率低,更体现其解题效率与人类存在明显差距。官方采用RHAE(相对人类动作效率)评分体系,核心指标有两个:一是完成多少关卡,二是完成时使用多少动作。ARC-AGI-3仅计算成功完成的关卡,并将解题效率纳入评分,因此AI若要获得100%分数,不仅必须通过所有游戏,其效率还必须达到与人类相当的水平。
官方在技术报告中列出了当前主流AI模型在ARC-AGI-3上的表现:Google的Gemini 3.1 Pro Preview得分为0.37%,OpenAI的GPT-5.4(High)为0.26%,Anthropic的Opus 4.6(Max)为0.25%,xAI的Grok-4.20(Beta 0309 Reasoning)则为0.00%。当前模型即使已具备一定交互推理能力,在陌生环境中的探索效率、规则掌握与后续执行方面,仍与人类首次上手的表现存在显著差距。