ARC-AGI-3互动推理基准上线，人类可全解但主流AI得分却不到1%

ARC Prize基金会发布ARC-AGI系列首个交互式推理基准ARC-AGI-3

与前两代以静态题目为主的设计不同，ARC-AGI-3采用陌生的回合制环境，测试AI代理系统在交互过程中的探索能力、目标判断、环境建模与行动规划能力。官方指出，ARC-AGI-3的所有环境均已验证可由人类完整解答，但截至2026年3月，当前主流AI系统在该基准上的整体得分仍低于1%。

ARC-AGI-3的形式更接近游戏场景，被测系统每回合面对一个二维网格环境，网格最大尺寸为64x64，每个格子有16种可能颜色。每个游戏都会明确标注可用动作，标准化接口包括5个基础动作、一个可携带x、y坐标的复合动作，以及撤销上一步操作。官方公布的公开示例游戏包括ls20、ft09与vc33，分别归类为代理推理、基础逻辑与协同调度。官方也说明，这些公开游戏可供人类和AI代理系统体验，上线初期匿名用户可先尝试3款游戏。

ARC-AGI-3不仅考察模型能否通关，也评估完成任务的效率，因此AI得分低于1%不仅反映通关率低，更体现其解题效率与人类存在明显差距。官方采用RHAE（相对人类动作效率）评分体系，核心指标有两个：一是完成多少关卡，二是完成时使用多少动作。ARC-AGI-3仅计算成功完成的关卡，并将解题效率纳入评分，因此AI若要获得100%分数，不仅必须通过所有游戏，其效率还必须达到与人类相当的水平。

官方在技术报告中列出了当前主流AI模型在ARC-AGI-3上的表现：Google的Gemini 3.1 Pro Preview得分为0.37%，OpenAI的GPT-5.4（High）为0.26%，Anthropic的Opus 4.6（Max）为0.25%，xAI的Grok-4.20（Beta 0309 Reasoning）则为0.00%。当前模型即使已具备一定交互推理能力，在陌生环境中的探索效率、规则掌握与后续执行方面，仍与人类首次上手的表现存在显著差距。

ARC-AGI-3 互动推理基准人类可解 AI低分

CB科技站

ARC-AGI-3互动推理基准上线，人类可全解但主流AI得分却不到1%

ARC Prize基金会发布ARC-AGI系列首个交互式推理基准ARC-AGI-3

与本文相关的文章