
ARC-AGI-2基準测试中的组合推理题目之一
由ARC Prize基金会主导,通用人工智慧基準测试ARC-AGI释出第二版本。ARC-AGI-2相较于前一版进一步提高难度,设计仍维持对人类解题者相对容易,但对人工智慧系统极具挑战性的特性,目的在于评估人工智慧,在未知情境中的即时推理能力与学习效率,并促进对高效通用系统的研究。
ARC-AGI系列起始于2019年,最初版本ARC-AGI-1即已针对深度学习模型容易依赖记忆与模式撷取的弱点设计题目,要求系统从训练资料学习需要先具备的核心知识,并在评测资料集中应用这些知识于未见过的新题目。此种设计排除了纯记忆或拟合的可能,需具备基本流动智力(Fluid Intelligence)才能通过测验。
ARC-AGI-2所有测试任务均由超过400名一般参与者的控制实验,确认至少两位受试者能在两次以内完成,这与人工智慧系统的评测条件一致,即每题最多两次作答机会。官方指出,纯粹基于大语言模型的系统如GPT-4.5,在ARC-AGI-2的公用测试集表现为0%通过率,显示现行主流模型在没有事先训练的情况下,无法对这类具有隐含逻辑规则与语意变化的任务做出正确的反应。
ARC团队根据测试结果,归纳出人工智慧目前的三项明显困难,首先,符号诠释方面,人工智慧系统能辨识图形对称与图像变化,但无法理解符号背后的语意或逻辑功能;其次,在组合推理(Compositional Reasoning)上,当题目需要同时套用多组规则或这些规则彼此影响时,现行模型容易出错;第三,情境式规则应用也是困难点,模型倾向于对表面模式过度拟合,而缺乏根据上下文灵活调整规则运用的能力。
目前先进模型在ARC-AGI-1与ARC-AGI-2之间的表现差异,清楚呈现出模型在处理更高层次推理任务时的不足。以OpenAI的o3-low系统为例,在ARC-AGI-1中可达75.7%的通过率,但在ARC-AGI-2中的得分仅剩约4%,而GPT-4.5等纯语言模型在新版本更是完全无法作答成功。
ARC-AGI-2也正式纳入效率评估指标,将解题成本列为与通过率同等重要的衡量面向。根据官方资料,人类解题成本约为每题17美元,而OpenAI o3系列系统需花费约200美元以上资源才能完成极少量题目,突显出解得出来与解得有效率之间的落差,也是ARC-AGI-2试图呈现的核心问题。ARC团队强调,真正的智慧不应仅止于问题能否解决,而是能否以近似人类的资源使用效率快速做出正确判断。