最新消息:关注人工智能 AI赋能新媒体运营

三星超小模型挑战大模型,以递归推理在ARC-AGI基准测试取得亮眼成绩

科技智能 admin 浏览

三星(Samsung)先进技术研究院蒙特利尔研究员Alexia Jolicoeur-Martineau发表Tiny Recursion Model(TRM)研究,以仅约700万参数的小模型,在ARC-AGI-1基准测试达到44.6%正确率,在ARC-AGI-2则达到7.8%。虽然其表现仍低于Grok-4系列模型,但已超越多个大型语言模型。相关论文已公开发表,并于GitHub平台开放源码。

TRM高效的关键在于递归推理(Recursive Reasoning),这是一种让模型在思考过程中反复检查与修正自身答案的方法。TRM只使用一个小型神经网络,在固定的步数内不断进行再思考与修正,运作方式是先将题目与初步答案输入模型,模型会生成一组潜在表示,代表其对问题的理解。接着,模型在每一步都重新审视这些潜在变量,根据新的理解修正先前的答案,并逐步逼近更合理的解答。

TRM的设计有点像人类解题时反复推敲的过程,每次思考都会带来新的线索或更好的推理方向。相较于之前的重要研究HRM(Hierarchical Reasoning Model)需要两个小网络分别在不同频率下递归运行,TRM仅靠单一网络即可完成整个反复推理流程,结构更简洁、运算成本也更低。这让TRM能以极少的参数量达到不错的解题能力,也展现了小模型通过递归思考机制,仍可表现出一定的逻辑与抽象推理能力。

TRM在多个解谜任务基准测试的表现亮眼,数独极难版Sudoku-Extreme最高87.4%,以及迷宫Maze-Hard 85.3%。其中,ARC-AGI-1的44.6%与ARC-AGI-2的7.8%被拿来与其他大语言模型,例如DeepSeek R1、o3-mini与Gemini 2.5 Pro做比较,其以不到其千分之一的参数量呈现相对优势。

作者Alexia Jolicoeur-Martineau同时指出,过度依赖大型企业以数百万元训练的大型基础模型来解决复杂问题,将会造成限制。他认为,目前产业界过于关注大型语言模型现有的能力,而非致力于设计并拓展新的研究方向。