谷歌DeepMind提出AGI衡量框架，以十项认知能力构建评估基础

谷歌DeepMind发布论文《Measuring Progress Toward AGI: A Cognitive Taxonomy》，并与Kaggle合作举办线上编程竞赛，旨在为通用人工智能（AGI）建立一套系统化的评估框架，将AI向通用智能迈进的距离转化为可比较的测评问题。

谷歌DeepMind表示，提出这套评估框架的原因在于，当前业界仍缺乏对系统通用智能进行实证评估的工具。现有的测评方法多集中于单一任务、单一测试或特定能力表现，难以判断系统是否真正朝着通用智能方向发展，也不便于比较不同系统在整体能力上的差异。

研究团队参考心理学、神经科学与认知科学领域的研究成果，提出一套认知分类体系，涵盖十项关键认知能力：感知、生成、注意、学习、记忆、推理、元认知、执行功能、问题解决与社会认知。谷歌DeepMind认为，要追踪AI能力的发展，不能仅依赖单一任务的表现或个别测试的得分，而应通过完整的认知分类描绘系统的综合能力图谱。

谷歌DeepMind提出三阶段评估方法：第一阶段，使用涵盖各项认知能力的任务组合评估AI系统，并采用保留测试集以避免数据污染；第二阶段，针对相同任务，从具有人口统计代表性的成人群体中收集人类基准数据；第三阶段，将AI在各项能力上的表现映射到人类表现分布中的相应位置。研究团队表示，这种设计旨在将模型成绩置于与人类能力相对照的语境中，而非仅关注绝对分数。

谷歌DeepMind还与Kaggle合作推出线上编程竞赛，推动该分类体系从理论走向实践。本次竞赛聚焦当前评估方法较为匮乏的五类能力：学习、元认知、注意、执行功能与社会认知。参赛者可利用Kaggle新推出的Community Benchmarks平台设计并测试评估方法。

CB科技站

谷歌DeepMind提出AGI衡量框架，以十项认知能力构建评估基础

谷歌DeepMind发布论文《Measuring Progress Toward AGI: A Cognitive Taxonomy》，并与Kaggle合作举办线上编程竞赛，旨在为通用人工智能（AGI）建立一套系统化的评估框架，将AI向通用智能迈进的距离转化为可比较的测评问题。

与本文相关的文章